Author : Yikuan Li, Shishir Rao, José Roberto Ayala Solares, Abdelaali Hassaine, Rema Ramakrishnan, Dexter Canoy, Yajie Zhu, Kazem Rahimi & Gholamreza Salimi-Khorshidi 
Paper Link : https://www.nature.com/articles/s41598-020-62922-y

Code: https://github.com/deepmedicine/BEHRT

 

 

Contributions

  1. BERT+EHR = B EHR T
  2. LM기반 EHR관련 연구 중 인용수가 100이 넘어간 대표 논문
  3. 환자의 진단코드(301개) 진행을 예측하기 위한 pretrained모델 제안

Limitations

  1. EHR은 interaction 데이터 임에도 진단코드와 나이만을 사용한 seqeunce modeling

 

 

  • 5회 이상 방문한 160만명의 데이터 사용
  • 301개 클래스의 진단코드와 나이만을 학습을 위한 시계열 데이터로 사용
  • 진단코드가 없는 방문은 데이터에서 제외

 

  • Tabular sequence data의 embedding은 아래와 같이 진단코드에 나이(병인+방문간격 역할) 와 positional encoding(방문순서)와 segment(방문 구분)를 추가로 포함하여 수행
  • Pre-train은 BERT와 같이 MLM을 사용하여 환자의 시계열 데이터의 중간에 마스크된 질병을 예측하도록 수행
  • 모델이 병의 진행에 대한 전반적인 학습을 했는지를 검증하기 위해 1) 다음 방문에서의 진단, 2) 다음 6개월 내의 진단, 3) 다음 12개월 내의 진단을 예측하는 downstream task를 수행

 

  • 학습된 embedding을 시각화 해본 결과, 남성질병과 여성질병의 거리가 먼 것을 확인
  • 또한 빈도가 낮은 질병에 대해 가장 가깝게 embedding된 질병을 실제 의료진의 의견과 비교한 경우 75.7% 일치
  • 이로부터 저자들은 BEHRT가 질병의 latent characteristics를 잘 이해했다고 판단 

 

  • Predictive downstream tasks에서도 기존 모델들 보다 높은 성능을 확인

+ Recent posts