Author : Pranav Rajpurkar, Emma Chen, Oishi Banerjee & Eric J. Topol
Paper Link : https://www.nature.com/articles/s41591-021-01614-0

 

  • 에릭토폴 교수님과 앤드류응 교수님이 만드신 Doctor Penguin(https://doctorpenguin.com/)에서 2019년 5월부터 지난 2년간의 weekly letter로 정리해온 헬스케어 & 의료분야에서의 AI 동향에 대한 리뷰 페이퍼  

Author : Shishir Rao, Mohammad Mamouei, Gholamreza Salimi-Khorshidi, Yikuan Li, Rema Ramakrishnan, Abdelaali Hassaine, Dexter Canoy, Kazem Rahimi
Paper Link : https://arxiv.org/abs/2202.03487

 

 

  • BEHRT를 unbiased causal inference를 위한 exposure group사이의 feature extraction에 사용
  • BEHRT의 feature를 활용하여 risk ratio(RR)의 초기값을 예측하기 위해 다음 두 task의 loss로 output 모델을 동시에 학습
    1) 기존 counterfactual regression(CFR)방법들의 접근과 같이 propencity와 conditional outcome을 prediction
    2) 마스크 된 환자의 static & temporal covariates를 prediction; Masked EHR modeling(MEM)
  • Cross Validated Targeted Maximum Liklihood Estimation (CV-TMLE)를 사용하여 unbias된 RR을 추론
  • 기존 CFR 방법(Dragonnet, TARNET)들 대비 더 나은 RR 예측 성능을 보여줌
  • 데이터가 많을땐 MEM이 예측성능 향상에 큰 역할을 하지만, 데이터가 작을땐 MEM의 사용보다 casual inference방법론이 성능에 더 큰 영향을 미침 

Author : Junyuan Shang, Tengfei Ma, Cao Xiao, Jimeng Sun
Paper Link : https://arxiv.org/abs/1906.00346

Code: https://github.com/jshang123/G-Bert

Author : Laila Rasmy, Yang Xiang, Ziqian Xie, Cui Tao & Degui Zhi 
Paper Link : https://www.nature.com/articles/s41746-021-00455-y

Code: https://github.com/ZhiGroup/Med-BERT

 

Contributions

  1. npj digital medicine
  2. 미국내 600여개 병원의 2천만명 환자 EHR (Cerner)
  3. BERT기반의 MLM사용 
  4. 추가적으로 진단 코드 이상의 context를 학습하기위한 Domain-specific pretraining task로서 입원기간을 예측
  5. Fined-tunned task로는 당뇨병환자의 심부전 & 췌장암 예측
  6. 다른 task, 적은 데이터, 다른 EHR DB(Truven) 를 사용한 Pretrained EHR모델의 real-world generalizability 검증 의의

 

 

  • Med-BERT 학습 아키텍처

 

  • BERT기반의 다른 EHR데이터 활용 논문들과의 비교 및 핵심 내용 요약

Author : Yikuan Li, Shishir Rao, José Roberto Ayala Solares, Abdelaali Hassaine, Rema Ramakrishnan, Dexter Canoy, Yajie Zhu, Kazem Rahimi & Gholamreza Salimi-Khorshidi 
Paper Link : https://www.nature.com/articles/s41598-020-62922-y

Code: https://github.com/deepmedicine/BEHRT

 

 

Contributions

  1. BERT+EHR = B EHR T
  2. LM기반 EHR관련 연구 중 인용수가 100이 넘어간 대표 논문
  3. 환자의 진단코드(301개) 진행을 예측하기 위한 pretrained모델 제안

Limitations

  1. EHR은 interaction 데이터 임에도 진단코드와 나이만을 사용한 seqeunce modeling

 

 

  • 5회 이상 방문한 160만명의 데이터 사용
  • 301개 클래스의 진단코드와 나이만을 학습을 위한 시계열 데이터로 사용
  • 진단코드가 없는 방문은 데이터에서 제외

 

  • Tabular sequence data의 embedding은 아래와 같이 진단코드에 나이(병인+방문간격 역할) 와 positional encoding(방문순서)와 segment(방문 구분)를 추가로 포함하여 수행
  • Pre-train은 BERT와 같이 MLM을 사용하여 환자의 시계열 데이터의 중간에 마스크된 질병을 예측하도록 수행
  • 모델이 병의 진행에 대한 전반적인 학습을 했는지를 검증하기 위해 1) 다음 방문에서의 진단, 2) 다음 6개월 내의 진단, 3) 다음 12개월 내의 진단을 예측하는 downstream task를 수행

 

  • 학습된 embedding을 시각화 해본 결과, 남성질병과 여성질병의 거리가 먼 것을 확인
  • 또한 빈도가 낮은 질병에 대해 가장 가깝게 embedding된 질병을 실제 의료진의 의견과 비교한 경우 75.7% 일치
  • 이로부터 저자들은 BEHRT가 질병의 latent characteristics를 잘 이해했다고 판단 

 

  • Predictive downstream tasks에서도 기존 모델들 보다 높은 성능을 확인

Author : Jose Roberto Ayala Solares, Yajie Zhu, Abdelaali Hassaine, Shishir Rao, Yikuan Li, Mohammad Mamouei, Dexter Canoy, Kazem Rahimi, Gholamreza Salimi-Khorshidi
Paper Link : https://arxiv.org/abs/2107.12919

Author : Zeljko Kraljevic, Anthony Shek, Daniel Bean, Rebecca Bendayan, James Teo, Richard Dobson
Paper Link : https://arxiv.org/abs/2107.03134

 

 

 

엔드류 응 교수님과 페이페이 리 교수님의 대담.

 

공학자 관점에서 바라보는 Healthcare AI에 대한 토론이라, Medical 및 Healthcare에 관심있는 AI 연구자들에게 많은 도움이 될것같다.

 

 

+ Recent posts