스탠포드 대학교 HAI(Human-Centered Artificial Intelligence) 연구소의 의료분야에서 Clinical Foundation Models에 대한 분석 논문을 발표하였습니다.
"The Shaky Foundations of Clinical Foundation Models: A Survey of Large Language Models and Foundation Models for EMRs"; Michael Wornow et al. (https://arxiv.org/abs/2303.12961)
논문에서는 Foundation model이 갖는 여섯 가지 이점을 정리하였는데, 이 중 '6. Novel human-AI interface'의 대표 사례로서최근 저희가 고려대 안산병원 내분비내과 이다영•김난희 교수님과 함께 수행한'Clinical Decision Transformer (CDT)'연구를 언급했네요. 특히, FEMR (Foundation model for Electronic Medical Records) 에서는 유일한 사례입니다.
스탠포드 첼시핀 교수님의 CS330강의가 공개되면서 부터, 동료들과 함께 집필을 시작한 메타러닝 첫 한국어 도서집필 프로젝트입니다. 최종 편집본이 오늘 나왔는데 총 282쪽이네요.
출판은 위키북스를 통해 진행했으며, 책의 검수에는 고려대학교 인공지능학과의 최성준 교수님께서 연구/교육/업무로 정말 바쁘신 와중에 시간을 내어주셨습니다. 나중에 최종 출판이 되면 다시한번 감사드리겠지만, 최종 편집을 하려 PDF를 열때마다 부족한 저희에게 시간을 할애해 주신 최성준 교수님께 매번 감사하는 마음이 들었습니다.
표지의 동물은 오리너구리로 포유류이면서도 조류와 같이 알을 낳는 등 여러 동물들의 특성을 모두 가지고 있는데, 실제 유전적으로도 포유류, 조류, 파충류가 혼합되어 있다고 합니다. 환경에 맞춰 다양하게 퍼져나가는 진화가지를 내포한듯한 이러한 특징이 마치 메타러닝과 비슷하다고 생각하여 이번 메타러닝 책의 표지로서 오리너구리를 택하게 되었습니다.
강화학습에서 reward는 굉장히 중요하다. Policy를 학습하는데 있어서, intrinsic이든 extrinsic이든 Agent가 거의 대부분의 정보를 얻는 경로이기 때문이다.
일반적으로 강화학습에서는 사람이 reward를 일일히 정해주지만, 실제로 그 reward에 따라 “desirable” action이 나오지 않을 수도 있다. 또한 이렇게 직접 reward를 정해주는 "reward shaping" 과정은 매우 어려우며, 도메인 지식을 많이 필요로 하면서 손을 많이 타는 과정이다. 특히 원하는 task가 복잡할수록 reward function을 명시적으로 정한다는것이 어렵거나 사실상 불가능해진다.
이런 어려움에서 나온 개념이 Inverse Reinforcement Learning (IRL)이다. IRL은 전문가 혹은 시연자의 optimal 및 suboptimal behavior에서 reward를 거꾸로 추론하거나 크게는 이렇게 추론한 reward기반의 policy를 학습하는것을 말한다. 행동심리학적 관점에서는, 관측한 사람들의 행동에서 사람들이 어떤것을 원하는지를 찾아내고자 하는 알고리즘이라고도 볼 수 있다.
파블로 피카소는 "Good artist copy, great artist steal."라고 말했다. 강화학습 관점에서보면 어떤 행동을 그대로 따라하는것보다 그 행동의 내적 의도를 이해하고 그걸 능가하는 policy를 학습하려는 IRL의 목적과 어느정도 통하는게 있는 말이다.
이런 재밌는 IRL을 한번 같이 공부하고 구현해보자! 하는 의도에서 Reinforcement Learning Korea에서 몇몇 분들과 함께 2018년 10월부터 2019년 2월까지 관련 논문 6개를 읽고 구현을 해보는 단기 사이드 프로젝트를 진행했다.
Author:Seunghyun Lee*, Jiwon Kim , Sung Woon Park , Sang-Man Jin, and Sung-Min Park Paper Link:doi.org/10.1109/JBHI.2020.3002022(Selected as a featured article)
제 1형 당뇨병은 인슐린 분비능이 결핍된 만성질환으로, 외부의 인슐린 주입이 필수적이다. 1920년대 동물의 인슐린을 피하로 주사하는 인슐린 치료법이 등장한 이 후, 줄곧 주사를 통한 주입이 이루어지다 1980년부터 휴대형 인슐린 펌프가 개발되어 주사의 고통이 줄어들기 시작했다. 또한 혈당 측정 역시 채혈기반에서 반침습형 센서로 진화하면서 2000년대 들어서는 바늘로부터의 고통이 많이 줄어들었다.
이 때부터 더 나은 인슐린 주입을 위한 알고리즘이 주목받기 시작했으며, 사람의 췌장 기능을 모사하는 '인공췌장 (Artificial Pancreas)'의 개념이 등장했다. 인공췌장 알고리즘은 기본적으로 자율주행과 매우 비슷하다. 자율주행이 사람의 개입 없이도 운전을 잘하는것이 목표라면 인공췌장은 마찬가지로 사람의 개입없이 혈당조절을 잘 하는것을 목표로 한다. 자율주행이 단계가 있듯이 인공췌장 역시 단계별로 6단계가 정의되어 있으며, 최종적으로 사람의 췌장과 같이 식사량의 수동 입력이 없으며 혈당 상승호르몬 (글루카곤) 과 강하호르몬 (인슐린) 의 상호 조절되는것을 완성단계 (level6)로 본다.
2020년 현재 상용화된 Medtronic사와 Tendom사의 인공췌장 시스템은 level 4 의 인슐린 단일 시스템으로 Hybrid closed loop 시스템이라 불린다. 인슐린은 공복시 분비되는 기저인슐린 (basal) 과 식사시 분비되는 식사인슐린 (bolus) 으로 목적에 따라 분류될 수 있는데, level4는 기저인슐린을 자동화하는 인공췌장 시스템을 말하며 식사량은 여전히 환자가 직접 입력을 해주어야한다. 이 점은 당뇨병 환자들에 있어 매우 불편한 점으로, 본인이 어느정도의 식사를 할지와 그 안에 탄수화물이 얼마나 있을지를 미리 예상하고 식사 전에 인슐린을 주입해야하여 식사 과정이 상당히 제한된다.
level4 이상의 인공췌장의 개발에는 근본적인 한계가 있다.
첫째로, 피하에 주입된 인슐린은 실제 췌장에서 분비되는 인슐린과 달리 약 30~60분 뒤에 약효의 peak를 보여준다. 이러한 큰 delay는 PID 제어 알고리즘과 같은 보편적인 제어만으로는 빠른 대응이 어렵게한다. 특히 식후 혈당은 약 1시간 후까지 상승하므로 이러한 인슐린의 delay를 예측못하고 현재의 혈당 상태에만 의존하여 인슐린을 계속 주입했다가는 인슐린이 혈액에 과다하게 쌓이는 'Insulin stacking (Irl B. Hirsch, NEJM, 2005)' 의 위험이 있을 수 있다. 과다한 인슐린은 저혈당을 유발하며 쇼크사의 위험이 커진다. 이에 최근에는 Model predictive contol (MPC)의 모델기반 예측 알고리즘이 효용성을 보여주었고 사실상 최초의 인공췌장이라 할 수 있는 level4 인공췌장의 상용화를 가능하게 하였다.
하지만, MPC의 model이 환자의 식사시간과 양을 예측하진 못한다. 그렇다고 식후 혈당상승을 disturbance로 보기에는 그 정도가 너무 크다. 때문에 vanilla MPC는 식사정보를 환자가 매번 직접 입력해야하는 level4 인공췌장의 한계를 가지며, MPC로 식사량 입력도 필요없는 level5를 구현하려면 추가적인 예측 알고리즘이 필요하다.
둘째로, 당뇨병의 배경인 혈당대사는 개인별 편차가 매우 심하다는 점이 문제다. 사람마다 같은 음식을 먹어도 혈당이 상승하는 속도와 정도가 다르며, 같은 인슐린을 넣어도 혈당을 낮추는 속도와 정도가 다르다. 더 큰 어려움은 동일한 사람 내에서도 인슐린의 약효과 시간에 따라, 스트레스에 따라, 운동에 따라, 컨디션에 따라 등등 여러 이유로 계속 바뀐다는 점이다. 때문에 고정된 알고리즘만으론 췌장과 같이 개인에 맞춰 혈당을 조절하는 기능을 갖는 진정한 인공췌장을 구현하기 어렵다.
이 논문에서 우리는 이러한 본질적인 두가지 문제를 생체모사형 강화학습 설계 (Bio-Inspired Reinforcement Learning Desing; BIRLD) 방법으로 해결하였으며, BIRLD로 학습된 AI agent는 아무런 식사 정보 없이도 자동화된 인슐린 주입을 보여주는 동시에 저혈당의 발생빈도가 낮았다. 또한 환자의 인슐린 반응성을 바꿔가며 실험을 해도 모두 유사한 혈당 조절을 보여주어 강화학습 알고리즘이 학습을 통해 자동화 및 개인화된 치료가 가능한것을 확인할 수 있었다.
개인적으로 재밌는 부분은, 저혈당이 오기 전에 AI가 알아서 인슐린 주입량을 낮추는 것을 배운다는 것이다. 이러한 판단의 근거를 분석하기위해 Explainable AI 기법인 Layer-wised Relevance Propagation (LRP) anlysis 를 적용한 결과, AI가 체내 인슐린 축적량을 가장 중요한 인자로 보고 인슐린 주입속도를 낮추는것을 확인할 수 있었다.
Comment:
이번 연구는 미국 FDA의 동물실험 대체 승인을 받은 가상환자 시뮬레이션 benchmark에서 알고리즘의 검증을 수행한 것으로, 지금은 스마트폰에서 Pytorch Mobile을 사용하여 policy network를 inference하고 실제 동물에 대해 알고리즘이 얼마나 잘 동작하는지를 후속 연구로 진행 중이다.
Author: Sung Woon Park* Seunghyun Lee* Won Chul Cha, Kyu Yeon Hur, Jae Hyeon Kim, Moon-Kyu Lee, Sung-Min Park, and Sang-Man Jin Paper Link:https://doi.org/10.4093/dmj.2018.0227
수술 전 환자 혹은 중환자실의 환자의 혈당 안정화는 환자의 이 후 생존율에 큰 영향을 미친다. 이 논문은 삼성서울 병원과 공동 진행한 연구로, 혈당안정화를 위한 insulin infusion protocol을 개선하는 연구이다.
기존은 수기식 Insulin infusion porotocol에서는 의료진의 24시간 정확하고 빠른 대응이 힘들 뿐더러, 인슐린의 적정량을 찾는데 많은 시간이 소요된다. 이에 삼성병원은 protocol을 전자건강기록(electronic health record; EHR)과 통합하여 Computerize 하고 그 임상 결과를 여기서 비교 분석하였으며, 결과 적으로 computerized insulin infusion(CII)이 환자의 혈당을 보다 빠르고 안정하게 정상화 시키고 저혈당 빈도가 낮추는것을 확인할 수 있었다.
더 나아가 이 연구에서는 기존의 protocol을 개선하기 위해 환자 치료 데이터로부터 가상 환자 (digital twin) 시뮬레이터를 만들었다. 늦은 혈당 안정화가 예상될 경우 조금 더 적극적으로 protocol을 수정하여 가상환자에서 시뮬레이션 한 결과 protocol 불응성환자에서 확실한 개선을 확인할 수 잇었으며 저혈당은 발생하지 않았다.
Comment:
이 연구에선 protocol을 의료진과 함께 직관적, 경험적으로 수정하였다. 이 과정은 사람마다 판단이 많이 들어갈 뿐더러 임상적 경험이 많이 필요하다. 이에, 치료 protocol의 개선에 AI를 적용하여 personalize하고 automate하면 좋겠다는 생각이 많이 들었다. 이 후 부터 연구 방향을 digital twin modeling에서 강화학습을 사용한 AI based medical decision making으로 바꾸어 시작하였다.