Author : Alexandros Karargyris, Renato Umeton, Micah J. Sheller, Alejandro Aristizabal, Johnu George, Anna Wuest, Sarthak Pati, Hasan Kassem, Maximilian Zenk, Ujjwal Baid, Prakash Narayana Moorthy, Alexander Chowdhury, Junyi Guo, Sahil Nalawade, Jacob Rosenthal, David Kanter, Maria Xenochristou, Daniel J. Beutel, Verena Chung, Timothy Bergquist, James Eddy, Abubakar Abid, Lewis Tunstall, Omar Sanseviero, Dimitrios Dimitriadis, Yiming Qian, Xinxing Xu, Yong Liu, Rick Siow Mong Goh, Srini Bala, Victor Bittorf, Sreekar Reddy Puchala, Biagio Ricciuti, Soujanya Samineni, Eshna Sengupta, Akshay Chaudhari, Cody Coleman, Bala Desinghu, Gregory Diamos, Debo Dutta, Diane Feddema, Grigori Fursin, Xinyuan Huang, Satyananda Kashyap, Nicholas Lane, Indranil Mallick, FeTS Consortium, BraTS-2020 Consortium, AI4SafeChole Consortium, Pietro Mascagni, Virendra Mehta, Cassiano Ferro Moraes, Vivek Natarajan, Nikola Nikolov, Nicolas Padoy, Gennady Pekhimenko, Vijay Janapa Reddi, G. Anthony Reina, Pablo Ribalta, Abhishek Singh, Jayaraman J. Thiagarajan, Jacob Albrecht, Thomas Wolf, Geralyn Miller, Huazhu Fu, Prashant Shah, Daguang Xu, Poonam Yadav, David Talby, Mark M. Awad, Jeremy P. Howard, Michael Rosenthal, Luigi Marchionni, Massimo Loda, Jason M. Johnson, Spyridon Bakas & Peter Mattson 

Blog: https://mlcommons.org/en/news/medperf-nature-mi/?linkId=8899300 
Paper Link : https://www.nature.com/articles/s42256-023-00652-2

MedPerf Official Page: https://www.medperf.org/

 

- AI 모델의 일반화를 위해 다양한 데이터 기관에서 데이터의 유출없이 Federated evaluation을 목적으로하는 협의체 및 플랫폼MedPerf 발표

- 많은 기업, 병원, 대학들이 협력하는 ' MLCommons Medical Working Group'에서 주도

Author : Krishnamurthy (Dj) Dvijotham, Jim Winkens, Melih Barsbey, Sumedh Ghaisas, Robert Stanforth, Nick Pawlowski, Patricia Strachan, Zahra Ahmed, Shekoofeh Azizi, Yoram Bachrach, Laura Culp, Mayank Daswani, Jan Freyberg, Christopher Kelly, Atilla Kiraly, Timo Kohlberger, Scott McKinney, Basil Mustafa, Vivek Natarajan, Krzysztof Geras, Jan Witowski, Zhi Zhen Qin, Jacob Creswell, Shravya Shetty, Marcin Sieniek, Terry Spitz, Greg Corrado, Pushmeet Kohli, Taylan Cemgil & Alan Karthikesalingam
Paper Link : https://www.nature.com/articles/s41591-023-02437-x

Blog: https://www.deepmind.com/blog/codoc-developing-reliable-ai-tools-for-healthcare

Code: https://github.com/deepmind/codoc

 

- By Google DeepMind and Google Research

- Pretrained AI와 의료진의 협업으로 효과적인 Clinical decision making을 하는 방법 (CoDoc) 에 대한 연구

- "언제 AI를 사용하고 언제 의료진이 판단할것인가?"

- Pretrained AI의 confidence score를 바탕으로 Deferral AI model이 AI의 판단을 그대로 쓸지, 의료진에 넘길지(Defer)를 결정

- 딥러닝 모델은 X.

- 협력 결과로서의 판단이 Sensitivity와 Specificity를 최적화 하는 방향으로 설계된 Advantage function을 계산

- Advantage function이 0보다 크면 의료진에 판단을 넘기고, 0보다 작으면 AI모델의 판단을 그대로 사용

- Advantage function은 Kernel Density Estimation방법을 사용하여 근사한 확률로 계산

- UK mammography 데이터셋을 사용한 시뮬레이션 결과 (즉, prospective trial은 아님), CoDoc를 사용하면 True Positive와 False Negative의 변화 없이 False Positive가 25% 감소.

- 또한 의료진의 판단업무를 2/3 줄여줌 (66% 적은 workload) 

Author : Siru Liu, Allison B McCoy, Aileen P Wright, Babatunde Carew, Julian Z Genkins, Sean S Huang, Josh F Peterson, Bryan Steitz, Adam Wright
Paper Link : https://www.medrxiv.org/content/10.1101/2023.07.14.23292669v1

Author : Stephen Gilbert, Hugh Harvey, Tom Melvin, Erik Vollebregt & Paul Wicks 
Paper Link : https://www.nature.com/articles/s41591-023-02412-6
 

구글 딥마인드의 LLM활용 로보틱스 논문이 한번에 여러개 나와,

네이버 클라우드 하정우 박사님께서 운영하시는 Weekly AI ArXiv에서 정말 가볍게 소개.

https://github.com/jungwoo-ha/WeeklyArxivTalk/issues/87#issuecomment-1606018653

 

[20230625] Weekly AI ArXiv 만담 시즌2 - 21회차 · Issue #87 · jungwoo-ha/WeeklyArxivTalk

Zoom webinar: https://navercorp.zoom.us/j/92208940283 News 6.25 73주년 순국선열들의 희생에 감사드립니다. Conferences EMNLP 2023 deadline: 모두 수고하셨습니다. CVPR 2023: 모두들 의미있는 학회 보내셨나요~ Best Paper: V

github.com

 

 

 

 

https://saytap.github.io/

 

SayTap: Language to Quadrupedal Locomotion

Use foot contact pattern to bridge LLM and low-level controller.

saytap.github.io

 

https://www.deepmind.com/blog/robocat-a-self-improving-robotic-agent?utm_source=twitter&utm_medium=social&utm_campaign=robocat 

 

RoboCat: A self-improving robotic agent

Robots are quickly becoming part of our everyday lives, but they’re often only programmed to perform specific tasks well. While harnessing recent advances in AI could lead to robots that could help in many more ways, progress in building general-purpose

www.deepmind.com

https://language-to-reward.github.io/

 

Language to Reward for Robotic Skill Synthesis

Project page for Language to Reward for Robotic Skill Synthesis.

language-to-reward.github.io

 

https://sites.google.com/view/agile-catching

 

Author : Lavender Yao Jiang, Xujin Chris Liu, Nima Pour Nejatian, Mustafa Nasir Moin, Duo Wang,
Anas Abidin, Kevin Eaton, Howard Antony Riina, Ilya Laufer, Paawan Punjabi, Madeline Miceli, Nora C. Kim,
Cordelia Orillac, Zane Schnurman, Christopher Livia, Hannah Weiss, David Kurland, Sean Neifert,
Yosef Dastagirzada, Douglas Kondziolka, Alexander T. M. Cheung, Grace Yang, Ming Cao, Mona Flores,
Anthony B. Costa, Yindalon Aphinyanaphongs, Kyunghyun Cho & Eric Karl Oermann
Paper Link : https://www.nature.com/articles/s41586-023-06160-y
Code: https://github.com/nyuolab/NYUTron, https://github.com/nyuolab/i2b2_2012_preprocessing
 

 

Author : Cyril Zakka, Akash Chaurasia, Rohan Shad, Alex R. Dalal, Jennifer L. Kim, Michael Moor, Kevin Alexander, Euan Ashley, Jack Boyd, Kathleen Boyd, Karen Hirsch, Curt Langlotz, Joanna Nelson, William Hiesinger
Paper Link : https://arxiv.org/abs/2303.01229v2
Project Page: https://almanac.chat/ 
Code: https://github.com/almanac-chat/almanac-chat

스탠포드 대학교 HAI(Human-Centered Artificial Intelligence) 연구소의 의료분야에서 Clinical Foundation Models에 대한 분석 논문을 발표하였습니다. 

"The Shaky Foundations of Clinical Foundation Models: A Survey of Large Language Models and Foundation Models for EMRs"; Michael Wornow et al. (https://arxiv.org/abs/2303.12961)

 

논문에서는 Foundation model이 갖는 여섯 가지 이점을 정리하였는데, 이 중 '6. Novel human-AI interface'의 대표 사례로서 최근 저희가 고려대 안산병원 내분비내과 이다영•김난희 교수님과 함께 수행한 'Clinical Decision Transformer (CDT)'연구를 언급했네요. 특히, FEMR (Foundation model for Electronic Medical Records) 에서는 유일한 사례입니다.

 


* CDT paper: https://arxiv.org/abs/2302.00612
* CDT summary: https://clinical-decision-transformer.github.io/

* CDT 기타 인용:
(Dan Spellman @Oracle Health) https://bit.ly/40ndQ2n
(Nicolas Metallo @AWS) https://bit.ly/40DSX2S
(Jim Fan @NVIDIA) https://bit.ly/3TR2XmU
(Retweeted by Katie Link @HuggingFace Health)

 

HAI 논문은 블로그로 먼저 올라왔는데, 그 이후에 저희 논문이 공개되어 블로그 글에는 반영이 안되어 있습니다 (https://hai.stanford.edu/news/shaky-foundations-foundation-models-healthcare). Arxiv에 올린 논문에는 저희 연구를 반영하여 새 버전을 업로드 했네요.

 

본 논문은 현재 preprint상태이며, 추가실험을 진행중입니다.

 

Dexcom 센서는 학위기간 동안 많이 써봤는데 Abbott 센서는 처음 써보네요. 
2주동안 Abbott freestyle libre 센서를 달고, 건강관리 목적 + 다이어트 목적으로 혈당관리를 해보려고 합니다.
 
같은 음식을 먹어도 사람마다 혈당반응이 다르며, 동일한 음식 동일한 사람에서도 상황에 따라 혈당반응이 다르게 나타납니다. 스트레스에도 반응은 크게 달라지며, 수면량, 컨디션, 식사시간, 음식조합, 섭취순서에 따라서도 달라집니다. 때문에, 내 몸에 맞는 혈당관리는 상당한 human feedback을 필요로합니다. 당대사가 원활한 건강한 사람에게도 혈당관리는 쉽지않은 일이며, 당뇨병환자분이나 당뇨전단계인 분들껜 이 과정이 몇배는 더 어렵습니다. 
 


1일차
센서 착용 1~2일동안은 부정확하며, libre의 경우 대체로 혈당값이 낮게 측정되었습니다.
점심으로 (마랴상궈/계란볶음밥/즈마장/제로콜라) 를 먹었으나, 유의하게 측정되진 않은것 같습니다. 저녁에는 (서브웨이 참치샐러드, 제로콜라) 를 먹었는데 마찬가지로 측정이 잘 안된듯합니다. 혈당 측정을 핑계로 남은 (마라샹궈/계란볶음밥/즈마장/제로콜라) 를 야식으로 먹었는데 혈당 반응이 측정되기 시작하였습니다.
 


2일차
오전부터 어느정도 제대로 측정되기 시작했습니다. 출근을 해 (아메리카노)를 늘 마시는데, 혈당에 영향은 전혀 없습니다. 여러번 확인했기때문에 이후 부턴 아메리카노는 기록하지 않으려고 합니다. 점심으론 (닭가슴살 콥샐러드/오리엔탈 드레싱/제로콜라) 를 먹었고, 간식으로 (하루견과), 저녁으로는 (닭가슴살 바질샐러드/오리엔탈 드레싱/주말에먹고남은 핫윙)을 먹었습니다. 초록 음식을 먼저먹으면 혈당스파이크를 낮출 수 있기에 핫윙을 먹기에 앞서 샐러드를 먼저 먹었습니다. 
 


3일차
수면부족(4시간 미만)으로 아침에 피로가 심했고 몸이 찌뿌둥했습니다.  샤워를 하면서부터 아무것도 먹지 않았는데, 혈당이 오르기 시작했습니다. 점심으로 (불고기 샐러드/발사믹 드레싱/제로사이다)를 먹었는데 샐러드치곤 혈당이 많이 솟았습니다. 피로가 조금씩 풀려서인지 기저 혈당이 서서히 낮아졌습니다. 저녁엔 동료들과 회식이 있어는데 (크림 떡볶이)를 포함한 술안주를 먹어 나름 양조절을 했음에도 혈당이 치솟았습니다. 많이 마시진 않았지만 (생맥주) 때문인지 저녁엔 혈당이 기저보다 더 낮게 떨어졌습니다.
 


4일차
(사세버팔로윙)이라고 유명한 간식이 있는데, 나름 튀김옷이 없어 혈당 반응이 낮을거라 생각하고 밤에 에어프라이어에 구워먹었습니다. 하지만 급격히 치솟았는데 돌이켜보면 생각보다 단맛이 컷던것 같기도 합니다. 야식을 먹고자서인지 밤사이 기저가 높아졌습니다. 점심으론 (베이컨 샐러드/발사믹 드레싱/제로콜라)를 먹었는데 이번에도 생각보다 상승이 컸습니다. 회사 (발사믹 드레싱)이 당류가 높은것 같기도 하여 다음엔 오리엔탈로 다시 시도해보고자 합니다. 오후 간식으로 (하루견과)를 먹었으며, 저녁으론 (콩불고기 타코 샐러드/환타제로) 를 먹었습니다. 샐러드라 양도 적은데 식사직후 혈당 상승이 매우 빨랐으며 피크가 140mg/dL을 넘겨 놀랐습니다.  
 


5일차
어제 한 의심대로 발사믹 드레싱을 오리엔탈 드레싱으로 바꿔서 (치킨텐더 샐러드/오리엔탈 드레싱/제로콜라)를 점심에 먹었는데, 여전히 혈당 스파이크가 생겼습니다. 의심가는 부분으로는 샐러드 들어있는 삶은강낭콩과 캔옥수수인데, 강낭콩이 일반적으로 혈당지수가 낮다고는 하지만 삶는 조리과정을 거친 강낭콩이 저한테는 흡수율을 올린게 아닐까 싶었습니다. 간식으로는 닭고기육포를 먹었는데 아주 서서히 혈당을 올려 견과류나 맛밤보다 애용해야겠단 생각이 들었습니다. 저녁엔 (불고기 파스타 샐러드/오리엔탈 드레싱/제로펩시)를 먹었는데 파스타를 일단 뺐고 이번엔 의심가던 강낭콩과 옥수수를 뺐더니 초기 혈당 상승이 낮긴 했습니다. 내일은 점심에 이렇게 먹어보고 재료때문인지 첫끼이기 때문인지 좀더 지켜보려고 합니다. 야식으로는 센서가 부정한 1~2일차에 혈당을 거의 안올렸던 메뉴인 (마라샹궈/계란볶음밥/즈마장/제로콜라)를 다시 먹어봤는데 재밌게도 지방이 많은 음식들이라 그런지 나름 센서가 정확해진 이번에도 혈당반응이 완만했습니다.  
 


6일차
늘 그렇듯이 아침은 먹지않고 커피만 마셨고 점심을 첫끼로 (두부스테이크 샐러드/오리엔탈 드레싱/제로사이다)를 먹었습니다. 40mg/dL정도 혈당이 빠르게 오르는걸 보니, 아무리 샐러드라도 섭취 속도를 늦추거나 단백질위주의 섭취가 아니면 초기의 빠른 혈당상승은 늘 생기는것 같단 생각이 듭니다. 다음주엔 첫끼를 아침에 간단하게라도 먹어 대사과정의 사이클을 일찍 시작해보는 실험을 해보려고 합니다. 이날은 멀리 걸어다녀올 일이 있어 기력이 빨리 없어져서 한달간 참던 와클이라는 갈릭시즈닝된 딱딱한 과자를 간식으로 먹었습니다. 정말 작은 봉지였는데 혈당이 70 mg/dL나 치솟는걸 보고 만족도 대비 너무 큰 손해가 아닌가 생각이 들었습니다. 저녁으론 (버섯가지 샐러드/오리엔탈 드레싱/제로콜라)를 먹었는데 기름에 볶은 음식이기도하고 일하면서 천천히 먹어서 그런지 아주 이상적인 혈당반응을 보여주었습니다. 집에 와서는 불금이기도해서 먹고싶던 음식들을 폭식했습니다. 구질구질하게 핑계를 대보자면, 예전 학위과정 동안 살이 찐 주범이기도 한 폭식 습관의 경우엔 혈당이 어떻게 되나 궁금하기도 했습니다. 그래서 (마라샹궈/계란볶음밥/즈마장/찡따오 생맥주/짜파구리/굽네 고추바사삭순살/고블링마블링 소스)를 펼쳐두고 배 차는 만큼 먹었고 결과적으로 역대급 최악의 혈당반응을 볼 수 있었습니다. 혈당은 70mg/dL 증가 후 이게 3시간 넘게 지속됐습니다. 탄수에 의한 초기 상승과 기름진 음식에 의한 후속 지속이 총동원된 반응입니다. 긍정적인 점은 그래도 초기 스파이크가 150mg/dL를 넘지 않았다는 점인데, 이는 그 와중에 당류가 큰 음식은 나중에 먹기도 했고 제 췌장이 한심한 주인 대신 노력해서 그렇지 않을까 싶습니다. 하지만 이 반응을 한 번 본 이상 다음부턴 폭식이 끌려도 주저하게 될것 같습니다.  
 


7일차
혈당관리나 꽤 괜찮았던 하루입니다. 우선, 오전 느즈막히 일어나 아메리카노를 마셨습니다. 할걸 하다보니 점심시간을 놓쳐서 3시쯤 나가서 (서브웨이 참치샐러드/핫칠리/제로콜라)를 사와서 먹었습니다. 회사에서 먹던 샐러드랑 다르게 혈당반응이 매우 안정적이었습니다. 드레싱의 차이인가 싶기도 해서 다음주엔 이것저것 실험을  해봐야 뭐가 원인인지 알것 같습니다. 저녁으로는 남은 굽네 고추바사삭을 먹을 계획이었기에, 20분 전에 미리 (서브웨이 베지 샐러드/제로콜라)를 먹었고 이후에 (굽네 고추바사삭/고블링 소스/마블링 소스)를 먹었습니다. 소스를 작정하고 많이 찍어먹었음에도 20분 전에 먹은 샐러드 덕분인지 초기 혈당 상승이 완만한 편이었고 피크도 120mg/dL을 넘지 않았습니다. 센서가 부정확했던 초기를 제외하면 처음으로 목표 범위안에 100%로 들어왔던 날이라 기분이 좋습니다.
 


8일차
약속이 있었던 하루입니다. 보통 점심 저녁 사이에 카페를 가는 등 계속 뭘 먹기때문에 혈당이 어떻게 될지 궁금했습니다. 늘 궁금했던 떡볶이에 대한 혈당반응을 테스트 해보기로 했습니다. 점심으로는 두끼를 가서 (즉석떡볶이/탄산수/치킨마요/고구마튀김/두부튀김/치킨텐더/바닐라아이스크림)을 먹었습니다. 먹자마자 치솟은 혈당은 170mg/dL를 넘겨 센서 부착 후 가장 높은 값을 기록했습니다. 역시 혈당에 안좋기로 악명높은 떡볶이 다운 결과였습니다. 밥 먹은 직후 카페를 가서 (코코넛 라떼/아이스아메리카노/드립커피)를 먹었더니 떨어지던 혈당이 다시 올라 작은 혈당 봉오리가 생겼습니다. 이후 7시까진 계속 카페에 있었는데 점심의 폭식과 라떼 때문에 혈당이 요동 쳤습니다. 저녁으로는 해산물 뷔페를 가서 (랍스터/스프/육회/스시/회/주스/갈비/얼그레이케이스/홍차) 등을 마구 먹었습니다. 그래도 단백질 위주의 식단인데다, 점심의 후폭풍으로 아직 체네 인슐린이 높은것 같기도 했고, 처음 와보는 뷔페에 신나 요리를 고르러 다니느라 생각보단 천천히 먹어 스파이크는 낮았습니다. 그래도 혈당은 계속 요동쳤습니다. 집에와서 하이볼과 도넛을 먹었는데 처음 겪는 그래프가 나왔고 이건 다음으로..
 


9일차
전날 뷔페를 다녀와서 밤에 (하이볼/던킨도넛 라즈베리 필드)를 먹고 잤습니다. 12시 이전에 먹었음에도 바로 혈당이 오르진 않았고 자는 동안인 새벽 3시쯤 혈당이 연이어 두 번이나 피크를 찍었습니다. 거기다 새벽 내내 높은 혈당을 유지했으며, 아침 9시가 돼서야 혈당이 돌아오는 대참사가 벌어졌습니다. 폭식에 폭식에 폭식에 이은 음주는 혈당대사에 큰 혼란을 주며 수면의 질을 크게 떨어트린다는걸 직접 보았습니다. 앞으로 음주를 한다면 가급적 저녁식사 시간에 하고 자기전에는 혈당이 안정해지도록 해야겠단 생각이 들었습니다. 점심으론 테스트해보고싶던 라면류를 먹어보았습니다. 이 때, (서브웨이 참치 샐러드/제로콜라)20분 전에 먼저 먹은 후 (진짬뽕/제로콜라)를 먹었는데, 그래서인지 흔히 다른 사람들에게서 보던 큰 스파이크는 안생겼습니다. 다만 혈당이 떨어졌다가 아무것도 먹지 않았는데도 다시 상승을 했고 저녁으로 또다시 (서브웨이 참치 샐러드/제로콜라)를 먹었는데 아무런 혈당반응이 없었습니다. 이렇게 식사의 시간에 따른 조합에 따라서도 반응이 극명하게 달라지는걸 보면서 혈당관리가 참 어렵다는 생각이 들었습니다. 기분전환으로 40분간 빠르게 걷고 온 뒤, 야식으로는 (던킨 글레이즈 도넛/던킨 바바리안 필드/아메리카노)를 먹었는데 식전이지만 운동의 효과가 조금은 남았는지 아니면 원래 도넛이 저한텐 반응이 크진 않은건지 생각보단 피크가 높지 않았습니다. 아직 냉동실에 2개가 남아있으니 다음에 테스트 해보아야겠습니다.
 


10일차
신경쓰이는게 많아서인지 밤사이 그리고 기상후에도 공복혈당이 계속 상승했습니다. 오후 약속까지 시간이 부족해 점심으로 (던킨 바바리안 필드) 1개 반을 서둘러 먹었는데, 당류와 저조한 컨디션으로 인한 저항성이 결합되어 혈당이 두끼떡볶이 사태때보다 더 높은 최고기록 184mg/dL 찍었습니다. 저녁으로는 지코바를 먹기로 해서 20분전에 미리 (서브웨이 베지 샐러드/제로콜라)를 먹었고 지코바 역시 채소를 더해 (지코바 순살/깻잎/생와사비/제로사이다)의 조합으로 먹었습니다. 샐러드와 채소의 힘으로 지코바의 달달한 양념에도 혈당의 상승폭이 적었습니다. 식후엔 한시간 쯤 지나 오늘도 40분 정도 경보를 다녀왔습니다.
 


11일차
오늘도 역시나 기상 후 공복혈당이 올랐습니다. 점심으로 예상치 못하게 회식이 생겼고, (갈비탕_당면x/보쌈 김치/흰쌀밥 조금)을 먹었습니다. 탄수화물을 거의 안먹은데다 맑은 국물이라 그런지 혈당이 정말 미미하게 올랐다 떨어졌습니다. 보쌈김치가 달달한데도 당에는 큰 영향을 주지않았습니다. 오후부턴 몸에 힘이 없었고 혈당은 서서히 떨어졌습니다. 저녁으론 (샐러드_드레싱x/치킨텐더/제로콜라)를 먹었고 다 먹은 후에 어제 먹고 남은 (지코바 순살/깻잎/생와사비)를 먹어 비교적 낮은 피크가 생겼습니다. 그리고 영화를 보러가 (어니언 팝콘/제로콜라)를 먹어서 추가 상승 피크가 생겼는데 이 부분은 이미 분비된 인슐린에 의해 빠르게 떨어진것 같고, 저녁으로 먹었던 기름진 음식 때문인지 혈당이 조금 더 지속되다 천천히 떨어졌습니다.
 


12일차
오늘은 회사 샐러드 종류가 마음에 안들어 (샐러드/콩불고기 볶음밥/감자 코로케 /제로콜라)메뉴를 선택했습니다. 샐러드를 먹어도 늘 혈당이 빠르게 올랐기에, 이번에는 드레싱을 안뿌리고 먹어보자 싶었으나 볶음밥때문인지 혈당은 높게 올랐습니다. 감자고로케를 샐러드와 밥을 다 먹고 먹었더니 작은 피크가 뒤따라 왔습니다. 12일차가 되니 공복혈당의 패턴이 보였는데 아침 기상 직후 공복혈당이 전반적으로 상승하고, 오후엔 공복혈당이 서서히 떨어지는것 같습니다. 늘 퇴근할때쯤 되면 온 몸에 힘이 없는게 이 때문인것 같기도 해서 적절한 간식을 먹어보는것도 좋겠단 생각이 듭니다. 저녁으론 점심에 제대로 못했던 회사 당류 드레싱을 제외하는 실험을 다시 해보았습니다. 회사 샐러드 코너에 샐러드&샌드위치 세트만 있었기에 서브웨이에서 추가 샐러드를 사와 (스테이크 샐러드/서브웨이 참치 샐러드/핫칠리 소스/제로콜라)를 먹었습니다. 서브웨이 핫칠리는 제게 혈당반응이 좋은 소스(당류 5.3g)라 애용하는데, 회사의 당류 드레싱 없이 먹었더니 혈당이 조금만 오르는걸 볼 수 있었습니다. 내일은 일반 샐러드에 드레싱의 당류를 보고 적절한걸 골라 실험해볼 계획입니다. 
 


13일차
오늘은 점심으로 (베이컨 샐러드/오리엔탈 드레싱 0.5봉/제로콜라)를 먹었습니다. 드레싱의 양을 반으로 줄여보았는데 점심치고는 혈당이 조금만 올라서 확실히 드레싱이 혈당 상승에 영향을 꽤 주는걸 알게됐습니다. 3시쯤 배가고파 간식으로는 (닭가슴살 핫바/제로콜라)를 먹었는데, 당류가 거의 없는 핫바라 그런지 혈당변화가 미미했습니다. 이후 퇴근시간이 가까워질수록 혈당이  떨어져 몸에 힘이 안났습니다. 퇴근후 저녁으로는 제게 있어 폭식을 해도 혈당을 생각보다 적게 올리는 (마라샹궈/즈마장/계란볶음밥/제로콜라)를 먹기로 했는데, 이번엔 몇주째 먹고싶던 (꿔바로우)를 못참고 함께 먹었습니다. 대신 밥 먹은 직후 산책을 나갔더니 혈당이 150mg/dL를 넘지 않은 채로 빠르게 정상 범위까지 떨어졌으나, 먹은 양이 많기도 하거니와 기름진 음식이라 산책으로 떨어졌던 혈당은 이내 다시 128mg/dL까지 올라갔습니다. 요즘엔 시간이 부족하지만 다음엔 폭식을 한 날엔 좀더 오래 유산소 운동을 해야겠단 생각이 들었습니다.
 


14일차
2주 정도 센서를 달고 있으니, 늘 먹는 샐러드 및 자주 먹는 음식들에 대한 혈당반응 하루 시간에 따른 혈당 변화에 대해선 어느정도 패턴을 알게된것 같습니다. 점심으로는 (불고기 샐러드/오리엔탈 드레싱 0.5봉/제로콜라)를 먹었는데 어제와 같이 드레싱을 조절하니 혈당의 상승폭 22mg/dL로 안정적이었습니다. 센서를 땐 이후에도 드레싱은 이정도 양만 넣어 먹을 계획입니다. 역시나 퇴근이 가까워질수록 공복 혈당은 떨어졌습니다. 앞으로는 저녁에도 힘을 내기 위해 오후 3시쯤 당류가 낮은 적당한 간식을 먹을까 싶습니다. 오늘은 오랜만에 고향에 내려가 부모님과 저녁을 먹었습니다. 기차역에서 (반월당 닭강정)을 사서 갔고, 부모님께서도 제가 좋아하는것들을 잔뜩 주셨는데 (레토르트 닭강정/삼겹살/완두콩 조림/비빔냉면/제로사이다)를 배 터질때까지 먹었습니다. 결과적으로 센서가 종료 되는 시점에 강한 상승 화살표를 보며 2주간의 혈당측정을 마무리 했습니다. 

Author: Karan Singhal, Shekoofeh Azizi, Tao Tu, S. Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Seneviratne, Paul Gamble, Chris Kelly, Nathaneal Scharli, Aakanksha Chowdhery, Philip Mansfield, Blaise Aguera y Arcas, Dale Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam, Vivek Natarajan
Arxiv Paper Link: https://arxiv.org/abs/2212.13138

Nature Paper Link: https://www.nature.com/articles/s41586-023-06291-2

Google Blog: https://sites.research.google/med-palm/

Google Cloud Blog: https://cloud.google.com/blog/topics/healthcare-life-sciences/sharing-google-med-palm-2-medical-large-language-model?hl=en 

 

## Key contributions
- 평가 데이터셋 구축 (Methods. 'Datasets')
- 평가 framework 정립 (Methods. 'Framework for human evaluation')
- 기존대비 성능 향상 (Human evaluation results)
- Flan-PaLM + Instruction prompt tuning -> Med-PaLM (Methods. 'Modeling')
- 한계 (Limitations)
- Fig1.

## Methods
### Datasets
- MultiMedQA benchmark
  - 1.MedQA(USMLE), 2.MedMCQA, 3.PubMedQA, 4.MedicationQA, 5.LiveQA TREC 2017, 6.MMLU clinical topics datasets, 7.HealthSearchQA

### Modeling
- 기본 LLM과 이 LLM을 의료 도메인에 특화시키기위한 방법들 소개
- Models
  - PaLM과 Flan-PaLM의 변형family들을 사용
- PaLM
  - 구글의 LLM 베이스라인
  - 540B (GPT3 175B) , Decoder-only transformer모델
  - 웹문서, 책, 위키피디아, 대화문, 깃헙코드의 7천8백억개의 토큰으로 1 epoch 학습 (cf. GPT3 3천억개, PaLM2 3조6천억개)
  - 256K Vocabs (GPT3 50K)
- Flan-PaLM
  - PaLM의 instruction-tuned 모델
  - 베이스라인 PaLM 대비 QA task 성능 향상
  - 8B, 62B, 540B
- Aligning LLMs to the medical domain
  - 안전성이 중요한 도메인 특성으로 데이터에 대한 모델의 align이 필수적 (cf. 통상 수만~수백만건)
  - 하지만 데이터를 모으기 어려운 도메인이므로 1.prompting과 2.prompt tuning의 data-efficient alignment전략을 사용 
- Prompting strategies
  - Few-shot, chain-of-thought, self-consistency의 세 가지 prompting 사용
- Few-shot prompting
  - 입력 context window 크기에 맞게 예시 개수 설정
  - 특정 크기 이상의 모델에서 창발하는 기능
  - 인증받은 전문가(의료진)와 함께 few-shot프롬프트 예시 설계
  - 데이터셋마다 각각 다른 예시 내용 및 개수 사용 (일반적으론 5개, 프롬프트가 긴 데이터셋은 3개)
- Chain-of-though prompting
  - Few-shot 예시의 reasoning 측면을 보강한 프롬프트 설계로 LLM에서 창발한 기능
  - 사람의 문제풀이 사고과정을 모사하여 단계단계 설명하는 방식으로 수학문제와 같은 논리성을 필요로하는 태스크에서 큰 효과
- Self-consistency prompting
  - 여러 음답을 샘플한 다음 가장 주가되는 응답을 선택하는 방법으로 multiple-choice에서 효과적인 전략
  - reasoning 과정이 복잡한 문제의 경우 잠재적인 정답 도출과정의 갯수가 여러가지일수 있는 점에 근거한 접근
  - 정답의 다양성을 위한 sampling temperature로는 0.7 사용
- Prompt tuing
  - Soft prompt로서 몇개의 학습가능한 token을 입력 앞에 붙이는 방법
  - 적게는 수십개의 데이터만으로도 가능
- Instruction prompt tuning
  - Flan-PaLM의 경우 few-shot과 COT만으로는 consumer medical question-answering datasets에서 낮은 
  - 데이터가 부족하므로 prompt tuning접근을 의료QA데이터를 사용한 instruction tuning에 사용하고 이를 'Instruction prompt tuning'이라 지칭
  - 이때, soft promt로 human-engineered prompt를 대신하는게 아니라 앞에 붙이는 접근으로 전체 도메인 데이터셋에 공통적으로 적용 (cf. 따라서 하나 이상의 여러 도메인에도 적용가능한 방법)
  - 여기선, 길이 100의 soft prompt를 사용했으며 PaLM의 embedding dimension이 18432이므로 학습해야할 파라메터 수는 1.84M
  - 파라메터는 [-0.5, 0.5]에서 uniform하게 초기화
  - AdamW로 {0.001, 0.003, 0.01}의 learning rate와 {0.01, 0.00001}의 weight decay에서 grid search
  - Batch size 32로 200 step 학습
  - held-out 데이터셋에 대한 응답을 의료진에 보여주고 최고의 checkpoint를 선택
  - 출력 범위가 넓은 생성형 모델의 특성상 metric으로 자동 선택할경우 사람의 판단과 다를경우가 많기 때문
  - 최종 선정된 hyperparameter는 0.003 learning rate에 0.00001 
- Putting it all together: Med-PaLM
  - 환자에 해를 끼치지 않으면서도 의료적 이해, 지식의 연결, 추론을 위해선 instruction prompt tuning의 적용에 특히나 좋은 데이터를 선별해야함
  - 미국과 영국은 전문 의료진으로 하여금 response-free 데이터에 레이블을 달고 애매한 질문-응답 페어는 필터링 후 최종 65개 예시 생성
 


## Model development and evaluation of performance
- Flan-PaLM만으로도 (MedQA(USMLE), MedMCQA, PubMedQA, MMLU)에서 기존 SOTA모델 대비 성능 크게 상승
- Fig2.

 


## Ablation
- 도메인 데이터(MedQA, MedMCQA, and PubMedQA)에 대한 Flan-PaLM성능 분석
### Instruction tuning이 도메인QA에 도움 (few-shot COT)

### Scaling이 도메인QA에 도움
- 8B보다 540B가 성능 두배
  - 결과: SI table6, SI fig1~2
  - 
###  COT(explanation) prompting
- 기본 few-shot대비 대비 대체로 성능 감소
  - 결과: SI table2, 질문예시: SI table23 ~ 28
- 정답까지의 다양한 reasoning이 가능할 뿐더러, 생성된 하나의 COT path가 가장 정확할 확률이 낮은것이 원인으로 추정
- 도메인 특화 prompt 사용시 일부만 효과 --> COT가 특정 문제 해결엔 도움이 될 수 있으나 도메인 지식주입엔 효과 없음
  - 결과: SI table5, 질문예시: SI table27~28

###  Self-consistency
- COT 11개 생성 후 정답 고르도록 했을때 기존 few-shot 대비 대체로 성능 증가 (오히려 성능 떨어지는 데이터셋도 있음)
  - 결과: SI table3,  응답예시: ED table6

## Key contributions 
- 평가 데이터셋 구축 (Methods. 'Datasets')
- 평가 framework 정립 (Methods. 'Framework for human evaluation')
- 기존대비 성능 향상 (Human evaluation results)
- Flan-PaLM + Instruction prompt tuning -> Med-PaLM (Methods. 'Modeling')
- 한계 (Limitations)
- (Fig1)

## Model development and evaluation of performance
- Flan-PaLM만으로도 (MedQA(USMLE), MedMCQA, PubMedQA, MMLU)에서 기존 SOTA모델 대비 성능 크게 상승 (Fig2)

## Ablation
- 도메인 데이터(MedQA, MedMCQA, and PubMedQA)에 대한 Flan-PaLM성능 분석
### Instruction tuning이 도메인QA에 도움 (few-shot COT)

### Scaling이 도메인QA에 도움
- 8B보다 540B가 성능 두배 (결과: SI table6, SI fig1~2)

###  COT(explanation) prompting
- 기본 few-shot대비 대비 대체로 성능 감소 (결과: SI table2, 질문예시: SI table23 ~ 28)
- 정답까지의 다양한 reasoning이 가능할 뿐더러, 생성된 하나의 COT path가 가장 정확할 확률이 낮은것이 원인으로 추정
- 도메인 특화 prompt 사용시 일부만 효과 --> COT가 특정 문제 해결엔 도움이 될 수 있으나 도메인 지식주입엔 효과 없음 (결과: SI table5, 질문예시: SI table27~28)

###  Self-consistency
- COT 11개 생성 후 정답 고르도록 했을때 기존 few-shot 대비 대체로 성능 증가 (오히려 성능 떨어지는 데이터셋도 있음) (결과: SI table3,  응답예시: ED table6)

### Uncertainty and selective prediction
- Self-concistency의 비율을 uncertainty로 정하고 threshold를 넘지 못하면 보류
- 보류비율이 증가할수록 정확도가 상승 (fig.3)
- 정확도가 중요한 의료분야에서 합리적인 접근이나 더 연구될 필요 있음

### Human evaluation results
- 일반이의 질문에 길게 응답하는 데이터셋에서 랜덤하게 질문을 샘플 (HealthSearchQA 100개, LiveQA 20개, MedicationQA 20개)
- 질문에 대한 1.의료진의 응답, 2.Flan-PaLM의 응답, 3.Med-PaLM의 응답을 다른 9명의 의료진이 합의된 기준들로 대해 평가 (Fig4~6)
- **Scientific consensus**
  - Flan-PaLM 61.9% 대비 Med-PaLM 92.9%로 intruction prompt tuning이 과학적 근거를 가진 대답을 하는데 효과적인 alignment 방법임을 확인 (fig4)
  - 하지만 학습 데이터가 과거의 과학적 합의에 기반하여 현재의 바뀐 내용을 반영못한다는 한계가 있어, 후속 연구에선 continual learning이나 RAG를 사용할 필요
- **Comprehension, retrieval and reasoning capabilities**
  - Instruction prompt tuning후 comprehension, retrieval, reasoning의 세가지 측면에서 모두 의료진의 답변과의 격차가 줄어드는것을 확인 (fig5)
- **Incorrect or missing content**
  - 응답에 잘못되거나 부적절한 내용이 있는지에 대한 평가에서 Med-PaLM이 18.7%로 Flan-PaLM의 16.1%보다 더 부정확
  - 중요한 정보 중 빠진 내용이 있는지에 대해선 Flan-PaLM이 47.6%로 매우 높은데 반해 Med-PaLM은 15.3%로 의료진의 11.1%과의 격차가 크게 감소 (fig4, ED table8)
  - Instruction prompt tuning이 보다 자세한 답변을 하도록하여 빠진 내용은 줄어드나 이로인해 부정확한 정보를 생성할 가능성은 상승하는것을 확인
- **Possible extent and likelihood of harm**
  - 응답대로 행했을 경우 위험해질 가능성에 대한 평가에선 Flan-PaLM의 29.7%대비 Med-PaLM은 5.9%로 의료진의 5.7%와 거의 유사한 결과 (fig4)
- **Bias for medical demographics**
  - 응답이 편향된 인구 집단에만 적절한지에 대해 Flan-PaLM은 7.9%인데 반해 Med-PaLM은 0.8%로 의료진의 1.4%보다도 더 낮은 결과
  - 단, 질문 자체가 공정성을 고려하여 만들어졌음을 주의
- **Lay user assessment**
  - 일반인으로 하여금 응답이 도움이 되는지에 대해선 Med-PaLM의 응답이 Flan-PaLM의 60.6%보단 크게 높은 80.3%를 보였으나 의료진의 91.1%보단 낮은 평가
  - 응답이 궁금한 부분을 다루었는지에 대해선 Med-PaLM의 응답이 의료진의 95.9%에 근접한 94.4% 
  - 결과적으로 instruction prompt tuning이 일반 사용자로 하여금 만족스러운 답변을 생성하도록 하는데 도움이 되나 여전히 의료진의 응답에 가까워지려면 해결해야할 작업이 많이 남은것을 알 수 있음
  
## Discussion
- 모델의 스케일을 키우고 instruction tuning을 하는것은 세부 도메인의 테스크를 하는데 크게 도움
- 사전학습 corpus에 테스트 데이터셋이 소량 포함되어있긴하나, 스케일링에 의한 암기 이상의 뛰어난 성능 확인
- Flan-PaLM이 도메인 데이터로만 학습시킨 모델들보다 더 나은 성능을 보여줌에 따라, 의료 도메인에서의 QA 능력은 스케일에 의해 향상된다고 결론
- 하지만 일반인의 의료 질의에 대한 QA테스크에서는 단순한 스케일링만으로는 부족함
- 이에, Instruction prompt tuning을 사용하여 정확성, 일관성, 안정성, 위해성, 편향성, 유용성의 모든 측면에서 도메인 전문가(의료진)에 보다 가까운 성능을 확보

## Limiations
### Key LLM capabilities for this setting
- 도메인 전문가 수준까지 가기위해 필요한 것들
  1. 권위 있는 의료 소스에 grounding되면서도 시간에 따라 변경되는 컨센서스를 반영
  2. 불확실성을 탐지하고 이에 대해 사용자와 소통
  3. 다중언어 사용
  4. 안전성을 고려한 alignment

## Methods
### Datasets
- MultiMedQA benchmark
  - medical knowledge를 필요로 하는 질문, medical research comprehenshion skill을 필요로 하는 질문, 사용자의 의도를 파악하고 이에 필요한 정보를 요구하는 질문들로 구성
  - 1.MedQA(USMLE), 2.MedMCQA, 3.PubMedQA, 4.MedicationQA, 5.LiveQA TREC 2017, 6.MMLU clinical topics datasets, 7.HealthSearchQA
  - 데이터셋 마다 서로 다른 형태
    1. format: 4~5지선다 vs 긴 답변
    2. capabilities tested: 지식 평가 vs 추론 평가
    3. domain: open vs closed
    4. question source: 전문 시험 vs 연구자 vs 일반인
    5. labels and metadata: label, 설명, 데이터 소스의 포함 여부
  - Table1
- 긴 답변이 필요한 데이터셋(MedMCQA, PubMedQA, LiveQA, MedicationQA)의 경우 답변이 전문적이지 않고 일관적이지 않으므로 삭제
  - BLEU와 같은 수치평가는 안정성이 중요한 도메인에서의 긴 답변을 평가하는데 적합하지 않으므로 기존 답변을 BLEU평가에 대한 ground truth로 사용할 필요없음
  - 인증된 전문가로부터 새롭게 레이블링
- 완전하지않으므로 후속 연구에선 EMR이나 전임상 지식으로도 확대 예정

### Framework for human evaluation
- Clinician evaluation
  - 일반인 질의 데이터(LiveQA, MedicationQA, HealthSearchQA)의 질문에 대한 LLM의 응답을 9명의 미국, 영국, 인도의 의료진으로 하여금 평가
  - 12 축에 대해 응답 평가 (ED table2)
    1. 과학적 합의사항과의 일치 여부
    2. 육체 및 정신적으로 해로운지에 대한 심각성 
    3. 육체 및 정신적으로 해로운지에 대한 가능성
    4. 문제에 대한 전반적 이해를 했다는 증거 포함 여부
    5. 과학적 인용에 대한 증거 포함 여부
    6. 논리적 추론에 대한 증거 포함 여부
    7. 문제에 대한 잘못된 전반적 이해를 했다는 증거 포함 여부
    8. 과학적으로 잘못된 인용에 대한 증거 포함 여부
    9. 잘못된 논리적 추론에 대한 증거 포함 여부
    10. 적절하지 않은 내용의 포함 여부
    11. 빠트리면 안될 정보를 빠트렸는지의 여부
    12. 특정 인구집단에 편향되어 있는지 여부
   - 평가 가이드라인 합의를 위해 25개 예시에 대해 3명의 의료진이 수렴까지 반복
- Lay user evaluation
  - 일반인 질의 데이터(LiveQA, MedicationQA, HealthSearchQA)의 질문에 대한 LLM의 응답을 5명의 비의료 일반인으로 하여금 평가
  - 2 축에 대해 응답 평가 (ED table3)
    1. 응답의 질의 의도 파악 여부
    2. 응답의 도움 여부
### Modeling
- 기본 LLM과 이 LLM을 의료 도메인에 특화시키기위한 방법들 소개
- Models
  - PaLM과 Flan-PaLM의 변형family들을 사용
- PaLM
  - 구글의 LLM 베이스라인
  - 540B (GPT3 175B) , Decoder-only transformer모델
  - 웹문서, 책, 위키피디아, 대화문, 깃헙코드의 7천8백억개의 토큰으로 1 epoch 학습 (cf. GPT3 3천억개, PaLM2 3조6천억개)
  - 256K Vocabs (GPT3 50K)
- Flan-PaLM
  - PaLM의 instruction-tuned 모델
  - 베이스라인 PaLM 대비 QA task 성능 향상
  - 8B, 62B, 540B
- Aligning LLMs to the medical domain
  - 안전성이 중요한 도메인 특성으로 데이터에 대한 모델의 align이 필수적 (cf. 통상 수만~수백만건)
  - 하지만 데이터를 모으기 어려운 도메인이므로 1.prompting과 2.prompt tuning의 data-efficient alignment전략을 사용 
- Prompting strategies
  - Few-shot, chain-of-thought, self-consistency의 세 가지 prompting 사용
- Few-shot prompting
  - 입력 context window 크기에 맞게 예시 개수 설정
  - 특정 크기 이상의 모델에서 창발하는 기능
  - 인증받은 전문가(의료진)와 함께 few-shot프롬프트 예시 설계
  - 데이터셋마다 각각 다른 예시 내용 및 개수 사용 (일반적으론 5개, 프롬프트가 긴 데이터셋은 3개)
- Chain-of-though prompting
  - Few-shot 예시의 reasoning 측면을 보강한 프롬프트 설계로 LLM에서 창발한 기능
  - 사람의 문제풀이 사고과정을 모사하여 단계단계 설명하는 방식으로 수학문제와 같은 논리성을 필요로하는 태스크에서 큰 효과
- Self-consistency prompting
  - 여러 음답을 샘플한 다음 가장 주가되는 응답을 선택하는 방법으로 multiple-choice에서 효과적인 전략
  - reasoning 과정이 복잡한 문제의 경우 잠재적인 정답 도출과정의 갯수가 여러가지일수 있는 점에 근거한 접근
  - 정답의 다양성을 위한 sampling temperature로는 0.7 사용
- Prompt tuing
  - Soft prompt로서 몇개의 학습가능한 token을 입력 앞에 붙이는 방법
  - 적게는 수십개의 데이터만으로도 가능
- Instruction prompt tuning
  - Flan-PaLM의 경우 few-shot과 COT만으로는 consumer medical question-answering datasets에서 낮은 
  - 데이터가 부족하므로 prompt tuning접근을 의료QA데이터를 사용한 instruction tuning에 사용하고 이를 'Instruction prompt tuning'이라 지칭
  - 이때, soft promt로 human-engineered prompt를 대신하는게 아니라 앞에 붙이는 접근으로 전체 도메인 데이터셋에 공통적으로 적용 (cf. 따라서 하나 이상의 여러 도메인에도 적용가능한 방법)
  - 여기선, 길이 100의 soft prompt를 사용했으며 PaLM의 emb_dim이 18432이므로 학습해야할 파라메터 수는 1.84M
  - 파라메터는 [-0.5, 0.5]에서 uniform하게 초기화
  - AdamW로 {0.001, 0.003, 0.01}의 learning rate와 {0.01, 0.00001}의 weight decay에서 grid search
  - Batch size 32로 200 step 학습
  - held-out 데이터셋에 대한 응답을 의료진에 보여주고 최고의 checkpoint를 선택
  - 출력 범위가 넓은 생성형 모델의 특성상 metric으로 자동 선택할경우 사람의 판단과 다를경우가 많기 때문
  - 최종 선정된 hyperparameter는 0.003 learning rate에 0.00001 
- Putting it all together: Med-PaLM
  - 환자에 해를 끼치지 않으면서도 의료적 이해, 지식의 연결, 추론을 위해선 instruction prompt tuning의 적용에 특히나 좋은 데이터를 선별해야함
  - 미국과 영국의 전문 의료진으로 하여금 response-free 데이터에 레이블을 달도록 하고 애매한 질문-응답 페어는 필터링 후 최종 65개 학습 예시 생성


Author: Julián N. Acosta, Guido J. Falcone, Pranav Rajpurkar & Eric J. Topol
Paper Link: https://www.nature.com/articles/s41591-022-01981-2


최신 foundation model들 까지 고려한 Eric Topol교수님의 의료 데이터에서의 multimoality에 대한 리뷰 페이퍼.


Author: Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel
Paper Link: https://arxiv.org/abs/2204.07258

Code: https://github.com/Valentyn1997/CausalTransformer

ICML slide: https://icml.cc/media/icml-2022/Slides/17693.pdf

ICML presentation: https://slideslive.ch/38983812/causal-transformer-for-estimating-counterfactual-outcomes?ref=recommended 

 

 

  • Time-varying confounder를 다루기 위해 CRN에서 LSTM을 사용한것과 달리 여기선 Transformer사용하여 길고 복잡한 sequence 데이터를 더 잘 다루고자 함
    • 저자 피셜 Transformer를 causal inference에 최초로 적용한 사례
  • selection bias를 줄이기 위해 representation을 balancing 하는 접근을 택했고, 그 방법으로는 CRN과 같은 adversarial objectjve를 사용했으나 loss로는 doimain confusion loss를 사용했다는 차이첨이 있음
    • CRN의 방식은 학습속도 파라메터에 민감하기 때문에 자신들의 접근이 더 낫다 설명하고 실험으로 검증

 

[Domain confusion loss]

 

[Gradient reversal]

 

 

  • 실험 결과 time dependent confounder 및 long term prediction 모두에서 기존 방법들 대비 높은 counterfactual 정확성을 보여줌

 

 

네이버의 초거대 인공지능 하이퍼클로바를 이용하여 의료분야에 적용해보는경진대회에서 최우수상을 수상하였습니다.

 

 

'PERSONAL PROJECTS > Awards & Honours' 카테고리의 다른 글

DMJ 논문 Best paper of the year 선정  (0) 2021.07.02

스탠포드 첼시핀 교수님의 CS330강의가 공개되면서 부터, 동료들과 함께 집필을 시작한 메타러닝 첫 한국어 도서집필 프로젝트입니다. 최종 편집본이 오늘 나왔는데 총 282쪽이네요.

 

출판은 위키북스를 통해 진행했으며, 책의 검수에는 고려대학교 인공지능학과의 최성준 교수님께서 연구/교육/업무로 정말 바쁘신 와중에 시간을 내어주셨습니다. 나중에 최종 출판이 되면 다시한번 감사드리겠지만, 최종 편집을 하려 PDF를 열때마다 부족한 저희에게 시간을 할애해 주신 최성준 교수님께 매번 감사하는 마음이 들었습니다. 

 

표지의 동물은 오리너구리로 포유류이면서도 조류와 같이 알을 낳는 등 여러 동물들의 특성을 모두 가지고 있는데, 실제 유전적으로도 포유류, 조류, 파충류가 혼합되어 있다고 합니다. 환경에 맞춰 다양하게 퍼져나가는 진화가지를 내포한듯한 이러한 특징이 마치 메타러닝과 비슷하다고 생각하여 이번 메타러닝 책의 표지로서 오리너구리를 택하게 되었습니다.

마지막으로 귀여운 실제 오리너구리 사진 보시겠습니다.

논문 리스트

TabTransformer: Tabular Data Modeling Using Contextual Embeddings (Xin Huang, arXiv 2022)

Paper Link: https://arxiv.org/abs/2012.06678
Talk: https://www.youtube.com/watch?v=-ZdHhyQsvRc
AWS Code: https://github.com/awslabs/autogluon/tree/master/tabular/src/autogluon/tabular/models/tab_transformer
Other Repo 1: https://github.com/lucidrains/tab-transformer-pytorch
Other Repo 2: https://github.com/timeseriesAI/tsai/blob/main/tsai/models/TabTransformer.py

  • by AWS
  • Embedding layer로서 Transformer를 사용
  • Tabular데이터에 대해 각 column에 대하여 Column Embedding 수행 후 Trasformer를 사용해 context embeddings를 생성
  • 생성된 context embeddings는 concat하여 MLP classifier로 들어감
  • Column Embedding
    • 한 column이 d개의 클래스를 가지고 있을땐 missing value도 인덱스를 부여해 0부터 d+1까지의 lookup table로 인코딩
    • one-hot보다 parametric embedding을 학습하는것이 더 나은 성능을 보여줌
    • scalar column에 대해서는 3가지 방법의 re-scaling (quantiles, normalization, log)과 quantization을 방법을 모두 사용하여 
    • column identifier와  feature value를 따로 embedding하여 concat
    • embedding dimension의 4, 28을 각각 column과 value dim으로 사용
  • Transformer 아키텍쳐
    • Transformer hiddem dim: 32
    • Transformer layer: 6
    • Transformer multi-head: 8

 

MET: Masked Encoding for Tabular Data (Kushal Majmundar, Arxiv 2022) 

Paper Link: https://arxiv.org/abs/2206.08564

  • by Google Research India
  • Masked-AutoEncoder(MAE)방식의 SSL을 사용하여 tabular data의 embedding을 학습
  • MAE Contributions:
    1. Downstream 테스크에 embedding을 전달할때 column별 context embedding을 average가 아닌 concatnation하여 전달
    2. 입력 데이터에 adversarial perturbation을 추가
  • 인코더와 디코더 모두 Transformer사용
  • mask되지 않은 column에 한하여,  column identifier로서 학습가능한 e크기이 embedding과 feature value의 scalar를 concatation해 e+1 차원의 embedding이 생성되어 Transformer 인코더의 입력으로 들어감
  • mask된 column은 column identifier와 학습가능한 special token으로서의 mask scalar를 contatation하여 masked embedding을 생성
  • Transformer 인코더를 커쳐나온 context embedding에 masked embedding을 합쳐 Transformer 디코더에 넣어 전체 column을 복원
  • Downstream task에 전달할때 contexted embedding column들에 대하여 average가 아닌 concat하여 전달

 

Tabular Transformers for Modeling Multivariate Time Series (Inkit Padhi, ICASSP 2021)

Paper Link: https://arxiv.org/abs/2011.01843
Code: https://github.com/IBM/TabFormer

  • by IBM
  • Tabular 데이터에 대한 BERT 및 GPT스타일의 sequence encodeing
  • TabBERT
    • 시간에 따른 각 row를 Field Transforer를 사용하여 row embeeding한 다음 token으로서 BERT에 입력
    • Mask는 row단위가 아닌 row의 field단위로 mask하여 이를 예측하도록 학습
  • TabGPT
    • 각 row들을 [SEP]로 분리하면서 연속되게 이어서 입력으로 주며, 현재의 row가 들어갔을때 미래의 row들을 예측하도록 학습
  • Continuous column은 quantization을 수행하여 categorical column으로 변환

 

TAPEX: Table Pre-training via Learning a Neural SQL Executor (Qian Liu, ICLR 2022)

Paper Link: https://arxiv.org/abs/2107.07653
Code: https://github.com/microsoft/Table-Pretraining

  • by Microsoft
  • 아키텍쳐로 BART를 사용

 

Revisiting Deep Learning Models for Tabular Data (Yura Gorishniy, NeurIPS 2021)

Paper Link: https://arxiv.org/abs/2106.11959v2
Code: https://github.com/Yura52/tabular-dl-revisiting-models

  • by Yandex
  • Feature Tokenizer를 통과한 토큰들과 [CLS]토큰을 사용한 prediction
  • 각 column별로 weight와 bias가 있어 이를 개별 embedding
  • catetorical column의 경우 lookup table에서 각 카테고리에 해당하는 벡터를 onehot vector와 곱해준 뒤 각 column에 해당하는 bias vector를 더해줌

 

 

On Embeddings for Numerical Features in Tabular Deep Learning (Yura Gorishniy, arXiv 2022)

Paper Link: https://arxiv.org/abs/2203.05556v1
Code: https://github.com/Yura52/tabular-dl-num-embeddings

  • by Yandex
  • Tabular 데이터의 numerical feature에 대한 feature binning을 어떻게 하는게 좋은지에 대한 연구 
  • Token화 한 tabular 데이터를 Transforemr에 태워 prediction 테스크 수행
  • scalar를 바로 넣어주는것 보다 one-hot의 개선된 버전인 PLE(piecewise linear encodding)을 사용할 경우 CatBoost보다 나은 성능을 보여주기도 함

 

Revisiting Pretraining Objectives for Tabular Deep Learning (Ivan Rubachev, arXiv 2022)

Paper Link: https://arxiv.org/abs/2207.03208
Code: https://github.com/puhsu/tabular-dl-pretrain-objectives
  • by Yandex

 

그 외 깃헙 레포 리스트

Author: Mary Phuong, Marcus Hutter
Paper Link: https://arxiv.org/abs/2207.09238
- 요약예정

Author: Jinwoo Kim, Tien Dat Nguyen, Seonwoo Min, Sungjun Cho, Moontae Lee, Honglak Lee, Seunghoon Hong
Paper Link: https://arxiv.org/abs/2207.02505

Code: https://github.com/jw9730/tokengt

 

 

Author: Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman, Winnie Xu, Sergio Guadarrama, Ian Fischer, Eric Jang, Henryk Michalewski, Igor Mordatch
Paper Link: https://arxiv.org/abs/2205.15241

Website: https://sites.google.com/view/multi-game-transformers

Code: yet

 

Generalist agent for Atari games

 

Summary

  • multi task 문제에 대해 Decision Transformer 기반의 sequence modeling이 가장 좋은 성능을 보여줌.
  • large-scale language model이나 vision model에서 보아왔던 경향성과 유사한 특성을 확인함
    1. Large-scale generalist RL agent에 대해 모델사이즈와 성능 사이의 power-law 관계를 확인
    2. Pretrained RL agent에 대해 처음주어진 적은데이터로 빠른 finetunning이 되는것을 확인
  • offline 학습데이터에는 expert의 시연만 있는것이 아니므로, 이를 활용하면서도 높은 reward를가진 sequence를 생성하고자 language modeling에서 쓰이는 guided generation 접근을 decision transformer에 적용했으며 이때 가장 좋은 성능을 보여줌.

 

Methods

  • Decision Transformer를 베이스로 하고 있으나 Decision Transformer와 달리 여기에선 return와 reward도 모델링 하여 multi-task에 대한 모델의 representation을 높힘.
  • 하지만 Trajectory transformer와는 달리 obervation은 모델링하지 않았으며 future works로 남겨둠.

  • high-rewarding behavior를 생성하기위해 language model에서 사용되는 discriminator-guided generation 문제와 유사한 접근을 적용.
  • 여기선 GeDi 논문 (link) 에서 사용된 방법을 참고하여 binary classifier $P(expert^t \mid \cdots )$를 활용. 
  • 이 접근을 사용함으로써 더 많은 데이터셋을 활용하여 모델의 환경에 대한 이해도를 높힐 수 있는 동시에, Decision Transformer처럼 매뉴얼한 return conditioning을 줄 필요가 없어짐.

  • 총 41게임에 대해 학습을 하고 5가지 서로다른 특징의 held out 게임들에 대해 OOD generalized 성능 평가 수행.
  • 총 4.1B 스텝, 160B 토큰으로 학습.

 

 

key questions 및 experiment results

How do different online and offline methods perform in the multi-game regime?
  • single agent만드로 사람 수준에 대해 126%의 Atari 게임 플레이 성능을 보여줌.
  • 아래 그래프에서 앞의 두 specialist agent보단 낮지만 그에 근접한 성능을 확인. 

 

How do different methods scale with model size?
  • large language model에서 보여준 power law와 유사한 경향을 Transformer 기반 RL agent의 성능에서 확인함.
  • 모델의 파라메터가 커질수록 ID 및 OOD 모두에서 성능이 증가하며, 동일한 token에 대한 학습속도가 빨라짐.

 

How effective are different methods at transfer to novel games?
  • 5개 서로 다른 성격의 held out 게임들에 대한 finetunning 실험에서, pretrained DT가 전반적으로 뛰어난 성능을 보여줌.
  • 학습데이터와 비교했을때 1%의 적은 데이터만으로도 fintunning이 가능.

 

Does Multi-Game Decision Transformer improve upon training data?
  • 데이터셋 중에서 게임별 상위 3개의 성능과 비교해보았을때, 대체로 데이터셋보다 크게 발전하는 성능을 보여줌.

 

Does expert action inference improve upon behavioral cloning?
  • optimal action으로 학습한 Behavior Cloning보다 전반적으로 뛰어난 성능을 보여줌 (31/41).

 

 Does training on expert and non-expert data bring benefits over expert-only training?
  • 최근 DeepMind에서 RL뿐만아니라 딥러닝 전반적인 태스크를 다루는 generalist agent인 Gato를 발표함.
  • Gato와 차이점은 Gato가 expert의 데이터만 사용했으며 expert trajectory를 prompt로서 필요로하지만, Multi-Game DT는 expert가 아닌 데이터도 사용했으며 prompt가 필요 없다는 것.
  • 실험 결과 1) Behavior Cloning에서 expert 데이터만 쓰는것이 성능을 향상시켰으며,  2) Multi-Game DT는 전체 데이터를 썼을때 오히려 성능이 향상했으며, 3) 전체 데이터로 학습한 Multi-Game DT는 expert 데이터만을 사용한 BC보다 나은 성능을 보여줌.
  • (Gato 논문을 자세히 읽어보진 못했지만, expert BC transformer가 Gato의 학습 아키텍처와 유사한것으로 생각됨.)

 

Are there benefits to specifically using transformer architecture?
  • 목표 return을 conditioning 해주는 Upside-Down RL (UDRL)이 Decision Transformer류의 특징.
  • UDRL이 Transformer에 사용되었을 때, 즉 sequence modeling에 적용되었을때 큰 이득이 있음을 확임함.

 

What does Multi-Game Decision Transformer attend to?
  • Attention anlysis결과 agent가 입력 이미지 패치들 중에서 게임을 하는데 의미있는 패치에 집중하는것을 확인 함.

 

 

 

 

Author: Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine
Paper Link: https://arxiv.org/abs/2205.09991

Site: https://diffusion-planning.github.io/

Code: https://github.com/jannerm/diffuser

Author: Tsung-Yen Yang, Tingnan Zhang, Linda Luu, Sehoon Ha, Jie Tan, Wenhao Yu
Paper Link: https://arxiv.org/abs/2203.02638

Site: https://sites.google.com/view/saferlleggedlocomotion/

Google AI Blog: https://ai.googleblog.com/2022/05/learning-locomotion-skills-safely-in.html

 

+ Recent posts