Author : Thomas Martens, Roy W. Beck, Ryan Bailey, et al.
Paper Link : https://doi.org/10.1001/jama.2021.7444 

 

  • 미국당뇨병학회(ADA)가 제1형 당뇨병환자들에게 연속혈당측정기(CGM; Continuous Glucose Monitoring)의 사용을 권고 하고 있으나, 제2형 당뇨병환자의 CGM사용과 그 효과에 대한 연구는 별로 이루어지지 않음
  • 이에, 제2형 당뇨병 성인 환자 중 기저 인슐린치료를 진행중인 환자들을 대상으로 CGM의 효과를 분석하고자한 임상연구
  • 총 175명의 환자 중 2:1의 비율로 CGM 사용 환자(n=116)와 채혈측정기 사용 환자(n=59)를 랜덤하게 배정함
  • CGM은 Dexcom사의 G6모델
  • 8개월 동안의 HbA1c가 CGM 군은 -1.1%, 채혈측정기 군은 -0.6%로, 혈당관리에 있어 CGM의 사용이 유의한 효과가 있는것을 확인함

 

개인적인 Discussion

  • CGM 사용 군에서도 1/3은 8%이상의 높은 HbA1c를 보여주었다.
  • 이는 단순히 자주 측정을 하는것에 더해, 적극적인 치료의 추천/개입/관리가 필요하다는것을 시사한다.
  • 무엇보다, CGM의 사용을 적극 권장하기엔 현실적으로 CGM의 가격이 상당히 매우 정말 높으며, 센서를 부착한 생활에서 오는 불편함도 무시할 수 없다. 
  • 때문에, EHR정보 혹은 채혈측정 정보만으로도 좀더 혈당관리의 효과를 높힐수 있는 AI기반의 치료개입&관리추천 연구가 필요한것 같다.

Author : Jing Yu Koh, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson
Paper Link : https://arxiv.org/abs/2105.08756v1

Video: https://www.youtube.com/watch?v=HNAmsdk7lJ4 

 

  • 구글 Dreamer의 실내 네비게이션 버전 연구
  • Dreamer의 핵심인 World model을 실내 이미지에 적용함
  • Dreamer가 아타리 게임, DeepMind control suit와 같은 시뮬레이션에만 적용됐다는 한계가 있은 반면, 이 연구에선 real world 이미지를 사용한다는 의의가 있음 
  • 실내 구조에 대한 semantic & depth 이미지를 world model로 학습하고, output을 GAN을 써서 좀더 사실적으로 렌더링
  • 처음보는 실내환경에 대한 과거 path 이미지를 받으면 이후 path를 사실적으로 Dream하는것을 보여줌.
  • 또한 VLN (Vision-and-Language Navigation) downstream 테스크에서 성능의 향상을 보여줌
  • Pathdreamer model architecture

 

  • 단순히 그럴듯한 실내 이미지를 생성하는것이 아니라, 실내 구조에 대한 공간적 시간적 의미를 모두 담고있는 world model을 가지고 'path'를 생성해낸다는 점에서 의의가 있어보임. 저자의 말을 빌면 embodied navigation에 대한 가능성을 보여준것.

Author : Siqi Liu, Guy Lever, Zhe Wang, Josh Merel, S. M. Ali Eslami, Daniel Hennes, Wojciech M. Czarnecki, Yuval Tassa, Shayegan Omidshafiei, Abbas Abdolmaleki, Noah Y. Siegel, Leonard Hasenclever, Luke Marris, Saran Tunyasuvunakool, H. Francis Song, Markus Wulfmeier, Paul Muller, Tuomas Haarnoja, Brendan D. Tracey, Karl Tuyls, Thore Graepel, Nicolas Heess
Paper Link : https://arxiv.org/abs/2105.12196v1

Video: https://youtu.be/KHMwq9pv7mg

 

  • 기존의 RL알고리즘의 연구결과들을 보면 목표를 잘 달성하긴하지만 행동은 불안정한 경우가 대부분이라는 점과 좁은 범위의 행동만을 수행하는 뚜렷한 한계가 있었으며, 이는 RL이 다른 DL 알고리즘들과 달리 널리 사용되지 못하는 이유중 하나임
  • 사람의 경우 밀리초 단위의 자세제어 뿐만아니라 수십 초 길이의 비교적 긴 목표를 동시에 가지고 행동을 하고있으며, 더 나아가 주변 사람 및 환경과의 상호작용까지 이루어져 자연스럽고 거시적인 행동이 가능
  • 이 논문에선 기존의 단순한 학습목표에 따른 부자연스럽고 근시적이었던 RL의 한계를 극복하고자 서로다른 행동레벨을 복합적으로 학습시키는 방법을 보여줌
  • Environment

 

  • Learning Framework

 

  • Internal Representation

Author : Xijun Li, Weilin Luo, Mingxuan Yuan, Jun Wang, Jiawen Lu, Jie Wang, Jinhu Lu, Jia Zeng
Paper Link : https://arxiv.org/abs/2105.12899v1

 

  • 화웨이 Noah's Ark 랩에서 나온 물류 최적화 연구.

  • 다른 RL을 사용한 조합최적화 연구와 비슷한 접근으로서 역시 GNN와 RL을 사용함
  • Attenion-based GNN + Double DQN

  • 전체 물류비용을 평균적으로 13.12% 줄임

'AI & RL > Combinatorial Opt.' 카테고리의 다른 글

[참고자료] RL for Combinatorial Optimization (CO)  (0) 2021.03.05

Author : Bernie Wang, Simon Xu, Kurt Keutzer, Yang Gao, Bichen Wu
Paper Link : https://arxiv.org/abs/2103.06386

 

  • Context-based Meta-RL이 training task의 넓은 distribution에 반해 상대적으로 적은 정보로만 학습된다는 단점에서, Context Encoder의 학습에 Contrastive Learning을 추가함.
  • Overview Figure

  • Algorithm Figure

  • Result Figure on MuJoCo

  • Off-line Meta-RL인 PEARL보다 사실 성능은 크게 차이나지 않는편. (Average 1.3배, Median 1.14배)
  • Meta-World환경에서도 PEARL과 비교를 했는데, 50개 Task 중에서 44개에서 성능이 높지만, 크게 차이나진 않은편. (Average 4.3배, Median 1.4배; 즉 몇몇 특정 task에서 훨씬 잘한 케이스)
  • 하지만 이 논문에서 의미있는 부분은 embedding된 task representation 부분
  • Meta-world의 Push-v1 환경에서, 서로 다른 위치에 물건을 옮기는 10개의 task에 대한 PEARL과 Contrastive Learning을 추가한 알고리즘 각각의 representation space를 비교.

Push-v1

  • 각 task마다 200번을 rollout한뒤 샘플된 trajectroy를 t-SNE를 사용하여 2차원 시각화 한 결과 Contrastive Learning을 적용한 알고리즘에서 보다 명확하게 clustring이 된것을 확인할 수 있음.

 

 

 

논문에 대한 나의 의견

개인적으로 context-based Meta-RL은 agent의 행동에 잠재적으로 내포된 goal을 Explainable하게 시각화 할수 있다는 점이 큰 장점이라 생각한다. 이 논문에서 사용한 Contrastive Learning은 이러한 장점을 더 극대화 할수 있는 방법을 제시한것이라 볼 수 있으며, 성능은 크게 좋아지지 않았지만 신뢰도가 중요한 field에 적용할 경우 충분히 의미가 있을것 같다.  

Author : Xinyue Chen, Che Wang, Zijian Zhou, Keith Ross
Paper Link : https://arxiv.org/abs/2101.05982

OpenReview : https://openreview.net/forum?id=AY8zfZm0tDd 

Code: https://github.com/watchernyu/REDQ

 

SOTA in Model-free RL

 

참고자료

https://www.microsoft.com/en-us/research/blog/three-mysteries-in-deep-learning-ensemble-knowledge-distillation-and-self-distillation/?OCID=msr_blog_ensemble_tw&fbclid=IwAR16837BMbhV0f565yolrGn7vJCGrZxCN6ZTH0TXfUSJin3xkhM5bI4tDJI 

 

3 deep learning mysteries: Ensemble, knowledge- and self-distillation

Microsoft and CMU researchers begin to unravel 3 mysteries in deep learning related to ensemble, knowledge distillation & self-distillation. Discover how their work leads to the first theoretical proof with empirical evidence for ensemble in deep learning.

www.microsoft.com

 

 

Author : Ruohan Zhan, Konstantina Christakopoulou, Ya Le, Jayden Ooi, Martin Mladenov, Alex Beutel, Craig Boutilier, Ed H. Chi, Minmin Chen
Paper Link : https://dl.acm.org/doi/10.1145/3442381.3449889

Talk : https://youtu.be/QpHR22q99Bg

 

 

  • Google의 지난 RL기반 추천 알고리즘 REINFORCE Recommender System (포스팅) 의 후속 논문

  • 지금까지 user의 입장만을 고려한 Recommender 알고리즘들과 달리 content를 생성하는 user또한 고려를 하는 전체 플랫폼의 stakeholder를 모두 고려한 recommender system 알고리즘

  • User의 선호도 뿐만아니라 content provider의 활동을 활성화하는 RL agent ('EcoAgent') 를 학습
  • Google의 recsys gym환경인 RecSim (https://github.com/google-research/recsim) 에서 검증 
  • 소수의 content provider들만 주목받아 대다수의 provider들이 동기를 잃는 ‘superstar economy' 현상을 방지하고자 하는 recommendation 알고리즘

 

개인적인 생각

  • Google의 YouTube, Apple의 App store와 같이 컨텐츠의 생산 역시 주요 사용자들이 담당하는 생태계적 플랫폼에 적용가능할것 같음

 

엔드류 응 교수님과 페이페이 리 교수님의 대담.

 

공학자 관점에서 바라보는 Healthcare AI에 대한 토론이라, Medical 및 Healthcare에 관심있는 AI 연구자들에게 많은 도움이 될것같다.

 

 

 

Inverse Reinforcement Learning

 

강화학습에서 reward는 굉장히 중요하다. Policy를 학습하는데 있어서, intrinsic이든 extrinsic이든 Agent가 거의 대부분의 정보를 얻는 경로이기 때문이다.

 

일반적으로 강화학습에서는 사람이 reward를 일일히 정해주지만, 실제로 그 reward에 따라 “desirable” action이 나오지 않을 수도 있다. 또한 이렇게 직접 reward를 정해주는 "reward shaping" 과정은 매우 어려우며, 도메인 지식을 많이 필요로 하면서 손을 많이 타는 과정이다. 특히 원하는 task가 복잡할수록 reward function을 명시적으로 정한다는것이 어렵거나 사실상 불가능해진다. 

 

이런 어려움에서 나온 개념이 Inverse Reinforcement Learning (IRL)이다. IRL은 전문가 혹은 시연자의 optimal 및 suboptimal behavior에서 reward를 거꾸로 추론하거나 크게는 이렇게 추론한 reward기반의 policy를 학습하는것을 말한다. 행동심리학적 관점에서는, 관측한 사람들의 행동에서 사람들이 어떤것을 원하는지를 찾아내고자 하는 알고리즘이라고도 볼 수 있다.  

 

파블로 피카소는 "Good artist copy, great artist steal."라고 말했다. 강화학습 관점에서보면 어떤 행동을 그대로 따라하는것보다 그 행동의 내적 의도를 이해하고 그걸 능가하는 policy를 학습하려는 IRL의 목적과 어느정도 통하는게 있는 말이다.

 

 

이런 재밌는 IRL을 한번 같이 공부하고 구현해보자! 하는 의도에서 Reinforcement Learning Korea에서 몇몇 분들과 함께 2018년 10월부터 2019년 2월까지 관련 논문 6개를 읽고 구현을 해보는 단기 사이드 프로젝트를 진행했다. 

 

 

블로그: reinforcement-learning-kr.github.io/2019/01/22/0_lets-do-irl-guide/

 

Let's do Inverse RL Guide

RLKorea 블로그

reinforcement-learning-kr.github.io

Github: github.com/reinforcement-learning-kr/lets-do-irl

 

발표:

Author : Krishnan Srinivasan, Benjamin Eysenbach, Sehoon Ha, Jie Tan, Chelsea Finn
Paper Link : arxiv.org/abs/2010.14603

 

 

조합최적화

Deep RL의 application은 게임 혹은 제어가 가장 대중적이지만, 최근 가능성을 조명받는 분야로 Combinatorial Optimization (CO: 조합최적화) 이 있다. 

 

게임이나 제어의 경우 Markov Process나 Dynamics가 원하는 state가 되도록 action을 선택하는것이라면, CO는 시스템을 구성할수 있는 어떤 아이템들이 주어졌을때, 이들의 최적 순서 또는 매핑을 찾는 문제로 상대적으로 사뭇 정적인 혹은 닫힌 시스템 내의 문제를 푼다고 볼 수 있다. CO의 예시로는 생산설비 최적화, 자원할당 최적화, 운송경로 최적화 등을 들 수 있다. 

삼성SDS Techtonic 2020, 권영대 프로님 발표

 

CO를 풀기위한 기존 알고리즘들이 많은데, 최근엔 이러한 알고리즘들보다 더욱 빠르고 효율적으로 CO문제를 풀기 위해 강화학습을 도입하는 시도가 하나 둘 발표되고 있다.

 

 

구글Brain의 칩 (ASIC) 설계 연구

 

Chip Design with Deep Reinforcement Learning

Posted by Anna Goldie, Senior Software Engineer and Azalia Mirhoseini, Senior Research Scientist, Google Research, Brain Team The revolu...

ai.googleblog.com

 

 

마키나락스의 FPGA 칩 배치 연구

 

Chip Placement on FPGA 프로젝트를 소개합니다!

MakinaRocks의 COP(Combinatorial Optimization Problem) 팀에서는 지난 2020년 9월부터 2021년 1월까지 반도체 설계 공정 중 하나인 Placement & Routing에 강화학습을 적용하는 프로젝트를 진행했습니다. AI Chip 설계를

makinarocks.github.io

 

 

삼성 SDS의 POMO (NeurIPS 2020)

 

NTU의 RL기반 Transformer encoder-decoder를 활용한 TSP 문제 접근

 

이 외에도 최근 주목받는 Network Architecture Search (NAS) 분야나 신약개발 분야에서 주로 풀려는 문제가 CO여서, 실제 산업에서의 효용성이 특히 크다.

 

로보틱스 분야에서 불안정성으로 인해 강화학습을 보수적으로 바라보는 시야가 없지않아 있어 산업계 적용이 조금은 길게보고 가야한다면, CO는 도메인 전문가와의 협업으로 충분히 현장에서 사용가능할만한 솔루션이 개발될 수 있어 더욱 흥미로운 분야이다. 

 

CO의 좋은 레퍼런스 논문들은 이동민 님이 정리해주신 list를 참고하면 좋을것 같다.

https://dongminlee94.github.io/rl/combinatorial_optimization_with_reinforcement_learning/

 

Papers on Combinatorial Optimization with Reinforcement Learning

Pointer Networks (2015.06)

dongminlee94.github.io

Author : Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba
Paper Link : arxiv.org/abs/2010.02193

Website : ai.googleblog.com/2021/02/mastering-atari-with-discrete-world.html

OpenReview : openreview.net/forum?id=0oabwyZbOu

 

 

최근 Recommender System KR의 클럽하우스에 들어가서 여러 회사와 학교에 계신 발표자 분들이 이야기하시는걸 들으면서, 강화학습을 Recommender system의 breakthrough 중 하나로 생각하시는분들이 꽤 있다는걸 알게되었다.

 

추천시스템은 real world에서 가장 활발하게 쓰이고 있는 분야이며 특히 고객을 늘리고 서비스에서의 체류시간을 늘리는 등 industrial business model에서 빠질수 없는 분야이다. 그리고 RL의 interaction 특징이 추천시스템과 사용자 사이의 관계와 밀접함에 따라, 그리고 RL의 장기적인 이익 최대화라는 특징이 사용자의 장기적인 만족도를 높히는 추천시스템의 목적과 밀접하다는 관점에서 RL의 또다른 유망 real-world application으로서 고려된다는것을 알았다.

 

그래서 Recommender System KR의 김지후님이 추천해주신 몇몇 대표 링크와 검색해본 강의 및 블로그들을 카테고리의 첫 포스팅으로 올려보면서 이 분야에대한 정리를 조금씩 해보고자 한다.

 

 

 

ACM의 추천시스템 대표 학회인 RecSys 2020에서 강화학습 관련 세션

recsys.acm.org/recsys20/session-12/?fbclid=IwAR3llKoFzuHfh-rrco3CuZz10FzMCnvYdqnexTdqEyBrNRowMcvj_YmMPGA

 

RecSys – ACM Recommender Systems

Cluster-of-bandit policy leverages contextual bandits in a collaborative filtering manner and aids personalized services in the online recommendation system (RecSys). When facing insufficient observations, the cluster-of-bandit policy could achieve more ou

recsys.acm.org

강화학습을 Recommender system에 적용하는 연구들을 정리한 깃헙 레포1 

github.com/cszhangzhen/DRL4Recsys?fbclid=IwAR1heFcoT5N4C0Z43l5tWZDr_eCOQ49ZkGllzfhk1k4rEsqDK85JgN9CrY4

 

cszhangzhen/DRL4Recsys

Courses on Deep Reinforcement Learning (DRL) and DRL papers for recommender systems - cszhangzhen/DRL4Recsys

github.com

강화학습을 Recommender system에 적용하는 연구들을 정리한 깃헙 레포2

github.com/guyulongcs/Deep-Reinforcement-Learning-for-Recommender-Systems?fbclid=IwAR1DKsI8Botx9KJInv3ePzlFO11g4avXStZ8FxieW0SbG_WAY0xvXinkixc

 

guyulongcs/Deep-Reinforcement-Learning-for-Recommender-Systems

DRL for RecSys papers. Contribute to guyulongcs/Deep-Reinforcement-Learning-for-Recommender-Systems development by creating an account on GitHub.

github.com

구글 리서치의 RL for RecSys 에대한 강의1

www.youtube.com/watch?v=X3uozqaNCYE

구글 리서치의 RL for RecSys 에대한 강의2

www.youtube.com/watch?v=HEqQ2_1XRTs

Segey Kolesnikov 님의 포스팅

scitator.com/post/2101-recsys-rl-en/

 

RL in RecSys, an overview [EN] | Scitator

An overview of Reinforcement Learning in RecSys.

scitator.com

Recommender System KR의 김지민님이 추천해주신 RecSys의 REVEAL 2020 워크샵

sites.google.com/view/reveal2020/home?fbclid=IwAR1kGF22v56fSmkP79Z-pFTqF01CjT8XhXx8ROZ-eXGXtf5RDiTMpH3arMI

 

REVEAL 2020

Video recording of the workshop Important dates: Submission deadline: July 29th Author notification: August 21st Camera-ready deadline: September 4th Workshop: September 26th State-of-the-art recommender systems are notoriously hard to design and improve u

sites.google.com

+ 지민님의 REVEAL 2020 번역 포스팅

ziminpark.github.io/posts/REVEAL%2720-%EC%86%8C%EA%B0%9C-%28%EB%B2%88%EC%97%AD%29-5e8b3d4ff4ed42cdb7199afc192b7fe3/?fbclid=IwAR0vE5QoTOy4PG3VrylgxjCwlwvbxqUcF0cUTWtK60L-IeZT1qsVIeNGeXI

 

[번역글] REVEAL’20 Workshop Introduction

REVEAL’20 Home을 번역한 글입니다. 문장이 길고 복문이 많아서 짧은 단문으로 고쳐 썼습니다.

ziminpark.github.io

지민님이 정리해두신 Bandit 관련 스터디 자료

www.notion.so/Bandit-Based-cae4bc6ecf9c412dbfb5287abdccb704

 

Bandit-Based 추천 시스템 공부 계획

*** 목표 *** 1. 어떤 상황에서 Bandit 기반 추천을 사용해야 하는지 이해합니다.  2. Bandit 기반 추천 논문에서 나오는 용어와 baseline 모델을 익힙니다.  3. Bandit 기반 추천 모델의 평가를 어떻게 할지

www.notion.so

Amazon ML 엔지니어인 Ankit Sirmorya의 포스팅

https://pub.towardsai.net/natural-language-processing-b36102774c37

 

Natural Language Processing

Reinforcement Learning in Recommendation Systems

pub.towardsai.net

 

 

Author : Luisa Zintgraf*, Kyriacos Shiarlis, Maximilian Igl, Sebastian Schulze, Yarin Gal, Katja Hofmann, Shimon Whiteson
Paper Link : arxiv.org/abs/1910.08348

JMLR Paper(2021) : https://jmlr.org/papers/v22/21-0657.html

Talk in ICLR2020: iclr.cc/virtual_2020/poster_Hkl9JlBYvr.html

Talk in NeurIPS2020 Workshop: slideslive.com/38938211

 

 

0. Abstract

  • 처음보는 환경에서 RL의 return을 최대화 하는데는 exploration과 exploitation의 trade off가 중요함
  • Bayes-optimal policy는 현재 환경의 state를 고려할뿐만 아니라 현재 놓여진 환경의 불확실성까지도 고려하여 최적의 trade off를 선택함
  • 하지만 Bayes-optimal policy를 계산하는 것은 작은 테스크에서만 가능하고 전체 테스크에 대해 계산하는것은 intractable함
  • 본 연구에서는 처음보는 환경에서 action을 선택할때, 적절한 inference를 하면서도 실시간으로 task의 불확실성도 다루도록 meta-learning을 하는 Variational Bayes-Adaptive Deep RL (variBAD) 알고리즘을 제안함

 

1. Introduction

  • Bayes-optimal policy는 현재 환경의 state를 고려할뿐만 아니라 현재 놓여진 환경의 불확실성까지도 고려하여, 처음보는 환경에서 최적의 exploration과 exploitation사이의 trade off를 선택함
  • Bayes-optimal policy는 Bayes-adaptive Markov decision processes (BAMDPs) 프레임워크로 계산할 수 있으며, 환경에 대한 belief distribution을 가지고 이 불확실성을 낮추는 한편 return 최대화라는 RL의 목적에는 저해되지 않는 exploration을 함 
  • Bayse-optimal policy의 성능은 해당 환경을 완전히 알고 있을때의 최적 policy에 bound 됨
  • 하지만 Bayes-optimal policy는 작은 task에서만 계산이 가능하며, 그외의 경우엔 intractable함
  • 이에 대한 tractable한 대안으로는 posterior sampling (또는 Tompson sampling) 이 있음
  • poterior sampling은 주기적으로 현재 MDP에 대한 가정(posterior)을 샘플링한 다음 이 가정을 전제로한 최적의 policy를 취함. 이 환경에 대한 가정은 다음 샘플링까지 유지됨
  • 하지만 이러한 posterior sampling에 의한 exploration은 매우 비효율적이므로 Bayes-optimal과는 크게 차이남.
  • 이 차이는 아래의 목표지점이 숨겨진 grid world 예시를 통해 볼 수 있음

  • (a) 목적지는 x이나 모르는 영역을 의미하는 회색 중 한곳에 해당
  • (b) Bayes-Optimal 의 경우에는 에이전트가 아직 불활실성이 있는곳을 탐색하며 구조적인 행동을 취함
  • 목적지를 모르는 상태에서 목적지가 있을거라고 생각하는 모든칸에 동일한 확률 (회색의 명도) 를 부여
  • 한편 (c) Posterior Sampling의 경우에는 목적지에 대한 가정을 샘플링 (빨간색 칸) 하고, 여기를 가기위한 최적의 행동을 취함. 그리고 데이터를 바탕으로 posterior를 업데이트한 뒤 다시금 샘플링 반복함.
  • 이는 샘플링에 따라서 이미 지나온 길을 중복으로 가는 등, 불확실성이 최적으로 줄어들지 않는 비효율적인 탐색임
  • (d)는 본 연구가 제안하는 알고리즘의 탐색과정으로, 1개 에피소드당 15번의 step을 간다고 할때 (e)의 비교에서 Bayes-Optimal에 근접하는 효율을 보여줌
  • 본 연구에서는 이러한 처음보는 (하지만 서로 어느정도는 기존 환경들과 공통점이 있는) 환경에 대한 효율적인 탐색 문제를 Bayesian RL, variational inference, 그리고 meta-learing으로 해결하고자 하며, 제안한 알고리즘을 variational Bayes-Adaptive Deep RL (variBAD) 이라고 명칭함.

2. Background

  • 기본적인 RL에 대한 내용은 생략

2.1. Traning Setup

  • 일반적인 meta-learing의 셋업과 같이 MPDs의 분포 $p(M)$을 가정하고 meta-training동안은 이 분포에서 MDP $M_i \sim p(M) $ 을 샘플링함
  • 이때  $M_i = (S, A, R_i, T_i, T_{i,0}, \gamma, H)$, 이며 $i$는 각 task를 의미 
  • Meta-training 동안엔 각 task에서 batch 데이터가 반복적으로 샘플링 되며, 이후 수집된 데이터를 통해 전체 tasks에 대해 에이전트가 더 높은 성능을 내도록 학습하는 learning to learn 과정이 진행
  • Meta-test 동안엔 새로운 task에 대해서 agent가 적응하는 모든 과정에 대한 평균적인 retrun을 평가기준으로 삼음
  • 이러한 meta-framework가 잘 동작하려면 다음의 두 가지가 필요함
    1. 현재 task와 관련된 task들로 부터 얻은 prior 지식의 활용
    2. Exploration과 eploitation의 trade off를 위해 행동을 선택할때 task의 불확실성을 추론

2.2. Bayesian Reinforcement Learning

  • Bayes-optimal policy는 Bayes-adaptive Markov decision processes (BAMDPs) 프레임워크로 계산할 수 있으며, 환경에 대한 belief distribution을 가지고 이 불확실성을 낮추는 한편 return 최대화라는 RL의 목적에는 저해되지 않는 exploration을 함 
  • RL의 베이지안 형태에서는, reward와 transition이 prior $b_0 = p(R,T)$에 따라 분포 해 있다고 가정
  • 또한 reward와 transition을 모르므로, 에이전트는 지금까지 한 경험 $\tau_{:t}=\left\{s_0, a_0, r_1, s_1, a_1, \cdots, s_t\right\}$ 에 대한 posterior인 belief $b_t(R,T)=p(R,T|\tau_{:t})$를 유지함
  • decision making을 할때 이러한 task에 대한 불확실성을 고려하게 하려면, belief space를 state space에 추가함. 즉, task belief가 포함된 새로운 state space인 hyper state를 정의 $s_{t}^{+} \in S^+= S \times B$
  • 이를 기존 RL objective 에 적용한, BAMDP framework의 RL objective는 다음과 같음.

H+는 여러 task들의 episode를 horizon을 더한 전체 horizon

  •  이 objective를 최대화 하는것이 Bayes-optimal policy이며, 자동으로 exploration과 exploitation을 조절해줌
  • 즉, 불확실성을 낮추면서도 return을 최대화 하는 행동을 취함
  • 하지만 이 최적화 문제를 푸는것은 intracterbla한데, 주요 원인은 다음과 같음
    1. 처음보는 MDP의 reward 와 transition모델을 모름
    2. Posterior의 계산은 주로 interactable함
    3. Posterior를 잘 도출하더라도 belief space상에서의 planning 역시 주로 interactable함
  • 이를 해결하기위해 저자는 reward와 transition, 처음보는 MDP에서 어떻게 inference를 할지, 그리고 task belief를 online return을 최대화 하는데 어떻게 활용할지를 동시에 meta-learn하는 방법을 제안
  • Inference기반으로서 planning없이 end-to-end로 동작하는 접근방법을 제안함

 

 

3. VariBAD: Bayes-Adaptive Deep RL via Meta-Learning

  • 여기선 이 paper의 핵심 concept인 variBAD를 설명하고자함
  • 먼저 처음보는, 즉 모르는 MDP의 reward와 transition을 표현하기위 해서 stochastic latent variable $m_i$를 사용하여 다음과 같이 쓸 수 있음

i 는 해당 unkown MDP의 true index

  • 이전 챕터에서 문제로서 언급한 바와같이 이러한 unknown MDP는 reward와 transtion 모델 그리고 index를 모르므로, 여기선 대신 $\tau_{:t}^{(i)}=(s_0, a_0, r_1, s_1, a_1, r_2 \cdots, s_{t-1}, a_{t-1}, r_t, s_t)$ 의 에이전트가 time step $t$까지 경험한 context를 바탕으로 $m_i$를 infer함
  • 즉, posterior distribution $p(m_i|\tau_{:t}^{(i)}$를 infer하는 방법으로 posterior가 intractable한 문제를 다룸과 동시에 unknown MDP의 reward와 transition을 infer된 stochastic latent variable로 parameterize 함
  • Posterior $q_\phi(m|\tau_{:t})$는 latent variable을 embedding하는 encoder의 역할로서 RNN 아키텍처를 가지며decoder를 붙여 학습함.
  • 이때 representation learning이 잘 되도록 decoder는 이전 state와 action이 들어왔을때 reward와 transition (dynamics) 을 잘 복원하도록 아키텍처를 구성함.
  • 또한 policy는 task의 불확실성을 의미하는 posterior에 근거하여 현재환경에서의 행동을 선택함
  • VariBAD 아키텍쳐를 그림으로 나타내면 다음과 같음

3.1. Approximate Inference

  • 처음보는 MDP의 transition과 reward를 모르며 모든 task에 대한 marginalising을 하는것은 불가능하므로 posterior를 정확히 계산하는것은 intractable함
  • 따라서 위에서 언급한 encoder-decoder구조를 사용한 posterior의 근사가 필요하며, 이는 VAE에서 사용한 접근법과 같음 (VAE는 유재준 박사님의 포스팅이나, 이기창님의 포스팅 참고)
  • $\theta$로 parameterized된 MDP의 dynamics 모델 $p_\theta(\tau_{:H^+}|a_{:H^+-1})$ 즉 decoder와  $\Phi$로 parameterized된 inference network $q_\Phi(m|\tau_{:t})$ 즉 encoder가 조합된 구조는 매 time step $t$마다 실시간으로 latent task $m_i$를 infer하는것이 가능하도록 함 
  • VAE의 ELBO objective형식으로 recontruction loss와 KL regulation loss를 구현해 보면,  복원하려는것이 행동선택에 따른 trajectory이므로 아래와 같음. 정확힌 dynamics를 복원하는것이므로 이때 $\tau$는 dynamics의 입력변수에 해당하는 행동정보는 포함하지 않음

  • 여기서 기존의 VAE와는 사뭇 다른 부분은 informational bottleneck 부분인데, 단순히 prior를 정규분포로 두던 VAE와는 달리 task를 포함한 hyper state에서는 처음 prior는 동일하게 $q_\Phi(m) = \mathcal{N}(0,I)$으로 주지만 이후부턴 이전 posterior인 $q_\Phi(m|\tau_{:t-1})$를 prior로 줌. 이는 posterior inference distribution이 task에 따라 adaptation되도록 하기위함
  • 또한 주목할 부분은 latent variable $m$이 추론되기위해 encoder가 사용한 정보는 과거의 정보이지만 $m$을 토대로 decoder가 복원하려는 정보는 과거와 미래를 포함한 전체 trajectory $\tau_{:H^+}$ 라는 점
  • 즉, 단순히 과거의 데이터를 representation하는것이 아닌, 과거의 데이터로부터 가보지 않은 state 또한 잘 추론 할 수 있도록 학습하는것으로, 이를통해 더 좋은 exploration을 위한 representation을 학습함
  • ELBO에서 reconstruction term은 구체적으로 다음과 같이 풀어쓸 수 있음

  • 이는 기존 VAE처럼 단순히 latent variable로부터 state와 reward를 복원하는 형태가 아닌, decoder에 이전 state와 action을 넣었을때 다음 state와 reward를 복원하는 interaction을 decoder가 학습하는것으로 dynamics 및 MDP를 inductive bias로 주어 representation learning하는 구조가 됨

 

3.2. Training Objective

  • 위에서 언급한 아키텍처는 DNN으로 구현되며, 다음과 같음
    1. $\Phi$를 파라메터로 갖는 encoder 역할의 posterior inference network $q_\Phi(m|\tau_{:t})$
    2. $\theta$를 파라메터로 갖는 decoder 역할의 근사 환경모델 transition $T^{'}=p_\theta^T(s_{i+1}|s_i,a_i;m)$ 과 reward $R^{'}=p_\theta^R(r_{i+1}|s_t,a_t,s_{i+1};m)$
    3. $\Phi$에 의존하여 $\psi$를 파라메터로 갖는 policy $\pi_\psi(a_t|s_t,q_\Phi(m|\tau_{:t}))$
  • Posterior는 distribution의 파라메터로 표현 가능 (e.g., $q$가 가우시안일 경우 평균과 표준편차)
  • 이를 종합하여 알고리즘의 최종 objective는 다음을 최대화 하는 것

  • 위 expectation은 Monte Carlo 샘플로 근사가 되며, $ELBO$는 VAE에서도 사용된 reparameterisation trick으로서 역전파를 통한 학습이 가능
  • 위에서 언급한 바와 같이 $ELBO$의 범위는 모든 가능한 context length $t$이고, 이렇게 함으로써 variBAD는 episode 중에 실시간 online adaptation이 가능해지며 데이터가 쌓일수록 환경에 대한 uncertainty가 줄어듬
  • 실제 구현에서는 $H^+$가 너무 클 수 있으므로 고정된 상수 만큼의 subsampling을 사용함
  • 위 objective는 end-to-end로 학습되며 $\lambda$는 Reinforcement Leraning ojbective와 Represention Learning objective사이의 weight 파라메터임
  • Policy가 posterior$\Phi$에 의존하는 만큼 RL loss는 encoder로도 타고 들어갈 수 있지만 별 효용이 있진 않으므로 실제 구현에선 역전파를 끊어주는것이 학습속도 측면에서 더욱 효율적이면서도 loss간 trade off 문제를 피할 수 있고 loss간 gradient가 간섭되는것도 예방할 수 있음
  • 때문에 이후 실험에선 VAE와 policy를 서로 다른 optimizer와 learning rate를 사용함
  • 또한 RL과 VAE를 다른 buffer를 사용하여 학습하는데, 이는 여기서 사용되는 RL알고리즘이 on-policy라 최근 데이터를 사용해야하는 반면 VAE는 전체 데이터를 사용하기 때문
  • Meta-test에선 랜덤하게 test task가 샘플되며 학습된 encoder와 policy가 gradient step없이 forward pass로만 adaptation 함

 

 

4. Related Work

  • 기존 meta-RL에는 여러 방법이 있는데, $\textrm{RL}^2$와 같은 blackbox 방법 역시 RNN을 사용한다는 공통점이 있지만, variBAD는 decoder가 붙어 단순히 hidden black box가 아니라 의도한 uncertainty 정보를 latent variable에 담기위한 representation learning이라는 차이점이 있음
  • 이 외에도 MAML과 같은 gradient step 방식의 meta-RL 알고리즘들과 비교해보면, 이 방법들은 feedforward policy만을 사용해 모델이 더 가볍다는 장점이 있으나 RNN 모듈을 사용하는 $\textrm{RL}^2$ 나 variBAD 는 구조적으론 복잡하지만 online adaptation이 가능하다는 큰 장점이 있음
  • Task embedding의 측면에서 다양한 기존 접근방식의 연구들이 있으나, variBAD는 task uncertainty를 unsupervised하게 representation learning한다는 것과 이를 policy가 의존함에따라 exploration과 exploitation의 trade off가 자동으로 된다는 차이점이 있으며 이러한 자동화된 trade off는 Bayes-optimal에 부합함
  • Bayesian RL의 측면에서 poterior나 prior를 활용한 연구가 여럿 있으나, variBAD의 차별점은 posterior를 업데이트 하는 방법 즉, inference과정을 meta-learn하는것임
  • BAMDPs는 POMDPs이 특수 케이스로 hidden state가 transition과 reward function을 내포하고 있으며 에이전트가 이에대한 belief를 고려하는것을 말함. 단, 일반적인 POMPDs는 hiddent state가 매 step 실시간으로 변할 수 있지만 BAMDP의 hidden task state는 task마다 고정됨

 

 

5. Experiment

  • 실험은 두가지 환경에서 진행되며 Gridworld에서는 variBAD가 structured exploration을 하는지를, 그리고 MuJoCo에서는 fast adaptation, 즉 첫번째 rollout에서 task에 잘 adaptation을 하는지를 증명하고자 함
  • 아래 실험들에서 variBAD는 A2C알고리즘을 사용함

5.1. Gridworld

  • 5x5 gridworld에서 랜덤하게 목적지가 선택되며 에이전트엔 알려주지 않아 탐색이 필요함
  • 에이전트는 매 에피소드마다 왼쪽 하단에서 시작하여 15 step 을 움직이고 다시 위치가 리셋 됨 '
  • 학습의 목표는 에이전트가 4개 에피소드 안에 목적지에 도착하는 것
  • 즉, MDP는 horizon은 $H=15$ 이나 meta-task에 대한 BAMDP의 horizon은 $H^+=4 \times H=15$가 됨
  • 에이전트는 골이 아닌 칸을 지날땐 -0.1의 reward를 받으며 목적지칸에 도착하면 +1을 받음
  • latent variable의 dimension은 5로 gaussian posterior를 사용하면 mean과 s.d. 각각의 10이 됨

  • 위 (a)의 실험 결과에서 보면, infer된 posterior belief를 approximated reward function에 입력으로 주어 각 칸이 목적지일 belief를 흰색-파란색으로 시각화 했으며 흰색은 확률이 0을 파란색이 진해질수록 목적지일 확률이 커지는것으로 보면 됨
  • step을 움직임에따라 지나간 칸의 확률은 0이 되고 남은 칸들의 확률은 올라가는것을 볼 수 있음에따라 variBAD가 belief를 실시간으로 embedding하도록 잘 학습된것을 확인할 수 있음
  • 또한 belief가 바뀜에 따라 에이전트가 방문하지 않은 곳을 선택하는 모습에서 structured exploration이 잘 학습된것을 볼 수 있음
  • 위 (b)에서는 belief의 변화에 따른 gridworld 각 칸의 예상 reward가 1일 확률을 시각화 했으며 (c)에서는 latent variable, 즉 belief disbribution을 시각화 함
  • 에이전트가 데이터를 탐색과 경험을 할수록 각 칸이 목적지일 확률이 하나 둘 0이 되는것을 볼 수 있으며, 약 20step이후엔 목적지에 해당하는 칸의 확률이 1에 수렴하는것을 볼 수 있음 
  • 마찬가지로 에이전트가 목적지를 찾음에 따라 그 이후엔 belief distrubution의 평균이 더이상 변하지 않고 표준편차는 대부분 0에 수렴하는것을 볼 수 있음 
  • 결론적으로, variBAD알고리즘이 처음보는 환경에 대한 exploration과 exploitation을 trade off하는 Bayes-optimal policy와 거의 유사하게 행동하는것을 볼 수 있음 

5.2. Sparse 2D Navigation

  • 반지름1인 반원을 따라 램덤하게 목적지가 생기며, 목적지로부터 0.2거리 안에 들어갈 경우 sparse한 보상을 받는 navigation 환경
  • Bayes-optimal behavior은 반원을 따라 탐색을 하는것

  • PEARL과 비교하면 variBAD가 meta-test에서 훨씬 빠르게 목적지에 도착했으며 RL2와 비교하면 training (3 epi)보다 더 길게 rollout을 했을 경우에서 훨씬 안정적인 움직임을 보여줌
  • PEARL은 posterial sampling을 하기때문에 각 episode내에서는 고정된 belief로인해 비효율적인 반복행동을 취하는 반면, variBAD는 한개의 episode 내에서도 belief를 업데이트 해가며 전략적인 탐색을하는 bayes-optimal에 가까운 모습을 줌 

5.3. MuJoCo Continuous Control Meta-Learning Tasks

  • 같은 meta-RL 알고리즘인 PEARL에서 사용된 MuJoCo locomotion task 4개에 대해서도 variBAD를 검증함 
  • AntDir과 HalfCheetahDir task는 에이전트로 하여금 forward와 backward 두개 방향을 달리도록하는 양방향의 두개 task를 가각 가지고 있음
  • HalfCheetahVel task는 에이전트가 여러 속도로 달리는 환경이며, Walker task는 에이전트의 dynamics 파라메터가 랜덤으로 정해지는 환경임

  • 위 결과는 기존의 각 task에 대해 meta-test에서의 adaptation 퍼포먼스를 기존의 meta-RL 알고리즘들과 비교한것을 보여줌
  • Expert은 PPO알고리즘으로 각각의 task에대해 model free 학습한 평균 결과이며, Multi-task는 task desctiption을 준 multi-task agent를 의미
  • 모든 task에서 $\textrm{RL}^2$와 variBAD를 제외한 다른 알고리즘들은 첫번째 에피소드에서 낮은 성능을 보여주었으며, 이는 해당 알고리즘들이 variBAD나 $\textrm{RL}^2$와 같은 실시간 adaptation이 아닌 few step혹은 episode단위의 adaptation이기 때문임
  • $\textrm{RL}^2$역시 첫 에피소드에서 variBAD보다 낮은 성능을 보여주었으며 adaptation에 따른 성능향상이 미미하고 RNN policy로인해 학습이 오래걸리며 성능이 불안정하다는 확실한 단점이 있음
  •  PEARL(포스팅)은 대표적인 posterior sampling알고리즘으로 약 세번째 에피소드부터 좋은 성능을 보여줌
  • 결과적으로 variBAD는 단일 에피소드만으로도 충분한 빠른 adaptation을 보여주면서도 multi-task에 가까운 성능을 보여줌
  • 단, MuJoCo에선 (dynamics가 변하는 Walker포함한 경우에도) transition decoder를 함께 사용하는것보다 reward decoder만 사용하는것이 더 좋은 성능을 보여주었으며 위 그래프는 단일 decoder를 사용해 학습한 결과임

5.4. Meta-World

  • 좀더 다양한 task에 대한 generalization을 다루는 로봇팔 benchmark환경인 Meta-World ML1에서 성능 검증

  • Reach와 Push 문제를 모두 해결하면서 큰 차이로 기존 알고리즘들보다 빠르면서도(2 episode이내) 뛰어난 성능을 보여줌
  • 어려운 문제인 Pick-Place에서는 PEARL과 유사한 성능을 보여주었는데, 이는 meta-training에서 탐색이 부족 (meta-exploration challenge)하여 생기는 한계로 저자는 추정

 

6. Empirical Analysis

6.1. Modelling Horizon

  • VAE에서 reconstruction을 전체 다 하는 경우(variBAD)와 과거만 하는 경우, 미래만 하는경우, 그리고 1step미래만 하는 경우에 대해 결과를 비교분석함
  • 이미 관측된 transition과 앞으로 관측할 transition의 분포를 모두 belief에 담고자한것이 variBAD에서 주장한 모델링의 이유

  • 실험 결과 origial VAE와 같이 과거만 복원하는것은 suboptimal성능을 보여주었고, 다음 step만 복원하는것은 AntGoal에서 낮은 성능을 보여줌
  • 미래만을 복원하는것은 성능상으로는 괜찮았지만 아래 Gridworld실험을 통해 이 역시 부족한 점이 있다는것을 확인

  • GridWorld에서 과거만 복원하거나 다음 step만 복원하는것은 목적지에 도착하기 전까지 잘못된 belief를 학습 (Figure 7b,d)
  • 미래를 복원하는것은 방문전인 state들에 대한 reward belief를 나쁘지 않게 학습하였지만, 이미 방문한 상태에 대에선 잘못된 belief를 보여줌 (Figure 7c)

6.2. KL Regularisation

  • VAE에서 KL term을 origial VAE와 같이 고정된 normal distribution으로 할 경우, 이전 posterior를 piror로 하여 서로 닮도록 하는 경우 (variBAD), variBAD과 같이 이전 posterior를 prior로 활용하나 gradient는 끊어주는경우, KL term을 제거할 경우에 대해 비교분석함

  • 고정된 prior를 사용할 경우, 성능적으로는 dense reward에선 괜찮고 sparse reward에선 안좋았으나 variance를 분석해보면 normal distribution에 과잉 fitting되려하여 Gridworld에서 목표점에 도달직후 variance가 확 증가함
  • KL을 사용하지 않을경우 variance가 학습이 전혀 되지 않음
  • Grandient를 detach할 경우엔 성능면에서나 variance면에서나 모두 나쁜 결과를 보여줌

6.3. Belief Demensionality

  • Latent dimension이 바뀜에 따라 성능이 어떻게 변하는지를 실험함

  • 실험결과, 아주 작은 dimension으로 인한 underparameterised가 아닌 이상 latent dimension의 크기는 큰 영향을 주지 않았으나, 조금이지만 서서히 성능이 줄어들긴 함

 

7. Conclusion & Future Work

  • 본 연구에서는 서로 연관된그리고 처음보는 task를 inference하는것을 meta-learn하는 접근을 통해, Bayes-optimal의 행동양상을 근사하는 deep RL 방법인 variBAD를 제안함
  • Gridworld 실험에서는 bayes-optimal과 같은 exploration과 exploitation의 trade off성능을 보여주었으며, MuJoCo실험에서는 하나의 에피소드만에 성능을 내는 빠른 adaptation을 보여주어 이를 검증함
  • 향후 가능한 연구로는 decoder구조를 사용하여 meta-model based RL이 있으며, distribution shift의 OOD 문제를 풀기위해 알고리즘을 개선해볼수도 있음
  • 또한 PEARL에서와 같이 off-policy RL알고리즘에 variBAD를 적용해볼 수 있음

 

7. 개인적인 생각

  • VariBAD는 PEARL과 매우 비슷한 아키텍처를 사용하고 있다. 단 PEARL이 belief를 episode동안엔 유지하고 있는것과는 달리 variBAD는 step마다 업데이트하는 차이가 있다. 이에 대해 저자는 RNN encoder를 사용하고 있어서 가능하다고 언급하는데, RNN의 사용이 시간에 따라 서로 연관된 temporal hidden state 표현이 가능하도록 만들기 때문이라고 한다. 재밌는건 PEARL역시 RNN을 사용하긴 했으나 성능적인 면에선 오히려 떨어진다고 하고, RNN도 correlation을 끊어주었을때 그나마 성능이 비슷해진다고 했다. 즉 PEARL은 RNN에 의한 data correlation이 task inference를 오히려 더 어렵게 만든다고 주장한다. 하지만 variBAD의 결과를 보면 크게 문제되지 않아보인다. encoder를 학습할때 decoder에다 전체 horizon을 다 넣어서 그런가 싶기도 한데, 이부분을 좀 더 자세히 비교하면 좋겠지만 PEARL의 github 구현에서는 아직도 RNN이 TBD 상태이다. 
  • 또한 PEARL은 decoder가 Q-functon인데 반해 variBAD는 dynamics와 reward를 복원한다. 사실 dynamics를 복원하는건 PEARL에서도 사용했는데 성능이 별로라 그냥 Q를 사용했다고 했다. 하지만 variBAD도 MuJoCo실험에서는 dynamics의 복원보다 reward만 복원하는게 더 성능이 좋았다고 한다.
  • PEARL이후에 PEARL의 저자는 variBAD와 같이 Hyper state를 사용하여 이미지 기반 meta-RL에 PEARL을 적용하는 논문인 MELD를 낸다. MELD에서는 이미지를 학습하기위해 Hyper state를 사용하는 SLAC의 아키텍처를 가져오는데, MELD와 SLAC는 실시간 hidden state의 업데이트를 위해 latent dynamics, 즉 temporal dependency를 갖도록 latent variable을 학습한다. 이러한 latent dynamics구조를 사용하면 RNN없이도 실시간 temporal hidden state의 표현이 가능해진다고 한다. 따라서 variBAD에서 처럼 latent dynamics에 RNN을 활용하지 않고 latent dynamics만 잘 학습하도록 하면 충분히 실시간 embedding이 되면서도 가벼운 encoder를 구현할수 있는것 같다. 하지만 이 SLAC아키텍쳐가 구현에 있어서 은근히 번거로운 부분이 있고 action에 대한 response delay가 큰 시스템에서는 잘 동작을 할지 의문이 들긴한다. 
  • Representation learning과 관련해서는 Chelsea Finn 교수님 연구실에서 나온 논문인 LILI가 생각난다. 최근 RL의 문제는 representation power에 있다는 의견이 많은데, 이 때문에 representation learning을 RL에 붙이려는 시도가 매우 활발하다. LILI는 이러한 representation learning을 multi-agent 문제에 적용하여, interation trajectory로부터 상대방의 의도를 latent variable에 담는 시도를 하는데, real-world RL 측면에서 재밌게 읽어서 저자에게 메일을 보냈다. LILI에서도 VariBAD와 마찬가지로 task의 MDP를 inductive bias로 주어 latent space를 학습하려는 시도를 했다.
  • Inference 타입의 Meta-RL인 PEARL이나 variBAD역시 representation으로 meta-learning을 학습하는 구조인데, 사실 두 알고리즘 모두 어떻게 encoder와 decoder를 구성해야 latent task를 잘 학습할지 많은 시도를 한 흔적이 보인다. 하지만 아직은 이론과 실험과정에 사용한 조건이 사뭇 다른 등의 차이로 인해 명확하게 이론의 근거가 와닿지 않는 부분이 많다. 이 representation learning은 특히 지금 내가 연구하고있는 medical field에서도 잘 활용해볼 수 있을 것 같아 적용 중인데, 작게나마 결과를 볼 수 있었다. 앞으로 더 분석을 해보고 real world 실험에서도 잘 되면 medical-representation learning에 대해서 정리를 해볼까 싶다. 

 

 

 

 

스마트폰으로 제어 가능한 제품들 출시

애플의 아이폰이 출시된지 10여년이 지났지만, 스마트폰을 사용하여 제어 가능한 동시에 FDA승인을 받은 당뇨병 의료기기의 상용화는 환자들의 큰 니즈에도 좀처럼 이루어지지 않았습니다. 하지만 2020년부터 이러한 스마트폰 기반의 제어 기능은 상용 제품들에서 하나둘 보이기 시작했습니다.

 

Tandem Diabetes Care

스마트폰 기반 식사인슐린 주입 (mobile bolusing): Tandem  Diabetes Care는 2020년말 모바일 식사인슐린 제어가 가능한 t:connect app 앱 기능을 FDA에 승인 신청하였습니다.

실제로 Tandem Diabetes의 CEO John Sheridan은 2020년 11월에 "모바일 앱으로 식사인슐린을 주입가능하게 된다면, 사용자들이 집 밖에선 펌프를 꺼낼 필요가 없어질것" 이라고 이야기 했으며, 이는 Tandem의 2012년 t:slim 출시 후 첫번째 새로운 폼팩터인 t:sport 미니 펌프의 출시예정 소식과 함께 더욱 기대가 되고 있습니다.

t:sport 미니 펌프: Tandem  Diabetes Care는 스크린이 없으며 기존 t:slim x2의 절반 크기인 패치형 펌프 t:sport를 출시할 예정입니다. 원래 계획은 2020년에 FDA에 승인을 신청하는것이었지만 코로나19로 인해 임상시험과 신청이 늦어졌습니다. 아마도 2021년 초에 신청할것으로 예상되며 하반기에는 출시를 할것으로 기대됩니다.

Tandem t:slim (위) 과 출시 예정인 t:spot (아래)

Control-IQ 알고리즘: Tandem 의 하이브리드 인공췌장 알고리즘인 Control-IQ또한 2021년중에 개인화 측면에서 좀더 향상된 업데이트를 할것으로 기대되고 있습니다.

 

 

Insulet Corp

Omnipod 5 (Omnipod Horizon): Tandem사의 Control-IQ와 같이 Omnipod 5 역시 인공췌장시스템으로서 기존의 PDM기기 없이 스마트폰과 CGM과 Omnipod을 통해 자동화된 인슐린 주입을 합니다. CGM은 우선 Dexcom CGM과 연동이 가능하며 추후에 Abbott사의 FreeStyle Libre와도 연동될 예정입니다. Omnipod5 역시 2020년에 승인을 신청하기로 했지만 코로나19로 연기가 됐으며, 최근 pivotal 시험을 마치고 FDA 승인 신청 준비를 마무리 중이라고 합니다. 아마도 2021년 상반기에 출시할것으로 기대되고 있습니다.

 

 

 

새로운 인슐린 펌프와 CGM 출시

위 제품들 외에도 인슐린 펌프와 CGM에서의 새로운 제품도 출시예정입니다. 물론 아직은 스마트폰을 사용한 제어가 불가능하지만, Tandem과 Insulet의 FDA의 승인후엔 이 제품들 역시 스마트폰 기반의 제어가 좀더 보편화될것으로 예상됩니다.

 

Medtronic Diabetes

MiniMed 780G: 향상된 하이브리드형 폐루프 (AHCL) 시스템으로 불리는 Medtronic사의 차세대 제품 MiniMed 780G가 출시예정입니다.  첫 하이브리드 인공췌장인 670G과 추후의 기술업데이트를 위해 블루투스 기능이 내장된 770G에 이은 제품입니다. 780G는 다음의 몇가지 특징이 있습니다.

  • 새로운 차세대 CGM인 Zeus CGM 센서와 함께 연동될 예정으로, 이 센서는 첫 채혈 보정이후엔 7일의 사용기간동안 채혈이 전혀 필요 없는 제품입니다. 
  • 매 5분마다 자동 식사 인슐린 보정기능을 제공합니다
  • 목표혈당이 120 mg/dL으로 고정된 670G와 달리  100 에서 120 mg/dL 사이에서 조정가능합니다.
  • 기존 상용 시스템과는 다른 인슐린 활성 시간을 제공합니다. 
  • Tandem t:slim X2와 같이 블루투스로 소프트웨어 업데이트가 가능하여 새로 제품을 살 필요가 없습니다.

Medtronic은 본 시스템이 2살 이상부터 사용가능하도록 FDA에 요청할 계획이며, 2021년 2월에 승인신청을 할것이라고 합니다. 승인기간에 따라 올해 안해는 상용화가 가능할지도 모르겠습니다.

 

Dexcom

G7 CGM: 기존의 CGM 폼팩터에서 크게 바뀐 센서와 트랜스미터가 통합된 디자인의 CGM을 출시할 예정입니다. Dexcom은 2021년 초에는 FDA에 승인을 신청할 예정이라고 하며 늦어도 올해 안에는 출시를 진행할 계획이라고 합니다. 특히나 최근 제품의 프로토타입이 공개되어서 많은 유저들을 흥분케 만들었습니다.

G7의 알려진 특징은 다음과 같습니다.

  • 모듈이 없는 완전 1회용 구조
  • G6의 10일에서 더 길어진 14~15일의 사용기간
  • G6 대비 60% 얇은 두께
  • 복약/주입 결정 서포트. Dexcom사가 2018년에 Virginia 대학교 출신의 인공췌장 알고리즘 개발 스타트업인 TypeZero Technologies를 인수함에 따라, G7부터는 이러한 환자의 건강관련 의사결정을 돕는 소프트웨어가 제공될수 있다고합니다. 이는 제1형 제2형 당뇨병 뿐만아니라 당뇨병이 아닌 사람을 위한 CGM의 확장이라는 회사의 목표를 촉진할것입니다.
  • 환자의 당뇨병 유형 혹은 사용자에 따라 다른 버전의 기기

Abbott

FreeStyle Libre 3: 스캔이 필요했던 이전 버전과 달리 CGM 기능을 완전히 탑재한 Libre 3에 대한 기대도 큽니다. 특히나 쿼터동전 2개 두께인 이전 버전에 비해 훨신 얇아진 패니동전 2개 두께로 얇아집니다. Abbott에 따르면 크기는 70% 줄어들었고 플라스틱은 41% 적게 사용한다고 한다고 합니다. 상용화를 위한 FDA승인 신청은 아마도 2021년 중에 이루어질것으로 예상됩니다.

 

WaveForm

Cascade CGM: 2019년 유럽 CE승인을 받은 CGM인 WaveForm사의 Cascade CGM이 FDA 승인신청을 준비중입니다. 기존의 CGM들과 같은 측정방식 및 폼팩터를 가지고 있으나 정확도는 상대적으로 떨어지는 편이며, 15일의 사용기간 그리고 충전식 트랜스미터라는 특징을 가집니다. 2021년 중에 승인 신청을 계획중이며 연중 미국 출시를 목표로 하고 있습니다.

 

삼성전자

갤럭시 워치4: 삼성전자가 올 하반기에 선보일 스마트워치 신제품인 '갤럭시 워치4'에 혈당측정기능을 탑재한다고 합니다. 삼성전자가 보유한 광학센서를 사용한 라만분광법에 기반의 비침습식 혈당측정 기술은 앞서 MIT 연구팀과 공동연구로 국제 학술지 'Science Advances'에 게재된 바 있습니다. 비침습식 혈당 측정으로는 상당히 높은 정확도를 보이지만 침습형 혈당 측정과 비교하면 정확도가 떨어질 수 밖에 없으므로 실제 갤럭시 워치4 탑재 시 어떤식의 사용이 추천 될지 기대되고 있습니다. 물론 식약처의 허가 역시 관건입니다. 삼성전자 뿐만 아니라 애플 역시 올해 선보일 '애플워치7'에 무채혈 혈당 측정 기능을 적용할 예정이라는 추측이 있으며, 이 외에도 필로시스헬스케어, 퀀터 오퍼레이션 등 여러 회사에서 당뇨병 관리의 숙원인 비침습식 혈당측정 기기의 초기 제품을 출시 및 준비 중에 있습니다.

 

 

 

커넥티드 인슐린 펜 출시

2020년 Companion Medical사의 커넥티드 인슐린펜 제품인 InPen이 출시된 이후, 데이터 연결 기능이 있는 새로운 스마트 인슐린 펜들의 출시가 활발해 지고 있습니다. 

 

Bigfoot Biomedical

Bigfoot Unity: DIY 운동에서 출발한 closed loop 테크 스타트업인 Bigfoot Biomedical이 그 첫번째 제품으로서 인슐린 펌프가 아닌 커넥티드 인슐린펜을 출시한다고 합니다.  FreeStyle Libre와 연동되어 자동적으로 인슐린 주입량을 계산해주는 Bigfoot Unity 시스템은 2020년 중반에 FDA에 승인신청을 했습니다. Asante사의 Snap 인슐린 펌프를 인수한 Bigfoot사는 최종적으로 인슐린 펌프 기반의 closed loop 시스템인 Bigfoot Autonomy의 출시를 목표로 하고 있으며 이는 아마도 내년 혹은 내후년이 될것으로 예상됩니다.

 

Eli lLilly

커넥티드 펜: 거대 제약업체인 Lilly 역시 새로운 커넥티드 스마트펜을 2021년 하반기에 출시예정이라고 합니다. 이 커넥티드 펜은 미리 인슐린이 채워져 있는 1회용 인슐린 펜이며 Lily사의 새로운 펜 기반 디지털 플랫폼을 이끌 예정입니다. 연결될 CGM은 Dexcom 사의 CGM이며 추후에 다른 CGM 개발사와도 파트너쉽도 맺을 가능성이 있습니다.

 

Novo Nordisk

Novo 스마트 인슐린펜: Novo Nordisk사의 새로운 스마트팬 NovoPen6와 아동용 Echo Plus 모델도 기대됩니다. 이 제품들은 유럽승인을 받았고 2020년 유럽에서의 출시를 예상했으나 현재로서는 2021년으로 모두 미뤄진것으로 보입니다. 

 

 

 

그 외 기대되는 당뇨병 관련 기술

위의 상대적으로 이름이 있는 기업들의 제품 외에도 올해 기대되는 다른 기술들이 있습니다.

 

Tidepool

Tidepool Loop: 비영리 오픈소스 단체인 Tidepool이 DIY 및 FDA의 관리하의 상용화 측면에서 closed loop시스템을 만들고 있습니다. 유저들이 직접 만든 DIY 시스템에 기반하여 Tidepool Loop 모바일 앱은 Dexcom사의 CGM과 Insulet사의 Omnipod 패치펌프와 연동될 예정이며 우선은 iOS에서 사용가능하도록 출시될 예정입니다. Tidepool은 2020년 12월에 FDA에 승인신청을 제출했으며 2021년에는 승인이 될것으로 기대가 됩니다. 

 

Zealand Pharma

HypoPal Rescue Pen: 이중호르몬 펌프로 유명한 BetaBionics사의 파트너쉽 제약회사로 알려진 Zealand Pharma가 만든 HypoPal Rescue Pen이 2021년 3월 27일 FDA의 승인을 받을것으로 예상됩니다. 이 회사는 2020년 5월 새로운 안정한 액상형 글루카곤인 dasiglucagon의 사용 승인을 신청한 바 있으며, 이는 Eli Lilly사와 Xeris Pharmaceuticals에 이어 세번째 즉시 사용가능한 글루카곤 펜이 될 예정입니다. 임상연구에서 10~15분의 혈당 정상화라는 좋은 효과를 보임에 따라 해당 약제의 승인은 Beta Bionics사의 이중호르몬 기반 인공췌장 시스템인 iLet에 대한 기대도 갖게 합니다.

MannKind Corp.

BluHale: 호흡형 인슐린인 Affrezza의 제조사로 알려진 Mannkind Corp사는 사용자를 위한 블루투스 연결버전의 Affrezadls BluHale을 출시합니다. 이미 의료진을 위한 BluHale Pro를 출시한 바 있으며 안드로이드, 아이폰, 마이크로소프트 사의 제품과 블루투스 통신으로 연동되어 Afrezza가 적절히 흡입되었는지를 알려주면서 사용 데이터를 저장 및 공유합니다. MannKind사는 올해 FDA에 승인 신청을 할 예정이라고 하며 마찬가지로 출시를 기대한다고 전했습니다.   

 

 

 

*본 글은 아래 healthline의 기사를 토대로 작성되었습니다.

www.healthline.com/diabetesmine/new-diabetes-technology-coming-in-2021?fbclid=IwAR1onCAAPje404FZEysLCl-cfsKbreRM6eVw6oaZmWX6doiBcIxYjMbvZfk#More-new-insulin-pumps-and-CGMs

 

Author : Annie Xie, Dylan P. Losey, Ryan Tolsma, Chelsea Finn, Dorsa Sadigh
Paper Link : arxiv.org/abs/2011.06619

Website : sites.google.com/view/latent-strategies/

Talk : www.youtube.com/watch?v=-gCFcgb08jo

 

Author : Tony Z. Zhao*, Anusha Nagabandi*, Kate Rakelly*, Chelsea Finn, Sergey Levine
Paper Link : arxiv.org/abs/2010.13957

Website : sites.google.com/view/meld-lsm/home

Code: https://github.com/tonyzhaozh/meld

Talk : https://youtu.be/P7Z68dRvne4

 

  • PEARL의 이미지 input 버전
  • PEARL에다 SLAC에서 사용한 latent dynamic를 활용
  • 실제 로봇으로 real world에서 meta-RL을 검증한 첫(아마도?) 사례이기 때문에 의의가 있음

Author : Homanga Bharadhwaj, Aviral Kumar, Nicholas Rhinehart, Sergey Levine, Florian Shkurti, Animesh Garg
Paper Link : arxiv.org/abs/2010.14497

Website : sites.google.com/view/conservative-safety-critics/home

OpenReview : openreview.net/forum?id=iaO86DUuKi

Talk : TBD

Video : www.youtube.com/watch?v=1E6wtSSL2Zs

 

Author : Andrew C. Miller, Nicholas J. Foti, Emily Fox
Paper Link : https://arxiv.org/abs/2008.02852

 

애플의 혈당예측 논문

Author : Matthew Botvinick, Jane X. Wang, Will Dabney, Kevin J. Miller, Zeb Kurth-Nelson
Paper Link : https://doi.org/10.1016/j.neuron.2020.06.014

 

 

0. ABSTRACT

  • 최근 몇 년간 뇌 기능 모델(i.e. vision, audition, motor control, navigation, cognitive control)에 근간한 딥러닝에 대한 연구 크게 급증함
  • 하지만 그 중 Supervised Learning(SL)을 활용한 개념적 접근은 과거에 이미 많이 논의되어온 부분이며, 컴퓨팅 성능 및 데이터의 향상으로 재조명 받는 것
  • 이에 여기선 신경과학자들에게 생소하지만 신경과학과 매우 긴밀한 연관성을 가지고 있는 Deep RL에 대해 리뷰하고 open challenge들에 대해 논의하고자 함
  • 물론 RL역시 신경과학 연구에 영향을 많이 주어왔지만, 딥러닝과 결합되어 실질적인 결과를 보여주며 열매를 맺기 시작한건 불과 몇 년 안됨.
  • 이러한 성과들은 뇌b의 주요 기능에 대해 흥미로운 접근을 가능하게 하면서 신경과학에서 아직 밝혀지지 않은 부분에 대한 더 많은 연구기회를 제공함 

 

 

1. AN INTRODUCTION TO DEEP RL 

  • (이 챕터는 RL의 복잡한 문제에 대한 한계를 딥러닝이 해결했다는 내용으로, 신경과학자를 대상으로한 Deep RL의 보편적 설명에 해당하여 정리는 생략)
  • Deep RL을 quantom jump하게 한 DQN알고리즘은, 의의가 그 성능보다 RL문제를 SL화 하여 얻은 안정성에 있음을 강조

 

 

2. DEEP RL AND NEUROSCIENCE 

  • Deep neural network(DNN)이 실제 신경의 representation에 대한 매우 좋은 모델이라는 것은 Convolution Network를 통해 이미 증명됨
  • 하지만 이러한 신경의 모델링을 통한 연구는 지금까지 대부분 SL을 사용하였기 때문에, 생물의 sensory-motor loop에서의 동기 및 목적 지향적 행동을 이해하는것과는 거리가 있음
  • 반면 RL은 생물의 학습과 결정에 대한 신경학적 메커니즘에 있어 강력한 이론을 제공:
    1. Reward-prediction error (RPE)로서의 도파민 뉴런의 활성을 설명 
    2. 보상기반의 학습과 의사결정에 있어서 뇌 구조에 따른 역할을 설명
  • 딥러닝에선 representation이 어떻게 학습되는지가 중요하며, RL에선 보상이 학습을 어떻게 가이드 하는지가 중요
  • 하지만 Deep RL에서는 딥러닝과 RL 두 분야의 단순한 결합 이상의 현상을 확인 가능하며, 신경과학에 있어 새로운 원리, 가설, 및 모델을 제공함 

A. CNN 구조와 실제 뇌의 기능적 표현 구조의 유사성 비교, B. 음식보상의 예측에 따른 도파민 신경의 활성도(왼쪽)와 temporal difference RL 모델에서의 RPE (오른쪽)의 유사성 비교, C: 보상 기반 의사결정 task를 deep recurrent RL에 적용한 결과와 실제 원숭이에서의 결과의 유사성 비교 

 

 

3. VANGUARD STUDIES (선행연구)

  • 많은 연구들이 deep RL을 신경학적 관점에서 설명하고 있지만, 실제 신경 데이터에 deep RL을 적용한 경우는 거의 없으며 시작된지 불과 2~3년 남짓 되는 분야임
  • 일부 연구에서는 기존의 딥러닝 혹은 SL을 활용한 신경과학적 연구 접근법을 그대로 RL을 사용한 신경과학 연구에 적용함
    - Song et al. (2017) 에서는 recurrent deep RL 을 실제 신경과학에서 사용된 task에 대해 학습했을 때, 신경망의 unit에서 보이는 활성 패턴이 실제 원숭이 실험에서의 dorsolateral prefrontal, orbitofrontal 및 parietal cortex에서의 패턴과 연관성이 있음을 확인
    - Banio et al.(2018) 에서는 SL과 deep RL을 결합하여 entorhinal cortext에서 발견되는 그리드형 표현이 rat의 navigation 능력을 어떻게 향상시키는지를 보여줌  
  • 앞서 강조한 바와 같이 deep RL에선 딥러닝과 RL 각각의 기존 특징 이상의 현상(ex. Meta-learning)이 나타나며, 이를 신경과학에 적용한 연구들이 최근 이루어짐
    - Wang et al. (2018) 에서는 RNN에 기반한 deep RL이 네트워크의 파라메터 업데이트 없이 뉴런의 activation 변화 만으로도, 새로운 task에 빠르게 적응하는 Meta-RL의 특징을 지니는것을 확인하였음. 즉, 네트워크 파라메터 수준의 'Slow RL'기반 학습만으로도 hiddend state에 의한 네트워크 activation에 의한 빠른 적응을 의미하는 'Fast RL'이 가능한 activation역학을 습득할 수 있으며, 이는 신경과학에서의 강화학습 역시 신경의 활성기반 working memory가 뒷받침한다는 사실 (Collins and Frank, 2012) 과 유사함. 또한 이러한 mera-RL 효과가 이전 신경과학 연구에서의 도파민과 prefrontal cortext에 대한 발견들을 어떻게 설명하는지를 보여줌 

 

4. TOPICS FOR NEXT-STEP REASEARCH

  • 작성중

 

4.1. REPRESENTATION LEARNING

  •  

4.2. MODEL-BASED RL

  •  

4.3. MEMORY

  •  

4.4. EXPLORATION

  •  

4.5. COGNITIVE CONTROL AND ACTION HIERARCHIES

  •  

4.6. SOCIAL COGNITION

  •  

5. CHALLENGES AND CAVEATS

  •  

 

 

+ Recent posts