Author : Kate Rakelly*, Aurick Zhou*, Deirdre Quillen,  Chelsea Finn, Sergey Levine
Paper Link : https://arxiv.org/abs/1903.08254

Talk in NeurIPS2020 Workshop: slideslive.com/38938215

 

0. Abstract

  • 기존의 meta-RL (meta-Reinforcement Learning)은 on-policy 기반으로 샘플링이 비효율적이거나, task의 불활실성에 대한 구조적인 탐색이 불가능함
  • 이에 policy와 별개로 task inference가 가능한 off-policy 기반의 meta-RL 알고리즘을 제안함
  • 제안된 방법은 gradient step없이 task의 확률이 online으로 도출 가능하며, 기존의 meta-RL 알고리즘 대비 20~100배의 샘플 효율성을 보여줌

1. Introduction

  • 현재 대부분의 meta-RL은 meta-training과 adaptation에서 모두 on-policy data를 필요로 함
  • Adaptation은 새로운 task에대한 빠른 학습을 특징으로 하여 on-policy가 큰 문제는 아니나, meta-training에서의 on-policy training은 매우 낮은 샘플 효율성을 야기하므로 off-policy RL을 meta-training에 적용할 필요가 있음
  • 하지만 meta-training과 meta-test의 adaptation 데이터 구조가 일치해야하는 근본적 제약으로인해 off-policy meta-RL은 근본적으로 어려움
  • 이에 이 연구에서는 meta-RL을 context connoted blackbox 나 bi-level optimization의 adaptation과 policy가 결합된 구조로 보는 기존의 접근과 달리, inference problem으로 해석
  • 즉, meta-training동안 데이터의 posterior를 먼저 inference하도록 probabilistic encoder를 학습하며 이를 토대로 policy가 task를 수행
  • 마찬가지로 Meta-testing에선 학습된 encoder에 의해 새로운 task의 latent variable을 inference한 뒤 이를 바탕으로 policy의 구조적인 탐험 및 빠른 adaptation을 수행
  • 이와같이 task inference가 policy로부터 분리된 구조는 meta-policy의 exploration 및 optimization 과정 없이도 online task inference를 가능하게 함
  • 또한 분리된 학습으로 인해 meta-training의 데이터 구조와 meta-test 데이터 구조가 달라도 돼 off-policy meta-RL을 가능하게 함
  • 즉, policy는 off-policy RL로 효율적으로 최적화 되는 반면, encoder는 on-policy data를 사용해 task inference를 학습하고 수행함으로써 meta-training과 meta-test사이의 불일치성을 최소화
  • 저자 Kate Rakelly는 이 알고리즘을 probabilistic embedding for actor-critic RL (PEARL)이라 명명 
    (github도 이름을 oyster 로 지은걸 보면 재밌는 이름이긴 하나 사실 와닿진 않는듯 하다)

 

2. Related Work

a) Meta-learning:

  • 새로운 task를 빠르게 학습하는것을 목표로 하는 meta-RL은 크게 context-based meta-RL과 gradient-based meta-RL로 나눌 수 있음
  • Context-based 방법은 수집된 데이터로 부터 task의 latent representation을 학습하고 이를 policy의 condition으로 사용하는것으로, 주로 RNN을 사용
  • Gradient-based 방법은 빠른 초기 학습을 학습하는 bi-level optimization으로, on-policy 데이터 기반의 policy gradient를 사용
  • PEARL은 context-based 기법이나 RNN대신 encoder를 사용했으며, gradient-based 기법과 달리 off-policy 데이터를 사용하는 차이가 있음

b) Probabilistic meta-learning:

  • Probabilistic model을 supervised learning혹은 reinforcement learning 에 적용하는 연구는 많이 있어옴
  • PEARL은 특히 task의 uncertainty를 확률분포로 표현하는 probabilistic latent task variable을 활용

c) Posterior sampling:

  • RL에서의 posterior sampling은 측정한 MDPs 데이터에 대한 posterior을 샘플링하고 시간적으로 과거의 경험과 겹치지 않는 최적의 행동을 새롭게 탐색하는것을 의미
  • PEARL은 이 posterior samping을 meta-learning의 관점으로 해석하여, 과거 경험한 task의 uncertainty를 확인하고 새로운 task를 구조적으로 탐색하는데 활용 

d) Partially observed MDPs:

  • Task를 state에 포함된 개념으로 본다면, uncertanty가 높은 task를 기본 배경으로 하는 Meta-RL은 일종의 partially observed MDPs (POMDP)로 볼 수 있음
  • PEARL은 새로운 task에 대한 probabilistic belief inference를 위해, POMDP 문제에 사용되는 variational 접근을 활용.

3. Problem Statement

  • Meta-RL은 기존의 task들로 부터 meta-policy를 학습하는 meta-training과, 학습된 meta-policy로부터 빠르게 새로운 task에 적응하는 adaptation 의 두가지 반복 loop로 구성됨
  • Adaptation의 샘플링 효율은 meta-RL의 본질과 부합하므로 큰 문제 없으나, meta-training에서의 샘플링 효율은 기존의 RNN, policy gradient 방식의 on-policy기반 알고리즘으론 매우 낮음 
  • 이는 Real world에 meta-RL을 적용하는데 있어서도 큰 장애물이 됨 
  • 이에 저자는 off-policy meta-training 알고리즘을 제안함
  • Task의 정의는 다음과 같음

각각 {initial state distribution, transition distribution, reward fuction}

  • 이 3가지 요소 중 어느 하나라도 다르면 다른 task로 간주
  • 실직적으로 task를 바탕으로 수집된 데이터는 그 task를 상징하는 context $c$라는 추상적 개념을 가지고 있다고 보며 명시적으로는 하나의 MDP transition으로서 다음과 같이 표현

n번째 step의 (state, action, reward, next state)

  • 이때, Meta-RL은 transition distribution과 reward function을 모르는 상황에서 training task들을 학습하여 새로운 task를 마주했을때 빠르게 policy를 찾는 문제

 

4. Probabilistic Latent Context

  • task의 최근 context로 task에 대한 latent probabilistic context variable $Z$를 추론 했을때, 이 latent variable을 조건으로한 policy $\pi_{\theta}(a\mid s,z)$ 를 최적화 하면서 얼마나 성능이 좋은지를 바탕으로 $z$가 적절히 추론되었는지를 판단

4.1. Modeling and Leanring Latent Contexts

  • Inference $Z$ 를 학습하기위해 variational auto encoder (VAE)의 구조를 사용
    (VAE는 유재준 박사님의 포스팅이나, 이기창님의 포스팅 참고)
  • Context $c$가 주어졌을 때 poeterior $p(z \mid c)$를 추정하는 inference network $q_{\phi}(z \mid c)$ (encoder)를 학습
  • Decoder의 generative 기능에 따라, $q_{\phi}(z \mid c)$는 $z$로부터 MDP의 복원을 목적으로 최적화할 수 있음
  • 유사한 변형으로서, model-based RL개념의 MDP복원이 아니라 model-free RL의 개념을 차용하여 Q나 Return을 최대화 하도록 $q_{\phi}(z \mid c)$를 최적화 가능
  • VAE의 개념을 가져왔으므로, PEARL의 목적함수 역시 VAE의 목적함수(ELBO)와 유사하며 다음과 같음

  • ELBO의 형태에 따라 첫번째 항은 reconstruction term이며, 두번째 항은 variational prior에 대한 regularization term
  • $R(\tau, z)$는 위에 언급한 대로 model-based 혹은 model-free 접근에 따라 다양한 reconstruction objective를 선택 가능
  • PEARL에서는 $p(z)$를 z에대한 unit Gaussian 형태의 prior로 가정하며, regularization term에 따라 information bottleneck의 역할을 하여 현재 task에 대한 meta-overfitting을 완화함
  • Meta-test에서는 추가적인 gradient step 없이 encoder를 사용한 새로운 task에 대한 latent context의 단순한 online inference만 필요함
  • 만약 task가 fully observed MDP라면 단일 transition만으로도 context를 충분히 내포하고 있으며 따라서 transition sample간의 순서는 관계 없는 permuation invariant 성질을 만족함
  • 이에, posterior는 각각의 단일 transiton을 inference한 posterior의 distribution multiplication으로 modeling됨

  • 실제 구현에서는 encoder의 output으로 mean과 standard deviation을 inference한 후, 이를 파라메터로 갖는 normal distribution을 posterior로서 도출함

  • 지금까지의 inference network 구조를 그림으로 표현하면 다음과 같음

4.2. Posterior Sampling and Exploration via Latent Contexts

  • Posterior sampling, 즉 현재 task에 대한 belief에 따른 optimal acting은 동일한 분포의 랜덤한 행동을 반복해서 하는것이 아니므로 시간적으로 구조화된 탐색을 하는 장점을 가짐
  • 단, 기존의 RL에서의 posterior sampling과 달리 PEARL에서는 VAE를 썼기때문에 MDP/Return/value 등 다양한 최적화를 위한 poterior를 직접inference 가능
  • 새로운 task에 대해서는 prior에서 $z$를 샘플링 한 후 이에 대한 acting을 하며, 그 결과로 얻어진 context에 따라 현재 task의 posterior를 다시금 inference함
  • 이 과정을 반복하면 현재 task 에 대한 belief가 범위가 좁혀지고, 따라서 더 적절한 optimal action을 취할 수 있음
  • 이러한 posterior sampling을 통한 acting 구조는 그림으로 다음과 같이 표현 됨

 

 

5. Off-Policy Meta-Reinforcement Learning

  • 현대 meta-RL에선 adaptation에 사용되는 데이터의 구조가 meta-training과 meta-test 둘 사이에 일치(in distribution) 해야한다고 가정함
  • 때문에 RL의 특성상 meta-test의 adaptation이 on-policy 로 이루어짐에 있어, meta-training도 샘플 효율이 낮은 on-policy를 사용해야하는 제약이 생김
  • 또한 경험을 바탕으로 task distribution을 추론하는 stochastic 탐색을 배우는것은 meta-RL을 더욱 효율적으로 만드는데, 이는 policy가 stochastic distribution을 바탕으로 행동을 조작할 수 있어야 가능함
  • 따라서 이는 단순히 true value function을 근사하는 off-policy RL은 불가능한 반면, policy 자체를 근사하는 on-policy RL은 가능함
  • 이러한 두가지 종합적 이유로, off-policy RL을 meta-RL에 접목하는것은 필요하지만 쉽지 않음
  •  논문의 contribution으로서, PEARL 알고리즘은 위 한계점을 해결하기위해 task distribution inference 구조는 encoder가 하도록 분리하고 poilicy의 학습과 encoder의 학습이 다른 데이터를 사용해도 되도록 설계
  • 이로서 encoder가 on-policy data로 학습을 하여도, policy는 off-policy RL loop의 일부로서 $z$를 다룰 수 있게 됨
  • 또한 탐색을 위해 필요한 stochasticity 역시 encoder $q(z \mid c)$ 로 추가할 수 있음
  • 구체적으로, Actor와 Critic은 replay buffer $B$로부터 off-policy 데이터를 샘플링하여 학습을 진행
  • Encoder는 샘플러 $S_{c}$에 의해 샘플링된 context batch를 학습
  • 이때 $S_{c}$가 전체 버퍼에서 샘플링을 할 경우 off-poicy 가 되어 on-policy meta-test와의 너무 큰 차이가 생김
  • 하지만 encoder를 사용할 경우 strict on-policy를 지키지 않아도 된다는 장점이 있는데, on-policy와 off-policy 중간 정도 되는 접근으로서 최근 수집된 데이터를 통해 inference를 하는것은 on-policy 데이터를 사용하는것과 성능의 차이가 없다는 것을 저자는 확인함
  • 지금까지의 PEARL을 알고리즘으로 정리하면, meta-training 및 meta-test는 각각 다음과 같음

 

5.1. Implementation

  • PEARL은 model-free off-policy RL알고리즘인 soft actor-critic (SAC)기반으로 구현 (SAC의 자세한 설명은 이전 포스팅 Soft Actor-Critic (Haarnoja, 2018) 정리 참고)
  •  SAC는 off-policy 알고리즘으로서 효율적인 데이터 샘플링 및 안정성을 보여주며 poilicy자체가 probabilistic하게 표현돼 probilistic latent context와의 결합이 용이
  • PEARL의 구현에선 inference network $q(z \mid c)$의 파라메터를 actor  $\pi_{theta}(a \mid s, z)$와 critic $Q_{theta}(s,a,z)$의 파라메터와 결합하여 한번에 backprobagation으로 학습하기위해 reparameterization trick을 사용
  • 이는 샘플링을 포함하는 연산그래프에서 랜덤노드를 분리해주는 것으로, 자세한것은 유재준 박사님의 블로그를 참조
  • 이 같은 학습구조로 crtic의 학습으로서 $Q$의 복원값을 Bellman update와 LMS로 학습면서 한번에 gradient가 inference network까지 전달되어 학습 가능 (Chapter4에서 reconstruction은 여러가지가 가능하다고 했으나 MDP 의 복원보다 $Q$의 복원이 더 나은 성능을 보여주는것을 저자는 확인)
  • 따라서 critic의 loss fuction은 다음과 같음

  • Actor의 loss function은 SAC 원 알고리즘과 거의 동일하며 $\overline{z}$만 input에 추가되어 다음과 같음

  • $\overline{V}$은 target value network. $\overline{z}$는 reparameterization trick으로 gradient가 encoder의 파라메터로 전달 되지 않음을 의미
  • 여기서 주의할 점은 critic loss에 사용되는 data와 latent variable를 추론하는 $q_{\phi}(z \mid c)$ context가 다르다는 것
  • Context 샘플러 $S_{c}$는 완화된 on-policy로서 최근 수집된 데이터에서 uniformly 샘플링 하며, meta-training 을 n번 진행할때마다 한번 context를 inference함
  • 한편, actor-critic은 off-policy 샘플링을 위해 전체 replay buffer에서 uniformly 샘플링

 

6. Experiments

 

6.1. Sample Efficiency and Performance

  • 실험은 총 6개의 Mujoco continuous control 환경에서 수행

  • 이 중 5개는 제어 목적이 다른(=reward가 다른) task
    • 각각 전진/후진을 목표로 하는 Half-Cheetah
    • 각각 전진/후진을 목표로 하는 Ant
    • 걷는 방향이 서로 다른 Humanoid
    • 서로 다른 속도를 목표로 하는 Half-Cheetah
    • 목표 도착 지점이 서로 다른 Ant
  • 나머지 1개는 dynamic가 다른 (=transition probability가 다른) task
    • 랜덤하게 dynamics 파라메터가 정해지는 2D-Walker

  • 비교를 위한 meta-RL 알고리즘은 총 3개 수행
  • 이 중 2개는 Policy gradient 기반 (optimization기반)의 알고리즘
  • 나머지 1개는 Recurrent 기반 (black-box 기반)의 알고리즘
  • 실험결과 PEARL이 기존 meta-RL알고리즘보다 20~100배 더 향상된 meta-traning 샘플링 효율을 보여줌
  • 또한 기존 알고리즘 보다 50~100% 향상된 성능을 점근선으로 확인 가능 함

6.2. Posterior Sampling For Exploration

  • Posterior sampling이 얼마나 효과적으로 task 탐색을 진행하는지를 검증하는 실험을 함
  • 이를 위한 환경으로는 reward가 sparse하게 주어지는게 보통 사용되며, 여기서도 마찬가지로 타원을따라 나타나는 파란 원에 도달시에만 reward를 받는 2D navigation 실험을 함
  • 비교 알고리즘으로는 기존의 meta-RL 알고리즘 중 PEARL과 같이 구조적인 탐색이 가능한 MAESN (Gupta et al.m, 2018)을 사용

  • 실험 결과, optimazation 기반 meta-RL알고리즘과 달리 sparse reward 문제도 해결 가능함을 보여줌
  • 또한 같은 구조적 탐색이 가능한 MAESN에 비해 meta-training에서 약 100배 빠른 샘플링 효율성을 보여줌
  • (6.3 Ablations는 알고리즘의 구현에 대한 추가적인 검증으로 생략)

 

8. Limits of Posterior Sampling

  • Posterior sampling으로 sparse reward 환경에서도 구조적인 탐색이 가능하지만, 이게 optimal exploration을 의미하는것은 아님 

  • 실제로 반원을 따라 target이 생긴다면, optimal은 반원을 따라 탐색을 하는것이 가장 효율적인 전략
  • 이는 task에 대한 adaptation과 postrior regularization의 순서에 따라 생기는 문제로, task inference를 통해 $z$를 도출 한 후 Normal distribution prior로 posterior를 regularize하면 task의 latent space가 normal distibution으로 제한 됨

  • 즉, adaptation은 task간에 그 평균에 해당하는 공통점이 존재하는 경우에 한하여 성능이 좋을것을 예상 가능
  • 이러한 문제는 실제로 meta-RL에 대한 벤치마크인 Meta-world (Finn et al., 2019)에서 10개의 task만으로 meta-RL을 진행했을땐 meta-policy의 학습이 실패했으나, 45개의 task를 사용하여 공통점이 충분해 졌을땐 다른 알고리즘 보다 나은 성능을 보여준것에서 확인됨

다양한 task에 대한 meta-test의 성공률

  • 하지만, 전반적으로 meta-RL 알고리즘들의 성능이 나쁨. 이는 탐색이 부족한 문제도 데이터가 부족한 문제도 모델의 capacity가 부족한 문제도 아닌 최적화 기법의 문제인것으로 추측 됨 (스탠포드 Fall19 CS330 lecture10)
  • 즉, 다양한 out of distribution인 task familly들에 대해 더 나은 최적화를 가능하게 하는 meta-RL 알고리즘으로의 여지가 아직 많이 남아 있음 

 

 

 

 

캐나다 연구그룹이 어제 이종호르몬 인공췌장 연구를 ‘Diabetes care (IF=13.4)’ publish 했다.

https://doi.org/10.2337/dc19-1922

 

A Novel Dual-Hormone Insulin-and-Pramlintide Artificial Pancreas for Type 1 Diabetes: A Randomized Controlled Crossover Trial

OBJECTIVE The rapid insulin-alone artificial pancreas improves glycemia in type 1 diabetes but daytime control remains suboptimal. We propose two novel dual-hormone artificial pancreas systems. RESEARCH DESIGN AND METHODS We conducted a randomized crossove

care.diabetesjournals.org

 

이종호르몬이라는 타이틀이긴 하지만 흔히 아는 insulin-glucagon (ex, Betabionics https://www.betabionics.com/) 이 아닌 (rapid) insulin-pramlintide의 이종호르몬이다.

Randomized crossover inpatient study로 단일 인슐린만 사용했을 때 대비 time-in-range74%->84%로 증가했다. 다만 저혈당 빈도도 같이 상승했다는 점과 위장 쪽 증상을 동반한다는 점이 아쉽다.

 

Pramlintide는 베타세포에서 인슐린과 함께 분비되는 amylin anlogue로서 제 1형 당뇨병환자에선 분비되지 않는다. 효능으로는

Ÿ   소화흡수 속도 제한 & 포만감 형성 & 체중감량

Ÿ   식후 과도한 글루카곤 분비의 억제

Ÿ   식후 1st phase 분비에 대한 반응 threshold 증가

정도가 있다.

 

식후 혈당조절에 있어 Glucagon 외의 약물을 사용한 이종호르몬 치료라 색다르며, 당뇨병 치료에 있어 다양한 약물 및 intervention 방법을 고려해야한다는 생각이 든다.

https://jamanetwork.com/journals/jamainternalmedicine/fullarticle/2751944

 

JAMA Internal Medicine (IF=20.768)는 20년 1월호에서 미국 Medicare 프로그램 약물처방 파트 (Part D) 의 2012년~2017년 사이의 고혈당 치료에 대한 동향을 발표하였다.

 

  • 2017년엔 당뇨병관련 지출이 총 220억 달러로 2012년 보다 144% 증가
  • 6년간의 당뇨병 치료 비용으로 총 $940억 지출. 이중 인슐린 비용은 $600억 (analog $550억, human $50억)
  • 2015년 이후엔 지속성 인슐린의 사용이 줄어들어 전체 analog 인슐린 증가세 감소
  • 비인슐린 치료법은 2017년에 $87억으로 2012년의 $31억 대비 135% 증가
  • 가장 지출이 큰 비인슐린 요법은 dipeptidyl peptidase-4 inhibitors (DPP-4i) 로 $15억에서 $39억로 156% 증가
  • 두번째 지출이 큰 비인슐린 요법은 glucagon-like peptide-1 receptor agonists (GLP-1RA) 과 the sodium-glucose cotransporter-2 inhibitors (SGLT2i)
  • 특히 GLP-1RA는 $3억7400만 에서 $26억 으로 증가
  • SGLT2i는 2014년 $1억4천5백만 에서 $12억 으로 증가 

 

  • 6년간 anlog 인슐린 처방은 36% 증가했으나 human 인슐린 처방은 17% 감소
  • 6년간 가장 일반적으로 처방된 요법은 metaformin (1억6천3백만 건, 처방 당 $17)
  • Sulfonylureas 는 9천5백만 건, 처방당 $14
  • Amylin anlog는 가장 적게 처방됐지만 처방당 비용은 가장 높음
  • Thiazolidinediones의 지출의 경우 처방당 비용이 낮아져 6년간 총 지출이 93% 감소

 

Discussion & Conclusion

당뇨병 관련 메디케어 지출이 급속히 증가하고 있으며, 주 요인은 인슐린 비용이다. 

인슐린 증가세는 둔화되는 반면 새로운 DPP-4i, GLP-1RA, and SGLT2i 와 같은 새로운 치료법이 증가 중에 있다.

DPP-4i는 혈당조절에만 효능이 있을 뿐 아직 심혈관계에 대한 이점은 밝혀지지 않았음에도 가장 지출이 큰 항목이다.

 

문제는 지출이 늘어났음에도 불구하고 혈당조절 수준은 향상되지 않았다는 점이다 (Dennis  JM et al. 2019)

또한 심혈관계에도 이익인 SGLT2i 나 GLP-1RA와 같은 치료의 증가가 합병증을 막아주고 지출을 줄여줄진 불분명하다.

 

미국 내 당뇨병 유병률이 높게 유지될것으로 전망됨에 따라, 당뇨병 치료제의 비용은 치료법의 제공과 준수에  영향을 미칠것으로 예상된다. 추후의 연구에서는 당뇨병 관리 관련 health system의 비용을 고려하여 현재의 지출에 대한 더 세분화화된 조사가 필요하다.

 

 

 

 

 

Tandem Diabetes Care

Control-IQ: 작년 연말에 FDA 승인을 받은 가장 진보된 closed-loop 인공췌장 시스템이 2020년 1월 중에 출시 되었으며 미국 내 몇몇 환자들은 사용중에 있습니다. 현재 모든 기능이 다 오픈된건 아니며 2020년 중반부터 하나씩 추가 공개를 하여 스마트폰 앱으로 완전히 제어가능한 t:slim X2 펌프 시스템을 제공할 계획이라 합니다. 기존에 t:slim X2 펌프로 Basal-IQ를 사용하는 환자라면 새로운 펌프의 구매없이 소프트웨어 업데이트 만으로도 사용이 가능합니다.

t:sport mini-pump: Tandem의 새로운 패치형 펌프에 대한 FDA 신청을 2020년 중순에 신청할 예정입니다. 기존 펌프에서 화면을 빼 1/2의 크기이며 튜브가 짧아 이름에 걸맞는 sporty한 형태입니다. Control-IQ의 승인으로 탄력받아 긍정적인 결과가 예상됩니다.

 

Insulet OmpiPod

Omnipod Horizon: Omnipod 기반의 공식적인 closed-loop 인공췌장 시스템이 출시됩니다. 이미 작년에 스마트폰 기반의 Omnipod DASH 앱을 출시한바 있으며, Do-It-Yourself 로 비영리 인공췌장 시스템의 사용에도 협력한 Insulet인 만큼 올해는 공식적인 제품으로서 Omnipod Horizon의 출시가 더욱 기대됩니다.

 

Medtronic Diabetes

Advanced Hybrid Closed Loop (AHCL, 혹은 Minimed 780G): Medtronic의 최신 하이브리드 인공췌장 시스템인 670G에 이어 차세대 인공췌장인 Minimed 780G를 지난해 미국 당뇨병 학회 (ADA)에서 발표한 바 있습니다. 기존 670G의 목표혈당값이 120mg/dl에 71% 정상혈당이 었다면 780G는 100mg/dl 목표에 80% 라는 파격적인 목표를 내세웠습니다. 다른 특이점으론 블루투스(BLE)를 탑재하여 소프트웨어 업데이트가 쉬워진다는 점입니다. 회사가 2020년 4월에 목표했던 출시는 pivotal 임상시험의 종료가 올해 중반에도 어려울듯하여 더 연기 되겠지만, 여전히 연말까진 기대해 볼만 합니다.

 

Abbott Diabetes Care

FreeStyle Libre 2.0 FGM: 획기적인 크기와 calibration가 필요없어 빠른 상승세를 보이고 있는 FreeStyle Libre가 두번째 버전을 출시 예정입니다. 이번 버전은 블루투스(BLE)로 혈당 범위를 벗어나면 경고를 주는 기능이 추가된다고 하여 좀더 편리한 사용이 예상됩니다. 현재 FDA가 이 제품을 타사 펌프 제품과 호환 가능한 iCGM으로 지정할지 여부를 고려중이라는 이야기가 있습니다. 하지만 기존 iCGM 제품들 처럼 실제 혈당값을 알려주는게 아니라서 쉽지는 않을것으로 보입니다.

 

Dexcom 

G7 CGM: 명불허전 CGM 모델인 Dexcom의 G#의 차세대 제품이 2020년에 출시예정입니다. 구글 Verily와의 수년간의 협업으로 더욱 기대가 되는데, 알려진 기능은 다음과 같습니다.

1) 사용기간 10일에서 14-15일로 연장 및 G6와 마찬가지로 calibration 필요 없음, 2)트렌스 미터가 통합되어 한번쓰고 완전히 쓰고 버릴수 있는 구조, 3) 기존에 비해 훨씬 얇아진 디자인, 4) Dexcom이 알고리즘 회사인 TypeZero를 인수함에 따라 예상되는 인슐린 주입 보조 기능

아직 FDA에 제출되진 않았지만 회사는 G7을 늦은 2020년엔 출시하고 2021년엔 본격적으로 제품을 상용화 하겠다고 밝혔습니다.

 

Eversense

이식형 CGM: 유일한 이식형 연속혈당측정기 제조사로서 현재 90일의 사용기간을 가진 제품이 출시된 상태입니다. 올해는 calibration시간이 자유로운 새로운 모바일 앱이 출시될 예정입니다. 또한 2020년엔 사용기간이 180일로 2배 연장된 제품의 출시가 기대됩니다. 

 

Afrezza

BluHale Pro: 흡입형 인슐린 제조사인 Afrezza에서 의료진들이 환자의 치료 교육을 더욱 쉽게 해줄 블루투스 기반의 어뎁터를 출시합니다. 이로서 환자의 인슐린 흡입 상태와 기록을 의료진이 포괄적으로 그리고 세밀하게 확인하능해진다고 합니다. 또한 소아를 대상으로한 3상 시험을 현재 계획중이라고 밝힌바 있습니다.

 

Xeris

Gvoke HypoPen: 2019년 가을 Xeris는 세계 최초의 '안정한 액상형 응급 글루카곤 펜'을 FDA 승인받았습니다. 2020년 7월에 1회용 펜이 출시될 예정이며, 그 전에 주사기형태로 먼저 출시가 된다고 합니다.

 

Lilly

일회용 디지털 인슐린펜: 2019년 12월 FDA는 Lilly의 1회용 인슐린 펜을 승인했습니다. 이 제품은 Dexcom CGM과 통합되는 디지털 플랫폼에 연결되는것을 목표로 개발됐으며, Lilly와 Dexcom 모두 서명을 했기에 FDA가 플랫폼에 대한 승인만 한다면 바로 출시가 될 예정입니다. Lilly는 또한 오는 2020년 2월의 당뇨병기술학회 (ATTD)에서 디지털 플랫폼을 바탕으로 예방가능한 포괄적 관레 프로그램에 대한 발표를 할것으로 예고했습니다. 이번 학회에 참석 예정인데 기대가 되네요.

초속효성 Lispro 인슐린 (URLi): 새로운 식사 인슐린이 출시될 예정입니다. 기존의 Humalog와 같은 제품이 작용하는데 까지 27분 정도가 걸리는데 반해, 이 새로운 인슐린은 13분 밖에 걸리지 않는다고 하며 식후 혈당 스파이크를 획기적으로 줄일 수 있다고 합니다. Lilly는 URLi를 2019년에 미국 유럽 일본의 규제기관에 승인 요청을 제출했으며 2020년엔 모두 승인이 될것으로 예상됩니다.

Hybrid closed-loop 패치 펌프: Lilly가 여전히 독자적인 hybrid closed-loop 인공췌장형 패치펌프를 개발중이라고 합니다. 물론 2020년에 출시는 어렵겠지만 올핸 중간 현황의 공개 정도를 기대합니다.

 

 

 

*본 글은 아래 healthline의 기사를 토대로 작성되었습니다.

https://www.healthline.com/diabetesmine/diabetes-tech-spectations-2020?fbclid=IwAR2Cm5FmARVb6fdjaVZWEmKmwVma8-ErUP8dqFnbONmiKTvwEouM2XbsqcI

Author : Tuomas Haarnoja*, Aurick Zhou*, Kristian Hartikainen*, George Turker, Sehoon Ha, Jie Tan, Vikash Kumar, Henry Zhu, Abhishek Gupta, Piter Abbeel, Sergey Levine 
Paper Link : https://arxiv.org/abs/1812.05905

0. Abstract

  • Model free deep RL은 샘플링 효율이 매우 낮고, 수렴이 불안정함.
  • 이를 극복하고자 maximum-entropy (MaxEnt) RL 프레임워크에 기반한 Off-poliy actor-critic 알고리즘을 제안함

1. Introduction

  • Real-world 에서의 model free RL의 단점
    1. 샘플링 비효율
    2. Hyperparameter에 민감
  • On-policy는 샘플을 업데이트 할때마다 버리므로 샘플 효율이 높은 off-policy가 좋으나,
  • Q-learning기반 알고리즘의 단점 존재
    1. 고차원 NN 썼을때 불안정하며 수렴이 잘 안됨
    2. Continuous space에서 악화
  • "어떻게 하면 Continuous space에서도 샘플 효율적이고 안정하게 만들까?"
  • MaxEnt를 RL에 적용 (MaxEnt RL) 하면 탐색과 강건성을 향상시키나 여전히 on/off policy문제 존재
  • Soft actor-critic (SAC): off-policy MaxEnt actor-critic 알고리즘 고안
  • 샘플 효율적이면서도 안정하며 Continuous space에서도 잘 동작

2. Related Work

  • Actor-critic (AC)는 actor와 critic모두 수렴 보장이 안되며 동시에 최적화 필요
  • 기존의 AC에도 Entropy (Ent)를 추가한 접근들이 있으나 Ent를 regularizer로 사용 (=Policy의 잘못된 학습 억제)
  • On-policy이므로 샘플 효율에 있어 한계
  • 이에 DDPG (https://arxiv.org/abs/1509.02971) 와 같은 off-policy 등장
  • But! 한계 존재
    1. Deterministic + Q-function은 안정화 어려움
    2. 복잡한 task에선 성능 낮음
  • Off-policy이면서도 stochastic하고 MaxEnt RL프레임을 사용하는 알고리즘 필요
  • 저자의 이전 논문 Soft Q-learning (https://arxiv.org/abs/1702.08165) 에선 MaxEnt RL + Q-function의 soft-Q function을 도입하고 이를 따르는 (아래 그림의 오른쪽), $expQ$를 energy function으로 하여 energy based model 분포를 policy로 사용하는 알고리즘을 제안

  • Entropy의 도입으로 강건하고 안정하나, DDPG의 성능을 넘지 못하며, policy의 수렴이 posterior를 얼마나 잘 근사 했는가에 의존하며, continuous space에서 별도의 샘플링 기법이 필요하다는 한계 존재
  • 제안한 SAC는 policy의 parameterization에 관계없이 policy가 항상 optimal에 수렴하며 성능도 DDPG를 큰 차이로 앞서며 continuous space에서도 쉽게 사용 가능

3. Preliminaries

  • 기존 RL의 목적은 reward expection의 합을 최대화 하는 policy를 찾는 것

  • MaxEnt RL의 목적함수와 policy

Entropy term이 추가. alpha는 기존 RL term과 entropy term간의 조절 위한 temperature parameter

  • MaxEnt RL의 장점
    1. policy의 탐험을 하면서도 동시에 보상을 최대화
    2. 하나의 optimal이 아니라 near optimal을 여러개 배울 수 있어 강건함

4. From Soft Policy Iteration to Soft Actor-Critic

4.1. Soft Policy Iteration (Tabular case)

  • Policy iteration: policy evaluation과 policy improvement를 번갈아 진행하여 Q-function의 수렴과 policy의 수렴을 반복해 학습하는 방법
  • Soft Bellam euation: policy를 evaluation하는 기존의 Bellam equation에 policy entropy의 개념을 추가

  • 행동이 유한하다는 가정하에, 위 soft Bellam backup을 반복하면 soft Q-function으로 수렴

  • 이 step을 통해 어떠한 policy에 대해서도 Soft Q-function을 구할 수 있음
  • policy improvement에선 Energy based model 의 개념을 도입 (Envergy based model에 대해선 Yann Lecun 교수님의 저서 참조, http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf)
  • KL Divergence를 사용하여 exp(Q)를 parameterized된 policy set에 information projection을 하여 새로운 policy 도출

  • 일반적으로 intractable한 partition function Z는 추후 설명할 SAC의 목적함수에서 KL Divergence를 최소화 하는 gradient descent 과정에서 무시됨
  • 이때, 행동이 유한하다는 가정 하에, 위 최적화를 만족하는 새로운 policy는 이전 policy에 비해 항상 높은 기대보상을 가짐

  • Soft policy iteration: 위 soft policy evaluation과 soft policy improvement의 과정을 parameterized policy set 내의 임의의 policy에 대해 번갈아 진행하면 policy set 내의 optimal MaxEnt policy로 수렴

  • 위 Lemma와 Theorem은 tabular space에서 증명됨
  • continuous space에서 적용하려면 NN과 같은 function approximator가 필요하지만 수렴에 너무 큰 계산량을 요구하는 한계 존재

4.2. Soft Actor-Critic (function approximator)

  • Soft policy iteration는 수렴을 위해 evaluation과 improvement를 반복하는것이 continuous space에선 비현실적
  • 따라서 같은 프레임워크에서, Soft Q-function(evaluation)과 policy(improvement)를 NN으로 근사하고 두 network를 Stochastic gradient descent 하는것으로 대체
  • 첫번째 SAC 논문(https://arxiv.org/abs/1801.01290) 에서는 Soft Value function, Soft Q-function, policy 셋을 모두 parameterize했으나, 이 두번째 SAC 논문에서는 Soft Q-function와 policy만 근사
  • Replay buffer (~D)에 저장된 (state, action) pair 데이터를 가져와 Soft Q-function와 Target soft Q-function 을 계산하고, 이 차이(Bellman residual)를 최소화 하는것이 objective function

  • 이때  은 Target Soft Q-function
  • 위 objective의 Soft value function V 는 Soft Q-function으로 풀어 쓸수 있으며, 최적화로 Stochastic gradient descent(SGD)를 사용하기 위해 objective function의 gradient를 구하면 다음과 같음

SGD를 사용하므로 Expectation은 제거 가능하다

  • 여기서 S,A,R,S'까지는 Replay buffer(D)에서 추출한 값이며, Soft Target에서의 A'는 현재의 policy에 따름
  • policy의 objective function은 위 tabular policy improvement단계에서의 KL divergence 에 Replay buffer (D)에서 추출한 State 와 현재 policy를 사용

  • KL-divergence는 다음과 같이 expectation 꼴로 다시 쓸 수 잇음

출처 https://medium.com/activating-robotic-minds/demystifying-kl-divergence-7ebe4317ee68

  • 이를 다시 policy의 loss function에 적용하면 아래와 같이 쓸 수 있음

log partition function은 상수이므로 생략하고 alpha 추가. Q의 S_t는 오타 -> a_t

  • Expectation은 intractable하므로 보통 이를 위해 Monte Carlo Sampling을 사용 
  • 하지만 gradient와 두번째 Expectation 모두 policy의 파라메터에 의존하므로 Monte Carlo sampling을 하면 연산 그래프가 끊어져 back-propagation이 불가능. 이에 reparameterization trick을 사용

 

Sampling이 NN 파라메터와 무관해져 gradient를 계산 가능

  • 최종적으로 policy objective의 gradient는 다음과 같음

 

 

5. Automating Entropy Adjustment for Maximum Entropy RL

  • Entropy에 대한 temperature를 H.P. 로 두기엔 학습에 따라 바뀌는 reward에 상응하는 적절한 값을 찾기가 어려움
  • 또한 optimal이든 아니든 동일하게 entropy를 최대화 하므로 exploration에도 부적합
  • "temperature alpha를 H.P.가 아닌 dual optimization contraint로 하여 autotunning 되도록 바꾸자"
  • MaxEnt RL을 contrainted optimization 문제로 바꿔쓰면 다음과 같음

H 는 엔트로피의 lower bound. Policy가 deterministic하여 upper bound는 필요 없음

  • 이를 Lagrangian을 사용하여 dual problem으로 나타내면 다음과 같으며, 이때 Lagrangian multiplier인 alpha는 temperature parameter에 해당함

  • 이를 dynamic programing으로 policy가 최적이라 가정하고 alpha를 최적화하는 step과 alpha가 최적이라 가정하고 policy를 최적화 하는 step을 반복할때, alpha의 optimal problem은 step에 관계 없이 항상 다음과 같음

증명: https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html#sac-with-automatically-adjusted-temperature

 

6. Practical Algorithm

  • 알고리즘의 실제 적용에선 TD3에서 value기반 알고리즘들의 policy improvement 단계의 positive bias문제를 해결하기 위해 사용한 것과 같은 맥락으로, 2개의 soft Q-function을 독립적으로 학습하여 더 작은 Q를 사용하며 이는 복잡한 task에서의 성능과 학습속도를 향상시킴
  • Duality 적용한 접근은 convexity를 가정했을때 수렴성을 보여줌 (Boyd & Vandenberghe, 2004)
  • 이 가정은 NN과 같은 비선형 근사함수에는 해당하지 않지만 실질적으론 사용 가능함
  • 이에 alpha의 목적함수는 다음과 같음

  • 지금까지의 SAC 알고리즘의 pseudocode는 다음과 같음
  • SAC는 policy를 바로 gradient로 업데이트 하는 방법이지만, 기존 actor-critic기반 on-policy learning과 달리 replay buffer의 상태 데이터로 학습이 가능하여 off-policy learning에 해당함

 

7. Experiment

  • 실험 결과 거의 모든 continuous action space의 환경에서 기존 off-policy 및 on-policy 알고리즘들보다 빠른 학습속도와 높은 성능을 보임
  • 특히 환경이 복잡할수록, 큰 batch를 사용하는 on-policy 방법에 비해 SAC가 빠른 초기 학습속도를 보여줌

  • SAC 학습의 효율성 덕분에 model-free RL 알고리즘임에도 불구하고 real-world환경 (locomotion & dexterous manipulation) 에서도 바로 학습가능한것을 실험으로 증명함

+ Recent posts