Author: Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman, Winnie Xu, Sergio Guadarrama, Ian Fischer, Eric Jang, Henryk Michalewski, Igor Mordatch
Paper Link: https://arxiv.org/abs/2205.15241

Website: https://sites.google.com/view/multi-game-transformers

Code: yet

 

Generalist agent for Atari games

 

Summary

  • multi task 문제에 대해 Decision Transformer 기반의 sequence modeling이 가장 좋은 성능을 보여줌.
  • large-scale language model이나 vision model에서 보아왔던 경향성과 유사한 특성을 확인함
    1. Large-scale generalist RL agent에 대해 모델사이즈와 성능 사이의 power-law 관계를 확인
    2. Pretrained RL agent에 대해 처음주어진 적은데이터로 빠른 finetunning이 되는것을 확인
  • offline 학습데이터에는 expert의 시연만 있는것이 아니므로, 이를 활용하면서도 높은 reward를가진 sequence를 생성하고자 language modeling에서 쓰이는 guided generation 접근을 decision transformer에 적용했으며 이때 가장 좋은 성능을 보여줌.

 

Methods

  • Decision Transformer를 베이스로 하고 있으나 Decision Transformer와 달리 여기에선 return와 reward도 모델링 하여 multi-task에 대한 모델의 representation을 높힘.
  • 하지만 Trajectory transformer와는 달리 obervation은 모델링하지 않았으며 future works로 남겨둠.

  • high-rewarding behavior를 생성하기위해 language model에서 사용되는 discriminator-guided generation 문제와 유사한 접근을 적용.
  • 여기선 GeDi 논문 (link) 에서 사용된 방법을 참고하여 binary classifier $P(expert^t \mid \cdots )$를 활용. 
  • 이 접근을 사용함으로써 더 많은 데이터셋을 활용하여 모델의 환경에 대한 이해도를 높힐 수 있는 동시에, Decision Transformer처럼 매뉴얼한 return conditioning을 줄 필요가 없어짐.

  • 총 41게임에 대해 학습을 하고 5가지 서로다른 특징의 held out 게임들에 대해 OOD generalized 성능 평가 수행.
  • 총 4.1B 스텝, 160B 토큰으로 학습.

 

 

key questions 및 experiment results

How do different online and offline methods perform in the multi-game regime?
  • single agent만드로 사람 수준에 대해 126%의 Atari 게임 플레이 성능을 보여줌.
  • 아래 그래프에서 앞의 두 specialist agent보단 낮지만 그에 근접한 성능을 확인. 

 

How do different methods scale with model size?
  • large language model에서 보여준 power law와 유사한 경향을 Transformer 기반 RL agent의 성능에서 확인함.
  • 모델의 파라메터가 커질수록 ID 및 OOD 모두에서 성능이 증가하며, 동일한 token에 대한 학습속도가 빨라짐.

 

How effective are different methods at transfer to novel games?
  • 5개 서로 다른 성격의 held out 게임들에 대한 finetunning 실험에서, pretrained DT가 전반적으로 뛰어난 성능을 보여줌.
  • 학습데이터와 비교했을때 1%의 적은 데이터만으로도 fintunning이 가능.

 

Does Multi-Game Decision Transformer improve upon training data?
  • 데이터셋 중에서 게임별 상위 3개의 성능과 비교해보았을때, 대체로 데이터셋보다 크게 발전하는 성능을 보여줌.

 

Does expert action inference improve upon behavioral cloning?
  • optimal action으로 학습한 Behavior Cloning보다 전반적으로 뛰어난 성능을 보여줌 (31/41).

 

 Does training on expert and non-expert data bring benefits over expert-only training?
  • 최근 DeepMind에서 RL뿐만아니라 딥러닝 전반적인 태스크를 다루는 generalist agent인 Gato를 발표함.
  • Gato와 차이점은 Gato가 expert의 데이터만 사용했으며 expert trajectory를 prompt로서 필요로하지만, Multi-Game DT는 expert가 아닌 데이터도 사용했으며 prompt가 필요 없다는 것.
  • 실험 결과 1) Behavior Cloning에서 expert 데이터만 쓰는것이 성능을 향상시켰으며,  2) Multi-Game DT는 전체 데이터를 썼을때 오히려 성능이 향상했으며, 3) 전체 데이터로 학습한 Multi-Game DT는 expert 데이터만을 사용한 BC보다 나은 성능을 보여줌.
  • (Gato 논문을 자세히 읽어보진 못했지만, expert BC transformer가 Gato의 학습 아키텍처와 유사한것으로 생각됨.)

 

Are there benefits to specifically using transformer architecture?
  • 목표 return을 conditioning 해주는 Upside-Down RL (UDRL)이 Decision Transformer류의 특징.
  • UDRL이 Transformer에 사용되었을 때, 즉 sequence modeling에 적용되었을때 큰 이득이 있음을 확임함.

 

What does Multi-Game Decision Transformer attend to?
  • Attention anlysis결과 agent가 입력 이미지 패치들 중에서 게임을 하는데 의미있는 패치에 집중하는것을 확인 함.

 

 

 

 

Author: Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine
Paper Link: https://arxiv.org/abs/2205.09991

Site: https://diffusion-planning.github.io/

Code: https://github.com/jannerm/diffuser

Author: Hiroki Furuta, Yutaka Matsuo, Shixiang Shane Gu
Paper Link: https://openreview.net/forum?id=CAjxVodl_v 

Code: https://github.com/frt03/generalized_dt

 

Author  : Biwei Huang, Fan Feng, Chaochao Lu, Sara Magliacane, Kun Zhang
Paper Link : https://openreview.net/forum?id=8H5bpVwvt5 

 

Rating: 8, 8, 6, 8

 

  1. PEARL, VariBAD와 같은 inference based meta-RL의 structured (graphical) representation 버전
  2. World-model의 multi-task/meta RL 버전

 

  • 기존의 방법들이 implicit latent task varible을 inference하는 구조였다면, AdaRL은 이를 task간의 domain-shared latent state $s_t$와 domain-specific change factor $\theta_k$ 로 나누어 explicit한 inference를 함
  • 이를 가능하도록 학습하기 위해 두 time step동안의 state dimension, action, reward 그리고 이들에 영향을 주는 domain specific parameters $\theta_k$사이의 상호관계 graph를 아래와 같이 가정

  • 이 graphical관계를 수식으로 표현하면 다음과 같음

d는 dimension, k는 domain의 index, theta는 domain-specific parameter, epsilon은 noise

  • 여기서 $c$는 그래프에서 각 요소 사이의 edge에 대한 mask parameter이며 이로 인해 최소한의 필요한 representation만 남음
  • 이러한 latent variable를 inference하는 encoder와 각각의 edge들을 end-to-end 학습하기위해 VAE (MiSS-VAE; Multi-model Structured Sequential Variational Auto-Encoder)구조를 제안하여 사용

  • 이렇게 구한 explicit한 compact latent variable만 있으면 policy를 학습하기에 충분하다는것을 appendix에서 증명

  • 알고리즘의 검증은 Cartpole과 Atari Pong에서 진행
  • explicit한 task representation덕분에 다양한 task의 variation에서 in/out of distribution 모두에서 기존 알고리즘들보다 비슷하거나 효율적인것을 확인

 

개인적인 생각

  • explicit하게 task representation을 나누어 학습하는것이 좋다. graph를 사용하여 이를 학습가능하게 하는부분이 기발하다. 다만 리뷰어도 언급한 부분으로 이걸 저자가 interpretable이라고 부르기엔 이에대한 검증이 부족해 보인다.
  • 지금까지 많은 Meta-RL 논문들이 reward 기반 multiple task에 좀더 집중을 하여 검증을 해왔기에, state dynamics(혹은 transition)이 달라지는 multiple task에 대한 접근은 상대적으로 실험이 부족한감이 없지않아 있었다. 반면 이 연구에선 기존 연구들과 달리 이러한 state dynamics의 변화에 따른 adaptation을 reward보다 더 중점적으로 다룬단 차별점이 있다. 다만 이는 저자의 말에 따르면 reward가 달라지는 task에선 20~50 step의 적은 sample만으론 adaptation이 어려워서가 이유이기도하다.
  • 같은 맥락에서 리뷰어도 이야기를 한 부분인데, state dynamics에 잘 adaptation하는 알고리즘이라면 그 장점을 더 잘 보여줄 수 있게 locomotion과 같은 task에서도 검증을 했다면 어떨까 싶다.
  • 실제로 이렇게 structured latent estimation을 할 경우 단순히 baseline대비 성능이 좋다는 내용만 본문에 써둔게 아쉽다. 실제 추론된 $\theta_k$의 검증은 appendix에 있는데, 환경의 물리적 변화와의 연관성이 충분히 보이고 있어서 제안하는 structured self-supervised approach의 유효성을 어느정도 입증하고 있다.

Cartpole에서 실제 물리적 변화에 따른 추론된 latent variable의 경향성

 

  • policy optimization이 필요없는 meta-adaptation을 강조하고 있는데, 이는 VariBAD나 PEARL과 같은 inference based meta-RL들에서 이미 보여준 부분이긴하다. 리뷰어도 언급한 부분인데 이 inference에 대한 설명이 본문에 안보여 Appendix를 읽기 전엔 이해가 다소 어렵다.
  • domain index $k$를 input으로 사용하는 부분이 multi-task RL의 색깔이 있기때문에, meta-RL관점에서 이 알고리즘이 generalization이 잘 될지도 궁금하다.
  • 알고리즘이 좀 복잡하다. 상당히 많은 notation이 본 paper와 appendix에 섞여 있어서 어렵긴 하나, 이론적 증명이 탄탄한것이 큰 장점이어서 높은 rating을 받은듯하다.
  • 저자들이 causal reinforcement learning을 연구한 사람들이라 structural causal model의 개념을 도입한것 같다.

 

Author : Anonymous authors
Paper Link : https://openreview.net/forum?id=H7Edu1_IZgR 

 

 

  • 기존 memory based meta-RL의 대표 알고리즘인 RL2에서 RNN을 Transformer로 대체한 버전의 알고리즘

  • Transformer의 구조가 왜 meta-learning에 부합하는지 신경과학적으로 해석함
  • 한 transition의 embedding은 감각에서 들어오는 신경과학에서의 working memory로 보고, 이 들에 attention mechanism을 적용한 것을 신경과학에서의 reinstatement mechanism와 같다고 하며 Transformer 각 step의 output이 episodic memory에 해당한다고 해석
  • 즉, 이러한 working memory들이 episodic memory로 합쳐지고 무엇보다 이게 task 분포를 proxy한다고 가설

 

 

  • RNN보다 Transformer의 sequential representation 능력이 좋기 때문에, MetaWorld에서 RL2의 상위호완 성능을 보여줌

 

 

  • 새 step이 들어올때마다 Transformer의 input을 queue처럼 사용하기때문에, 사실상 RNN과 같이 쓸 수 있어 RL2, VariBAD와 같은 online adaptation이 가능한 알고리즘
  • Episodic adaptation인 MAML이나 PEARL에 비하면 매우 빠른것이 장점

 

 

  • OOD에서는 PEARL이나 MAML보다 TrMRL 및 RL2가 높은 성능을 보여주어 보다 효과적인 representation을 생성함

 

 

  • Working memory가 각 Task에 대해 잘 분리 된다는것을 latent visualization으로 보여줌

 

 

개인적인 생각

  • RL2에서 RNN을 Transformer로 바꾼것이 사실 이 연구의 알고리즘적인 contribution이다. 하지만 RNN을 Transformer로 대체하는건 사실 다른 분야에선 더 이상 contribution이 되지 못한다. (21.11.09 코멘트: 오늘 공개된 openreview 점수가 역시나 5533이다) 그래서 그런지 Transformer의 평범한 구조들에 대한 meta-learning측면의 신경과학적인 해석에 공을 상당히 들였다.
  • Reward signal만으로 capacity가 큰 Transformer까지 end-to-end로 학습하는구조라 학습이 매우 어렵다. 특히 episodic memory중에서 1개로만 policy loss가 back prop 들어가는 구조라 충분히 학습이 되려나 싶었는데 나름 성능이 좋다고해서 신기하다. 하지만 역시나 학습이 불안정하다는걸 강조하며 Ad hoc으로 network initializaton이 쓰인다.
  • 알고리즘과 환경의 특성상 "Metaworld가 아닌 Mujoco에선 PEARL이 더 performance가 좋을것 같은데 figure가 안보이네"라고 생각하며 읽었는데, 역시나 Appendix로 빼둔것이었고 PEARL이 압도적으로 잘된다. 논문을 쓰는 전략적인 측면에선 나름 알고리즘을 돋보일 수 있는 실험들 위주로 잘 배치한 것 같긴하지만 리뷰어들의 의견이 궁금하다. (21.11.09 코멘트: 오늘 공개된 openreview 점수가 역시나 5533이다)

  • 이 논문에선 episodic memory가 task를 proxy한다고 가설을 세웠다. 하지만 정작 task를 구분하는 loss가 없어서 어찌될지 궁금한데, episodic memory의 latent space를 visualized한 결과를 안보여줬다. Reward기반의 task들이라 linear한 구분이 당연히 잘 될 수 밖에 없는  working memory의 latent space만 visualization해서 task구분이 되는듯하다고 써둔것이 아쉽다.
  • OOD에 대한 해석에서 memory based 알고리즘이 optimization based나 context based 알고리즘보다 더 representation이 효과적이라고 했으나, 개인적으론 memory based 알고리즘 역시 (혹은, 특히나) generalization에 대한 loss가 딱히 없기 때문에 잘못된 해석인것 같다. 실제로 MAML, PEARL보다 높다 뿐이지 해당 halfcheetah에서의 score를 보면 제대로 동작한다고 보긴 어려워, RL2 및 TrMRL에 의해 형성되는 task latent space의 명확함이 오히려 떨어져서 생기는 현상이라고 생각된다. 

Author : Mingde Zhao, Zhen Liu, Sitao Luan, Shuyuan Zhang, Doina Precup, Yoshua Bengio
Paper Link : https://arxiv.org/abs/2106.02097

Website : http://mingde.world/publications/a-step-towards-conscious-planning/

Code : https://github.com/mila-iqia/Conscious-Planning

 

  • Model based RL에서, model로 하여금 여러 (ID+OOD) task들에 대해 generalized된 dynamics를 학습하도록 하고자 함
  • 인간 의식의 경우 처음 보는 state에서 불필요한 특징은 제외하고 꼭 필요한 요소만을 집중하여 세상을 이해하려는 consicousness in first sense (C1) 특징을 보임 
    - 예) 처음 가는 도시에서 길을 찾을 때 위치나 교통상태에 집중하여 도시를 파악
  • 이러한 컨셉을 Model-based Meta RL에 적용하기위해, state의 특정 요소에 집중하는 Transformer 구조와 불필요한 정보는 제거하는 informational bottleneck을 각각 가져와 model을 구성
  • 이 model architecture가 모든 task에 대해 공통적으로 적용되는 dynamics를 잘 일반화 하는지를 OOD task에서 검증
  • 학습된 모델을 활용하는 policy로는 tree-search MPC를 선택 
  • 실험 결과 제안하는 architecture를 사용한 model-based RL agent가 OOD에서의 generalization 능력을 보여줌

 

 

개인적인 생각

  • 지난번 포스팅한 NeurIPS 2021 spotlight accept된 David Ha의 Sensory Neuron as a Transformer의 MBRL버전이다.
  • Transformer의 attention mechanism을 model-based meta learning에 적용한 점이 참신하다
  • 사람의 인지 과정과의 유사성으로 attention을 해석하는 것이 벤지오 교수님의 논문답다.
  • World model류의 논문들을 읽으면서 이게 정말 보편적 지능적 측면에서의 "world model " 이 되려면 meta-representation 성능이 추가되어야 할것 같단 아쉬움이 늘 들었는데, transformer가 그 가능성을 보여주었다.
  • Planning 환경 외에도 control 환경에도 적용가능할 수 있을것 같다.
  • 다만 OOD의 범위가 좀 좁다. Dynamics까지 달라진다던지의 더 넓은 범위의 OOD로 확장했을때도 잘 되는 방향으로의 연구가 앞으로 진행되지 않을까 싶다.
  • 그래도 역시 OOD쪽은 model-based + causal inference가 미래라는 확신이 든다.

Author :  Sebastian Flennerhag, Yannick Schroecker, Tom Zahavy, Hado van Hasselt, David Silver, Satinder Singh
Paper Link : https://openreview.net/forum?id=b-ny3x071E5

 

Rating: 8, 8, 8, 8

 

 

Author : Bernie Wang, Simon Xu, Kurt Keutzer, Yang Gao, Bichen Wu
Paper Link : https://arxiv.org/abs/2103.06386

 

  • Context-based Meta-RL이 training task의 넓은 distribution에 반해 상대적으로 적은 정보로만 학습된다는 단점에서, Context Encoder의 학습에 Contrastive Learning을 추가함.
  • Overview Figure

  • Algorithm Figure

  • Result Figure on MuJoCo

  • Off-line Meta-RL인 PEARL보다 사실 성능은 크게 차이나지 않는편. (Average 1.3배, Median 1.14배)
  • Meta-World환경에서도 PEARL과 비교를 했는데, 50개 Task 중에서 44개에서 성능이 높지만, 크게 차이나진 않은편. (Average 4.3배, Median 1.4배; 즉 몇몇 특정 task에서 훨씬 잘한 케이스)
  • 하지만 이 논문에서 의미있는 부분은 embedding된 task representation 부분
  • Meta-world의 Push-v1 환경에서, 서로 다른 위치에 물건을 옮기는 10개의 task에 대한 PEARL과 Contrastive Learning을 추가한 알고리즘 각각의 representation space를 비교.

Push-v1

  • 각 task마다 200번을 rollout한뒤 샘플된 trajectroy를 t-SNE를 사용하여 2차원 시각화 한 결과 Contrastive Learning을 적용한 알고리즘에서 보다 명확하게 clustring이 된것을 확인할 수 있음.

 

 

 

논문에 대한 나의 의견

개인적으로 context-based Meta-RL은 agent의 행동에 잠재적으로 내포된 goal을 Explainable하게 시각화 할수 있다는 점이 큰 장점이라 생각한다. 이 논문에서 사용한 Contrastive Learning은 이러한 장점을 더 극대화 할수 있는 방법을 제시한것이라 볼 수 있으며, 성능은 크게 좋아지지 않았지만 신뢰도가 중요한 field에 적용할 경우 충분히 의미가 있을것 같다.  

 

Author : Luisa Zintgraf*, Kyriacos Shiarlis, Maximilian Igl, Sebastian Schulze, Yarin Gal, Katja Hofmann, Shimon Whiteson
Paper Link : arxiv.org/abs/1910.08348

JMLR Paper(2021) : https://jmlr.org/papers/v22/21-0657.html

Talk in ICLR2020: iclr.cc/virtual_2020/poster_Hkl9JlBYvr.html

Talk in NeurIPS2020 Workshop: slideslive.com/38938211

 

 

0. Abstract

  • 처음보는 환경에서 RL의 return을 최대화 하는데는 exploration과 exploitation의 trade off가 중요함
  • Bayes-optimal policy는 현재 환경의 state를 고려할뿐만 아니라 현재 놓여진 환경의 불확실성까지도 고려하여 최적의 trade off를 선택함
  • 하지만 Bayes-optimal policy를 계산하는 것은 작은 테스크에서만 가능하고 전체 테스크에 대해 계산하는것은 intractable함
  • 본 연구에서는 처음보는 환경에서 action을 선택할때, 적절한 inference를 하면서도 실시간으로 task의 불확실성도 다루도록 meta-learning을 하는 Variational Bayes-Adaptive Deep RL (variBAD) 알고리즘을 제안함

 

1. Introduction

  • Bayes-optimal policy는 현재 환경의 state를 고려할뿐만 아니라 현재 놓여진 환경의 불확실성까지도 고려하여, 처음보는 환경에서 최적의 exploration과 exploitation사이의 trade off를 선택함
  • Bayes-optimal policy는 Bayes-adaptive Markov decision processes (BAMDPs) 프레임워크로 계산할 수 있으며, 환경에 대한 belief distribution을 가지고 이 불확실성을 낮추는 한편 return 최대화라는 RL의 목적에는 저해되지 않는 exploration을 함 
  • Bayse-optimal policy의 성능은 해당 환경을 완전히 알고 있을때의 최적 policy에 bound 됨
  • 하지만 Bayes-optimal policy는 작은 task에서만 계산이 가능하며, 그외의 경우엔 intractable함
  • 이에 대한 tractable한 대안으로는 posterior sampling (또는 Tompson sampling) 이 있음
  • poterior sampling은 주기적으로 현재 MDP에 대한 가정(posterior)을 샘플링한 다음 이 가정을 전제로한 최적의 policy를 취함. 이 환경에 대한 가정은 다음 샘플링까지 유지됨
  • 하지만 이러한 posterior sampling에 의한 exploration은 매우 비효율적이므로 Bayes-optimal과는 크게 차이남.
  • 이 차이는 아래의 목표지점이 숨겨진 grid world 예시를 통해 볼 수 있음

  • (a) 목적지는 x이나 모르는 영역을 의미하는 회색 중 한곳에 해당
  • (b) Bayes-Optimal 의 경우에는 에이전트가 아직 불활실성이 있는곳을 탐색하며 구조적인 행동을 취함
  • 목적지를 모르는 상태에서 목적지가 있을거라고 생각하는 모든칸에 동일한 확률 (회색의 명도) 를 부여
  • 한편 (c) Posterior Sampling의 경우에는 목적지에 대한 가정을 샘플링 (빨간색 칸) 하고, 여기를 가기위한 최적의 행동을 취함. 그리고 데이터를 바탕으로 posterior를 업데이트한 뒤 다시금 샘플링 반복함.
  • 이는 샘플링에 따라서 이미 지나온 길을 중복으로 가는 등, 불확실성이 최적으로 줄어들지 않는 비효율적인 탐색임
  • (d)는 본 연구가 제안하는 알고리즘의 탐색과정으로, 1개 에피소드당 15번의 step을 간다고 할때 (e)의 비교에서 Bayes-Optimal에 근접하는 효율을 보여줌
  • 본 연구에서는 이러한 처음보는 (하지만 서로 어느정도는 기존 환경들과 공통점이 있는) 환경에 대한 효율적인 탐색 문제를 Bayesian RL, variational inference, 그리고 meta-learing으로 해결하고자 하며, 제안한 알고리즘을 variational Bayes-Adaptive Deep RL (variBAD) 이라고 명칭함.

2. Background

  • 기본적인 RL에 대한 내용은 생략

2.1. Traning Setup

  • 일반적인 meta-learing의 셋업과 같이 MPDs의 분포 $p(M)$을 가정하고 meta-training동안은 이 분포에서 MDP $M_i \sim p(M) $ 을 샘플링함
  • 이때  $M_i = (S, A, R_i, T_i, T_{i,0}, \gamma, H)$, 이며 $i$는 각 task를 의미 
  • Meta-training 동안엔 각 task에서 batch 데이터가 반복적으로 샘플링 되며, 이후 수집된 데이터를 통해 전체 tasks에 대해 에이전트가 더 높은 성능을 내도록 학습하는 learning to learn 과정이 진행
  • Meta-test 동안엔 새로운 task에 대해서 agent가 적응하는 모든 과정에 대한 평균적인 retrun을 평가기준으로 삼음
  • 이러한 meta-framework가 잘 동작하려면 다음의 두 가지가 필요함
    1. 현재 task와 관련된 task들로 부터 얻은 prior 지식의 활용
    2. Exploration과 eploitation의 trade off를 위해 행동을 선택할때 task의 불확실성을 추론

2.2. Bayesian Reinforcement Learning

  • Bayes-optimal policy는 Bayes-adaptive Markov decision processes (BAMDPs) 프레임워크로 계산할 수 있으며, 환경에 대한 belief distribution을 가지고 이 불확실성을 낮추는 한편 return 최대화라는 RL의 목적에는 저해되지 않는 exploration을 함 
  • RL의 베이지안 형태에서는, reward와 transition이 prior $b_0 = p(R,T)$에 따라 분포 해 있다고 가정
  • 또한 reward와 transition을 모르므로, 에이전트는 지금까지 한 경험 $\tau_{:t}=\left\{s_0, a_0, r_1, s_1, a_1, \cdots, s_t\right\}$ 에 대한 posterior인 belief $b_t(R,T)=p(R,T|\tau_{:t})$를 유지함
  • decision making을 할때 이러한 task에 대한 불확실성을 고려하게 하려면, belief space를 state space에 추가함. 즉, task belief가 포함된 새로운 state space인 hyper state를 정의 $s_{t}^{+} \in S^+= S \times B$
  • 이를 기존 RL objective 에 적용한, BAMDP framework의 RL objective는 다음과 같음.

H+는 여러 task들의 episode를 horizon을 더한 전체 horizon

  •  이 objective를 최대화 하는것이 Bayes-optimal policy이며, 자동으로 exploration과 exploitation을 조절해줌
  • 즉, 불확실성을 낮추면서도 return을 최대화 하는 행동을 취함
  • 하지만 이 최적화 문제를 푸는것은 intracterbla한데, 주요 원인은 다음과 같음
    1. 처음보는 MDP의 reward 와 transition모델을 모름
    2. Posterior의 계산은 주로 interactable함
    3. Posterior를 잘 도출하더라도 belief space상에서의 planning 역시 주로 interactable함
  • 이를 해결하기위해 저자는 reward와 transition, 처음보는 MDP에서 어떻게 inference를 할지, 그리고 task belief를 online return을 최대화 하는데 어떻게 활용할지를 동시에 meta-learn하는 방법을 제안
  • Inference기반으로서 planning없이 end-to-end로 동작하는 접근방법을 제안함

 

 

3. VariBAD: Bayes-Adaptive Deep RL via Meta-Learning

  • 여기선 이 paper의 핵심 concept인 variBAD를 설명하고자함
  • 먼저 처음보는, 즉 모르는 MDP의 reward와 transition을 표현하기위 해서 stochastic latent variable $m_i$를 사용하여 다음과 같이 쓸 수 있음

i 는 해당 unkown MDP의 true index

  • 이전 챕터에서 문제로서 언급한 바와같이 이러한 unknown MDP는 reward와 transtion 모델 그리고 index를 모르므로, 여기선 대신 $\tau_{:t}^{(i)}=(s_0, a_0, r_1, s_1, a_1, r_2 \cdots, s_{t-1}, a_{t-1}, r_t, s_t)$ 의 에이전트가 time step $t$까지 경험한 context를 바탕으로 $m_i$를 infer함
  • 즉, posterior distribution $p(m_i|\tau_{:t}^{(i)}$를 infer하는 방법으로 posterior가 intractable한 문제를 다룸과 동시에 unknown MDP의 reward와 transition을 infer된 stochastic latent variable로 parameterize 함
  • Posterior $q_\phi(m|\tau_{:t})$는 latent variable을 embedding하는 encoder의 역할로서 RNN 아키텍처를 가지며decoder를 붙여 학습함.
  • 이때 representation learning이 잘 되도록 decoder는 이전 state와 action이 들어왔을때 reward와 transition (dynamics) 을 잘 복원하도록 아키텍처를 구성함.
  • 또한 policy는 task의 불확실성을 의미하는 posterior에 근거하여 현재환경에서의 행동을 선택함
  • VariBAD 아키텍쳐를 그림으로 나타내면 다음과 같음

3.1. Approximate Inference

  • 처음보는 MDP의 transition과 reward를 모르며 모든 task에 대한 marginalising을 하는것은 불가능하므로 posterior를 정확히 계산하는것은 intractable함
  • 따라서 위에서 언급한 encoder-decoder구조를 사용한 posterior의 근사가 필요하며, 이는 VAE에서 사용한 접근법과 같음 (VAE는 유재준 박사님의 포스팅이나, 이기창님의 포스팅 참고)
  • $\theta$로 parameterized된 MDP의 dynamics 모델 $p_\theta(\tau_{:H^+}|a_{:H^+-1})$ 즉 decoder와  $\Phi$로 parameterized된 inference network $q_\Phi(m|\tau_{:t})$ 즉 encoder가 조합된 구조는 매 time step $t$마다 실시간으로 latent task $m_i$를 infer하는것이 가능하도록 함 
  • VAE의 ELBO objective형식으로 recontruction loss와 KL regulation loss를 구현해 보면,  복원하려는것이 행동선택에 따른 trajectory이므로 아래와 같음. 정확힌 dynamics를 복원하는것이므로 이때 $\tau$는 dynamics의 입력변수에 해당하는 행동정보는 포함하지 않음

  • 여기서 기존의 VAE와는 사뭇 다른 부분은 informational bottleneck 부분인데, 단순히 prior를 정규분포로 두던 VAE와는 달리 task를 포함한 hyper state에서는 처음 prior는 동일하게 $q_\Phi(m) = \mathcal{N}(0,I)$으로 주지만 이후부턴 이전 posterior인 $q_\Phi(m|\tau_{:t-1})$를 prior로 줌. 이는 posterior inference distribution이 task에 따라 adaptation되도록 하기위함
  • 또한 주목할 부분은 latent variable $m$이 추론되기위해 encoder가 사용한 정보는 과거의 정보이지만 $m$을 토대로 decoder가 복원하려는 정보는 과거와 미래를 포함한 전체 trajectory $\tau_{:H^+}$ 라는 점
  • 즉, 단순히 과거의 데이터를 representation하는것이 아닌, 과거의 데이터로부터 가보지 않은 state 또한 잘 추론 할 수 있도록 학습하는것으로, 이를통해 더 좋은 exploration을 위한 representation을 학습함
  • ELBO에서 reconstruction term은 구체적으로 다음과 같이 풀어쓸 수 있음

  • 이는 기존 VAE처럼 단순히 latent variable로부터 state와 reward를 복원하는 형태가 아닌, decoder에 이전 state와 action을 넣었을때 다음 state와 reward를 복원하는 interaction을 decoder가 학습하는것으로 dynamics 및 MDP를 inductive bias로 주어 representation learning하는 구조가 됨

 

3.2. Training Objective

  • 위에서 언급한 아키텍처는 DNN으로 구현되며, 다음과 같음
    1. $\Phi$를 파라메터로 갖는 encoder 역할의 posterior inference network $q_\Phi(m|\tau_{:t})$
    2. $\theta$를 파라메터로 갖는 decoder 역할의 근사 환경모델 transition $T^{'}=p_\theta^T(s_{i+1}|s_i,a_i;m)$ 과 reward $R^{'}=p_\theta^R(r_{i+1}|s_t,a_t,s_{i+1};m)$
    3. $\Phi$에 의존하여 $\psi$를 파라메터로 갖는 policy $\pi_\psi(a_t|s_t,q_\Phi(m|\tau_{:t}))$
  • Posterior는 distribution의 파라메터로 표현 가능 (e.g., $q$가 가우시안일 경우 평균과 표준편차)
  • 이를 종합하여 알고리즘의 최종 objective는 다음을 최대화 하는 것

  • 위 expectation은 Monte Carlo 샘플로 근사가 되며, $ELBO$는 VAE에서도 사용된 reparameterisation trick으로서 역전파를 통한 학습이 가능
  • 위에서 언급한 바와 같이 $ELBO$의 범위는 모든 가능한 context length $t$이고, 이렇게 함으로써 variBAD는 episode 중에 실시간 online adaptation이 가능해지며 데이터가 쌓일수록 환경에 대한 uncertainty가 줄어듬
  • 실제 구현에서는 $H^+$가 너무 클 수 있으므로 고정된 상수 만큼의 subsampling을 사용함
  • 위 objective는 end-to-end로 학습되며 $\lambda$는 Reinforcement Leraning ojbective와 Represention Learning objective사이의 weight 파라메터임
  • Policy가 posterior$\Phi$에 의존하는 만큼 RL loss는 encoder로도 타고 들어갈 수 있지만 별 효용이 있진 않으므로 실제 구현에선 역전파를 끊어주는것이 학습속도 측면에서 더욱 효율적이면서도 loss간 trade off 문제를 피할 수 있고 loss간 gradient가 간섭되는것도 예방할 수 있음
  • 때문에 이후 실험에선 VAE와 policy를 서로 다른 optimizer와 learning rate를 사용함
  • 또한 RL과 VAE를 다른 buffer를 사용하여 학습하는데, 이는 여기서 사용되는 RL알고리즘이 on-policy라 최근 데이터를 사용해야하는 반면 VAE는 전체 데이터를 사용하기 때문
  • Meta-test에선 랜덤하게 test task가 샘플되며 학습된 encoder와 policy가 gradient step없이 forward pass로만 adaptation 함

 

 

4. Related Work

  • 기존 meta-RL에는 여러 방법이 있는데, $\textrm{RL}^2$와 같은 blackbox 방법 역시 RNN을 사용한다는 공통점이 있지만, variBAD는 decoder가 붙어 단순히 hidden black box가 아니라 의도한 uncertainty 정보를 latent variable에 담기위한 representation learning이라는 차이점이 있음
  • 이 외에도 MAML과 같은 gradient step 방식의 meta-RL 알고리즘들과 비교해보면, 이 방법들은 feedforward policy만을 사용해 모델이 더 가볍다는 장점이 있으나 RNN 모듈을 사용하는 $\textrm{RL}^2$ 나 variBAD 는 구조적으론 복잡하지만 online adaptation이 가능하다는 큰 장점이 있음
  • Task embedding의 측면에서 다양한 기존 접근방식의 연구들이 있으나, variBAD는 task uncertainty를 unsupervised하게 representation learning한다는 것과 이를 policy가 의존함에따라 exploration과 exploitation의 trade off가 자동으로 된다는 차이점이 있으며 이러한 자동화된 trade off는 Bayes-optimal에 부합함
  • Bayesian RL의 측면에서 poterior나 prior를 활용한 연구가 여럿 있으나, variBAD의 차별점은 posterior를 업데이트 하는 방법 즉, inference과정을 meta-learn하는것임
  • BAMDPs는 POMDPs이 특수 케이스로 hidden state가 transition과 reward function을 내포하고 있으며 에이전트가 이에대한 belief를 고려하는것을 말함. 단, 일반적인 POMPDs는 hiddent state가 매 step 실시간으로 변할 수 있지만 BAMDP의 hidden task state는 task마다 고정됨

 

 

5. Experiment

  • 실험은 두가지 환경에서 진행되며 Gridworld에서는 variBAD가 structured exploration을 하는지를, 그리고 MuJoCo에서는 fast adaptation, 즉 첫번째 rollout에서 task에 잘 adaptation을 하는지를 증명하고자 함
  • 아래 실험들에서 variBAD는 A2C알고리즘을 사용함

5.1. Gridworld

  • 5x5 gridworld에서 랜덤하게 목적지가 선택되며 에이전트엔 알려주지 않아 탐색이 필요함
  • 에이전트는 매 에피소드마다 왼쪽 하단에서 시작하여 15 step 을 움직이고 다시 위치가 리셋 됨 '
  • 학습의 목표는 에이전트가 4개 에피소드 안에 목적지에 도착하는 것
  • 즉, MDP는 horizon은 $H=15$ 이나 meta-task에 대한 BAMDP의 horizon은 $H^+=4 \times H=15$가 됨
  • 에이전트는 골이 아닌 칸을 지날땐 -0.1의 reward를 받으며 목적지칸에 도착하면 +1을 받음
  • latent variable의 dimension은 5로 gaussian posterior를 사용하면 mean과 s.d. 각각의 10이 됨

  • 위 (a)의 실험 결과에서 보면, infer된 posterior belief를 approximated reward function에 입력으로 주어 각 칸이 목적지일 belief를 흰색-파란색으로 시각화 했으며 흰색은 확률이 0을 파란색이 진해질수록 목적지일 확률이 커지는것으로 보면 됨
  • step을 움직임에따라 지나간 칸의 확률은 0이 되고 남은 칸들의 확률은 올라가는것을 볼 수 있음에따라 variBAD가 belief를 실시간으로 embedding하도록 잘 학습된것을 확인할 수 있음
  • 또한 belief가 바뀜에 따라 에이전트가 방문하지 않은 곳을 선택하는 모습에서 structured exploration이 잘 학습된것을 볼 수 있음
  • 위 (b)에서는 belief의 변화에 따른 gridworld 각 칸의 예상 reward가 1일 확률을 시각화 했으며 (c)에서는 latent variable, 즉 belief disbribution을 시각화 함
  • 에이전트가 데이터를 탐색과 경험을 할수록 각 칸이 목적지일 확률이 하나 둘 0이 되는것을 볼 수 있으며, 약 20step이후엔 목적지에 해당하는 칸의 확률이 1에 수렴하는것을 볼 수 있음 
  • 마찬가지로 에이전트가 목적지를 찾음에 따라 그 이후엔 belief distrubution의 평균이 더이상 변하지 않고 표준편차는 대부분 0에 수렴하는것을 볼 수 있음 
  • 결론적으로, variBAD알고리즘이 처음보는 환경에 대한 exploration과 exploitation을 trade off하는 Bayes-optimal policy와 거의 유사하게 행동하는것을 볼 수 있음 

5.2. Sparse 2D Navigation

  • 반지름1인 반원을 따라 램덤하게 목적지가 생기며, 목적지로부터 0.2거리 안에 들어갈 경우 sparse한 보상을 받는 navigation 환경
  • Bayes-optimal behavior은 반원을 따라 탐색을 하는것

  • PEARL과 비교하면 variBAD가 meta-test에서 훨씬 빠르게 목적지에 도착했으며 RL2와 비교하면 training (3 epi)보다 더 길게 rollout을 했을 경우에서 훨씬 안정적인 움직임을 보여줌
  • PEARL은 posterial sampling을 하기때문에 각 episode내에서는 고정된 belief로인해 비효율적인 반복행동을 취하는 반면, variBAD는 한개의 episode 내에서도 belief를 업데이트 해가며 전략적인 탐색을하는 bayes-optimal에 가까운 모습을 줌 

5.3. MuJoCo Continuous Control Meta-Learning Tasks

  • 같은 meta-RL 알고리즘인 PEARL에서 사용된 MuJoCo locomotion task 4개에 대해서도 variBAD를 검증함 
  • AntDir과 HalfCheetahDir task는 에이전트로 하여금 forward와 backward 두개 방향을 달리도록하는 양방향의 두개 task를 가각 가지고 있음
  • HalfCheetahVel task는 에이전트가 여러 속도로 달리는 환경이며, Walker task는 에이전트의 dynamics 파라메터가 랜덤으로 정해지는 환경임

  • 위 결과는 기존의 각 task에 대해 meta-test에서의 adaptation 퍼포먼스를 기존의 meta-RL 알고리즘들과 비교한것을 보여줌
  • Expert은 PPO알고리즘으로 각각의 task에대해 model free 학습한 평균 결과이며, Multi-task는 task desctiption을 준 multi-task agent를 의미
  • 모든 task에서 $\textrm{RL}^2$와 variBAD를 제외한 다른 알고리즘들은 첫번째 에피소드에서 낮은 성능을 보여주었으며, 이는 해당 알고리즘들이 variBAD나 $\textrm{RL}^2$와 같은 실시간 adaptation이 아닌 few step혹은 episode단위의 adaptation이기 때문임
  • $\textrm{RL}^2$역시 첫 에피소드에서 variBAD보다 낮은 성능을 보여주었으며 adaptation에 따른 성능향상이 미미하고 RNN policy로인해 학습이 오래걸리며 성능이 불안정하다는 확실한 단점이 있음
  •  PEARL(포스팅)은 대표적인 posterior sampling알고리즘으로 약 세번째 에피소드부터 좋은 성능을 보여줌
  • 결과적으로 variBAD는 단일 에피소드만으로도 충분한 빠른 adaptation을 보여주면서도 multi-task에 가까운 성능을 보여줌
  • 단, MuJoCo에선 (dynamics가 변하는 Walker포함한 경우에도) transition decoder를 함께 사용하는것보다 reward decoder만 사용하는것이 더 좋은 성능을 보여주었으며 위 그래프는 단일 decoder를 사용해 학습한 결과임

5.4. Meta-World

  • 좀더 다양한 task에 대한 generalization을 다루는 로봇팔 benchmark환경인 Meta-World ML1에서 성능 검증

  • Reach와 Push 문제를 모두 해결하면서 큰 차이로 기존 알고리즘들보다 빠르면서도(2 episode이내) 뛰어난 성능을 보여줌
  • 어려운 문제인 Pick-Place에서는 PEARL과 유사한 성능을 보여주었는데, 이는 meta-training에서 탐색이 부족 (meta-exploration challenge)하여 생기는 한계로 저자는 추정

 

6. Empirical Analysis

6.1. Modelling Horizon

  • VAE에서 reconstruction을 전체 다 하는 경우(variBAD)와 과거만 하는 경우, 미래만 하는경우, 그리고 1step미래만 하는 경우에 대해 결과를 비교분석함
  • 이미 관측된 transition과 앞으로 관측할 transition의 분포를 모두 belief에 담고자한것이 variBAD에서 주장한 모델링의 이유

  • 실험 결과 origial VAE와 같이 과거만 복원하는것은 suboptimal성능을 보여주었고, 다음 step만 복원하는것은 AntGoal에서 낮은 성능을 보여줌
  • 미래만을 복원하는것은 성능상으로는 괜찮았지만 아래 Gridworld실험을 통해 이 역시 부족한 점이 있다는것을 확인

  • GridWorld에서 과거만 복원하거나 다음 step만 복원하는것은 목적지에 도착하기 전까지 잘못된 belief를 학습 (Figure 7b,d)
  • 미래를 복원하는것은 방문전인 state들에 대한 reward belief를 나쁘지 않게 학습하였지만, 이미 방문한 상태에 대에선 잘못된 belief를 보여줌 (Figure 7c)

6.2. KL Regularisation

  • VAE에서 KL term을 origial VAE와 같이 고정된 normal distribution으로 할 경우, 이전 posterior를 piror로 하여 서로 닮도록 하는 경우 (variBAD), variBAD과 같이 이전 posterior를 prior로 활용하나 gradient는 끊어주는경우, KL term을 제거할 경우에 대해 비교분석함

  • 고정된 prior를 사용할 경우, 성능적으로는 dense reward에선 괜찮고 sparse reward에선 안좋았으나 variance를 분석해보면 normal distribution에 과잉 fitting되려하여 Gridworld에서 목표점에 도달직후 variance가 확 증가함
  • KL을 사용하지 않을경우 variance가 학습이 전혀 되지 않음
  • Grandient를 detach할 경우엔 성능면에서나 variance면에서나 모두 나쁜 결과를 보여줌

6.3. Belief Demensionality

  • Latent dimension이 바뀜에 따라 성능이 어떻게 변하는지를 실험함

  • 실험결과, 아주 작은 dimension으로 인한 underparameterised가 아닌 이상 latent dimension의 크기는 큰 영향을 주지 않았으나, 조금이지만 서서히 성능이 줄어들긴 함

 

7. Conclusion & Future Work

  • 본 연구에서는 서로 연관된그리고 처음보는 task를 inference하는것을 meta-learn하는 접근을 통해, Bayes-optimal의 행동양상을 근사하는 deep RL 방법인 variBAD를 제안함
  • Gridworld 실험에서는 bayes-optimal과 같은 exploration과 exploitation의 trade off성능을 보여주었으며, MuJoCo실험에서는 하나의 에피소드만에 성능을 내는 빠른 adaptation을 보여주어 이를 검증함
  • 향후 가능한 연구로는 decoder구조를 사용하여 meta-model based RL이 있으며, distribution shift의 OOD 문제를 풀기위해 알고리즘을 개선해볼수도 있음
  • 또한 PEARL에서와 같이 off-policy RL알고리즘에 variBAD를 적용해볼 수 있음

 

7. 개인적인 생각

  • VariBAD는 PEARL과 매우 비슷한 아키텍처를 사용하고 있다. 단 PEARL이 belief를 episode동안엔 유지하고 있는것과는 달리 variBAD는 step마다 업데이트하는 차이가 있다. 이에 대해 저자는 RNN encoder를 사용하고 있어서 가능하다고 언급하는데, RNN의 사용이 시간에 따라 서로 연관된 temporal hidden state 표현이 가능하도록 만들기 때문이라고 한다. 재밌는건 PEARL역시 RNN을 사용하긴 했으나 성능적인 면에선 오히려 떨어진다고 하고, RNN도 correlation을 끊어주었을때 그나마 성능이 비슷해진다고 했다. 즉 PEARL은 RNN에 의한 data correlation이 task inference를 오히려 더 어렵게 만든다고 주장한다. 하지만 variBAD의 결과를 보면 크게 문제되지 않아보인다. encoder를 학습할때 decoder에다 전체 horizon을 다 넣어서 그런가 싶기도 한데, 이부분을 좀 더 자세히 비교하면 좋겠지만 PEARL의 github 구현에서는 아직도 RNN이 TBD 상태이다. 
  • 또한 PEARL은 decoder가 Q-functon인데 반해 variBAD는 dynamics와 reward를 복원한다. 사실 dynamics를 복원하는건 PEARL에서도 사용했는데 성능이 별로라 그냥 Q를 사용했다고 했다. 하지만 variBAD도 MuJoCo실험에서는 dynamics의 복원보다 reward만 복원하는게 더 성능이 좋았다고 한다.
  • PEARL이후에 PEARL의 저자는 variBAD와 같이 Hyper state를 사용하여 이미지 기반 meta-RL에 PEARL을 적용하는 논문인 MELD를 낸다. MELD에서는 이미지를 학습하기위해 Hyper state를 사용하는 SLAC의 아키텍처를 가져오는데, MELD와 SLAC는 실시간 hidden state의 업데이트를 위해 latent dynamics, 즉 temporal dependency를 갖도록 latent variable을 학습한다. 이러한 latent dynamics구조를 사용하면 RNN없이도 실시간 temporal hidden state의 표현이 가능해진다고 한다. 따라서 variBAD에서 처럼 latent dynamics에 RNN을 활용하지 않고 latent dynamics만 잘 학습하도록 하면 충분히 실시간 embedding이 되면서도 가벼운 encoder를 구현할수 있는것 같다. 하지만 이 SLAC아키텍쳐가 구현에 있어서 은근히 번거로운 부분이 있고 action에 대한 response delay가 큰 시스템에서는 잘 동작을 할지 의문이 들긴한다. 
  • Representation learning과 관련해서는 Chelsea Finn 교수님 연구실에서 나온 논문인 LILI가 생각난다. 최근 RL의 문제는 representation power에 있다는 의견이 많은데, 이 때문에 representation learning을 RL에 붙이려는 시도가 매우 활발하다. LILI는 이러한 representation learning을 multi-agent 문제에 적용하여, interation trajectory로부터 상대방의 의도를 latent variable에 담는 시도를 하는데, real-world RL 측면에서 재밌게 읽어서 저자에게 메일을 보냈다. LILI에서도 VariBAD와 마찬가지로 task의 MDP를 inductive bias로 주어 latent space를 학습하려는 시도를 했다.
  • Inference 타입의 Meta-RL인 PEARL이나 variBAD역시 representation으로 meta-learning을 학습하는 구조인데, 사실 두 알고리즘 모두 어떻게 encoder와 decoder를 구성해야 latent task를 잘 학습할지 많은 시도를 한 흔적이 보인다. 하지만 아직은 이론과 실험과정에 사용한 조건이 사뭇 다른 등의 차이로 인해 명확하게 이론의 근거가 와닿지 않는 부분이 많다. 이 representation learning은 특히 지금 내가 연구하고있는 medical field에서도 잘 활용해볼 수 있을 것 같아 적용 중인데, 작게나마 결과를 볼 수 있었다. 앞으로 더 분석을 해보고 real world 실험에서도 잘 되면 medical-representation learning에 대해서 정리를 해볼까 싶다. 

 

 

 

 

Author : Tony Z. Zhao*, Anusha Nagabandi*, Kate Rakelly*, Chelsea Finn, Sergey Levine
Paper Link : arxiv.org/abs/2010.13957

Website : sites.google.com/view/meld-lsm/home

Code: https://github.com/tonyzhaozh/meld

Talk : https://youtu.be/P7Z68dRvne4

 

  • PEARL의 이미지 input 버전
  • PEARL에다 SLAC에서 사용한 latent dynamic를 활용
  • 실제 로봇으로 real world에서 meta-RL을 검증한 첫(아마도?) 사례이기 때문에 의의가 있음

 

Author : Kate Rakelly*, Aurick Zhou*, Deirdre Quillen,  Chelsea Finn, Sergey Levine
Paper Link : https://arxiv.org/abs/1903.08254

Talk in NeurIPS2020 Workshop: slideslive.com/38938215

 

0. Abstract

  • 기존의 meta-RL (meta-Reinforcement Learning)은 on-policy 기반으로 샘플링이 비효율적이거나, task의 불활실성에 대한 구조적인 탐색이 불가능함
  • 이에 policy와 별개로 task inference가 가능한 off-policy 기반의 meta-RL 알고리즘을 제안함
  • 제안된 방법은 gradient step없이 task의 확률이 online으로 도출 가능하며, 기존의 meta-RL 알고리즘 대비 20~100배의 샘플 효율성을 보여줌

1. Introduction

  • 현재 대부분의 meta-RL은 meta-training과 adaptation에서 모두 on-policy data를 필요로 함
  • Adaptation은 새로운 task에대한 빠른 학습을 특징으로 하여 on-policy가 큰 문제는 아니나, meta-training에서의 on-policy training은 매우 낮은 샘플 효율성을 야기하므로 off-policy RL을 meta-training에 적용할 필요가 있음
  • 하지만 meta-training과 meta-test의 adaptation 데이터 구조가 일치해야하는 근본적 제약으로인해 off-policy meta-RL은 근본적으로 어려움
  • 이에 이 연구에서는 meta-RL을 context connoted blackbox 나 bi-level optimization의 adaptation과 policy가 결합된 구조로 보는 기존의 접근과 달리, inference problem으로 해석
  • 즉, meta-training동안 데이터의 posterior를 먼저 inference하도록 probabilistic encoder를 학습하며 이를 토대로 policy가 task를 수행
  • 마찬가지로 Meta-testing에선 학습된 encoder에 의해 새로운 task의 latent variable을 inference한 뒤 이를 바탕으로 policy의 구조적인 탐험 및 빠른 adaptation을 수행
  • 이와같이 task inference가 policy로부터 분리된 구조는 meta-policy의 exploration 및 optimization 과정 없이도 online task inference를 가능하게 함
  • 또한 분리된 학습으로 인해 meta-training의 데이터 구조와 meta-test 데이터 구조가 달라도 돼 off-policy meta-RL을 가능하게 함
  • 즉, policy는 off-policy RL로 효율적으로 최적화 되는 반면, encoder는 on-policy data를 사용해 task inference를 학습하고 수행함으로써 meta-training과 meta-test사이의 불일치성을 최소화
  • 저자 Kate Rakelly는 이 알고리즘을 probabilistic embedding for actor-critic RL (PEARL)이라 명명 
    (github도 이름을 oyster 로 지은걸 보면 재밌는 이름이긴 하나 사실 와닿진 않는듯 하다)

 

2. Related Work

a) Meta-learning:

  • 새로운 task를 빠르게 학습하는것을 목표로 하는 meta-RL은 크게 context-based meta-RL과 gradient-based meta-RL로 나눌 수 있음
  • Context-based 방법은 수집된 데이터로 부터 task의 latent representation을 학습하고 이를 policy의 condition으로 사용하는것으로, 주로 RNN을 사용
  • Gradient-based 방법은 빠른 초기 학습을 학습하는 bi-level optimization으로, on-policy 데이터 기반의 policy gradient를 사용
  • PEARL은 context-based 기법이나 RNN대신 encoder를 사용했으며, gradient-based 기법과 달리 off-policy 데이터를 사용하는 차이가 있음

b) Probabilistic meta-learning:

  • Probabilistic model을 supervised learning혹은 reinforcement learning 에 적용하는 연구는 많이 있어옴
  • PEARL은 특히 task의 uncertainty를 확률분포로 표현하는 probabilistic latent task variable을 활용

c) Posterior sampling:

  • RL에서의 posterior sampling은 측정한 MDPs 데이터에 대한 posterior을 샘플링하고 시간적으로 과거의 경험과 겹치지 않는 최적의 행동을 새롭게 탐색하는것을 의미
  • PEARL은 이 posterior samping을 meta-learning의 관점으로 해석하여, 과거 경험한 task의 uncertainty를 확인하고 새로운 task를 구조적으로 탐색하는데 활용 

d) Partially observed MDPs:

  • Task를 state에 포함된 개념으로 본다면, uncertanty가 높은 task를 기본 배경으로 하는 Meta-RL은 일종의 partially observed MDPs (POMDP)로 볼 수 있음
  • PEARL은 새로운 task에 대한 probabilistic belief inference를 위해, POMDP 문제에 사용되는 variational 접근을 활용.

3. Problem Statement

  • Meta-RL은 기존의 task들로 부터 meta-policy를 학습하는 meta-training과, 학습된 meta-policy로부터 빠르게 새로운 task에 적응하는 adaptation 의 두가지 반복 loop로 구성됨
  • Adaptation의 샘플링 효율은 meta-RL의 본질과 부합하므로 큰 문제 없으나, meta-training에서의 샘플링 효율은 기존의 RNN, policy gradient 방식의 on-policy기반 알고리즘으론 매우 낮음 
  • 이는 Real world에 meta-RL을 적용하는데 있어서도 큰 장애물이 됨 
  • 이에 저자는 off-policy meta-training 알고리즘을 제안함
  • Task의 정의는 다음과 같음

각각 {initial state distribution, transition distribution, reward fuction}

  • 이 3가지 요소 중 어느 하나라도 다르면 다른 task로 간주
  • 실직적으로 task를 바탕으로 수집된 데이터는 그 task를 상징하는 context $c$라는 추상적 개념을 가지고 있다고 보며 명시적으로는 하나의 MDP transition으로서 다음과 같이 표현

n번째 step의 (state, action, reward, next state)

  • 이때, Meta-RL은 transition distribution과 reward function을 모르는 상황에서 training task들을 학습하여 새로운 task를 마주했을때 빠르게 policy를 찾는 문제

 

4. Probabilistic Latent Context

  • task의 최근 context로 task에 대한 latent probabilistic context variable $Z$를 추론 했을때, 이 latent variable을 조건으로한 policy $\pi_{\theta}(a\mid s,z)$ 를 최적화 하면서 얼마나 성능이 좋은지를 바탕으로 $z$가 적절히 추론되었는지를 판단

4.1. Modeling and Leanring Latent Contexts

  • Inference $Z$ 를 학습하기위해 variational auto encoder (VAE)의 구조를 사용
    (VAE는 유재준 박사님의 포스팅이나, 이기창님의 포스팅 참고)
  • Context $c$가 주어졌을 때 poeterior $p(z \mid c)$를 추정하는 inference network $q_{\phi}(z \mid c)$ (encoder)를 학습
  • Decoder의 generative 기능에 따라, $q_{\phi}(z \mid c)$는 $z$로부터 MDP의 복원을 목적으로 최적화할 수 있음
  • 유사한 변형으로서, model-based RL개념의 MDP복원이 아니라 model-free RL의 개념을 차용하여 Q나 Return을 최대화 하도록 $q_{\phi}(z \mid c)$를 최적화 가능
  • VAE의 개념을 가져왔으므로, PEARL의 목적함수 역시 VAE의 목적함수(ELBO)와 유사하며 다음과 같음

  • ELBO의 형태에 따라 첫번째 항은 reconstruction term이며, 두번째 항은 variational prior에 대한 regularization term
  • $R(\tau, z)$는 위에 언급한 대로 model-based 혹은 model-free 접근에 따라 다양한 reconstruction objective를 선택 가능
  • PEARL에서는 $p(z)$를 z에대한 unit Gaussian 형태의 prior로 가정하며, regularization term에 따라 information bottleneck의 역할을 하여 현재 task에 대한 meta-overfitting을 완화함
  • Meta-test에서는 추가적인 gradient step 없이 encoder를 사용한 새로운 task에 대한 latent context의 단순한 online inference만 필요함
  • 만약 task가 fully observed MDP라면 단일 transition만으로도 context를 충분히 내포하고 있으며 따라서 transition sample간의 순서는 관계 없는 permuation invariant 성질을 만족함
  • 이에, posterior는 각각의 단일 transiton을 inference한 posterior의 distribution multiplication으로 modeling됨

  • 실제 구현에서는 encoder의 output으로 mean과 standard deviation을 inference한 후, 이를 파라메터로 갖는 normal distribution을 posterior로서 도출함

  • 지금까지의 inference network 구조를 그림으로 표현하면 다음과 같음

4.2. Posterior Sampling and Exploration via Latent Contexts

  • Posterior sampling, 즉 현재 task에 대한 belief에 따른 optimal acting은 동일한 분포의 랜덤한 행동을 반복해서 하는것이 아니므로 시간적으로 구조화된 탐색을 하는 장점을 가짐
  • 단, 기존의 RL에서의 posterior sampling과 달리 PEARL에서는 VAE를 썼기때문에 MDP/Return/value 등 다양한 최적화를 위한 poterior를 직접inference 가능
  • 새로운 task에 대해서는 prior에서 $z$를 샘플링 한 후 이에 대한 acting을 하며, 그 결과로 얻어진 context에 따라 현재 task의 posterior를 다시금 inference함
  • 이 과정을 반복하면 현재 task 에 대한 belief가 범위가 좁혀지고, 따라서 더 적절한 optimal action을 취할 수 있음
  • 이러한 posterior sampling을 통한 acting 구조는 그림으로 다음과 같이 표현 됨

 

 

5. Off-Policy Meta-Reinforcement Learning

  • 현대 meta-RL에선 adaptation에 사용되는 데이터의 구조가 meta-training과 meta-test 둘 사이에 일치(in distribution) 해야한다고 가정함
  • 때문에 RL의 특성상 meta-test의 adaptation이 on-policy 로 이루어짐에 있어, meta-training도 샘플 효율이 낮은 on-policy를 사용해야하는 제약이 생김
  • 또한 경험을 바탕으로 task distribution을 추론하는 stochastic 탐색을 배우는것은 meta-RL을 더욱 효율적으로 만드는데, 이는 policy가 stochastic distribution을 바탕으로 행동을 조작할 수 있어야 가능함
  • 따라서 이는 단순히 true value function을 근사하는 off-policy RL은 불가능한 반면, policy 자체를 근사하는 on-policy RL은 가능함
  • 이러한 두가지 종합적 이유로, off-policy RL을 meta-RL에 접목하는것은 필요하지만 쉽지 않음
  •  논문의 contribution으로서, PEARL 알고리즘은 위 한계점을 해결하기위해 task distribution inference 구조는 encoder가 하도록 분리하고 poilicy의 학습과 encoder의 학습이 다른 데이터를 사용해도 되도록 설계
  • 이로서 encoder가 on-policy data로 학습을 하여도, policy는 off-policy RL loop의 일부로서 $z$를 다룰 수 있게 됨
  • 또한 탐색을 위해 필요한 stochasticity 역시 encoder $q(z \mid c)$ 로 추가할 수 있음
  • 구체적으로, Actor와 Critic은 replay buffer $B$로부터 off-policy 데이터를 샘플링하여 학습을 진행
  • Encoder는 샘플러 $S_{c}$에 의해 샘플링된 context batch를 학습
  • 이때 $S_{c}$가 전체 버퍼에서 샘플링을 할 경우 off-poicy 가 되어 on-policy meta-test와의 너무 큰 차이가 생김
  • 하지만 encoder를 사용할 경우 strict on-policy를 지키지 않아도 된다는 장점이 있는데, on-policy와 off-policy 중간 정도 되는 접근으로서 최근 수집된 데이터를 통해 inference를 하는것은 on-policy 데이터를 사용하는것과 성능의 차이가 없다는 것을 저자는 확인함
  • 지금까지의 PEARL을 알고리즘으로 정리하면, meta-training 및 meta-test는 각각 다음과 같음

 

5.1. Implementation

  • PEARL은 model-free off-policy RL알고리즘인 soft actor-critic (SAC)기반으로 구현 (SAC의 자세한 설명은 이전 포스팅 Soft Actor-Critic (Haarnoja, 2018) 정리 참고)
  •  SAC는 off-policy 알고리즘으로서 효율적인 데이터 샘플링 및 안정성을 보여주며 poilicy자체가 probabilistic하게 표현돼 probilistic latent context와의 결합이 용이
  • PEARL의 구현에선 inference network $q(z \mid c)$의 파라메터를 actor  $\pi_{theta}(a \mid s, z)$와 critic $Q_{theta}(s,a,z)$의 파라메터와 결합하여 한번에 backprobagation으로 학습하기위해 reparameterization trick을 사용
  • 이는 샘플링을 포함하는 연산그래프에서 랜덤노드를 분리해주는 것으로, 자세한것은 유재준 박사님의 블로그를 참조
  • 이 같은 학습구조로 crtic의 학습으로서 $Q$의 복원값을 Bellman update와 LMS로 학습면서 한번에 gradient가 inference network까지 전달되어 학습 가능 (Chapter4에서 reconstruction은 여러가지가 가능하다고 했으나 MDP 의 복원보다 $Q$의 복원이 더 나은 성능을 보여주는것을 저자는 확인)
  • 따라서 critic의 loss fuction은 다음과 같음

  • Actor의 loss function은 SAC 원 알고리즘과 거의 동일하며 $\overline{z}$만 input에 추가되어 다음과 같음

  • $\overline{V}$은 target value network. $\overline{z}$는 reparameterization trick으로 gradient가 encoder의 파라메터로 전달 되지 않음을 의미
  • 여기서 주의할 점은 critic loss에 사용되는 data와 latent variable를 추론하는 $q_{\phi}(z \mid c)$ context가 다르다는 것
  • Context 샘플러 $S_{c}$는 완화된 on-policy로서 최근 수집된 데이터에서 uniformly 샘플링 하며, meta-training 을 n번 진행할때마다 한번 context를 inference함
  • 한편, actor-critic은 off-policy 샘플링을 위해 전체 replay buffer에서 uniformly 샘플링

 

6. Experiments

 

6.1. Sample Efficiency and Performance

  • 실험은 총 6개의 Mujoco continuous control 환경에서 수행

  • 이 중 5개는 제어 목적이 다른(=reward가 다른) task
    • 각각 전진/후진을 목표로 하는 Half-Cheetah
    • 각각 전진/후진을 목표로 하는 Ant
    • 걷는 방향이 서로 다른 Humanoid
    • 서로 다른 속도를 목표로 하는 Half-Cheetah
    • 목표 도착 지점이 서로 다른 Ant
  • 나머지 1개는 dynamic가 다른 (=transition probability가 다른) task
    • 랜덤하게 dynamics 파라메터가 정해지는 2D-Walker

  • 비교를 위한 meta-RL 알고리즘은 총 3개 수행
  • 이 중 2개는 Policy gradient 기반 (optimization기반)의 알고리즘
  • 나머지 1개는 Recurrent 기반 (black-box 기반)의 알고리즘
  • 실험결과 PEARL이 기존 meta-RL알고리즘보다 20~100배 더 향상된 meta-traning 샘플링 효율을 보여줌
  • 또한 기존 알고리즘 보다 50~100% 향상된 성능을 점근선으로 확인 가능 함

6.2. Posterior Sampling For Exploration

  • Posterior sampling이 얼마나 효과적으로 task 탐색을 진행하는지를 검증하는 실험을 함
  • 이를 위한 환경으로는 reward가 sparse하게 주어지는게 보통 사용되며, 여기서도 마찬가지로 타원을따라 나타나는 파란 원에 도달시에만 reward를 받는 2D navigation 실험을 함
  • 비교 알고리즘으로는 기존의 meta-RL 알고리즘 중 PEARL과 같이 구조적인 탐색이 가능한 MAESN (Gupta et al.m, 2018)을 사용

  • 실험 결과, optimazation 기반 meta-RL알고리즘과 달리 sparse reward 문제도 해결 가능함을 보여줌
  • 또한 같은 구조적 탐색이 가능한 MAESN에 비해 meta-training에서 약 100배 빠른 샘플링 효율성을 보여줌
  • (6.3 Ablations는 알고리즘의 구현에 대한 추가적인 검증으로 생략)

 

8. Limits of Posterior Sampling

  • Posterior sampling으로 sparse reward 환경에서도 구조적인 탐색이 가능하지만, 이게 optimal exploration을 의미하는것은 아님 

  • 실제로 반원을 따라 target이 생긴다면, optimal은 반원을 따라 탐색을 하는것이 가장 효율적인 전략
  • 이는 task에 대한 adaptation과 postrior regularization의 순서에 따라 생기는 문제로, task inference를 통해 $z$를 도출 한 후 Normal distribution prior로 posterior를 regularize하면 task의 latent space가 normal distibution으로 제한 됨

  • 즉, adaptation은 task간에 그 평균에 해당하는 공통점이 존재하는 경우에 한하여 성능이 좋을것을 예상 가능
  • 이러한 문제는 실제로 meta-RL에 대한 벤치마크인 Meta-world (Finn et al., 2019)에서 10개의 task만으로 meta-RL을 진행했을땐 meta-policy의 학습이 실패했으나, 45개의 task를 사용하여 공통점이 충분해 졌을땐 다른 알고리즘 보다 나은 성능을 보여준것에서 확인됨

다양한 task에 대한 meta-test의 성공률

  • 하지만, 전반적으로 meta-RL 알고리즘들의 성능이 나쁨. 이는 탐색이 부족한 문제도 데이터가 부족한 문제도 모델의 capacity가 부족한 문제도 아닌 최적화 기법의 문제인것으로 추측 됨 (스탠포드 Fall19 CS330 lecture10)
  • 즉, 다양한 out of distribution인 task familly들에 대해 더 나은 최적화를 가능하게 하는 meta-RL 알고리즘으로의 여지가 아직 많이 남아 있음 

 

 

 

 

+ Recent posts