Author  : Biwei Huang, Fan Feng, Chaochao Lu, Sara Magliacane, Kun Zhang
Paper Link : https://openreview.net/forum?id=8H5bpVwvt5 

 

Rating: 8, 8, 6, 8

 

  1. PEARL, VariBAD와 같은 inference based meta-RL의 structured (graphical) representation 버전
  2. World-model의 multi-task/meta RL 버전

 

  • 기존의 방법들이 implicit latent task varible을 inference하는 구조였다면, AdaRL은 이를 task간의 domain-shared latent state $s_t$와 domain-specific change factor $\theta_k$ 로 나누어 explicit한 inference를 함
  • 이를 가능하도록 학습하기 위해 두 time step동안의 state dimension, action, reward 그리고 이들에 영향을 주는 domain specific parameters $\theta_k$사이의 상호관계 graph를 아래와 같이 가정

  • 이 graphical관계를 수식으로 표현하면 다음과 같음

d는 dimension, k는 domain의 index, theta는 domain-specific parameter, epsilon은 noise

  • 여기서 $c$는 그래프에서 각 요소 사이의 edge에 대한 mask parameter이며 이로 인해 최소한의 필요한 representation만 남음
  • 이러한 latent variable를 inference하는 encoder와 각각의 edge들을 end-to-end 학습하기위해 VAE (MiSS-VAE; Multi-model Structured Sequential Variational Auto-Encoder)구조를 제안하여 사용

  • 이렇게 구한 explicit한 compact latent variable만 있으면 policy를 학습하기에 충분하다는것을 appendix에서 증명

  • 알고리즘의 검증은 Cartpole과 Atari Pong에서 진행
  • explicit한 task representation덕분에 다양한 task의 variation에서 in/out of distribution 모두에서 기존 알고리즘들보다 비슷하거나 효율적인것을 확인

 

개인적인 생각

  • explicit하게 task representation을 나누어 학습하는것이 좋다. graph를 사용하여 이를 학습가능하게 하는부분이 기발하다. 다만 리뷰어도 언급한 부분으로 이걸 저자가 interpretable이라고 부르기엔 이에대한 검증이 부족해 보인다.
  • 지금까지 많은 Meta-RL 논문들이 reward 기반 multiple task에 좀더 집중을 하여 검증을 해왔기에, state dynamics(혹은 transition)이 달라지는 multiple task에 대한 접근은 상대적으로 실험이 부족한감이 없지않아 있었다. 반면 이 연구에선 기존 연구들과 달리 이러한 state dynamics의 변화에 따른 adaptation을 reward보다 더 중점적으로 다룬단 차별점이 있다. 다만 이는 저자의 말에 따르면 reward가 달라지는 task에선 20~50 step의 적은 sample만으론 adaptation이 어려워서가 이유이기도하다.
  • 같은 맥락에서 리뷰어도 이야기를 한 부분인데, state dynamics에 잘 adaptation하는 알고리즘이라면 그 장점을 더 잘 보여줄 수 있게 locomotion과 같은 task에서도 검증을 했다면 어떨까 싶다.
  • 실제로 이렇게 structured latent estimation을 할 경우 단순히 baseline대비 성능이 좋다는 내용만 본문에 써둔게 아쉽다. 실제 추론된 $\theta_k$의 검증은 appendix에 있는데, 환경의 물리적 변화와의 연관성이 충분히 보이고 있어서 제안하는 structured self-supervised approach의 유효성을 어느정도 입증하고 있다.

Cartpole에서 실제 물리적 변화에 따른 추론된 latent variable의 경향성

 

  • policy optimization이 필요없는 meta-adaptation을 강조하고 있는데, 이는 VariBAD나 PEARL과 같은 inference based meta-RL들에서 이미 보여준 부분이긴하다. 리뷰어도 언급한 부분인데 이 inference에 대한 설명이 본문에 안보여 Appendix를 읽기 전엔 이해가 다소 어렵다.
  • domain index $k$를 input으로 사용하는 부분이 multi-task RL의 색깔이 있기때문에, meta-RL관점에서 이 알고리즘이 generalization이 잘 될지도 궁금하다.
  • 알고리즘이 좀 복잡하다. 상당히 많은 notation이 본 paper와 appendix에 섞여 있어서 어렵긴 하나, 이론적 증명이 탄탄한것이 큰 장점이어서 높은 rating을 받은듯하다.
  • 저자들이 causal reinforcement learning을 연구한 사람들이라 structural causal model의 개념을 도입한것 같다.

 

Author : Sergey Levin
Paper Link : https://openreview.net/forum?id=L55-yn1iwrm

Talk : @Seminar Series in Cognitive Computing at Baidu Research https://www.youtube.com/watch?v=5Tdndu275AY

 

Author : Anonymous authors
Paper Link : https://openreview.net/forum?id=uy602F8cTrh 

 

  • Model-based RL에 structural causal inference을 적용하여 OOD에서의 generalization을 향상시키고자 함

 

 

  • 동일한 환경의 방문한 transition을 시작점으로 data를 생성해 data augmentation을 시도하는 기존 Dyna 타입의 알고리즘과 달리 counterfactual data를 world model로 생성
  • 이때 로봇이 옮기고자 하는 물건의 질량 혹은 마찰력에 대한 structual causal model을 가정하고 이를 counterfauctual peroperty로 설정

 

  • 실험은 robot manipulation task에대한 transfer learning을 검증하기위해 개발된 환경인 CausalWorld에서 진행
    - https://sites.google.com/view/causal-world/home (Youshua Bengio 교수님 포함)
  • 질량과 마찰력에 대한 OOD 조건에서 실험결과 기존 model-based RL 및 model-free RL 알고리즘 (MBPO & SAC)보다 더 나은 task generalization 및 sample efficeincy를 보여줌

 

 

  • 또한 학습조건의 질량과 마찰력이 한쪽으로 쏠린 unbalanced distribution (90:5:5)에서도 다른 알고리즘 대비 더 나은 generalization 및 sample efficient한 성능을 보여줌 

 

 

개인적인 생각

  • model-based RL이 real world에서 쓰이기위해 꼭 필요하다고 생각했던, 그리고 causal inferece의 인기를 생각하면 조만간 나올거라 생각했던 counterfactual performance를 다룬 연구라 반가웠다.
  • 다만 다른 몇몇 casual inference연구의 결과에서도 그랬지만, 이 연구도 모델에 counterfactual property에 대한 loss가 따로 들어가지 않는 경우라 생성된 counterfactual data에 대한 신뢰성이 사실상 없다. (21.11.09 코멘트: 그래서인가 오늘 공개된 openrewiew에서 5353점을 받았다.)
  • Structured casual graph를 쓰는만큼 앞으로는 더욱 inductive bias를 잘 활용할 수 있는 방향으로, 그래서 학습된 world model이 실제 환경의 dynamics에 대한 근본적인 이해를 바탕으로 만든 causal inference가 접목되지 않을까 싶다.
  • 이 논문은 multi-task RL과 그 연장선으로 볼 수 있는데, meta-learning에도 causal inference를 접목하는 연구가 general intelligence를 최종 목표로하는 분야의 특성상 곧 나올것 같다. 

Author : Anonymous authors
Paper Link : https://openreview.net/forum?id=H7Edu1_IZgR 

 

 

  • 기존 memory based meta-RL의 대표 알고리즘인 RL2에서 RNN을 Transformer로 대체한 버전의 알고리즘

  • Transformer의 구조가 왜 meta-learning에 부합하는지 신경과학적으로 해석함
  • 한 transition의 embedding은 감각에서 들어오는 신경과학에서의 working memory로 보고, 이 들에 attention mechanism을 적용한 것을 신경과학에서의 reinstatement mechanism와 같다고 하며 Transformer 각 step의 output이 episodic memory에 해당한다고 해석
  • 즉, 이러한 working memory들이 episodic memory로 합쳐지고 무엇보다 이게 task 분포를 proxy한다고 가설

 

 

  • RNN보다 Transformer의 sequential representation 능력이 좋기 때문에, MetaWorld에서 RL2의 상위호완 성능을 보여줌

 

 

  • 새 step이 들어올때마다 Transformer의 input을 queue처럼 사용하기때문에, 사실상 RNN과 같이 쓸 수 있어 RL2, VariBAD와 같은 online adaptation이 가능한 알고리즘
  • Episodic adaptation인 MAML이나 PEARL에 비하면 매우 빠른것이 장점

 

 

  • OOD에서는 PEARL이나 MAML보다 TrMRL 및 RL2가 높은 성능을 보여주어 보다 효과적인 representation을 생성함

 

 

  • Working memory가 각 Task에 대해 잘 분리 된다는것을 latent visualization으로 보여줌

 

 

개인적인 생각

  • RL2에서 RNN을 Transformer로 바꾼것이 사실 이 연구의 알고리즘적인 contribution이다. 하지만 RNN을 Transformer로 대체하는건 사실 다른 분야에선 더 이상 contribution이 되지 못한다. (21.11.09 코멘트: 오늘 공개된 openreview 점수가 역시나 5533이다) 그래서 그런지 Transformer의 평범한 구조들에 대한 meta-learning측면의 신경과학적인 해석에 공을 상당히 들였다.
  • Reward signal만으로 capacity가 큰 Transformer까지 end-to-end로 학습하는구조라 학습이 매우 어렵다. 특히 episodic memory중에서 1개로만 policy loss가 back prop 들어가는 구조라 충분히 학습이 되려나 싶었는데 나름 성능이 좋다고해서 신기하다. 하지만 역시나 학습이 불안정하다는걸 강조하며 Ad hoc으로 network initializaton이 쓰인다.
  • 알고리즘과 환경의 특성상 "Metaworld가 아닌 Mujoco에선 PEARL이 더 performance가 좋을것 같은데 figure가 안보이네"라고 생각하며 읽었는데, 역시나 Appendix로 빼둔것이었고 PEARL이 압도적으로 잘된다. 논문을 쓰는 전략적인 측면에선 나름 알고리즘을 돋보일 수 있는 실험들 위주로 잘 배치한 것 같긴하지만 리뷰어들의 의견이 궁금하다. (21.11.09 코멘트: 오늘 공개된 openreview 점수가 역시나 5533이다)

  • 이 논문에선 episodic memory가 task를 proxy한다고 가설을 세웠다. 하지만 정작 task를 구분하는 loss가 없어서 어찌될지 궁금한데, episodic memory의 latent space를 visualized한 결과를 안보여줬다. Reward기반의 task들이라 linear한 구분이 당연히 잘 될 수 밖에 없는  working memory의 latent space만 visualization해서 task구분이 되는듯하다고 써둔것이 아쉽다.
  • OOD에 대한 해석에서 memory based 알고리즘이 optimization based나 context based 알고리즘보다 더 representation이 효과적이라고 했으나, 개인적으론 memory based 알고리즘 역시 (혹은, 특히나) generalization에 대한 loss가 딱히 없기 때문에 잘못된 해석인것 같다. 실제로 MAML, PEARL보다 높다 뿐이지 해당 halfcheetah에서의 score를 보면 제대로 동작한다고 보긴 어려워, RL2 및 TrMRL에 의해 형성되는 task latent space의 명확함이 오히려 떨어져서 생기는 현상이라고 생각된다. 

Author : Mingde Zhao, Zhen Liu, Sitao Luan, Shuyuan Zhang, Doina Precup, Yoshua Bengio
Paper Link : https://arxiv.org/abs/2106.02097

Website : http://mingde.world/publications/a-step-towards-conscious-planning/

Code : https://github.com/mila-iqia/Conscious-Planning

 

  • Model based RL에서, model로 하여금 여러 (ID+OOD) task들에 대해 generalized된 dynamics를 학습하도록 하고자 함
  • 인간 의식의 경우 처음 보는 state에서 불필요한 특징은 제외하고 꼭 필요한 요소만을 집중하여 세상을 이해하려는 consicousness in first sense (C1) 특징을 보임 
    - 예) 처음 가는 도시에서 길을 찾을 때 위치나 교통상태에 집중하여 도시를 파악
  • 이러한 컨셉을 Model-based Meta RL에 적용하기위해, state의 특정 요소에 집중하는 Transformer 구조와 불필요한 정보는 제거하는 informational bottleneck을 각각 가져와 model을 구성
  • 이 model architecture가 모든 task에 대해 공통적으로 적용되는 dynamics를 잘 일반화 하는지를 OOD task에서 검증
  • 학습된 모델을 활용하는 policy로는 tree-search MPC를 선택 
  • 실험 결과 제안하는 architecture를 사용한 model-based RL agent가 OOD에서의 generalization 능력을 보여줌

 

 

개인적인 생각

  • 지난번 포스팅한 NeurIPS 2021 spotlight accept된 David Ha의 Sensory Neuron as a Transformer의 MBRL버전이다.
  • Transformer의 attention mechanism을 model-based meta learning에 적용한 점이 참신하다
  • 사람의 인지 과정과의 유사성으로 attention을 해석하는 것이 벤지오 교수님의 논문답다.
  • World model류의 논문들을 읽으면서 이게 정말 보편적 지능적 측면에서의 "world model " 이 되려면 meta-representation 성능이 추가되어야 할것 같단 아쉬움이 늘 들었는데, transformer가 그 가능성을 보여주었다.
  • Planning 환경 외에도 control 환경에도 적용가능할 수 있을것 같다.
  • 다만 OOD의 범위가 좀 좁다. Dynamics까지 달라진다던지의 더 넓은 범위의 OOD로 확장했을때도 잘 되는 방향으로의 연구가 앞으로 진행되지 않을까 싶다.
  • 그래도 역시 OOD쪽은 model-based + causal inference가 미래라는 확신이 든다.

+ Recent posts