[요약] A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning (Mingde Zhao, NeurIPS 2021)

2021. 10. 2. 20:23

Author : Mingde Zhao, Zhen Liu, Sitao Luan, Shuyuan Zhang, Doina Precup, Yoshua Bengio
Paper Link : https://arxiv.org/abs/2106.02097

Model based RL에서, model로 하여금 여러 (ID+OOD) task들에 대해 generalized된 dynamics를 학습하도록 하고자 함
인간 의식의 경우 처음 보는 state에서 불필요한 특징은 제외하고 꼭 필요한 요소만을 집중하여 세상을 이해하려는 consicousness in first sense (C1) 특징을 보임
- 예) 처음 가는 도시에서 길을 찾을 때 위치나 교통상태에 집중하여 도시를 파악
이러한 컨셉을 Model-based Meta RL에 적용하기위해, state의 특정 요소에 집중하는 Transformer 구조와 불필요한 정보는 제거하는 informational bottleneck을 각각 가져와 model을 구성
이 model architecture가 모든 task에 대해 공통적으로 적용되는 dynamics를 잘 일반화 하는지를 OOD task에서 검증
학습된 모델을 활용하는 policy로는 tree-search MPC를 선택
실험 결과 제안하는 architecture를 사용한 model-based RL agent가 OOD에서의 generalization 능력을 보여줌

지난번 포스팅한 NeurIPS 2021 spotlight accept된 David Ha의 Sensory Neuron as a Transformer의 MBRL버전이다.
Transformer의 attention mechanism을 model-based meta learning에 적용한 점이 참신하다
사람의 인지 과정과의 유사성으로 attention을 해석하는 것이 벤지오 교수님의 논문답다.
World model류의 논문들을 읽으면서 이게 정말 보편적 지능적 측면에서의 "world model " 이 되려면 meta-representation 성능이 추가되어야 할것 같단 아쉬움이 늘 들었는데, transformer가 그 가능성을 보여주었다.
Planning 환경 외에도 control 환경에도 적용가능할 수 있을것 같다.
다만 OOD의 범위가 좀 좁다. Dynamics까지 달라진다던지의 더 넓은 범위의 OOD로 확장했을때도 잘 되는 방향으로의 연구가 앞으로 진행되지 않을까 싶다.
그래도 역시 OOD쪽은 model-based + causal inference가 미래라는 확신이 든다.

[요약] AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning (ICLR 2022 Spotlight) (0)	2021.11.10
[요약] Transformers are Meta-Reinforcement Learners (ICLR 2022 under review->reject) (0)	2021.10.07
[북마크] Bootstrapped Meta-Learning (Sebastian Flennerhag, ICLR 2022 Oral) (0)	2021.09.22
[요약] Improving Context-Based Meta-Reinforcement Learning with Self-Supervised Trajectory Contrastive Learning (Bernie Wang, ArXiv 2021) (0)	2021.05.28
[정리] VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning (Luisa Zintgraf, ICLR 2020) (0)	2021.01.31

AI & Medicine