Author : Mingde Zhao, Zhen Liu, Sitao Luan, Shuyuan Zhang, Doina Precup, Yoshua Bengio
Paper Link : https://arxiv.org/abs/2106.02097
Website : http://mingde.world/publications/a-step-towards-conscious-planning/
Code : https://github.com/mila-iqia/Conscious-Planning
- Model based RL에서, model로 하여금 여러 (ID+OOD) task들에 대해 generalized된 dynamics를 학습하도록 하고자 함
- 인간 의식의 경우 처음 보는 state에서 불필요한 특징은 제외하고 꼭 필요한 요소만을 집중하여 세상을 이해하려는 consicousness in first sense (C1) 특징을 보임
- 예) 처음 가는 도시에서 길을 찾을 때 위치나 교통상태에 집중하여 도시를 파악 - 이러한 컨셉을 Model-based Meta RL에 적용하기위해, state의 특정 요소에 집중하는 Transformer 구조와 불필요한 정보는 제거하는 informational bottleneck을 각각 가져와 model을 구성
- 이 model architecture가 모든 task에 대해 공통적으로 적용되는 dynamics를 잘 일반화 하는지를 OOD task에서 검증
- 학습된 모델을 활용하는 policy로는 tree-search MPC를 선택
- 실험 결과 제안하는 architecture를 사용한 model-based RL agent가 OOD에서의 generalization 능력을 보여줌
개인적인 생각
- 지난번 포스팅한 NeurIPS 2021 spotlight accept된 David Ha의 Sensory Neuron as a Transformer의 MBRL버전이다.
- Transformer의 attention mechanism을 model-based meta learning에 적용한 점이 참신하다
- 사람의 인지 과정과의 유사성으로 attention을 해석하는 것이 벤지오 교수님의 논문답다.
- World model류의 논문들을 읽으면서 이게 정말 보편적 지능적 측면에서의 "world model " 이 되려면 meta-representation 성능이 추가되어야 할것 같단 아쉬움이 늘 들었는데, transformer가 그 가능성을 보여주었다.
- Planning 환경 외에도 control 환경에도 적용가능할 수 있을것 같다.
- 다만 OOD의 범위가 좀 좁다. Dynamics까지 달라진다던지의 더 넓은 범위의 OOD로 확장했을때도 잘 되는 방향으로의 연구가 앞으로 진행되지 않을까 싶다.
- 그래도 역시 OOD쪽은 model-based + causal inference가 미래라는 확신이 든다.