Author : Anonymous authors
Paper Link : https://openreview.net/forum?id=uy602F8cTrh 

 

  • Model-based RL에 structural causal inference을 적용하여 OOD에서의 generalization을 향상시키고자 함

 

 

  • 동일한 환경의 방문한 transition을 시작점으로 data를 생성해 data augmentation을 시도하는 기존 Dyna 타입의 알고리즘과 달리 counterfactual data를 world model로 생성
  • 이때 로봇이 옮기고자 하는 물건의 질량 혹은 마찰력에 대한 structual causal model을 가정하고 이를 counterfauctual peroperty로 설정

 

  • 실험은 robot manipulation task에대한 transfer learning을 검증하기위해 개발된 환경인 CausalWorld에서 진행
    - https://sites.google.com/view/causal-world/home (Youshua Bengio 교수님 포함)
  • 질량과 마찰력에 대한 OOD 조건에서 실험결과 기존 model-based RL 및 model-free RL 알고리즘 (MBPO & SAC)보다 더 나은 task generalization 및 sample efficeincy를 보여줌

 

 

  • 또한 학습조건의 질량과 마찰력이 한쪽으로 쏠린 unbalanced distribution (90:5:5)에서도 다른 알고리즘 대비 더 나은 generalization 및 sample efficient한 성능을 보여줌 

 

 

개인적인 생각

  • model-based RL이 real world에서 쓰이기위해 꼭 필요하다고 생각했던, 그리고 causal inferece의 인기를 생각하면 조만간 나올거라 생각했던 counterfactual performance를 다룬 연구라 반가웠다.
  • 다만 다른 몇몇 casual inference연구의 결과에서도 그랬지만, 이 연구도 모델에 counterfactual property에 대한 loss가 따로 들어가지 않는 경우라 생성된 counterfactual data에 대한 신뢰성이 사실상 없다. (21.11.09 코멘트: 그래서인가 오늘 공개된 openrewiew에서 5353점을 받았다.)
  • Structured casual graph를 쓰는만큼 앞으로는 더욱 inductive bias를 잘 활용할 수 있는 방향으로, 그래서 학습된 world model이 실제 환경의 dynamics에 대한 근본적인 이해를 바탕으로 만든 causal inference가 접목되지 않을까 싶다.
  • 이 논문은 multi-task RL과 그 연장선으로 볼 수 있는데, meta-learning에도 causal inference를 접목하는 연구가 general intelligence를 최종 목표로하는 분야의 특성상 곧 나올것 같다. 

+ Recent posts