Author : Ashish Kumar, Zipeng Fu, Deepak Pathak, Jitendra Malik
Paper Link : https://arxiv.org/abs/2107.04034

Site: https://ashish-kmr.github.io/rma-legged-robots/

 

  • 버클리와 CMU, Facebook AI의 realworld RL연구.
  • Sim-to-Real 문제를 Context-based Meta RL로 해결한 연구

  • 학습은 카이스트 황보재민 교수님께서 만드신 RaiSim시뮬레이터에 Unitree사의 A1로봇을 넣고 환경변수(Friction, payload, center of mass, motor strength, terrain height 등)를 다양하게 바꿔주고 지면조건도 다르게 하며 meta training을 수행.
  • Meta training 환경변수와 Meta Test환경변수의 distribution이 겹치되 test가 더 넓게 설정

  • 아키텍처는 두개의 phase로 진행.
  • phase 1: 시뮬레이션 상의 환경변수 $e_{t}$를 인코딩한 latent task variable $z_{t}$를 conditional policy에 주는 multi-task meta RL을 먼저 학습.
  • phase 2: 인코딩된 latent task variable $z_{t}$를 Adaptiontioan Module이 (state, action) transition context로부터 inference하도록 supervised learning.
  • 이 결과 fine-tuning없이 바로 실제 A1로봇에 policy와 Adaptation Module을 deploy했을때, 처음 보는 환경(지형, payload 등)에서도 실패 없이 잘 걷는것을 확인 

  • Context-based adaptation이 잘 되는지 확인하고자 latent variable $z_{t}$을 분석한 결과, 오일이 뿌려진 미끄러운 지형에 돌입하면서 빠르게 latent variable이 바뀌는것을 확인할 수 있고 미끄러움이 지속됨에 따라 latent variable도 이를 잘 캡쳐하는것을 확인함.

  • Unexpected payload가 주어졌을때도 latent variable에 잘 반영이 됨

 

 

개인적인 생각

  • 1.빠른 adaptation, 2.높은 'structured' representation power, 3. causal inference로의 확장 가능성, 4.tuning이 필요없는 adaptation의 장점으로인해 Context-based Meta RL이 Real world RL을 위한 solution중 하나가 될거라 생각해왔는데, 버클리와 FacebookAI에서 이렇게 직접 보여주니 좋다.
  • Real world 문제이니 만큼 이외에도 많은 detail이 들어갔지만, 그럼에도 이정도의 복잡도를 가진 로봇이 deploy후 realworld에서 튜닝없이 바로 동작하는건 고무적이다.

+ Recent posts