Author: Mary Phuong, Marcus Hutter
Paper Link: https://arxiv.org/abs/2207.09238
- 요약예정

Author: Jinwoo Kim, Tien Dat Nguyen, Seonwoo Min, Sungjun Cho, Moontae Lee, Honglak Lee, Seunghoon Hong
Paper Link: https://arxiv.org/abs/2207.02505

Code: https://github.com/jw9730/tokengt

 

 

Author: Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman, Winnie Xu, Sergio Guadarrama, Ian Fischer, Eric Jang, Henryk Michalewski, Igor Mordatch
Paper Link: https://arxiv.org/abs/2205.15241

Website: https://sites.google.com/view/multi-game-transformers

Code: yet

 

Generalist agent for Atari games

 

Summary

  • multi task 문제에 대해 Decision Transformer 기반의 sequence modeling이 가장 좋은 성능을 보여줌.
  • large-scale language model이나 vision model에서 보아왔던 경향성과 유사한 특성을 확인함
    1. Large-scale generalist RL agent에 대해 모델사이즈와 성능 사이의 power-law 관계를 확인
    2. Pretrained RL agent에 대해 처음주어진 적은데이터로 빠른 finetunning이 되는것을 확인
  • offline 학습데이터에는 expert의 시연만 있는것이 아니므로, 이를 활용하면서도 높은 reward를가진 sequence를 생성하고자 language modeling에서 쓰이는 guided generation 접근을 decision transformer에 적용했으며 이때 가장 좋은 성능을 보여줌.

 

Methods

  • Decision Transformer를 베이스로 하고 있으나 Decision Transformer와 달리 여기에선 return와 reward도 모델링 하여 multi-task에 대한 모델의 representation을 높힘.
  • 하지만 Trajectory transformer와는 달리 obervation은 모델링하지 않았으며 future works로 남겨둠.

  • high-rewarding behavior를 생성하기위해 language model에서 사용되는 discriminator-guided generation 문제와 유사한 접근을 적용.
  • 여기선 GeDi 논문 (link) 에서 사용된 방법을 참고하여 binary classifier $P(expert^t \mid \cdots )$를 활용. 
  • 이 접근을 사용함으로써 더 많은 데이터셋을 활용하여 모델의 환경에 대한 이해도를 높힐 수 있는 동시에, Decision Transformer처럼 매뉴얼한 return conditioning을 줄 필요가 없어짐.

  • 총 41게임에 대해 학습을 하고 5가지 서로다른 특징의 held out 게임들에 대해 OOD generalized 성능 평가 수행.
  • 총 4.1B 스텝, 160B 토큰으로 학습.

 

 

key questions 및 experiment results

How do different online and offline methods perform in the multi-game regime?
  • single agent만드로 사람 수준에 대해 126%의 Atari 게임 플레이 성능을 보여줌.
  • 아래 그래프에서 앞의 두 specialist agent보단 낮지만 그에 근접한 성능을 확인. 

 

How do different methods scale with model size?
  • large language model에서 보여준 power law와 유사한 경향을 Transformer 기반 RL agent의 성능에서 확인함.
  • 모델의 파라메터가 커질수록 ID 및 OOD 모두에서 성능이 증가하며, 동일한 token에 대한 학습속도가 빨라짐.

 

How effective are different methods at transfer to novel games?
  • 5개 서로 다른 성격의 held out 게임들에 대한 finetunning 실험에서, pretrained DT가 전반적으로 뛰어난 성능을 보여줌.
  • 학습데이터와 비교했을때 1%의 적은 데이터만으로도 fintunning이 가능.

 

Does Multi-Game Decision Transformer improve upon training data?
  • 데이터셋 중에서 게임별 상위 3개의 성능과 비교해보았을때, 대체로 데이터셋보다 크게 발전하는 성능을 보여줌.

 

Does expert action inference improve upon behavioral cloning?
  • optimal action으로 학습한 Behavior Cloning보다 전반적으로 뛰어난 성능을 보여줌 (31/41).

 

 Does training on expert and non-expert data bring benefits over expert-only training?
  • 최근 DeepMind에서 RL뿐만아니라 딥러닝 전반적인 태스크를 다루는 generalist agent인 Gato를 발표함.
  • Gato와 차이점은 Gato가 expert의 데이터만 사용했으며 expert trajectory를 prompt로서 필요로하지만, Multi-Game DT는 expert가 아닌 데이터도 사용했으며 prompt가 필요 없다는 것.
  • 실험 결과 1) Behavior Cloning에서 expert 데이터만 쓰는것이 성능을 향상시켰으며,  2) Multi-Game DT는 전체 데이터를 썼을때 오히려 성능이 향상했으며, 3) 전체 데이터로 학습한 Multi-Game DT는 expert 데이터만을 사용한 BC보다 나은 성능을 보여줌.
  • (Gato 논문을 자세히 읽어보진 못했지만, expert BC transformer가 Gato의 학습 아키텍처와 유사한것으로 생각됨.)

 

Are there benefits to specifically using transformer architecture?
  • 목표 return을 conditioning 해주는 Upside-Down RL (UDRL)이 Decision Transformer류의 특징.
  • UDRL이 Transformer에 사용되었을 때, 즉 sequence modeling에 적용되었을때 큰 이득이 있음을 확임함.

 

What does Multi-Game Decision Transformer attend to?
  • Attention anlysis결과 agent가 입력 이미지 패치들 중에서 게임을 하는데 의미있는 패치에 집중하는것을 확인 함.

 

 

 

 

Author: Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine
Paper Link: https://arxiv.org/abs/2205.09991

Site: https://diffusion-planning.github.io/

Code: https://github.com/jannerm/diffuser

Author: Tsung-Yen Yang, Tingnan Zhang, Linda Luu, Sehoon Ha, Jie Tan, Wenhao Yu
Paper Link: https://arxiv.org/abs/2203.02638

Site: https://sites.google.com/view/saferlleggedlocomotion/

Google AI Blog: https://ai.googleblog.com/2022/05/learning-locomotion-skills-safely-in.html

 

+ Recent posts