Author: Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman, Winnie Xu, Sergio Guadarrama, Ian Fischer, Eric Jang, Henryk Michalewski, Igor Mordatch
Paper Link: https://arxiv.org/abs/2205.15241
Website: https://sites.google.com/view/multi-game-transformers
Code: yet
Summary
- multi task 문제에 대해 Decision Transformer 기반의 sequence modeling이 가장 좋은 성능을 보여줌.
- large-scale language model이나 vision model에서 보아왔던 경향성과 유사한 특성을 확인함
- Large-scale generalist RL agent에 대해 모델사이즈와 성능 사이의 power-law 관계를 확인
- Pretrained RL agent에 대해 처음주어진 적은데이터로 빠른 finetunning이 되는것을 확인
- offline 학습데이터에는 expert의 시연만 있는것이 아니므로, 이를 활용하면서도 높은 reward를가진 sequence를 생성하고자 language modeling에서 쓰이는 guided generation 접근을 decision transformer에 적용했으며 이때 가장 좋은 성능을 보여줌.
Methods
- Decision Transformer를 베이스로 하고 있으나 Decision Transformer와 달리 여기에선 return와 reward도 모델링 하여 multi-task에 대한 모델의 representation을 높힘.
- 하지만 Trajectory transformer와는 달리 obervation은 모델링하지 않았으며 future works로 남겨둠.
- high-rewarding behavior를 생성하기위해 language model에서 사용되는 discriminator-guided generation 문제와 유사한 접근을 적용.
- 여기선 GeDi 논문 (link) 에서 사용된 방법을 참고하여 binary classifier $P(expert^t \mid \cdots )$를 활용.
- 이 접근을 사용함으로써 더 많은 데이터셋을 활용하여 모델의 환경에 대한 이해도를 높힐 수 있는 동시에, Decision Transformer처럼 매뉴얼한 return conditioning을 줄 필요가 없어짐.
- 총 41게임에 대해 학습을 하고 5가지 서로다른 특징의 held out 게임들에 대해 OOD generalized 성능 평가 수행.
- 총 4.1B 스텝, 160B 토큰으로 학습.
key questions 및 experiment results
How do different online and offline methods perform in the multi-game regime?
- single agent만드로 사람 수준에 대해 126%의 Atari 게임 플레이 성능을 보여줌.
- 아래 그래프에서 앞의 두 specialist agent보단 낮지만 그에 근접한 성능을 확인.
How do different methods scale with model size?
- large language model에서 보여준 power law와 유사한 경향을 Transformer 기반 RL agent의 성능에서 확인함.
- 모델의 파라메터가 커질수록 ID 및 OOD 모두에서 성능이 증가하며, 동일한 token에 대한 학습속도가 빨라짐.
How effective are different methods at transfer to novel games?
- 5개 서로 다른 성격의 held out 게임들에 대한 finetunning 실험에서, pretrained DT가 전반적으로 뛰어난 성능을 보여줌.
- 학습데이터와 비교했을때 1%의 적은 데이터만으로도 fintunning이 가능.
Does Multi-Game Decision Transformer improve upon training data?
- 데이터셋 중에서 게임별 상위 3개의 성능과 비교해보았을때, 대체로 데이터셋보다 크게 발전하는 성능을 보여줌.
Does expert action inference improve upon behavioral cloning?
- optimal action으로 학습한 Behavior Cloning보다 전반적으로 뛰어난 성능을 보여줌 (31/41).
Does training on expert and non-expert data bring benefits over expert-only training?
- 최근 DeepMind에서 RL뿐만아니라 딥러닝 전반적인 태스크를 다루는 generalist agent인 Gato를 발표함.
- Gato와 차이점은 Gato가 expert의 데이터만 사용했으며 expert trajectory를 prompt로서 필요로하지만, Multi-Game DT는 expert가 아닌 데이터도 사용했으며 prompt가 필요 없다는 것.
- 실험 결과 1) Behavior Cloning에서 expert 데이터만 쓰는것이 성능을 향상시켰으며, 2) Multi-Game DT는 전체 데이터를 썼을때 오히려 성능이 향상했으며, 3) 전체 데이터로 학습한 Multi-Game DT는 expert 데이터만을 사용한 BC보다 나은 성능을 보여줌.
- (Gato 논문을 자세히 읽어보진 못했지만, expert BC transformer가 Gato의 학습 아키텍처와 유사한것으로 생각됨.)
Are there benefits to specifically using transformer architecture?
- 목표 return을 conditioning 해주는 Upside-Down RL (UDRL)이 Decision Transformer류의 특징.
- UDRL이 Transformer에 사용되었을 때, 즉 sequence modeling에 적용되었을때 큰 이득이 있음을 확임함.
What does Multi-Game Decision Transformer attend to?
- Attention anlysis결과 agent가 입력 이미지 패치들 중에서 게임을 하는데 의미있는 패치에 집중하는것을 확인 함.