AI &amp; Medicine

전체 글

[북마크] Formal Algorithms for Transformers (DeepMind, 2022) 2022.07.25
[북마크] Pure Transformers are Powerful Graph Learners (Jinwoo Kim, Arxiv 2022) 2022.07.12
[요약] Multi-Game Decision Transformers (Kuang-Huei Lee, arxiv 2022) 2022.06.07
[북마크] Planning with Diffusion for Flexible Behavior Synthesis (Michael Janner, ICML 2022) 2022.05.25
[북마크] Safe Reinforcement Learning for Legged Locomotion (Tsung-Yen Yang, ArXiv 2022) 2022.05.10

[북마크] Formal Algorithms for Transformers (DeepMind, 2022)

2022. 7. 25. 09:25

Author: Mary Phuong, Marcus Hutter
Paper Link: https://arxiv.org/abs/2207.09238
- 요약예정

'AI & RL > Foundation Model' 카테고리의 다른 글

Physical Grounding of LLM (SayTap, RoboCat, Language to Rewards for Robotic Skill Synthesis) (0)	2023.06.22
[요약] Do Prompt-Based Models Really Understand the Meaning of their Prompts? (Albert Webson, NAACL 2022) (0)	2022.04.26
[북마크] Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models (방효진 님, ArXiv 2022) (0)	2022.04.03

[북마크] Pure Transformers are Powerful Graph Learners (Jinwoo Kim, Arxiv 2022)

2022. 7. 12. 19:28

Author: Jinwoo Kim, Tien Dat Nguyen, Seonwoo Min, Sungjun Cho, Moontae Lee, Honglak Lee, Seunghoon Hong
Paper Link: https://arxiv.org/abs/2207.02505

Code: https://github.com/jw9730/tokengt

'AI & RL > Representation Learning' 카테고리의 다른 글

[참고자료] Transformer for tabular data (0)	2022.07.25
[북마크] Understanding How Encoder-Decoder Architectures Attend (Kyle Aitken, NeurIPS 2021) (0)	2021.11.14
[북마크] Understanding the World Through Action (Sergey Levine, CoRL 2021) (0)	2021.10.27
[요약] The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning (Yujin Tang, NeurIPS 2021 Spotlight) (0)	2021.09.13
[참고자료] Transformer VAE (0)	2021.08.19

[요약] Multi-Game Decision Transformers (Kuang-Huei Lee, arxiv 2022)

2022. 6. 7. 15:52

Author: Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman, Winnie Xu, Sergio Guadarrama, Ian Fischer, Eric Jang, Henryk Michalewski, Igor Mordatch
Paper Link: https://arxiv.org/abs/2205.15241

Website: https://sites.google.com/view/multi-game-transformers

Code: yet

Summary

multi task 문제에 대해 Decision Transformer 기반의 sequence modeling이 가장 좋은 성능을 보여줌.
large-scale language model이나 vision model에서 보아왔던 경향성과 유사한 특성을 확인함
1. Large-scale generalist RL agent에 대해 모델사이즈와 성능 사이의 power-law 관계를 확인
2. Pretrained RL agent에 대해 처음주어진 적은데이터로 빠른 finetunning이 되는것을 확인
offline 학습데이터에는 expert의 시연만 있는것이 아니므로, 이를 활용하면서도 높은 reward를가진 sequence를 생성하고자 language modeling에서 쓰이는 guided generation 접근을 decision transformer에 적용했으며 이때 가장 좋은 성능을 보여줌.

Methods

Decision Transformer를 베이스로 하고 있으나 Decision Transformer와 달리 여기에선 return와 reward도 모델링 하여 multi-task에 대한 모델의 representation을 높힘.
하지만 Trajectory transformer와는 달리 obervation은 모델링하지 않았으며 future works로 남겨둠.

high-rewarding behavior를 생성하기위해 language model에서 사용되는 discriminator-guided generation 문제와 유사한 접근을 적용.
여기선 GeDi 논문 (link) 에서 사용된 방법을 참고하여 binary classifier $P(expert^t \mid \cdots )$를 활용.
이 접근을 사용함으로써 더 많은 데이터셋을 활용하여 모델의 환경에 대한 이해도를 높힐 수 있는 동시에, Decision Transformer처럼 매뉴얼한 return conditioning을 줄 필요가 없어짐.

총 41게임에 대해 학습을 하고 5가지 서로다른 특징의 held out 게임들에 대해 OOD generalized 성능 평가 수행.
총 4.1B 스텝, 160B 토큰으로 학습.

key questions 및 experiment results

How do different online and offline methods perform in the multi-game regime?

single agent만드로 사람 수준에 대해 126%의 Atari 게임 플레이 성능을 보여줌.
아래 그래프에서 앞의 두 specialist agent보단 낮지만 그에 근접한 성능을 확인.

How do different methods scale with model size?

large language model에서 보여준 power law와 유사한 경향을 Transformer 기반 RL agent의 성능에서 확인함.
모델의 파라메터가 커질수록 ID 및 OOD 모두에서 성능이 증가하며, 동일한 token에 대한 학습속도가 빨라짐.

How effective are different methods at transfer to novel games?

5개 서로 다른 성격의 held out 게임들에 대한 finetunning 실험에서, pretrained DT가 전반적으로 뛰어난 성능을 보여줌.
학습데이터와 비교했을때 1%의 적은 데이터만으로도 fintunning이 가능.

Does Multi-Game Decision Transformer improve upon training data?

데이터셋 중에서 게임별 상위 3개의 성능과 비교해보았을때, 대체로 데이터셋보다 크게 발전하는 성능을 보여줌.

Does expert action inference improve upon behavioral cloning?

optimal action으로 학습한 Behavior Cloning보다 전반적으로 뛰어난 성능을 보여줌 (31/41).

Does training on expert and non-expert data bring benefits over expert-only training?

최근 DeepMind에서 RL뿐만아니라 딥러닝 전반적인 태스크를 다루는 generalist agent인 Gato를 발표함.
Gato와 차이점은 Gato가 expert의 데이터만 사용했으며 expert trajectory를 prompt로서 필요로하지만, Multi-Game DT는 expert가 아닌 데이터도 사용했으며 prompt가 필요 없다는 것.
실험 결과 1) Behavior Cloning에서 expert 데이터만 쓰는것이 성능을 향상시켰으며, 2) Multi-Game DT는 전체 데이터를 썼을때 오히려 성능이 향상했으며, 3) 전체 데이터로 학습한 Multi-Game DT는 expert 데이터만을 사용한 BC보다 나은 성능을 보여줌.
(Gato 논문을 자세히 읽어보진 못했지만, expert BC transformer가 Gato의 학습 아키텍처와 유사한것으로 생각됨.)

Are there benefits to specifically using transformer architecture?

목표 return을 conditioning 해주는 Upside-Down RL (UDRL)이 Decision Transformer류의 특징.
UDRL이 Transformer에 사용되었을 때, 즉 sequence modeling에 적용되었을때 큰 이득이 있음을 확임함.

What does Multi-Game Decision Transformer attend to?

Attention anlysis결과 agent가 입력 이미지 패치들 중에서 게임을 하는데 의미있는 패치에 집중하는것을 확인 함.

'AI & RL > Meta & Multi-Task RL' 카테고리의 다른 글

[북마크] Planning with Diffusion for Flexible Behavior Synthesis (Michael Janner, ICML 2022) (0)	2022.05.25
[북마크] Generalized Decision Transformer for Offline Hindsight Information Matching (Hiroki Furuta, ICLR 2022 Spotlight) (0)	2022.04.26
[요약] AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning (ICLR 2022 Spotlight) (0)	2021.11.10
[요약] Transformers are Meta-Reinforcement Learners (ICLR 2022 under review->reject) (0)	2021.10.07
[요약] A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning (Mingde Zhao, NeurIPS 2021) (0)	2021.10.02

[북마크] Planning with Diffusion for Flexible Behavior Synthesis (Michael Janner, ICML 2022)

2022. 5. 25. 23:28

Author: Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine
Paper Link: https://arxiv.org/abs/2205.09991

Site: https://diffusion-planning.github.io/

Code: https://github.com/jannerm/diffuser

'AI & RL > Meta & Multi-Task RL' 카테고리의 다른 글

[요약] Multi-Game Decision Transformers (Kuang-Huei Lee, arxiv 2022) (0)	2022.06.07
[북마크] Generalized Decision Transformer for Offline Hindsight Information Matching (Hiroki Furuta, ICLR 2022 Spotlight) (0)	2022.04.26
[요약] AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning (ICLR 2022 Spotlight) (0)	2021.11.10
[요약] Transformers are Meta-Reinforcement Learners (ICLR 2022 under review->reject) (0)	2021.10.07
[요약] A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning (Mingde Zhao, NeurIPS 2021) (0)	2021.10.02

[북마크] Safe Reinforcement Learning for Legged Locomotion (Tsung-Yen Yang, ArXiv 2022)

2022. 5. 10. 10:51

Author: Tsung-Yen Yang, Tingnan Zhang, Linda Luu, Sehoon Ha, Jie Tan, Wenhao Yu
Paper Link: https://arxiv.org/abs/2203.02638

Site: https://sites.google.com/view/saferlleggedlocomotion/

Google AI Blog: https://ai.googleblog.com/2022/05/learning-locomotion-skills-safely-in.html

'AI & RL > Real-world (Safe) RL' 카테고리의 다른 글

[요약] Learning robust perceptive locomotion for quadrupedal robots in the wild (Takahiro Miki, Science Robotics 2022) (0)	2022.02.10
[요약] RMA: Rapid Motor Adaptation for Legged Robot (Ashish Kumar, RSS 2021) (0)	2021.07.14
[북마크] Learning to be Safe: Deep RL with a Safety Critic (Krishnan Srinivasan, arXiv 2020) (0)	2021.03.08
[북마크] Conservative Safety Critics for Exploration (Homanga Bharadhwaj, ICLR 2021) (0)	2020.10.29
[정리] Learning to Walk in the Real World with Minimal Human Effort (Sehoon Ha, 2020) (0)	2020.06.06

PREV 1 ···5 6 7 8 9 10 11 ···23 NEXT

AI & Medicine

전체 글

[북마크] Formal Algorithms for Transformers (DeepMind, 2022)

'AI & RL > Foundation Model' 카테고리의 다른 글

[북마크] Pure Transformers are Powerful Graph Learners (Jinwoo Kim, Arxiv 2022)

'AI & RL > Representation Learning' 카테고리의 다른 글

[요약] Multi-Game Decision Transformers (Kuang-Huei Lee, arxiv 2022)

Summary

Methods

key questions 및 experiment results

'AI & RL > Meta & Multi-Task RL' 카테고리의 다른 글

[북마크] Planning with Diffusion for Flexible Behavior Synthesis (Michael Janner, ICML 2022)

'AI & RL > Meta & Multi-Task RL' 카테고리의 다른 글

[북마크] Safe Reinforcement Learning for Legged Locomotion (Tsung-Yen Yang, ArXiv 2022)

'AI & RL > Real-world (Safe) RL' 카테고리의 다른 글

+ Recent posts

티스토리툴바