Author : Yujin Tang, David Ha
Paper Link : https://arxiv.org/abs/2109.02869

Site: https://attentionneuron.github.io/

 

  • World model로 알려진 Google Brain의 David Ha의 연구
  • Attention mechanism ('AttentionNeuron'이라 명명) 을 RL policy의 입력단에 추가하여, 센서시스템에 permutation-invariant한 agent을 학습하도록 함

 

  •  Atari-pong, Pybullet Ant, CartPole, CarRasing 환경에서 입력 dimension을 임의로 shuffle해가며 실험한 결과, 대부분 agent의 성능이 shuffle을 하지 않은경우과 비슷하게 동작

 

  • Shuffling에도 불구하고 permutation invraiant한 output을 보여줌
  • t-SNE 결과에서도 shuffle에 관계없이 동일한 state는 같은 space로 맵핑

 

 

개인적인 생각

  • 이 논문 자체는 아이디어도 간단하고 toy 모델에서 실험됐지만, agent의 generalization 능력은 real-world 측면에서 활용가능성이 높아 보인다.
  • 특히 센서 시스템이 다이나믹하게 변하는 대규모 application (공장, 데이터센터, 교통) 등에 활용 가능할것 같다.
  • Demo와 visualization은 연구의 contribution을 납득시키는데 있어 정말 정말 중요하다.

Author : Amir Feder, Katherine A. Keith, Emaad Manzoor, Reid Pryzant, Dhanya Sridhar, Zach Wood-Doughty, Jacob Eisenstein, Justin Grimmer, Roi Reichart, Margaret E. Roberts, Brandon M. Stewart, Victor Veitch, Diyi Yang
Paper Link : https://arxiv.org/abs/2109.00725

Related Repository: https://github.com/causaltext/causal-text-papers

 

논문 리스트

  • A Transformer-Based Variational Autoencoder for Sentence Generation (IJCNN 2019)
    Paper: https://ieeexplore.ieee.org/document/8852155
    - Domain: Natural language generation
    - RNN기반 VAE의 long-term input에 대한 posterior collapse와 같은 문제를 해결하고자함
    - Encoder는 기존 transformer와 구조는 같고 출력이 Gaussian distribution
    - Test조건에선 decoder와 샘플링 파트만 사용한다고 가정하여 cross-attention 레이어는 제거하고 마지막에 autoregressive LSTM generator를 추가

 

  • Transformer VAE: A Hierarchical Model for Structure-aware and Interpretable Music Representation Learning (ICASSP 2020)
    Paper: https://ieeexplore.ieee.org/document/9054554
    Related blog: https://mip-frontiers.eu/2020/08/20/transformer-vae.html
    - Domain: Music generation
    - Structure awareness와 interpretability를 모두 만족하는 음악생성모델을 만들고자 함
    - Encoder는 기존 transformer와 구조는 같고 네트워크 출력으로 입력 토큰 개수 만큼의 Gaussian distribution
    - Decoder역시 기존의 transformer구조와 같이 autoregressive한 구조이며, cross-atention을 encoder에서 샘플된 입력 길이 만큼의 latent varible과 수행

 

  • T-CVAE: Transformer-Based Conditioned Variational Autoencoder for Story Completion (IJCAI 2019)
    Paper: https://www.ijcai.org/proceedings/2019/727
    Code: https://github.com/sodawater/T-CVAE
    - Domain: Story completion
    - 문단의 맥락을 파악하여 빈 문장을 적절하게 생성하고자 함
    - Encoder와 decoder의 입력이 같은 distrubution set이어서 layer를 공유함
    - Encoder는 [나머지 문장; 생성중인 문장]을 self-attention하여 latent variable을 추론하고, decoder는 생성중인 문장을 [encoder 각 레이어 output; decoder의 output]에 cross-attention
    - generator는 deocoder의 output을 condition으로하면서 샘플된 z를사용하여 빈 문장을 autoregressive하게 reconstruction 

 

  • Variational Transformer Networks for Layout Generation (CVPR 2021)
    Paper: https://arxiv.org/abs/2104.02416
    Blog: https://ai.googleblog.com/2021/06/using-variational-transformer-networks.html
    - Domain: Layout design

    - 그럴듯한 레이아웃을 가능한 다양하게 생성하고자 함
    - self-attention레이어가 주어진 레이아웃 내부의 element사이의 관계를 파악하며 representation distribution에 압축
    - VAE에 Transformer의 attention mechanism을 추가하여 생성 레이아웃의 context이해와 다양성을 동시에 추구
    - BERT의 auxiliary token과 같은 역할로서 encoder output을 bottleneck으로 사용 후 샘플된 z를 autoregressive decoder의 첫번째 입력으로 넣어줌
    - Decoder는 cross-attention이 빠져 상대적으로 덜 expressive한 구조이지만 그 덕분에 posterior collapse는 줄어듬

 

  • Attention-based generative models for de novo molecular design (Chemical Science 2021)
    Paper: https://pubs.rsc.org/en/content/articlelanding/2021/SC/D1SC01050F
    Code: https://github.com/oriondollar/TransVAE
    - Domain: Molecular design

    - 분자 구조 생성에 있어서 RNN, RNN+Attention, TransformerVAE의 장단점을 비교하고자 함
    - Encoder는 기존 transformer와 구조는 같고 출력부분에 Convolution bottleneck을 추가해 Gaussian distribution을 추론 
    - Decoder역시 기존의 transformer구조와 같이 autoregressive한 구조이며, cross-atention을 encoder에서 샘플된 입력 길이 만큼의 latent varible과 수행
    - RNN + Attention 이 TransformerVAE보다 OOD에 더 잘 대응하는 반면, TransformerVAE가 더 interpretable 함

 

  • Transformer-based Conditional Variational Autoencoder for Controllable Story Generation (Arxiv 2021) 
    Paper: https://arxiv.org/abs/2101.00828
    Code: https://github.com/fangleai/TransformerCVAE
    - Domain: Story generation
    - Encoder는 unmasked/bi-directional self-attention 구조이며 출력부분에 attention-average block과 bottleneck을 추가해 Gaussian distribution을 추론 
    - Decoder는 GPT-2의 autoregressive한 구조이며, encoder에서 샘플된 latent variable을 1. input, 2. pseudo self-attention, 3. softmax에 전달하는 구조를 각각 시도
    - Pre-trained model을 사용하여 posterior collapse 줄이려 시도

 

 

  • Finetuning Pretrained Transformers into Variational Autoencoders (Workshop on EMNLP 2021)
    Paper: https://arxiv.org/abs/2108.02446
    Code: https://github.com/seongminp/transformers-into-vaes
    - Domain: Language modeling
    - Posterior collapse를 보다 효과적으로 줄이고자 함
    - Pretrained-T5 모델을 VAE에 사용하되 decoder는 self-attention없이 encoder에서 샘플된 z와 cross-attention만을 진행하여 decoder의 expressive power를 제한
    - KL loss를 0으로 두고 학습한 후 full VAE를 학습하는 두 단계로 진행

 

 

 

그 외 깃헙 레포 리스트

 

개인적인 생각

  • Sequence 데이터에 대한 latent space를 형성하고자 하면서도 더 나은 context의 이해를 위해 attention을 사용하려는 시도에 대한 논문들을 훑어보았다.
  • 대부분 크게 다르지 않았지만, decoder 부분 self-attention의 expressive power가 오히려 sequential VAE의 posterior collapse를 악화시킬수도 있기에 위 연구들 중에서는 이를 피하기위한 고민을 한 논문들과 context representation이 실제로 얼마나 잘 학습되었는지를 보여주는 논문들이 다른 연구들보다 상대적으로 의미있는것 같다.

Author : Ashish Kumar, Zipeng Fu, Deepak Pathak, Jitendra Malik
Paper Link : https://arxiv.org/abs/2107.04034

Site: https://ashish-kmr.github.io/rma-legged-robots/

 

  • 버클리와 CMU, Facebook AI의 realworld RL연구.
  • Sim-to-Real 문제를 Context-based Meta RL로 해결한 연구

  • 학습은 카이스트 황보재민 교수님께서 만드신 RaiSim시뮬레이터에 Unitree사의 A1로봇을 넣고 환경변수(Friction, payload, center of mass, motor strength, terrain height 등)를 다양하게 바꿔주고 지면조건도 다르게 하며 meta training을 수행.
  • Meta training 환경변수와 Meta Test환경변수의 distribution이 겹치되 test가 더 넓게 설정

  • 아키텍처는 두개의 phase로 진행.
  • phase 1: 시뮬레이션 상의 환경변수 $e_{t}$를 인코딩한 latent task variable $z_{t}$를 conditional policy에 주는 multi-task meta RL을 먼저 학습.
  • phase 2: 인코딩된 latent task variable $z_{t}$를 Adaptiontioan Module이 (state, action) transition context로부터 inference하도록 supervised learning.
  • 이 결과 fine-tuning없이 바로 실제 A1로봇에 policy와 Adaptation Module을 deploy했을때, 처음 보는 환경(지형, payload 등)에서도 실패 없이 잘 걷는것을 확인 

  • Context-based adaptation이 잘 되는지 확인하고자 latent variable $z_{t}$을 분석한 결과, 오일이 뿌려진 미끄러운 지형에 돌입하면서 빠르게 latent variable이 바뀌는것을 확인할 수 있고 미끄러움이 지속됨에 따라 latent variable도 이를 잘 캡쳐하는것을 확인함.

  • Unexpected payload가 주어졌을때도 latent variable에 잘 반영이 됨

 

 

개인적인 생각

  • 1.빠른 adaptation, 2.높은 'structured' representation power, 3. causal inference로의 확장 가능성, 4.tuning이 필요없는 adaptation의 장점으로인해 Context-based Meta RL이 Real world RL을 위한 solution중 하나가 될거라 생각해왔는데, 버클리와 FacebookAI에서 이렇게 직접 보여주니 좋다.
  • Real world 문제이니 만큼 이외에도 많은 detail이 들어갔지만, 그럼에도 이정도의 복잡도를 가진 로봇이 deploy후 realworld에서 튜닝없이 바로 동작하는건 고무적이다.

Author : Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch
Paper Link : https://arxiv.org/abs/2106.01345

Website : https://sites.google.com/berkeley.edu/decision-transformer

Hugging face: https://huggingface.co/blog/decision-transformers

 

  • 바로 이전 포스팅인 Trajectory Transformer의 발표 딱 하루전에 먼저 발표된 논문.
    (기본 개념이 거의 같은 관계로 이 논문은 정리보다 요약으로 대신하며, 많은부분 두 논문을 비교하고자 함)
  • Trajectory Transformer가 GPT아키텍처로 RL의 transitions들을 sequence modeling을 하여, 이전 trajectory가 input으로 들어갈때 미래의 trajectory $\tau$를 output으로 하는 모델이라면
  • Decision Transformer는 input은 마찬가지로 trajectory이지만 output은 action $a$를 output으로 하는 모델이라는 차이가 있음.
  • Trajectory Transformer와 마찬가지로 offline RL에서의 활용을 주로 삼고 있으나, Trajectory Transformer는 transformer 아키텍처를 planning을 위한 model로 쓰기때문에 model-based offline RL인 반면
  • Decision Transformer는 transformer 아키텍처가 바로 action을 내뱉기 때문에 model-free offline RL.
  • Decision Transformer가 추구하는 Offline RL의 예시를 그림으로 잘 설명해주는데, 아래와같이 그래프 navigation task에 대한 랜덤한 trajectory 데이터들이 주어져있을 때, 이 경로들을 stitching하여 새로운 최단 경로를 찾아내는것.

  • 여기서 주의해야할 점이 있는데 바로 마지막 generation path에서 노란색 선 옆에 쓰인 return값이 -3이라는것으로, 데이터셋에 있는 return을 그대로 stitching하는 수준이지
  • 이걸 마치 "두 스텝 이전이니 -2로 return을 생성해야 하는군" 처럼 모델이 이해한다던가 하는 데이터셋 이상의 trajectory를 생성하는건 아니라는 것. (DL유투버 Yannic Kilcher가 -2여야 할것같다고 영상에서 잘못 설명하기도)
  • 이렇다 보니, 적절한 action을 생성하기 위해 의도적으로 return을 매번 감소시켜 입력해줘야하는 등 조금은 억지스러운 Transformer 아키텍처의 활용이 필요.
  • 이런 점에선 Beam Search 알고리즘을 써서 Conservation과 Reward Maximization을 동시에 하는 Trajectory Transformer가 더 자연스러운 sequence model의 활용이지 않을까 싶음.

 

  • 반면 Trajectory Transformer보다 실험을 매우 다양하게 했다는 장점이 있음
  • Atari를 통해 high-dim과 long-term credit assignment의 성능을 확인

Qbert에선 잘 안됐지만 다른 환경에선 offline RL SOTA인 CQL과 유사

  • D4RL 벤치마크를 통해 continuous control에서의 성능을 확인

대부분의 데이터셋과 환경에서 CQL보다 나은 성능 확인
BC는 데이터셋에서 상위 % 성능의 데이터를 빼서 return의 조절없이 Decision Transformer를 학습한 경우

  • 이 실험은 Trajectory Transformer에서도 했는데다 두 논문에서의 대조군인 CQL성능이 거의 비슷해서 두 논문의 성능을 간접적으로 비교 가능함.

  • 두 논문에서 차이가 가장 나는 부분은 replay buffer의 데이터인 "Medium-Replay(Decision Transformer) = mixed(Trajectory Transformer)"인데, Decision Transformer는 대체로 데이터셋의 최고성능보다 크게 뛰어난 성능을 못내는반면 Trajectory Transformer는 그 이상의 성능을 내는 모습을 보여줌. 
  • 실제로 Decision Transformer에서 return을 조절해가며 얼마나 잘 복원되는지를 분석한 결과, 아래와 같이 데이터의 분포를 있는 그대로 잘 학습했으나 데이터셋 최고성능 이상의 return을 조건으로 주었을땐 대부분의 환경에서 데이터셋의 성능을 upper limitation으로 갖는것을 확인함. 

  • 또한 과거의 context가 얼마나 중요한지를 확인함. 

  • Trajectory Transformer에선 Humanoid 환경에서 비슷한 실험을 했는데, long-term credit assignment가 상대적으로 안중요한 환경이어서인지 context의 길이가 크게 중요하지 않았음.
  • Long-term credit assignment가 특히나 중요한 Key-to-Door 환경에서 실험을 해준 부분이 좋았는데, 아래와 같이 과거 context에 따라서 예측되는 reward가 크게 달라지는것을 볼 수 있으며, transformer 아키텍처의 장점인 attension map으로 이를 해석적으로 확인함.

  • 또한 sequence modeling 방식의 접근은 reward의 density가 상대적으로 덜 중요함에 따라 기존 bellman backup 및 policy gradient방식과 대비하여 sparse reward에서 큰 장점을 가지는것을 보여줌.

  • 마지막으로 왜 pessimism이 필요 없는지에 대해선 Trajectory Transformer와 같이 value function을 approximate하는 과정에서 오는 오차가 없기 때문이라는 공통된 의견을 냄

 

개인적인 생각

  • 위에서 중간중간 언급했다시피, 이렇게 데이터셋의 action을 생성하는 접근으론 stitching은 되겠지만 사실상 imitation learning에서 크게 벗어나지 않는 접근이 되어 데이터셋의 퀄리티에 영향을 받을수 밖에 없는것 같다.
  • 때문에 transformer 아키텍처를 RL에 활용하는데엔, Trajectory Transformer 처럼, pre-trained language모델의 데이터에 대한 뛰어난 representation power에 집중하여 world model로서 잘 활용하고 발전시키는게 더 옳은 방향이 아닐까 싶다.
  • 그럼에도 다양한 환경에서 실험을 하여 모델의 성질에 대해 구체적으로 분석을 한 점이 정말 좋았다.
  • 또한 두 논문이 하루 차이로 나온것과 논문에서 하고자 하는 말이 거의 유사했다는 점이 재밌다.

 

Author : Michael Janner, Qiyang Li, Sergey Levine
Paper Link (Arxiv버전) : https://arxiv.org/abs/2106.02039

Paper Link (NeurIPS버전) : https://trajectory-transformer.github.io/trajectory-transformer-neurips-2021.pdf

Website : https://trajectory-transformer.github.io/

Code: https://github.com/JannerM/trajectory-transformer

 

Trajectory Transformer
Single-Step Model

Long-horizon predictions of the Trajectory Transformer compared to those of a feedforward single-step dynamics model.

 

 

0. Abstract

  • 기존 RL은 factorized single-step의 Markov property를 중요시 여기는 프레임 워크임
  • 하지만 RL을 "one big sequence modeling"문제로 본다면, NLP에서 이미 상당한 성능을 보인 Transformer와 같은 high-capacity sequence prediction 모델을 그대로 가져다 쓸 수 있음.
  • 이렇게 할 경우 기존의 offline model-free RL에서 필요로 했던 constraint나 uncertainty estimator가 필요 없어져 model-based RL과 같은 장점이 생김.
  • RL에 대한 이러한 재접근이 다양한 문제(long-horizon dynamics prediction, imitation learning, goal-conditioned RL, offline RL)에서 효과를 보인다는것을 검증함.

1. Introduction

  • 기존 RL은 long-horizon문제를 Markv property에 따라 single-step subproblem으로 나누어 최적화하는것을 기본 원리로 하며 이는 model-free RL의 Q-learning, model-based RL의 single-step prediction으로 다루어짐.
  • Actor-critic, model-based, offline RL은 서로 다른 분포를 학습하지만 state, action, reward를 단순한 stream of data로 본다면 모두 single sequence model로 다룰 수 있으며, high-capacity를 가진 sequence model 아키텍처를 그대로 적용하여 GPT-3와 같은 scalability의 장점을 얻을 수 있을것.
  • "RL을 sequence generation 문제로 본다면 기존의 unsupervised sequence model을 적용하여 새로운 RL알고리즘을 만들 수 있을까?" 에대한 분석을 하고자 Transformer 아키텍처를 사용하여 state, action, reward의 sequence를 다루고 planning 알고리즘으론 beam search를 사용하려 함.
  • 이러한 접근을 Trajectory Transformer 라고 이름 짓고, offline RL, model-baed imitation learning에 적용해보고자함

2. Recent Work

  • LSTM, seq2seq, 그리고 Transformer 아키텍처까지 빠르게 발전한 sequence 모델을 RL에 적용한 경우가 다양하나 모두 RL의 업데이트 알고리즘은 그대로 사용한 반면, 여기선 가능한 많은 RL파이프라인(특히 알고리즘)을 sequence model의 representation capacity로 대체하고자 함.
  • RL에서는 predictive 모델 (for model-based RL) / behaviror policy (for imitation learning) / behavior constraint (for offline RL) 등의 다양한 분포들을 학습하는 접근이 있으나, single high-capacity sequence model로 하여금 state / action / reward sequence들을 interchangeable하게 다루는 joint distribution을 학습하도록 하면 이러한 분포들의 역할을 모두 수행 할 수 있을것.
  • Trajectory Transformer는 학습된 모델로 planning을 하는 model-based RL과 가장 유사하지만 ensemble이 필요없으며 특히나 offline setting에서 conservatism이나 pessimism 구조가 명시적으론 필요없다는 점이 다른데, 이는 state와 action을 jointly모델링 하는데서 in-distribution action을 생성하도록 함축적인 bias가 들어가기 때문.
  • 이 논문이 발표되기 하루전에 피터아빌 팀에서 Decision Transformer를 발표했으며, RL의 알고리즘 없이도 high-capacity sequence model만으로 RL문제를 다루고 그 가능성을 입증한다는 점에서 본 논문과 본질적으로 추구하는 컨셉이 같음.

 

3. Reinforcement Learning and Control as Sequence Modeling

  • 본 논문에서 제안하는 접근을 Trajectory Transformer라고 새로 명명 했으나 구현 측면에선 NLP에서의 sequence 및 탐색 모델과 거의 동일하므로, 아키텍처 부분보다 trajectory 데이터를 어떻게 다루었는지에 더 집중하고자 함.

3.1 Trajectory Transformers

  • 제안하는 접근방식의 핵심은 trajectory를 Transformer 아키텍처를 위한 비정형화된 sequence로 다루는것으로,  trajectory $\tau$는 아래와 같이 $N$차원 state, $M$차원 action, 스칼라 reward로 구성됨

$\tau=\left \{s_{t}^{0}, s_{t}^{1}, \cdots,s_{t}^{N-1},a_{t}^{0}, a_{t}^{1}, \cdots,a_{t}^{M-1},r_{t}\right \}_{t=0}^{T-1}$

  • 이때 $i$는 $i$번째 차원을 의미하며, $t$는 시간으로 0부터 시간 $T$까지의 trajectory.
  • Continuous space일 경우 discretize를 해줌.
  • NLP와 마찬가지로 tokenization을 해주는데, state의 각 차원을 offset을 주어 토큰화 하여 다음과 같음.

$\bar{s}_{t}^{i}=\left \lfloor V\frac{s_{t}^{i}-l^{i}}{r^{i}-l^{i}} \right \rfloor + Vi$

  • 여기서 $\left \lfloor \cdot  \right \rfloor$는 floor function이며, $V$는 차원 토큰의 크기.
  • 같은 방법으로 action 토큰 $\bar{a}_{t}^{j}$도 차원별로 offset $V\times \left ( N + j \right )$을 주어 tonkenize 하며 discretized reward 토큰 $\bar{a}_{t}^{j}$역시 offset $V\times \left ( N + M \right )$로 tokenize함.
  • Gaussian transition과 같은 단순화 가정 없이 이렇게 개별로 tokenize함으로서 trajectory에대한 분포를 더욱 expressive하게 만듬 
  • Trajectory Transformer는 GPT 아키텍처의 Transformer decoder를 차용했으나, 상대적으로 작은 크기의 4개 레이어와 6개 self-attention head로 구성됨
  • Trajectory Transformer의 파라메터를 $\theta$라고 할때 학습 objective는 다음과 같고 이때 정답을 input으로 주는 teacher-forcing 방법을 사용함

$\mathcal{L}(\bar{\tau})=\sum_{t=0}^{T-1}\left ( \sum_{i=0}^{N-1}\log P_{\theta}\left (\bar{s}_{t}^{i} \mid 
 \bar{s}_{t}^{<i}, \bar{\tau}_{<t}\right ) + \sum_{j=0}^{M-1}\log P_{\theta}\left ( \bar{a}_{t}^{j} \mid 
 \bar{a}_{t}^{<j}, \bar{s}_{t}, \bar{\tau}_{<t} \right ) +\log P_{\theta}\left ( \bar{r}_{t} \mid \bar{a}_{t}, \bar{s}_{t}, \bar{\tau}_{<t} \right ) \right )$

  • $\bar{\tau}_{<t}$는 시간 t까지의 tokenized trajectory이나 self-attention의 quadratic complexity때문에 512개의 토큰으로 제한을 두기로 하고 총 $\frac{512}{N+M+1}$의 horizon을 사용함.

 

3.2 Transformer Trajectory Optimization

  • 제안한 Trajectory Transformer를 control문제에 어떻게 적용하지 다뤄보고자 하며 기본 NLP알고리즘에서 추가되는 변형이 많아지는 순서로 다음 세가지 세팅이 있음
    1. Imitation learning
    2. Goal-conditioned RL
    3. Offline RL
  • 이와같은 Trajectory Transformer의 control 문제에서의 변형들을 아울러 Transformer Trajectory Optimization (TTO)라고 정의.

3.2.1 Imitation learning

  • Imitation learning과 같이 task의 목적이 학습데이터의 distribution을 복원하는 경우는 sequence modeling의 기존 목적과 일치하므로, 변형없이 beam search 알고리즘과 같으 탐색알고리즘을 적용하며 사용가능함
  • 그 결과 현재의 state $s_{t}$로 시작하는 tokenized trajectory $\bar{\tau}$를 생성하며, 이때의 action $\bar{a}_{t}$ 는 reference 행동을 모방하는것으로서 model-based behavior cloning 역할을 함

3.2.2 Goal conditioned RL

  • Transformer 아키텍처는 "causal" attention mask기반의 이전 토큰에만 의존한 다음 토큰 예측을 그 특징으로 하며, 이는 물리적으로 미래가 과거에 영향을 미치지 않는 "physical causality"와도 일맥상통함.
  • 하지만 self-attention 아키텍처에 기반하고 있기 때문에 과거 뿐만아니라 미래 역시 다룰 수 있어, 아래와 같이 마지막 state가 주어졌을때의 conditional probability역시 decode 할수 있음.

$P\left ( \bar{s}_{t}^{i} \mid \bar{s}_{t}^{<i}, \bar{\tau}_{<t},\bar{s}_{T-1}  \right )$

  • 이때 마지막 $\bar{s}_{T-1}$는 일어나길 바라는 상태로서 지속적으로 입력 sequence에 줄 경우,   trajectory transformer를 goal-reaching 방식으로 사용가능함.
  • 실제 구현에선 미래의 goal state token을 sequence의 제일 앞에 항상 붙이는 방법으로, 기존 Transformer의 causal attention mask를 그대로 사용가능함.
  • 이러한 접근은 기존에 supervised learning을 goal-conditioned policy에 적용하던 접근 혹은 relabeling 접근과 유사함.

3.2.3 Offline RL

  • Beam search (BS) 는 sequence planning의 한 방법으로 가장 높은 log-probability를 가지는 sequence들을 선택하는 알고리즘 

  • BS 알고리즘에서 각 토큰의 log-probability대신 reward를 사용하면 reward-maximizing planning 알고리즘으로 사용가능
  • 하지만 single-step reward-maxing으론 근시적인 planning만 가능하므로, 대신 아래의 reward-to-go (discounted return) 값을 전처리하여 학습 trajectory의 각 transition step에 reward 토큰 다음에 오는 새로운 토큰으로 추가

$R_{t}=\sum_{t'=t}^{T-1}\gamma^{t'-t}r_{t'}$

  • 이로서 planning과정에서 reward-to-go의 예측값, 즉 value를 추정하지만 BS알고리즘에서만 휴리스틱 가이드로서 사용하므로 offline setting에서의 value estimation 문제와 달리 정확할 필요가 없어진다는 장점이 생김.
  • 구체적으론, transition을 하나의 단어로 취급하여 likelihood-maximzing BS알고리즘을 사용하여 가장 확률이 높은 transition을 먼저 샘플링 한 뒤, 이 중에서 reward와 value가 높은 transition을 필터링함으로써 passimism없이도 기존의 offline RL과 같이 conservative한 planning효과를 내는것이 가능해짐.

 

4. Experiments

  • 실험 파트에서는 다음 두가지에 집중하여 검증을 진행함
    1. long-horizon 예측에 대한 기존 single-step 예측 모델 대비 Trajectory Transformer 모델의 정밀성
    2. Offline RL / imitation learning / goal-reaching 세 가지 문제에서 BS알고리즘을 sequence 모델링 툴로 사용한 것의 제어 알고리즘으로서의 효용성

4.1 Model Analysis

4.1.1 Trajectory prediction

humanoid policyd 데이터셋을 reference로 하여 학습된 모델로 100 step을 예측한 결과 비교

  • Single-step만 예측하는 Markovian 조건 하에서 ensemble dynamics 모델을 학습하고 policy의 action에 따른 transition을 생성하는 probabilistic ensembles with trajectory sampling (PETS)알고리즘의 경우 feedforward로 few dozon step이 넘어가면 오차가 매우 커짐 (Figure 1의 세번째 줄) 
  • 반면 Trajectory Transformer는 reference (첫번째 줄) 와 차이없는 모습을 100 step 넘게 안정적으로 예측하는것을 보여주었으며 (두번째 줄) 이는 model-based RL방식에서 SOTA임.

4.1.2 Error accumulation

  • 위 실험에서 보여준 누적 오차를 정량적으로 평가하기위해 두 모델에서 각각 1000 trajectory를 샘플링하여 per-timestep state marginal을 구하고 reference state의 likeihood를 비교한 결과, Trajectory Transformer가 월등한 대비성능을 보여줌
  • 또한 Trajectory Tranformer로 하여금 과거의 1개 step만 참고하도록 변경한 Markovian Transformer의 경우도 비슷한 예측 성능을 보여줌으로서, Transformer 아키텍처 그 자체와 autoregressive state discretization으로 인해 향상된 expressivity가 long-horizon accuracy에 큰 역할을 한다는것을 확인.
  • state 차원을 랜덤하게 절반 masking한 partially-observed 케이스에서 original Trajectory Transformer가 abblation대비 높은 성능을 보여주어 long-horizon conditioning의 accuracy에대한 역할을 확인할 수 있음.

4.1.3 Attention patterns

  • Trajectory Transformer는 두가지 attention pattern을 보여줌
    1. 직전 transition에 집중하는것으로 Markovian strategy를 학습한 패턴
    2. State는 동일한 dimension에 집중하며 action은 과거 state보다 과거 action에 집중하는 패턴
  • 두번째 패턴의 경우 action이 과거 state에만 의존하는 behavior cloning과 반대되는 결과이며, 몇 trajectory optimization알고리즘들에서 쓰인 action filtering 기법과 닮음.

 

4.2 Reinforcement Learning and Control

4.2.1 Offline RL

  • D4RL offline RL 벤치마크에서 reward-maximizing TTO알고리즘을 검증하며 이를 다음 4가지 접근방법과 비교함.
    1. Conservative Q-learning (CQL; model-free SOTA)
    2. Model-based offline policy optimization (MOPO; model-based SOTA)
    3. Model-based offline planning (MBOP; single-step dynamics 모델 사용)
    4. Behavior cloning (BC)
  • 그리고 3가지 MuJoco 환경에서 다음 3가지 데이터셋으로 학습을 진행함.
    1. medium: 중간정도의 점수를 가지는 policy로 만들어낸 데이터
    2. med-expert: medium 데이터와 최고점수를 가지는 policy로 만들어낸 데이터의 혼합
    3. mixed: medium을 학습시키기 위해 사용된 replay buffer 데이터 
  • 실험 결과 모든 데이터넷에서 대체로 기존 알고리즘들과 동등하거나 보다 뛰어난성능을 보여주었음.
  • 단, HalfCheetah의 med-expert데이터에서는 expert데이터의 성능이 상당히 좋아지는 바람에 discretization이 세세하게 되지 못하여 성능이 낮은것으로 추정.

4.2.2 Imitation and goal-reaching

  • Behavior cloning 성능을 확인하고자 likelihood-maximizing TTO 알고리즘을 hopper와 walker2d환경에 적용한 결과, 각각 behavior policy대비 104%와 109%의 return을 보여줌.

  • Goal-reaching 성능을 확인하고자 likelihood-maximizing TTO 알고리즘을 goal-stated conditioned sequence를 주어 four rooms환경에 적용한 결과, reward shaping이나 어떤 reward 정보 없이 goal relabeling만으로도 plannindg이 잘 되는것을 확인함.

 

5. Discussion

  • Large-scale language 모델에서 사용되는 Transformer를 기존 강화학습의 분리된 구조 대신 하나의 통합된 sequence 모델로서 beam search알고리즘과 함께 사용한 결과 imitation learning, goal-reaching, offline RL에서 효용성을 보여줌.
  • 구조가 간편하고 유연해지는 대신 기존의 single-step 예측모델에 비하면 느리다는 단점이 있으나, 현재의 Transformer의 경량화 흐름을 비추어보면 문제없을것으로 예상.
  • Continuous space 데이터의 경우 disctretize해주어 사용하기때문에 accuracy가 떨어진다는 단점이 있지만 이는 다양한 discretization방법으로 어느정도 해결가능할것으로 예상.
  • Transformer를 사용하여 RL문제를 SL문제로 다루는것이 처음은 아니지만, 이러한 접근이 Markov property를 학습하고 offline RL에서 기존 방법과 비교할만한 결과를 보여준다는것을 입증한것에서 의의가 있음.

 

 

개인적인 의견

  • 기존의 Model-based RL에서도 말만 RL이지 policy부분은 전혀 RL이 아닌 경우가 있어서 사실상 Model-based RL 접근으로 볼 수 있을것 같다. 특히 Model-based RL에서 가장 중요한게 model부분인데 기존의 single-step model은 markov property 조건때문에 real-world에서 적용이 어려워보이는 느낌이 강했었다. 이러한 문제를 Transformer를 사용하면 쉽게 해결할 수 있어져 decision making AI가 real-world로 나아갈수 있는 방향이 크게 늘어날것 같은 생각이 든다.
  • Model-based RL의 대표적인 model인 world-model은 RNN 기반인데, NLP에서 Transformer가 RNN을 대체한 만큼 world-model에서도 Transformer가 할 수 있는게 많지 않을까 싶다.
  • 의료 도메인에서 특히나 치료/추천형 AI 연구를 하는 입장에서 AI의 판단근거를 항상 고려해야 하기에, 개인적으로 Transformer아키텍쳐는 attention map이 늘 매력적으로 다가왔다. 물론 attention의 XAI 측면은 자연어 생성 분야에서 여전히 말이 많긴하지만, Decision making으로 나아가고자 하는 이 논문이 추구하는 방향성에서 충분히 의미있는 정보가 될것은 분명한듯하다.
  • Goal-conditioned reaching역시 재밌는 부분이다. policy의 경우 Goal-conditional policy, Contexual policy 등 추가적인 정보를 policy에 주어 더 복잡한 task를 푸는 연구가 많다. 이러한 task들을 conditional-sequence로 새롭게 접근하는 방법들이 많이 나올 수 있을것 같다.

 

Author : Jing Yu Koh, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson
Paper Link : https://arxiv.org/abs/2105.08756v1

Video: https://www.youtube.com/watch?v=HNAmsdk7lJ4 

 

  • 구글 Dreamer의 실내 네비게이션 버전 연구
  • Dreamer의 핵심인 World model을 실내 이미지에 적용함
  • Dreamer가 아타리 게임, DeepMind control suit와 같은 시뮬레이션에만 적용됐다는 한계가 있은 반면, 이 연구에선 real world 이미지를 사용한다는 의의가 있음 
  • 실내 구조에 대한 semantic & depth 이미지를 world model로 학습하고, output을 GAN을 써서 좀더 사실적으로 렌더링
  • 처음보는 실내환경에 대한 과거 path 이미지를 받으면 이후 path를 사실적으로 Dream하는것을 보여줌.
  • 또한 VLN (Vision-and-Language Navigation) downstream 테스크에서 성능의 향상을 보여줌
  • Pathdreamer model architecture

 

  • 단순히 그럴듯한 실내 이미지를 생성하는것이 아니라, 실내 구조에 대한 공간적 시간적 의미를 모두 담고있는 world model을 가지고 'path'를 생성해낸다는 점에서 의의가 있어보임. 저자의 말을 빌면 embodied navigation에 대한 가능성을 보여준것.

Author : Siqi Liu, Guy Lever, Zhe Wang, Josh Merel, S. M. Ali Eslami, Daniel Hennes, Wojciech M. Czarnecki, Yuval Tassa, Shayegan Omidshafiei, Abbas Abdolmaleki, Noah Y. Siegel, Leonard Hasenclever, Luke Marris, Saran Tunyasuvunakool, H. Francis Song, Markus Wulfmeier, Paul Muller, Tuomas Haarnoja, Brendan D. Tracey, Karl Tuyls, Thore Graepel, Nicolas Heess
Paper Link : https://arxiv.org/abs/2105.12196v1

Video: https://youtu.be/KHMwq9pv7mg

 

  • 기존의 RL알고리즘의 연구결과들을 보면 목표를 잘 달성하긴하지만 행동은 불안정한 경우가 대부분이라는 점과 좁은 범위의 행동만을 수행하는 뚜렷한 한계가 있었으며, 이는 RL이 다른 DL 알고리즘들과 달리 널리 사용되지 못하는 이유중 하나임
  • 사람의 경우 밀리초 단위의 자세제어 뿐만아니라 수십 초 길이의 비교적 긴 목표를 동시에 가지고 행동을 하고있으며, 더 나아가 주변 사람 및 환경과의 상호작용까지 이루어져 자연스럽고 거시적인 행동이 가능
  • 이 논문에선 기존의 단순한 학습목표에 따른 부자연스럽고 근시적이었던 RL의 한계를 극복하고자 서로다른 행동레벨을 복합적으로 학습시키는 방법을 보여줌
  • Environment

 

  • Learning Framework

 

  • Internal Representation

Author : Xijun Li, Weilin Luo, Mingxuan Yuan, Jun Wang, Jiawen Lu, Jie Wang, Jinhu Lu, Jia Zeng
Paper Link : https://arxiv.org/abs/2105.12899v1

 

  • 화웨이 Noah's Ark 랩에서 나온 물류 최적화 연구.

  • 다른 RL을 사용한 조합최적화 연구와 비슷한 접근으로서 역시 GNN와 RL을 사용함
  • Attenion-based GNN + Double DQN

  • 전체 물류비용을 평균적으로 13.12% 줄임

'AI & RL > Combinatorial Opt.' 카테고리의 다른 글

[참고자료] RL for Combinatorial Optimization (CO)  (0) 2021.03.05

Author : Bernie Wang, Simon Xu, Kurt Keutzer, Yang Gao, Bichen Wu
Paper Link : https://arxiv.org/abs/2103.06386

 

  • Context-based Meta-RL이 training task의 넓은 distribution에 반해 상대적으로 적은 정보로만 학습된다는 단점에서, Context Encoder의 학습에 Contrastive Learning을 추가함.
  • Overview Figure

  • Algorithm Figure

  • Result Figure on MuJoCo

  • Off-line Meta-RL인 PEARL보다 사실 성능은 크게 차이나지 않는편. (Average 1.3배, Median 1.14배)
  • Meta-World환경에서도 PEARL과 비교를 했는데, 50개 Task 중에서 44개에서 성능이 높지만, 크게 차이나진 않은편. (Average 4.3배, Median 1.4배; 즉 몇몇 특정 task에서 훨씬 잘한 케이스)
  • 하지만 이 논문에서 의미있는 부분은 embedding된 task representation 부분
  • Meta-world의 Push-v1 환경에서, 서로 다른 위치에 물건을 옮기는 10개의 task에 대한 PEARL과 Contrastive Learning을 추가한 알고리즘 각각의 representation space를 비교.

Push-v1

  • 각 task마다 200번을 rollout한뒤 샘플된 trajectroy를 t-SNE를 사용하여 2차원 시각화 한 결과 Contrastive Learning을 적용한 알고리즘에서 보다 명확하게 clustring이 된것을 확인할 수 있음.

 

 

 

논문에 대한 나의 의견

개인적으로 context-based Meta-RL은 agent의 행동에 잠재적으로 내포된 goal을 Explainable하게 시각화 할수 있다는 점이 큰 장점이라 생각한다. 이 논문에서 사용한 Contrastive Learning은 이러한 장점을 더 극대화 할수 있는 방법을 제시한것이라 볼 수 있으며, 성능은 크게 좋아지지 않았지만 신뢰도가 중요한 field에 적용할 경우 충분히 의미가 있을것 같다.  

Author : Xinyue Chen, Che Wang, Zijian Zhou, Keith Ross
Paper Link : https://arxiv.org/abs/2101.05982

OpenReview : https://openreview.net/forum?id=AY8zfZm0tDd 

Code: https://github.com/watchernyu/REDQ

 

SOTA in Model-free RL

 

참고자료

https://www.microsoft.com/en-us/research/blog/three-mysteries-in-deep-learning-ensemble-knowledge-distillation-and-self-distillation/?OCID=msr_blog_ensemble_tw&fbclid=IwAR16837BMbhV0f565yolrGn7vJCGrZxCN6ZTH0TXfUSJin3xkhM5bI4tDJI 

 

3 deep learning mysteries: Ensemble, knowledge- and self-distillation

Microsoft and CMU researchers begin to unravel 3 mysteries in deep learning related to ensemble, knowledge distillation & self-distillation. Discover how their work leads to the first theoretical proof with empirical evidence for ensemble in deep learning.

www.microsoft.com

 

 

Author : Ruohan Zhan, Konstantina Christakopoulou, Ya Le, Jayden Ooi, Martin Mladenov, Alex Beutel, Craig Boutilier, Ed H. Chi, Minmin Chen
Paper Link : https://dl.acm.org/doi/10.1145/3442381.3449889

Talk : https://youtu.be/QpHR22q99Bg

 

 

  • Google의 지난 RL기반 추천 알고리즘 REINFORCE Recommender System (포스팅) 의 후속 논문

  • 지금까지 user의 입장만을 고려한 Recommender 알고리즘들과 달리 content를 생성하는 user또한 고려를 하는 전체 플랫폼의 stakeholder를 모두 고려한 recommender system 알고리즘

  • User의 선호도 뿐만아니라 content provider의 활동을 활성화하는 RL agent ('EcoAgent') 를 학습
  • Google의 recsys gym환경인 RecSim (https://github.com/google-research/recsim) 에서 검증 
  • 소수의 content provider들만 주목받아 대다수의 provider들이 동기를 잃는 ‘superstar economy' 현상을 방지하고자 하는 recommendation 알고리즘

 

개인적인 생각

  • Google의 YouTube, Apple의 App store와 같이 컨텐츠의 생산 역시 주요 사용자들이 담당하는 생태계적 플랫폼에 적용가능할것 같음

 

Author : Krishnan Srinivasan, Benjamin Eysenbach, Sehoon Ha, Jie Tan, Chelsea Finn
Paper Link : arxiv.org/abs/2010.14603

 

 

조합최적화

Deep RL의 application은 게임 혹은 제어가 가장 대중적이지만, 최근 가능성을 조명받는 분야로 Combinatorial Optimization (CO: 조합최적화) 이 있다. 

 

게임이나 제어의 경우 Markov Process나 Dynamics가 원하는 state가 되도록 action을 선택하는것이라면, CO는 시스템을 구성할수 있는 어떤 아이템들이 주어졌을때, 이들의 최적 순서 또는 매핑을 찾는 문제로 상대적으로 사뭇 정적인 혹은 닫힌 시스템 내의 문제를 푼다고 볼 수 있다. CO의 예시로는 생산설비 최적화, 자원할당 최적화, 운송경로 최적화 등을 들 수 있다. 

삼성SDS Techtonic 2020, 권영대 프로님 발표

 

CO를 풀기위한 기존 알고리즘들이 많은데, 최근엔 이러한 알고리즘들보다 더욱 빠르고 효율적으로 CO문제를 풀기 위해 강화학습을 도입하는 시도가 하나 둘 발표되고 있다.

 

 

구글Brain의 칩 (ASIC) 설계 연구

 

Chip Design with Deep Reinforcement Learning

Posted by Anna Goldie, Senior Software Engineer and Azalia Mirhoseini, Senior Research Scientist, Google Research, Brain Team The revolu...

ai.googleblog.com

 

 

마키나락스의 FPGA 칩 배치 연구

 

Chip Placement on FPGA 프로젝트를 소개합니다!

MakinaRocks의 COP(Combinatorial Optimization Problem) 팀에서는 지난 2020년 9월부터 2021년 1월까지 반도체 설계 공정 중 하나인 Placement & Routing에 강화학습을 적용하는 프로젝트를 진행했습니다. AI Chip 설계를

makinarocks.github.io

 

 

삼성 SDS의 POMO (NeurIPS 2020)

 

NTU의 RL기반 Transformer encoder-decoder를 활용한 TSP 문제 접근

 

이 외에도 최근 주목받는 Network Architecture Search (NAS) 분야나 신약개발 분야에서 주로 풀려는 문제가 CO여서, 실제 산업에서의 효용성이 특히 크다.

 

로보틱스 분야에서 불안정성으로 인해 강화학습을 보수적으로 바라보는 시야가 없지않아 있어 산업계 적용이 조금은 길게보고 가야한다면, CO는 도메인 전문가와의 협업으로 충분히 현장에서 사용가능할만한 솔루션이 개발될 수 있어 더욱 흥미로운 분야이다. 

 

CO의 좋은 레퍼런스 논문들은 이동민 님이 정리해주신 list를 참고하면 좋을것 같다.

https://dongminlee94.github.io/rl/combinatorial_optimization_with_reinforcement_learning/

 

Papers on Combinatorial Optimization with Reinforcement Learning

Pointer Networks (2015.06)

dongminlee94.github.io

Author : Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba
Paper Link : arxiv.org/abs/2010.02193

Website : ai.googleblog.com/2021/02/mastering-atari-with-discrete-world.html

OpenReview : openreview.net/forum?id=0oabwyZbOu

 

 

최근 Recommender System KR의 클럽하우스에 들어가서 여러 회사와 학교에 계신 발표자 분들이 이야기하시는걸 들으면서, 강화학습을 Recommender system의 breakthrough 중 하나로 생각하시는분들이 꽤 있다는걸 알게되었다.

 

추천시스템은 real world에서 가장 활발하게 쓰이고 있는 분야이며 특히 고객을 늘리고 서비스에서의 체류시간을 늘리는 등 industrial business model에서 빠질수 없는 분야이다. 그리고 RL의 interaction 특징이 추천시스템과 사용자 사이의 관계와 밀접함에 따라, 그리고 RL의 장기적인 이익 최대화라는 특징이 사용자의 장기적인 만족도를 높히는 추천시스템의 목적과 밀접하다는 관점에서 RL의 또다른 유망 real-world application으로서 고려된다는것을 알았다.

 

그래서 Recommender System KR의 김지후님이 추천해주신 몇몇 대표 링크와 검색해본 강의 및 블로그들을 카테고리의 첫 포스팅으로 올려보면서 이 분야에대한 정리를 조금씩 해보고자 한다.

 

 

 

ACM의 추천시스템 대표 학회인 RecSys 2020에서 강화학습 관련 세션

recsys.acm.org/recsys20/session-12/?fbclid=IwAR3llKoFzuHfh-rrco3CuZz10FzMCnvYdqnexTdqEyBrNRowMcvj_YmMPGA

 

RecSys – ACM Recommender Systems

Cluster-of-bandit policy leverages contextual bandits in a collaborative filtering manner and aids personalized services in the online recommendation system (RecSys). When facing insufficient observations, the cluster-of-bandit policy could achieve more ou

recsys.acm.org

강화학습을 Recommender system에 적용하는 연구들을 정리한 깃헙 레포1 

github.com/cszhangzhen/DRL4Recsys?fbclid=IwAR1heFcoT5N4C0Z43l5tWZDr_eCOQ49ZkGllzfhk1k4rEsqDK85JgN9CrY4

 

cszhangzhen/DRL4Recsys

Courses on Deep Reinforcement Learning (DRL) and DRL papers for recommender systems - cszhangzhen/DRL4Recsys

github.com

강화학습을 Recommender system에 적용하는 연구들을 정리한 깃헙 레포2

github.com/guyulongcs/Deep-Reinforcement-Learning-for-Recommender-Systems?fbclid=IwAR1DKsI8Botx9KJInv3ePzlFO11g4avXStZ8FxieW0SbG_WAY0xvXinkixc

 

guyulongcs/Deep-Reinforcement-Learning-for-Recommender-Systems

DRL for RecSys papers. Contribute to guyulongcs/Deep-Reinforcement-Learning-for-Recommender-Systems development by creating an account on GitHub.

github.com

구글 리서치의 RL for RecSys 에대한 강의1

www.youtube.com/watch?v=X3uozqaNCYE

구글 리서치의 RL for RecSys 에대한 강의2

www.youtube.com/watch?v=HEqQ2_1XRTs

Segey Kolesnikov 님의 포스팅

scitator.com/post/2101-recsys-rl-en/

 

RL in RecSys, an overview [EN] | Scitator

An overview of Reinforcement Learning in RecSys.

scitator.com

Recommender System KR의 김지민님이 추천해주신 RecSys의 REVEAL 2020 워크샵

sites.google.com/view/reveal2020/home?fbclid=IwAR1kGF22v56fSmkP79Z-pFTqF01CjT8XhXx8ROZ-eXGXtf5RDiTMpH3arMI

 

REVEAL 2020

Video recording of the workshop Important dates: Submission deadline: July 29th Author notification: August 21st Camera-ready deadline: September 4th Workshop: September 26th State-of-the-art recommender systems are notoriously hard to design and improve u

sites.google.com

+ 지민님의 REVEAL 2020 번역 포스팅

ziminpark.github.io/posts/REVEAL%2720-%EC%86%8C%EA%B0%9C-%28%EB%B2%88%EC%97%AD%29-5e8b3d4ff4ed42cdb7199afc192b7fe3/?fbclid=IwAR0vE5QoTOy4PG3VrylgxjCwlwvbxqUcF0cUTWtK60L-IeZT1qsVIeNGeXI

 

[번역글] REVEAL’20 Workshop Introduction

REVEAL’20 Home을 번역한 글입니다. 문장이 길고 복문이 많아서 짧은 단문으로 고쳐 썼습니다.

ziminpark.github.io

지민님이 정리해두신 Bandit 관련 스터디 자료

www.notion.so/Bandit-Based-cae4bc6ecf9c412dbfb5287abdccb704

 

Bandit-Based 추천 시스템 공부 계획

*** 목표 *** 1. 어떤 상황에서 Bandit 기반 추천을 사용해야 하는지 이해합니다.  2. Bandit 기반 추천 논문에서 나오는 용어와 baseline 모델을 익힙니다.  3. Bandit 기반 추천 모델의 평가를 어떻게 할지

www.notion.so

Amazon ML 엔지니어인 Ankit Sirmorya의 포스팅

https://pub.towardsai.net/natural-language-processing-b36102774c37

 

Natural Language Processing

Reinforcement Learning in Recommendation Systems

pub.towardsai.net

 

 

Author : Luisa Zintgraf*, Kyriacos Shiarlis, Maximilian Igl, Sebastian Schulze, Yarin Gal, Katja Hofmann, Shimon Whiteson
Paper Link : arxiv.org/abs/1910.08348

JMLR Paper(2021) : https://jmlr.org/papers/v22/21-0657.html

Talk in ICLR2020: iclr.cc/virtual_2020/poster_Hkl9JlBYvr.html

Talk in NeurIPS2020 Workshop: slideslive.com/38938211

 

 

0. Abstract

  • 처음보는 환경에서 RL의 return을 최대화 하는데는 exploration과 exploitation의 trade off가 중요함
  • Bayes-optimal policy는 현재 환경의 state를 고려할뿐만 아니라 현재 놓여진 환경의 불확실성까지도 고려하여 최적의 trade off를 선택함
  • 하지만 Bayes-optimal policy를 계산하는 것은 작은 테스크에서만 가능하고 전체 테스크에 대해 계산하는것은 intractable함
  • 본 연구에서는 처음보는 환경에서 action을 선택할때, 적절한 inference를 하면서도 실시간으로 task의 불확실성도 다루도록 meta-learning을 하는 Variational Bayes-Adaptive Deep RL (variBAD) 알고리즘을 제안함

 

1. Introduction

  • Bayes-optimal policy는 현재 환경의 state를 고려할뿐만 아니라 현재 놓여진 환경의 불확실성까지도 고려하여, 처음보는 환경에서 최적의 exploration과 exploitation사이의 trade off를 선택함
  • Bayes-optimal policy는 Bayes-adaptive Markov decision processes (BAMDPs) 프레임워크로 계산할 수 있으며, 환경에 대한 belief distribution을 가지고 이 불확실성을 낮추는 한편 return 최대화라는 RL의 목적에는 저해되지 않는 exploration을 함 
  • Bayse-optimal policy의 성능은 해당 환경을 완전히 알고 있을때의 최적 policy에 bound 됨
  • 하지만 Bayes-optimal policy는 작은 task에서만 계산이 가능하며, 그외의 경우엔 intractable함
  • 이에 대한 tractable한 대안으로는 posterior sampling (또는 Tompson sampling) 이 있음
  • poterior sampling은 주기적으로 현재 MDP에 대한 가정(posterior)을 샘플링한 다음 이 가정을 전제로한 최적의 policy를 취함. 이 환경에 대한 가정은 다음 샘플링까지 유지됨
  • 하지만 이러한 posterior sampling에 의한 exploration은 매우 비효율적이므로 Bayes-optimal과는 크게 차이남.
  • 이 차이는 아래의 목표지점이 숨겨진 grid world 예시를 통해 볼 수 있음

  • (a) 목적지는 x이나 모르는 영역을 의미하는 회색 중 한곳에 해당
  • (b) Bayes-Optimal 의 경우에는 에이전트가 아직 불활실성이 있는곳을 탐색하며 구조적인 행동을 취함
  • 목적지를 모르는 상태에서 목적지가 있을거라고 생각하는 모든칸에 동일한 확률 (회색의 명도) 를 부여
  • 한편 (c) Posterior Sampling의 경우에는 목적지에 대한 가정을 샘플링 (빨간색 칸) 하고, 여기를 가기위한 최적의 행동을 취함. 그리고 데이터를 바탕으로 posterior를 업데이트한 뒤 다시금 샘플링 반복함.
  • 이는 샘플링에 따라서 이미 지나온 길을 중복으로 가는 등, 불확실성이 최적으로 줄어들지 않는 비효율적인 탐색임
  • (d)는 본 연구가 제안하는 알고리즘의 탐색과정으로, 1개 에피소드당 15번의 step을 간다고 할때 (e)의 비교에서 Bayes-Optimal에 근접하는 효율을 보여줌
  • 본 연구에서는 이러한 처음보는 (하지만 서로 어느정도는 기존 환경들과 공통점이 있는) 환경에 대한 효율적인 탐색 문제를 Bayesian RL, variational inference, 그리고 meta-learing으로 해결하고자 하며, 제안한 알고리즘을 variational Bayes-Adaptive Deep RL (variBAD) 이라고 명칭함.

2. Background

  • 기본적인 RL에 대한 내용은 생략

2.1. Traning Setup

  • 일반적인 meta-learing의 셋업과 같이 MPDs의 분포 $p(M)$을 가정하고 meta-training동안은 이 분포에서 MDP $M_i \sim p(M) $ 을 샘플링함
  • 이때  $M_i = (S, A, R_i, T_i, T_{i,0}, \gamma, H)$, 이며 $i$는 각 task를 의미 
  • Meta-training 동안엔 각 task에서 batch 데이터가 반복적으로 샘플링 되며, 이후 수집된 데이터를 통해 전체 tasks에 대해 에이전트가 더 높은 성능을 내도록 학습하는 learning to learn 과정이 진행
  • Meta-test 동안엔 새로운 task에 대해서 agent가 적응하는 모든 과정에 대한 평균적인 retrun을 평가기준으로 삼음
  • 이러한 meta-framework가 잘 동작하려면 다음의 두 가지가 필요함
    1. 현재 task와 관련된 task들로 부터 얻은 prior 지식의 활용
    2. Exploration과 eploitation의 trade off를 위해 행동을 선택할때 task의 불확실성을 추론

2.2. Bayesian Reinforcement Learning

  • Bayes-optimal policy는 Bayes-adaptive Markov decision processes (BAMDPs) 프레임워크로 계산할 수 있으며, 환경에 대한 belief distribution을 가지고 이 불확실성을 낮추는 한편 return 최대화라는 RL의 목적에는 저해되지 않는 exploration을 함 
  • RL의 베이지안 형태에서는, reward와 transition이 prior $b_0 = p(R,T)$에 따라 분포 해 있다고 가정
  • 또한 reward와 transition을 모르므로, 에이전트는 지금까지 한 경험 $\tau_{:t}=\left\{s_0, a_0, r_1, s_1, a_1, \cdots, s_t\right\}$ 에 대한 posterior인 belief $b_t(R,T)=p(R,T|\tau_{:t})$를 유지함
  • decision making을 할때 이러한 task에 대한 불확실성을 고려하게 하려면, belief space를 state space에 추가함. 즉, task belief가 포함된 새로운 state space인 hyper state를 정의 $s_{t}^{+} \in S^+= S \times B$
  • 이를 기존 RL objective 에 적용한, BAMDP framework의 RL objective는 다음과 같음.

H+는 여러 task들의 episode를 horizon을 더한 전체 horizon

  •  이 objective를 최대화 하는것이 Bayes-optimal policy이며, 자동으로 exploration과 exploitation을 조절해줌
  • 즉, 불확실성을 낮추면서도 return을 최대화 하는 행동을 취함
  • 하지만 이 최적화 문제를 푸는것은 intracterbla한데, 주요 원인은 다음과 같음
    1. 처음보는 MDP의 reward 와 transition모델을 모름
    2. Posterior의 계산은 주로 interactable함
    3. Posterior를 잘 도출하더라도 belief space상에서의 planning 역시 주로 interactable함
  • 이를 해결하기위해 저자는 reward와 transition, 처음보는 MDP에서 어떻게 inference를 할지, 그리고 task belief를 online return을 최대화 하는데 어떻게 활용할지를 동시에 meta-learn하는 방법을 제안
  • Inference기반으로서 planning없이 end-to-end로 동작하는 접근방법을 제안함

 

 

3. VariBAD: Bayes-Adaptive Deep RL via Meta-Learning

  • 여기선 이 paper의 핵심 concept인 variBAD를 설명하고자함
  • 먼저 처음보는, 즉 모르는 MDP의 reward와 transition을 표현하기위 해서 stochastic latent variable $m_i$를 사용하여 다음과 같이 쓸 수 있음

i 는 해당 unkown MDP의 true index

  • 이전 챕터에서 문제로서 언급한 바와같이 이러한 unknown MDP는 reward와 transtion 모델 그리고 index를 모르므로, 여기선 대신 $\tau_{:t}^{(i)}=(s_0, a_0, r_1, s_1, a_1, r_2 \cdots, s_{t-1}, a_{t-1}, r_t, s_t)$ 의 에이전트가 time step $t$까지 경험한 context를 바탕으로 $m_i$를 infer함
  • 즉, posterior distribution $p(m_i|\tau_{:t}^{(i)}$를 infer하는 방법으로 posterior가 intractable한 문제를 다룸과 동시에 unknown MDP의 reward와 transition을 infer된 stochastic latent variable로 parameterize 함
  • Posterior $q_\phi(m|\tau_{:t})$는 latent variable을 embedding하는 encoder의 역할로서 RNN 아키텍처를 가지며decoder를 붙여 학습함.
  • 이때 representation learning이 잘 되도록 decoder는 이전 state와 action이 들어왔을때 reward와 transition (dynamics) 을 잘 복원하도록 아키텍처를 구성함.
  • 또한 policy는 task의 불확실성을 의미하는 posterior에 근거하여 현재환경에서의 행동을 선택함
  • VariBAD 아키텍쳐를 그림으로 나타내면 다음과 같음

3.1. Approximate Inference

  • 처음보는 MDP의 transition과 reward를 모르며 모든 task에 대한 marginalising을 하는것은 불가능하므로 posterior를 정확히 계산하는것은 intractable함
  • 따라서 위에서 언급한 encoder-decoder구조를 사용한 posterior의 근사가 필요하며, 이는 VAE에서 사용한 접근법과 같음 (VAE는 유재준 박사님의 포스팅이나, 이기창님의 포스팅 참고)
  • $\theta$로 parameterized된 MDP의 dynamics 모델 $p_\theta(\tau_{:H^+}|a_{:H^+-1})$ 즉 decoder와  $\Phi$로 parameterized된 inference network $q_\Phi(m|\tau_{:t})$ 즉 encoder가 조합된 구조는 매 time step $t$마다 실시간으로 latent task $m_i$를 infer하는것이 가능하도록 함 
  • VAE의 ELBO objective형식으로 recontruction loss와 KL regulation loss를 구현해 보면,  복원하려는것이 행동선택에 따른 trajectory이므로 아래와 같음. 정확힌 dynamics를 복원하는것이므로 이때 $\tau$는 dynamics의 입력변수에 해당하는 행동정보는 포함하지 않음

  • 여기서 기존의 VAE와는 사뭇 다른 부분은 informational bottleneck 부분인데, 단순히 prior를 정규분포로 두던 VAE와는 달리 task를 포함한 hyper state에서는 처음 prior는 동일하게 $q_\Phi(m) = \mathcal{N}(0,I)$으로 주지만 이후부턴 이전 posterior인 $q_\Phi(m|\tau_{:t-1})$를 prior로 줌. 이는 posterior inference distribution이 task에 따라 adaptation되도록 하기위함
  • 또한 주목할 부분은 latent variable $m$이 추론되기위해 encoder가 사용한 정보는 과거의 정보이지만 $m$을 토대로 decoder가 복원하려는 정보는 과거와 미래를 포함한 전체 trajectory $\tau_{:H^+}$ 라는 점
  • 즉, 단순히 과거의 데이터를 representation하는것이 아닌, 과거의 데이터로부터 가보지 않은 state 또한 잘 추론 할 수 있도록 학습하는것으로, 이를통해 더 좋은 exploration을 위한 representation을 학습함
  • ELBO에서 reconstruction term은 구체적으로 다음과 같이 풀어쓸 수 있음

  • 이는 기존 VAE처럼 단순히 latent variable로부터 state와 reward를 복원하는 형태가 아닌, decoder에 이전 state와 action을 넣었을때 다음 state와 reward를 복원하는 interaction을 decoder가 학습하는것으로 dynamics 및 MDP를 inductive bias로 주어 representation learning하는 구조가 됨

 

3.2. Training Objective

  • 위에서 언급한 아키텍처는 DNN으로 구현되며, 다음과 같음
    1. $\Phi$를 파라메터로 갖는 encoder 역할의 posterior inference network $q_\Phi(m|\tau_{:t})$
    2. $\theta$를 파라메터로 갖는 decoder 역할의 근사 환경모델 transition $T^{'}=p_\theta^T(s_{i+1}|s_i,a_i;m)$ 과 reward $R^{'}=p_\theta^R(r_{i+1}|s_t,a_t,s_{i+1};m)$
    3. $\Phi$에 의존하여 $\psi$를 파라메터로 갖는 policy $\pi_\psi(a_t|s_t,q_\Phi(m|\tau_{:t}))$
  • Posterior는 distribution의 파라메터로 표현 가능 (e.g., $q$가 가우시안일 경우 평균과 표준편차)
  • 이를 종합하여 알고리즘의 최종 objective는 다음을 최대화 하는 것

  • 위 expectation은 Monte Carlo 샘플로 근사가 되며, $ELBO$는 VAE에서도 사용된 reparameterisation trick으로서 역전파를 통한 학습이 가능
  • 위에서 언급한 바와 같이 $ELBO$의 범위는 모든 가능한 context length $t$이고, 이렇게 함으로써 variBAD는 episode 중에 실시간 online adaptation이 가능해지며 데이터가 쌓일수록 환경에 대한 uncertainty가 줄어듬
  • 실제 구현에서는 $H^+$가 너무 클 수 있으므로 고정된 상수 만큼의 subsampling을 사용함
  • 위 objective는 end-to-end로 학습되며 $\lambda$는 Reinforcement Leraning ojbective와 Represention Learning objective사이의 weight 파라메터임
  • Policy가 posterior$\Phi$에 의존하는 만큼 RL loss는 encoder로도 타고 들어갈 수 있지만 별 효용이 있진 않으므로 실제 구현에선 역전파를 끊어주는것이 학습속도 측면에서 더욱 효율적이면서도 loss간 trade off 문제를 피할 수 있고 loss간 gradient가 간섭되는것도 예방할 수 있음
  • 때문에 이후 실험에선 VAE와 policy를 서로 다른 optimizer와 learning rate를 사용함
  • 또한 RL과 VAE를 다른 buffer를 사용하여 학습하는데, 이는 여기서 사용되는 RL알고리즘이 on-policy라 최근 데이터를 사용해야하는 반면 VAE는 전체 데이터를 사용하기 때문
  • Meta-test에선 랜덤하게 test task가 샘플되며 학습된 encoder와 policy가 gradient step없이 forward pass로만 adaptation 함

 

 

4. Related Work

  • 기존 meta-RL에는 여러 방법이 있는데, $\textrm{RL}^2$와 같은 blackbox 방법 역시 RNN을 사용한다는 공통점이 있지만, variBAD는 decoder가 붙어 단순히 hidden black box가 아니라 의도한 uncertainty 정보를 latent variable에 담기위한 representation learning이라는 차이점이 있음
  • 이 외에도 MAML과 같은 gradient step 방식의 meta-RL 알고리즘들과 비교해보면, 이 방법들은 feedforward policy만을 사용해 모델이 더 가볍다는 장점이 있으나 RNN 모듈을 사용하는 $\textrm{RL}^2$ 나 variBAD 는 구조적으론 복잡하지만 online adaptation이 가능하다는 큰 장점이 있음
  • Task embedding의 측면에서 다양한 기존 접근방식의 연구들이 있으나, variBAD는 task uncertainty를 unsupervised하게 representation learning한다는 것과 이를 policy가 의존함에따라 exploration과 exploitation의 trade off가 자동으로 된다는 차이점이 있으며 이러한 자동화된 trade off는 Bayes-optimal에 부합함
  • Bayesian RL의 측면에서 poterior나 prior를 활용한 연구가 여럿 있으나, variBAD의 차별점은 posterior를 업데이트 하는 방법 즉, inference과정을 meta-learn하는것임
  • BAMDPs는 POMDPs이 특수 케이스로 hidden state가 transition과 reward function을 내포하고 있으며 에이전트가 이에대한 belief를 고려하는것을 말함. 단, 일반적인 POMPDs는 hiddent state가 매 step 실시간으로 변할 수 있지만 BAMDP의 hidden task state는 task마다 고정됨

 

 

5. Experiment

  • 실험은 두가지 환경에서 진행되며 Gridworld에서는 variBAD가 structured exploration을 하는지를, 그리고 MuJoCo에서는 fast adaptation, 즉 첫번째 rollout에서 task에 잘 adaptation을 하는지를 증명하고자 함
  • 아래 실험들에서 variBAD는 A2C알고리즘을 사용함

5.1. Gridworld

  • 5x5 gridworld에서 랜덤하게 목적지가 선택되며 에이전트엔 알려주지 않아 탐색이 필요함
  • 에이전트는 매 에피소드마다 왼쪽 하단에서 시작하여 15 step 을 움직이고 다시 위치가 리셋 됨 '
  • 학습의 목표는 에이전트가 4개 에피소드 안에 목적지에 도착하는 것
  • 즉, MDP는 horizon은 $H=15$ 이나 meta-task에 대한 BAMDP의 horizon은 $H^+=4 \times H=15$가 됨
  • 에이전트는 골이 아닌 칸을 지날땐 -0.1의 reward를 받으며 목적지칸에 도착하면 +1을 받음
  • latent variable의 dimension은 5로 gaussian posterior를 사용하면 mean과 s.d. 각각의 10이 됨

  • 위 (a)의 실험 결과에서 보면, infer된 posterior belief를 approximated reward function에 입력으로 주어 각 칸이 목적지일 belief를 흰색-파란색으로 시각화 했으며 흰색은 확률이 0을 파란색이 진해질수록 목적지일 확률이 커지는것으로 보면 됨
  • step을 움직임에따라 지나간 칸의 확률은 0이 되고 남은 칸들의 확률은 올라가는것을 볼 수 있음에따라 variBAD가 belief를 실시간으로 embedding하도록 잘 학습된것을 확인할 수 있음
  • 또한 belief가 바뀜에 따라 에이전트가 방문하지 않은 곳을 선택하는 모습에서 structured exploration이 잘 학습된것을 볼 수 있음
  • 위 (b)에서는 belief의 변화에 따른 gridworld 각 칸의 예상 reward가 1일 확률을 시각화 했으며 (c)에서는 latent variable, 즉 belief disbribution을 시각화 함
  • 에이전트가 데이터를 탐색과 경험을 할수록 각 칸이 목적지일 확률이 하나 둘 0이 되는것을 볼 수 있으며, 약 20step이후엔 목적지에 해당하는 칸의 확률이 1에 수렴하는것을 볼 수 있음 
  • 마찬가지로 에이전트가 목적지를 찾음에 따라 그 이후엔 belief distrubution의 평균이 더이상 변하지 않고 표준편차는 대부분 0에 수렴하는것을 볼 수 있음 
  • 결론적으로, variBAD알고리즘이 처음보는 환경에 대한 exploration과 exploitation을 trade off하는 Bayes-optimal policy와 거의 유사하게 행동하는것을 볼 수 있음 

5.2. Sparse 2D Navigation

  • 반지름1인 반원을 따라 램덤하게 목적지가 생기며, 목적지로부터 0.2거리 안에 들어갈 경우 sparse한 보상을 받는 navigation 환경
  • Bayes-optimal behavior은 반원을 따라 탐색을 하는것

  • PEARL과 비교하면 variBAD가 meta-test에서 훨씬 빠르게 목적지에 도착했으며 RL2와 비교하면 training (3 epi)보다 더 길게 rollout을 했을 경우에서 훨씬 안정적인 움직임을 보여줌
  • PEARL은 posterial sampling을 하기때문에 각 episode내에서는 고정된 belief로인해 비효율적인 반복행동을 취하는 반면, variBAD는 한개의 episode 내에서도 belief를 업데이트 해가며 전략적인 탐색을하는 bayes-optimal에 가까운 모습을 줌 

5.3. MuJoCo Continuous Control Meta-Learning Tasks

  • 같은 meta-RL 알고리즘인 PEARL에서 사용된 MuJoCo locomotion task 4개에 대해서도 variBAD를 검증함 
  • AntDir과 HalfCheetahDir task는 에이전트로 하여금 forward와 backward 두개 방향을 달리도록하는 양방향의 두개 task를 가각 가지고 있음
  • HalfCheetahVel task는 에이전트가 여러 속도로 달리는 환경이며, Walker task는 에이전트의 dynamics 파라메터가 랜덤으로 정해지는 환경임

  • 위 결과는 기존의 각 task에 대해 meta-test에서의 adaptation 퍼포먼스를 기존의 meta-RL 알고리즘들과 비교한것을 보여줌
  • Expert은 PPO알고리즘으로 각각의 task에대해 model free 학습한 평균 결과이며, Multi-task는 task desctiption을 준 multi-task agent를 의미
  • 모든 task에서 $\textrm{RL}^2$와 variBAD를 제외한 다른 알고리즘들은 첫번째 에피소드에서 낮은 성능을 보여주었으며, 이는 해당 알고리즘들이 variBAD나 $\textrm{RL}^2$와 같은 실시간 adaptation이 아닌 few step혹은 episode단위의 adaptation이기 때문임
  • $\textrm{RL}^2$역시 첫 에피소드에서 variBAD보다 낮은 성능을 보여주었으며 adaptation에 따른 성능향상이 미미하고 RNN policy로인해 학습이 오래걸리며 성능이 불안정하다는 확실한 단점이 있음
  •  PEARL(포스팅)은 대표적인 posterior sampling알고리즘으로 약 세번째 에피소드부터 좋은 성능을 보여줌
  • 결과적으로 variBAD는 단일 에피소드만으로도 충분한 빠른 adaptation을 보여주면서도 multi-task에 가까운 성능을 보여줌
  • 단, MuJoCo에선 (dynamics가 변하는 Walker포함한 경우에도) transition decoder를 함께 사용하는것보다 reward decoder만 사용하는것이 더 좋은 성능을 보여주었으며 위 그래프는 단일 decoder를 사용해 학습한 결과임

5.4. Meta-World

  • 좀더 다양한 task에 대한 generalization을 다루는 로봇팔 benchmark환경인 Meta-World ML1에서 성능 검증

  • Reach와 Push 문제를 모두 해결하면서 큰 차이로 기존 알고리즘들보다 빠르면서도(2 episode이내) 뛰어난 성능을 보여줌
  • 어려운 문제인 Pick-Place에서는 PEARL과 유사한 성능을 보여주었는데, 이는 meta-training에서 탐색이 부족 (meta-exploration challenge)하여 생기는 한계로 저자는 추정

 

6. Empirical Analysis

6.1. Modelling Horizon

  • VAE에서 reconstruction을 전체 다 하는 경우(variBAD)와 과거만 하는 경우, 미래만 하는경우, 그리고 1step미래만 하는 경우에 대해 결과를 비교분석함
  • 이미 관측된 transition과 앞으로 관측할 transition의 분포를 모두 belief에 담고자한것이 variBAD에서 주장한 모델링의 이유

  • 실험 결과 origial VAE와 같이 과거만 복원하는것은 suboptimal성능을 보여주었고, 다음 step만 복원하는것은 AntGoal에서 낮은 성능을 보여줌
  • 미래만을 복원하는것은 성능상으로는 괜찮았지만 아래 Gridworld실험을 통해 이 역시 부족한 점이 있다는것을 확인

  • GridWorld에서 과거만 복원하거나 다음 step만 복원하는것은 목적지에 도착하기 전까지 잘못된 belief를 학습 (Figure 7b,d)
  • 미래를 복원하는것은 방문전인 state들에 대한 reward belief를 나쁘지 않게 학습하였지만, 이미 방문한 상태에 대에선 잘못된 belief를 보여줌 (Figure 7c)

6.2. KL Regularisation

  • VAE에서 KL term을 origial VAE와 같이 고정된 normal distribution으로 할 경우, 이전 posterior를 piror로 하여 서로 닮도록 하는 경우 (variBAD), variBAD과 같이 이전 posterior를 prior로 활용하나 gradient는 끊어주는경우, KL term을 제거할 경우에 대해 비교분석함

  • 고정된 prior를 사용할 경우, 성능적으로는 dense reward에선 괜찮고 sparse reward에선 안좋았으나 variance를 분석해보면 normal distribution에 과잉 fitting되려하여 Gridworld에서 목표점에 도달직후 variance가 확 증가함
  • KL을 사용하지 않을경우 variance가 학습이 전혀 되지 않음
  • Grandient를 detach할 경우엔 성능면에서나 variance면에서나 모두 나쁜 결과를 보여줌

6.3. Belief Demensionality

  • Latent dimension이 바뀜에 따라 성능이 어떻게 변하는지를 실험함

  • 실험결과, 아주 작은 dimension으로 인한 underparameterised가 아닌 이상 latent dimension의 크기는 큰 영향을 주지 않았으나, 조금이지만 서서히 성능이 줄어들긴 함

 

7. Conclusion & Future Work

  • 본 연구에서는 서로 연관된그리고 처음보는 task를 inference하는것을 meta-learn하는 접근을 통해, Bayes-optimal의 행동양상을 근사하는 deep RL 방법인 variBAD를 제안함
  • Gridworld 실험에서는 bayes-optimal과 같은 exploration과 exploitation의 trade off성능을 보여주었으며, MuJoCo실험에서는 하나의 에피소드만에 성능을 내는 빠른 adaptation을 보여주어 이를 검증함
  • 향후 가능한 연구로는 decoder구조를 사용하여 meta-model based RL이 있으며, distribution shift의 OOD 문제를 풀기위해 알고리즘을 개선해볼수도 있음
  • 또한 PEARL에서와 같이 off-policy RL알고리즘에 variBAD를 적용해볼 수 있음

 

7. 개인적인 생각

  • VariBAD는 PEARL과 매우 비슷한 아키텍처를 사용하고 있다. 단 PEARL이 belief를 episode동안엔 유지하고 있는것과는 달리 variBAD는 step마다 업데이트하는 차이가 있다. 이에 대해 저자는 RNN encoder를 사용하고 있어서 가능하다고 언급하는데, RNN의 사용이 시간에 따라 서로 연관된 temporal hidden state 표현이 가능하도록 만들기 때문이라고 한다. 재밌는건 PEARL역시 RNN을 사용하긴 했으나 성능적인 면에선 오히려 떨어진다고 하고, RNN도 correlation을 끊어주었을때 그나마 성능이 비슷해진다고 했다. 즉 PEARL은 RNN에 의한 data correlation이 task inference를 오히려 더 어렵게 만든다고 주장한다. 하지만 variBAD의 결과를 보면 크게 문제되지 않아보인다. encoder를 학습할때 decoder에다 전체 horizon을 다 넣어서 그런가 싶기도 한데, 이부분을 좀 더 자세히 비교하면 좋겠지만 PEARL의 github 구현에서는 아직도 RNN이 TBD 상태이다. 
  • 또한 PEARL은 decoder가 Q-functon인데 반해 variBAD는 dynamics와 reward를 복원한다. 사실 dynamics를 복원하는건 PEARL에서도 사용했는데 성능이 별로라 그냥 Q를 사용했다고 했다. 하지만 variBAD도 MuJoCo실험에서는 dynamics의 복원보다 reward만 복원하는게 더 성능이 좋았다고 한다.
  • PEARL이후에 PEARL의 저자는 variBAD와 같이 Hyper state를 사용하여 이미지 기반 meta-RL에 PEARL을 적용하는 논문인 MELD를 낸다. MELD에서는 이미지를 학습하기위해 Hyper state를 사용하는 SLAC의 아키텍처를 가져오는데, MELD와 SLAC는 실시간 hidden state의 업데이트를 위해 latent dynamics, 즉 temporal dependency를 갖도록 latent variable을 학습한다. 이러한 latent dynamics구조를 사용하면 RNN없이도 실시간 temporal hidden state의 표현이 가능해진다고 한다. 따라서 variBAD에서 처럼 latent dynamics에 RNN을 활용하지 않고 latent dynamics만 잘 학습하도록 하면 충분히 실시간 embedding이 되면서도 가벼운 encoder를 구현할수 있는것 같다. 하지만 이 SLAC아키텍쳐가 구현에 있어서 은근히 번거로운 부분이 있고 action에 대한 response delay가 큰 시스템에서는 잘 동작을 할지 의문이 들긴한다. 
  • Representation learning과 관련해서는 Chelsea Finn 교수님 연구실에서 나온 논문인 LILI가 생각난다. 최근 RL의 문제는 representation power에 있다는 의견이 많은데, 이 때문에 representation learning을 RL에 붙이려는 시도가 매우 활발하다. LILI는 이러한 representation learning을 multi-agent 문제에 적용하여, interation trajectory로부터 상대방의 의도를 latent variable에 담는 시도를 하는데, real-world RL 측면에서 재밌게 읽어서 저자에게 메일을 보냈다. LILI에서도 VariBAD와 마찬가지로 task의 MDP를 inductive bias로 주어 latent space를 학습하려는 시도를 했다.
  • Inference 타입의 Meta-RL인 PEARL이나 variBAD역시 representation으로 meta-learning을 학습하는 구조인데, 사실 두 알고리즘 모두 어떻게 encoder와 decoder를 구성해야 latent task를 잘 학습할지 많은 시도를 한 흔적이 보인다. 하지만 아직은 이론과 실험과정에 사용한 조건이 사뭇 다른 등의 차이로 인해 명확하게 이론의 근거가 와닿지 않는 부분이 많다. 이 representation learning은 특히 지금 내가 연구하고있는 medical field에서도 잘 활용해볼 수 있을 것 같아 적용 중인데, 작게나마 결과를 볼 수 있었다. 앞으로 더 분석을 해보고 real world 실험에서도 잘 되면 medical-representation learning에 대해서 정리를 해볼까 싶다. 

 

 

 

 

Author : Annie Xie, Dylan P. Losey, Ryan Tolsma, Chelsea Finn, Dorsa Sadigh
Paper Link : arxiv.org/abs/2011.06619

Website : sites.google.com/view/latent-strategies/

Talk : www.youtube.com/watch?v=-gCFcgb08jo

 

Author : Tony Z. Zhao*, Anusha Nagabandi*, Kate Rakelly*, Chelsea Finn, Sergey Levine
Paper Link : arxiv.org/abs/2010.13957

Website : sites.google.com/view/meld-lsm/home

Code: https://github.com/tonyzhaozh/meld

Talk : https://youtu.be/P7Z68dRvne4

 

  • PEARL의 이미지 input 버전
  • PEARL에다 SLAC에서 사용한 latent dynamic를 활용
  • 실제 로봇으로 real world에서 meta-RL을 검증한 첫(아마도?) 사례이기 때문에 의의가 있음

Author : Homanga Bharadhwaj, Aviral Kumar, Nicholas Rhinehart, Sergey Levine, Florian Shkurti, Animesh Garg
Paper Link : arxiv.org/abs/2010.14497

Website : sites.google.com/view/conservative-safety-critics/home

OpenReview : openreview.net/forum?id=iaO86DUuKi

Talk : TBD

Video : www.youtube.com/watch?v=1E6wtSSL2Zs

 

+ Recent posts