Author : Pedro A. Ortega, Markus Kunesch, Grégoire Delétang, Tim Genewein, Jordi Grau Moya, Joel Veness, Jonas Buchli, Jonas Degrave, Bilal Piot, Julien Perolat, Tom Everitt, Corentin Tallec, Emilio Parisotto, Tom Erez, Yutian Chen, Scott Reed, Marcus Hutter, Nando de Freitas, Shane Legg
Paper Link : https://arxiv.org/abs/2110.10819
- Sequential interaction에 대한 모델을 만들 땐, 단순 prediction loss만으론 self-delusion이 생기는 문제에 대한 DeepMind의 article.
- Delusion 문제를 다루기 위해 sequential 모델의 observation 분포와 action분포는 분리하여 학습해야하며, action의 probability에 대해선 intervention을 모델링하는 'counterfactual teaching'을 해야 delusion을 해소할 수 있다고 설명.
- 이 sequential 모델은 $\mathrm{RL}^2$와 같은 memory-based meta learning으로 학습이 가능함.
- 하지만 중요한 점은 위 설명은 online interaction이 가능한 경우에 대한것이고, offline learning의 경우 아직 open problem임을 설명.
개인적인 생각
- 주 저자들이 Deepmind Safety Analysis이다.
- 익히 알려진 'causal inference' 문제를 foundation model을 지향하는 관점에서 officially 정리해주었다.
- Offline learning에선 unobserved confounder가 있을 땐, observation 또한 단순 'factual teaching'기반의 prediction 문제로 학습할 경우 selection bias에 의한 delusion이 생기므로 주의해야한다.