Inverse Reinforcement Learning

 

강화학습에서 reward는 굉장히 중요하다. Policy를 학습하는데 있어서, intrinsic이든 extrinsic이든 Agent가 거의 대부분의 정보를 얻는 경로이기 때문이다.

 

일반적으로 강화학습에서는 사람이 reward를 일일히 정해주지만, 실제로 그 reward에 따라 “desirable” action이 나오지 않을 수도 있다. 또한 이렇게 직접 reward를 정해주는 "reward shaping" 과정은 매우 어려우며, 도메인 지식을 많이 필요로 하면서 손을 많이 타는 과정이다. 특히 원하는 task가 복잡할수록 reward function을 명시적으로 정한다는것이 어렵거나 사실상 불가능해진다. 

 

이런 어려움에서 나온 개념이 Inverse Reinforcement Learning (IRL)이다. IRL은 전문가 혹은 시연자의 optimal 및 suboptimal behavior에서 reward를 거꾸로 추론하거나 크게는 이렇게 추론한 reward기반의 policy를 학습하는것을 말한다. 행동심리학적 관점에서는, 관측한 사람들의 행동에서 사람들이 어떤것을 원하는지를 찾아내고자 하는 알고리즘이라고도 볼 수 있다.  

 

파블로 피카소는 "Good artist copy, great artist steal."라고 말했다. 강화학습 관점에서보면 어떤 행동을 그대로 따라하는것보다 그 행동의 내적 의도를 이해하고 그걸 능가하는 policy를 학습하려는 IRL의 목적과 어느정도 통하는게 있는 말이다.

 

 

이런 재밌는 IRL을 한번 같이 공부하고 구현해보자! 하는 의도에서 Reinforcement Learning Korea에서 몇몇 분들과 함께 2018년 10월부터 2019년 2월까지 관련 논문 6개를 읽고 구현을 해보는 단기 사이드 프로젝트를 진행했다. 

 

 

블로그: reinforcement-learning-kr.github.io/2019/01/22/0_lets-do-irl-guide/

 

Let's do Inverse RL Guide

RLKorea 블로그

reinforcement-learning-kr.github.io

Github: github.com/reinforcement-learning-kr/lets-do-irl

 

발표:

'Personal Project > Inverse RL' 카테고리의 다른 글

Let's Do Inverse RL 프로젝트  (0) 2021.03.08

Author : Krishnan Srinivasan, Benjamin Eysenbach, Sehoon Ha, Jie Tan, Chelsea Finn
Paper Link : arxiv.org/abs/2010.14603

 

 

조합최적화

Deep RL의 application은 게임 혹은 제어가 가장 대중적이지만, 최근 가능성을 조명받는 분야로 Combinatorial Optimization (CO: 조합최적화) 이 있다. 

 

게임이나 제어의 경우 Markov Process나 Dynamics가 원하는 state가 되도록 action을 선택하는것이라면, CO는 시스템을 구성할수 있는 어떤 아이템들이 주어졌을때, 이들의 최적 순서 또는 매핑을 찾는 문제로 상대적으로 사뭇 정적인 혹은 닫힌 시스템 내의 문제를 푼다고 볼 수 있다. CO의 예시로는 생산설비 최적화, 자원할당 최적화, 운송경로 최적화 등을 들 수 있다. 

삼성SDS Techtonic 2020, 권영대 프로님 발표

 

CO를 풀기위한 기존 알고리즘들이 많은데, 최근엔 이러한 알고리즘들보다 더욱 빠르고 효율적으로 CO문제를 풀기 위해 강화학습을 도입하는 시도가 하나 둘 발표되고 있다.

 

 

구글Brain의 칩 (ASIC) 설계 연구

 

Chip Design with Deep Reinforcement Learning

Posted by Anna Goldie, Senior Software Engineer and Azalia Mirhoseini, Senior Research Scientist, Google Research, Brain Team The revolu...

ai.googleblog.com

 

 

마키나락스의 FPGA 칩 배치 연구

 

Chip Placement on FPGA 프로젝트를 소개합니다!

MakinaRocks의 COP(Combinatorial Optimization Problem) 팀에서는 지난 2020년 9월부터 2021년 1월까지 반도체 설계 공정 중 하나인 Placement & Routing에 강화학습을 적용하는 프로젝트를 진행했습니다. AI Chip 설계를

makinarocks.github.io

 

 

삼성 SDS의 POMO (NeurIPS 2020)

 

NTU의 RL기반 Transformer encoder-decoder를 활용한 TSP 문제 접근

 

이 외에도 최근 주목받는 Network Architecture Search (NAS) 분야나 신약개발 분야에서 주로 풀려는 문제가 CO여서, 실제 산업에서의 효용성이 특히 크다.

 

로보틱스 분야에서 불안정성으로 인해 강화학습을 보수적으로 바라보는 시야가 없지않아 있어 산업계 적용이 조금은 길게보고 가야한다면, CO는 도메인 전문가와의 협업으로 충분히 현장에서 사용가능할만한 솔루션이 개발될 수 있어 더욱 흥미로운 분야이다. 

 

이에 앞으로 CO에 대한 논문 리뷰와 함께 미니 사이드프로젝트를 하나 진행하고자 한다. 일단은 연구실에 의료용 FPGA관련 연구를 하는 학생이 있어 함께 간단한 FPGA chip placement 를 해보면 어떨가 싶은데, 시뮬레이터 개발하는 시간으로 인해 배보다 배꼽이 더 클수 도 있겠다싶다. 어떤 문제를 정의하고 풀지는 공부를 하면서 차차 고민후 다시 포스팅 해보겠다. 

 

 

CO의 좋은 레퍼런스 논문들은 이동민 님이 정리해주신 list를 참고하면 좋을것 같다.

 

Papers on Combinatorial Optimization with Reinforcement Learning

Outline Pointer Networks (2015.06) Neural Combinatorial Optimization with Reinforcement Learning (2016.11) Learning Combinatorial Optimization Algorithms over Graphs (2017.04) Device Placement Optimization with Reinforcement Learning (2017.06) Attention, L

dongminlee94.github.io

 

Author : Shiyi He, Chang Xu, Tianyu Guo, Chao Xu, Dacheng Tao
Paper Link : aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/17079

 

0. Abstract

  • (Working on Writing)

학교 AI스터디에서 관심있는 주제가 있는 학생들끼리 사이드 프로젝트를 하기로 하여, 이번 학기부터 하나를 시작하게 되었다.

주제는 RL for Semi Supervised Learning (SSL) 으로 우선 정하였다.

 

Image classification과 SSL쪽 경험이 많은 프로젝트원이 리드하기로 하고, 킥오프 미팅인 20년 12월 23일엔 우선 현재 classification 에선 어떤 한계가 있는지와 왜 RL을 쓰면 좋을지 등을 논의 하였다.

 

두번째 미팅은 시간이 좀 지난 2월 19일에 했으며 다시 한번 문제 정의를 해보았다.

그래서 구체화 된건 1. RL for Image Classification과 2. Semi Supervised Learning (SSL)의 두가지.

 

그리고 SSL관련하여 ImageNet의 sota를 찍은 Meta Pseudo Lable에 대해 이야기를 했다.

paperswithcode.com/sota/image-classification-on-imagenet

컨셉이 재밌고 motivation 측면에서도 의미가있어서 시간이 나면 포스팅을 해볼까 한다.

arxiv.org/abs/2003.10580 (Hieu Pham, CVPR 2021)

 

Meta Pseudo Labels

We present Meta Pseudo Labels, a semi-supervised learning method that achieves a new state-of-the-art top-1 accuracy of 90.2% on ImageNet, which is 1.6% better than the existing state-of-the-art. Like Pseudo Labels, Meta Pseudo Labels has a teacher network

arxiv.org

 

다음 미팅 (2/28) 까진 간단한 RL for Classification task에 관련된 literature review를 해보기로 했다.

 

+ Recent posts