조합최적화
Deep RL의 application은 게임 혹은 제어가 가장 대중적이지만, 최근 가능성을 조명받는 분야로 Combinatorial Optimization (CO: 조합최적화) 이 있다.
게임이나 제어의 경우 Markov Process나 Dynamics가 원하는 state가 되도록 action을 선택하는것이라면, CO는 시스템을 구성할수 있는 어떤 아이템들이 주어졌을때, 이들의 최적 순서 또는 매핑을 찾는 문제로 상대적으로 사뭇 정적인 혹은 닫힌 시스템 내의 문제를 푼다고 볼 수 있다. CO의 예시로는 생산설비 최적화, 자원할당 최적화, 운송경로 최적화 등을 들 수 있다.
CO를 풀기위한 기존 알고리즘들이 많은데, 최근엔 이러한 알고리즘들보다 더욱 빠르고 효율적으로 CO문제를 풀기 위해 강화학습을 도입하는 시도가 하나 둘 발표되고 있다.
구글Brain의 칩 (ASIC) 설계 연구
마키나락스의 FPGA 칩 배치 연구
삼성 SDS의 POMO (NeurIPS 2020)
NTU의 RL기반 Transformer encoder-decoder를 활용한 TSP 문제 접근
이 외에도 최근 주목받는 Network Architecture Search (NAS) 분야나 신약개발 분야에서 주로 풀려는 문제가 CO여서, 실제 산업에서의 효용성이 특히 크다.
로보틱스 분야에서 불안정성으로 인해 강화학습을 보수적으로 바라보는 시야가 없지않아 있어 산업계 적용이 조금은 길게보고 가야한다면, CO는 도메인 전문가와의 협업으로 충분히 현장에서 사용가능할만한 솔루션이 개발될 수 있어 더욱 흥미로운 분야이다.
CO의 좋은 레퍼런스 논문들은 이동민 님이 정리해주신 list를 참고하면 좋을것 같다.
https://dongminlee94.github.io/rl/combinatorial_optimization_with_reinforcement_learning/
'AI & RL > Combinatorial Opt.' 카테고리의 다른 글
[요약] Learning to Optimize Industry-Scale Dynamic Pickup and Delivery Problems (Xijun Li, ArXiv 2021) (0) | 2021.05.30 |
---|