Author : Josh Merel*, Diego Aldarondo* , Jesse Marshall*, Yuval Tassa, Greg Wayne, Bence Olveczky
Paper Link : https://openreview.net/pdf?id=SyxrxR4KPS
0. ABSTRACT
- 신경과학과 딥러닝은 감각과 인지시스템에 대한 실제 신경망과 인공신경망의 이해를 도우며 상호 생산적인 발전을 해옴
- 이 연구에선, embodied control에 대한 운동신경의 활성을 연구하기위한 플랫폼으로서 인공신경망을 내제한 가상의 Rat을 개발함
- 가상의 rat은 강화학습을 통해 여러 task를 학습
- 학습된 인공신경망에 신경과학에서의 사용되는 신경행동학적 분석을 통해 목적과 행동에 따른 운동신경의 활성의 연관성을 설명함
- 학습된 모델은 task 특화된 행동전략과 공통된 행동전략의 두가지 class로 구분되는것을 발견했으며, 이는 실제 신경의 sequential activity와 subpopulation에 해당한다고 볼 수 있음
- 이 가상 rat모델은 Deep RL과 motor neuroscience을 결합하는 연구를 위한 토대가 됨
1. INTRODUCTION
- 포유류는 동일한 general neural network를 사용해서 넓고 다양한 task를 해결가능한 generalist
- 동물이 생물학적 지능으로 푸는 문제를 연구자들이 인공 모델로 해결하고자 할때, 신경생물학적 회로의 기능에서 많은 영감을 받음 (ex. vision, audition, navigation, locomotion, reaching movement)
- 하지만 지금까지 동물의 복잡한 embodied control을 모두 고려하여 물리적 환경에서의 문제를 풀려한 시도는 전무
- Embodied control 모델을 개발하는것은 motor neuroscience의 이해와 AI연구 모두에 가치 있음
- 이에, 이 연구에서는 체성 감각/운동 기능이 내제된 가상 rat을 개발하고 행동심리학 기반 인공지능인 RL을 적용하여 multi-task를 학습시킴
- 이를통해 multi-task의 context에 따른 행동의 연속적 변화를 확인하고 이를 신경과학자들이 이해할 수 있는지의 관점에서 접근하고자 함
2. APROACH
2.1 VIRTUAL RODENT BODY
- Virtual rat은 실제 rat을 토대로 만들어짐
- 2마리의 rat을 해부하여 31개의 구획으로 나누어 그 질량을 측정하고, 7마리를 마취해 34가지 사지 부위의 길이를 측정하여 평균값을 도출
- 최종적으로 만들어진 virtual rat은 다수의 기관 및 관절과 이를 움직이는 근육으로 구성되며, 38개의 degrees of freedom을 가짐
- 머리에 RGB카메라(64x64 pixels)이 있어 1인칭 시야를 가지며, input으로서의 체성 감각으로는 다음과 같은 다양한 요소가 있음
- Internal joint angles and angular velocities, the positions and velocities of the tendons that provide actuation, egocentric vectors from the root (pelvis) of the body to the positions of the head and paws, a vestibular-like upright orientation vector, touch or contact sensors in the paws, as well as egocentric acceleration, velocity, and 3D angular velocity of the root.
- 모델은 MuJoCo를 사용해 구현됐으며, DeepMind Control Suit에서 확인 가능 (https://github.com/deepmind/dm_control)
2.2 VIRTUAL RODENT TASKS
- Virtual rat이 학습할 4가지 multi-task는 다음과 같음
(1) 앞으로 달리며 gap을 뛰어넘기 (Reward: target velocity)
(2) 미로에서 파란구슬 모으기 (Reward: sparse target)
(3) 언덕지형을 가로질러 구렁 탈출하기 (Reward: distance from center)
(4) 정해진 시간 간격으로 노란공 두번 터치하기 (Reward: sparse targets) - 강화학습을 적용함에 따라, rat은 reward를 최대화 하는 방향으로 task 학습
2.3 TRAINING A MULTI-TASK POLICY
- Multi-task를 수행하기위해 분산학습 RL알고리즘인 IMPALA setup (Espeholt et al., 2018)을 사용
- Actor를 학습하기위한 RL알고리즘으론 MPO (Abdolmaleki et al., 2018)를 사용
- Virtual rat agent의 neural netwrok 아키텍쳐는 다음과 같음
- 시각정보와 체성감각을 압축해주는 encoder가 있고, 압축된 정보를 LSTM을 거쳐 value function과 policy를위한 hidden state 도출
- Policy는 hidden state와 압축된 정보, 그리고 체성감각신호를 입력으로 받아 stochastic motor action 결정
- 단, 구렁탈출 task는 multi-task에선 학습이 잘 되지 않아 따로 teacher agent를 학습 시킨후 Kickstarting (Schmitt et al., 2018)으로 다시 multi-task를 학습시는 knowledge transfer 접근을 사용
- 학습 결과 4가지 task를 해결가능한 단일 neural network가 구해짐
- 각 task에 대한 학습된 rat의 움직임 영상 (video 1, 2, 3, 4)
3. ANALYSIS (본격적인 Neuroscience 파트)
- Virtual rat의 학습된 인공 신경망의 활성이 multi-task를 풀때 어떻게 나타나는지를 neuroscience에서 사용되는 방식으로 분석
- 생물학적 신경망이 어떻게 단일 운동을 조절하고 선택지의 메커니즘은 근력 및 행동요소 측면이나 내제된 신경역학적인 측면으로 분석되어 왔으나, multi-task을 위한 일반화에 대한 분석은 없음
- 이에, 가상 rat과 실제 rat의 운동에 내제된 매커니즘에 대한 통찰을 얻기위해, 가상의 쥐가 다른 행동을 할때 인공신경망의 각 레이어가 어떻게 인코딩되고 생성되는지를 실험함
- task마다 25번씩 반복시행하며, 가상 rat의 운동/관절각도/힘/체성감삭/LSTM 단일cell 활성도/policy 레이어별 활성도를 측정
3.1 VIRTUAL RODENTS EXHIBIT BEHAVIORAL FLEXIBILITY
- 전신 자세를 설명하기위해서 관절각 15개, 관절위치 15개의 총 30개 dimension의 top priciple component (eigenposture) 정의
- 전신 움직임을 설명하기 위해서 각 eigenposture에 대해 Morlet wavelet transform 수행 후 총 30개 dimension의 top priciple component 정의
- 움직임의 속도를 구분하고자 Wavelet frequency는 1. Intermediate (1~25 Hz), 2. Slow (0.3~5 Hz), 3. Fast (5~25 Hz)의 3가지 set을 사용
- Behavioral embedding에서의 효과적인 구분을 위해 자세와 움직임의 component를 합쳐 총 60개의 feature에 대해 tSNE 분석 수행
- 이 feature들에 대한 top 2 principle component에 대해 4개 task의 각 cluster가 어떻게 이루어 지나 확인한 결과 low level의 feature는 모든 task의 구분 없이 유사하게 나타났고 high level의 feature는 task에 따라 구분이 되는것을 확인
- tSNE 분석결과, rat의 행동에 따라 tSNE map에서 서로 잘 구분되는것을 확인
- 이 분석 결과로부터 인공신경망이 서로 다른 task에 대해 선택적으로 공통된 움직임과 차별되는 움직임을 선택하는 행동의 유연성을 학습하는것을 확인함
3.2 NETWORKS PRIMARILY REFELCT BEHAVIORS, NOT FORCES
- Rat의 행동에 따른 인공신경망의 활성 패턴을 분석함
- 학습된 신경망 layer에 대한 Welch's Power Spectrum Estimation 결과 core network는 task context와 reward를 나타내는 1~10초의 timescale을 보여준 반면, policy network는 행동의 feature를 나타내는 1초 이하의 timescale을 보여줌
- 각각의 layer가 행동의 어떤 feature를 representation으로 encoding하는지 정량화하기위해 Representational similarity analysis (RSA) 사용
- RSA는 서로 다른 자극에 대한 neural population이 보여주는 representation을 비교하는 방법으로, Khaligh-Razavi & Kriegeskorte (2014) 에서는 CNN이 실제 시각신경과 거의 유사한 RSA 패턴을 보여주는것으로 인공신경망이 실제 신경과 기능적으로 비슷하게 동작하는것을 보여준 바 있음 (자세한 것은 RSA 저자 강의 참고)
- RSA 분석 결과 policy는 layer에 걸처 빠른 주기의 움직임을 많이 encoding하는 반면, core는 움직임 정보는 다소 낮게 가지고 포함하면서도 그 중 느린 주기의 움직임을 상대적으로 높게 encoding하는 등, 서로 다르게 행동 정보를 representation하는것을 확인
- 결과적으로 policy와 core 모두 force와 joint angle과 같은 low-level motor feature보다 행동 자체를 encoding함.
3.3 BEHAVIORAL REPRESENTATIONS ARE SHARED ACROSS TASKS
- 학습된 neural network가 task에 따라 행동을 생성함에 있어 어떻게 neural representation을 사용하는지를 테스트
- Core와 policy network의 활성을 2-dim multidimensional scaling (MDS) 으로 embedding한 결과 policy는 task에 걸쳐 latent activity가 겹치는 부분이 있는 반면 core는 task에 따라 완전히 분리된 latent activity를 보여줌
- 이는 행동의 특정 representation은 task에 걸쳐 재사용되는것을 의미
- 공통적으로 재사용되는 행동을 task에 대해 RSA한 결과 task사이에 사용하는 행동의 유사성이 서로 다르게 나타남
- 또한 policy의 레이어 개수가 작을수록 computational capacity가 줄어들어 rat이 공통된 행동에 대한 의존성이 올라가는것을 확인
3.4 NEURAL POPULATION DYNAMICS ARE SYNCHRONIZED WITH BEHAVIOR
- RSA가 task에 따른 core와 policy의 활성을 representation 측면에서 분석했다면, 이번엔 시간축에서 각 네트워크가 어떻게 활성화 되는지를 확인
- Two-tap task에서 준비자세부터 두 번째 탭핑에 이르는 동안의 각 layer의 활성을 정규화한 결과 시간에 따른 연속된 뉴런의 활성화를 확인함 (video)
- Task를 수행하는 동안 core network와 policy network 뉴런의 활성을 구조적으로 정량화 하기위해, PCA를 사용하여 차원을 축소한 뒤 각 bin에 해당하는 뉴런 활성의 gradient를 계산하여 vector field로 표현
- Core와 policy 모두의 vector field에서 회전하는 특성이 관측됨에 따라, 회전 패턴을 추출하기위해 jPCA 적용
- jPCA는 (Churchland et al., Nature, 2020) 에서 동물의 motor cortex가 reaching task를 할때 뉴런의 활성이 진동하는 특징을 발견하고, 이를 분석하고자 뉴런 활성에서의 latent rotational dynamics를 추출하도록 고안된 방법
- 분석 결과 core network와 policy network 모두 다른 행동에 따라 다른 주파수를 가진 뚜렷한 회전 특성을 나타냄
- 앞서 분석한바와 같이 core가 policy보다 더 낮은 느린 주파수를 가지는것 또환 일관되게 확인됨
- 회전의 속도특성은 core에서는 reward와, policy에서는 행동 phase에 연관됨 (task 예시: gap, maze, escape, two-tap)
3.5 NEURAL PERTURBATIONS CORROBORATE DISTINCT ROLES ACROSS LAYERS
- 지금까지 분석을 바탕으로 도출된 core network와 policy network의 역할을 검증하고자 신경을 ablation 및 stimuatation 하는 실험을 수행
- poilicy와 core의 뉴런중 평균 이하의 활성화를 나타내는것을 각각 비활성화
- task의 수행 결과 policy를 비활성화 할 경우 목표를 향한 행동의 이상 (ex. 잘못된 점프) 을 보였고, core를 비활성화 할 경우 목표에 이상이 생긴듯한 행동 (ex. 목표를 놓침) 을 때때로 보임
- 반대로 task수행시 발생하는 신호로 policy를 자극할 경우 tapping을 위해 하는 회전을 불필요하게 한번 더 하는것을 보였으며, core를 자극할 경우 공을 찾는 듯한 행동을 산발적으로 보임
4. DISCUSSION
- 신경을 reverse enigeering 하는 것은 많은 신경과학자 및 인공지능 연구자들의 목표
- 본 연구와 같이 가상 신경망을 사용할 경우 기존 neurosceince에선 어려웠던 정확한 신경 활성화의 관찰이 가능해지며, 이론에 대한 시험이 보다 용이해짐
- 연구를 통해 발견한 몇 특징은 기존의 실제 동물실험에서 관측된 것과 일치
- 행동발생의 신경 매커니즘을 이해하기위한 가상 모델을 향한은 긍적적인 초기 단계이긴 하지만, 실제 rat에 비해 매우 단순한 운동 및 감각 신경의 구조를 가지는 한계를 지니며 인지에 기반한 행동이 아니라는 한계가 있음
- 신경 아키텍처와 훈련 과정이 biologically-inspired design이라면 실제 신경망과의 비교가 더욱 용이할 것
- 이는 현재로선 파악하기 어려운 행동 생성의 요소를 돕는 한편 더욱 현실적인 움직임을 같은 인공 신경 아키텍쳐의 개발을 가능하게 할 것임
개인적인 의견
- 마지막 discussion처럼 인공신경망의 구조가 실제 신경망의 구조를 반영하지 않은게 아쉬움
- Neuroscience의 분석방법을 사용하여 학습된 neural network를 해석 하고자 한다면, multi-task를 단순히 enginieering측면의 RNN의 blackbox타입이 아니라 실제 생물의 multi-task learning 접근을 좀더 반영하면 어땠을까.
- 마지막 비활성화/자극 실험은 영상을 봐도 논문의 설명처럼 두 network의 역할이 구분 되는건지 잘 모르겠다.
- 그래도 재밌는 부분이 많고 현재로선 미지의 영역인 많은 신경 아키텍쳐에 대한 연구에 도움을 줄 가능성이 보이는 논문
'BIOMEDICINE > Neuroscience' 카테고리의 다른 글
[정리] Deep Reinforcement Learning and its Neuroscientific Implications (Mattew Botvinick, Neuron, 2020) (2) | 2020.07.14 |
---|