2021 Ray Summit의 Pieter Abbeel 교수님 강연이다.
https://www.youtube.com/watch?v=LEzdi-eJR8k
Fast Progress on Deep RL
2013년 - 딥마인드의 DQN이 신경망이 human label이 아닌, 스스로 trial and error를 통해 학습할 수 있다는 것을 보여주었다.
2015년 - 알파고가 top human player를 이길 수 있음을 보여주었다.
2016년 - 3D locomotion, robotic control을 배우고, real robot까지 적용: vision system + control system
2019년 - OpenAI의 Rubik's Cube
Challenge: Designing Suitable Reward
에이전트는 행동을 하고, 그 결과(observations, rewards)를 보며 보상을 최대화하고자 한다.
그러나 문제는, AI는 optimization은 잘 한다. 그러나 이 방식이 natural하지 않다는 것이다.
예를 들어 걷는 것을 배우는 에이전트에게 토크는 최소화하도록, 최대한 멀리 가도록, 무게중심은 특정 높이로 유지하도록 하는 식으로 학습시킬 수 있지만 이것이 자연스럽지는 않다. 요리나, 게임 상황에서도 마찬가지다.
우리가 원하는 행동을 하도록 reward를 제대로 정의해주는 것이 어렵다.
What is an Alternative Solution?
사람은 desired behavior를 알고 있으니, reward를 사람의 피드백으로 받는 것은 어떨까?
그렇다면 어떤 방식으로 사람을 RL loop 에 넣을것인가?
선행 연구에서는 두 가지 rollout가 주어지면 사람이 선택하여 preference를 학습하도록 했다.
이 방식을 통해 1) reward를 정의하기 힘든 더 어려운 task를 학습시킬 수 있게 됨 2) reward exploitation을 막을 수 있게 됨
The PEBBLE Algorithm
1. 환경에서 interaction하며 샘플을 모은다
2. 사람에게 interaction 페어를 보여주며 preference를 모은다.
3. 리워드 모델에 trajectory와 사람의 preference를 넣어주며 학습시킨다.
4. optimize policy!
5. 1-4단계를 반복한다.
Learning Reward from Preferences
리워드 모델을 어떻게 학습시켰나?
이 문제를 binary classification 문제로 정의한 뒤, Bradley-Terry 모델(두 쌍씩 비교하여 전체 순위를 매기는 방식)을 통해 preference predictor를 모델링하였다.
Unsupervised Pre-Training: APT
다음 문제는 학습을 이제 막 시작할 때 에이전트가 뭘 해야할지 모르고 랜덤하게 움직이는 것이다. 이 경우 사람에게서 의미있는 피드백을 받기도 어렵기 때문에 APT를 통한 pretraining을 시키고, 그 후 사람에게 제시한다.
'Explore' 카테고리의 다른 글
[딥마인드 블로그] A generalist AI agent for 3D virtual environments (5) | 2024.10.24 |
---|