2021 Ray Summit의 Pieter Abbeel 교수님 강연이다. https://www.youtube.com/watch?v=LEzdi-eJR8kFast Progress on Deep RL2013년 - 딥마인드의 DQN이 신경망이 human label이 아닌, 스스로 trial and error를 통해 학습할 수 있다는 것을 보여주었다. 2015년 - 알파고가 top human player를 이길 수 있음을 보여주었다.2016년 - 3D locomotion, robotic control을 배우고, real robot까지 적용: vision system + control system2019년 - OpenAI의 Rubik's Cube Challenge: Designing Suitable Reward에이..