카테고리 없음

cs285: Lecture 2: Imitation Learning, Part 1

비쵸비쵸비 2024. 11. 11. 22:49
728x90

Part 1

이 강의에서는 먼저 supervised learning에 대해 배울 것이다.

p2-3

Terminology & notation

  • policy는 어떤 observation이 주어졌을 때 모든 가능한 action에 확률을 assign하는 분포이다. 특별한 경우 deterministic할 수도 있다.
  • state와 observation은 다르다.
    • state: 세계에 대한 정확하고 완전한 설명
    • observation: 관찰할 수 있는 한정된 세계
    • 어떤 알고리즘은 모든 state가 필요한 반면 어떤 알고리즘은 observation으로도 충분하다.
  • transition probability(dynamics): s_t에서 s_t+1으로 넘어갈 확률
  • 마르코프 속성: state는 이전 state에만 영향을 받는다.

p5

Imitation learning은 훈련데이터셋으로부터 observation이 들어왔을 때 action의 분포를 학습하는데, 이는 supervised learning으로 볼 수 있다. 이를 behavioral cloning 이라고 한다.

p6-9

ALVINN: 사람의 운전 데이터를 입력받아서 학습하는 지도학습 알고리즘.

그러나 이는 잘 작동하지 않을 것이다. 학습한 trajectory와 작은 차이라도 생기면 시간이 갈수록 그 차이는 점점 커질 것이기 때문이다. 가장 큰 원인은 지도학습의 가정과는 달리 실제 데이터는 iid하지 않다는 것이다.

그러나 실제로 엔비디아 페이퍼에서는 잘 작동했다. 무엇이 이걸 작동하게 한 것일까?

→ 카메라를 중앙, 왼쪽, 오른쪽에 두어서 차가 조금 더 왼쪽/오른쪽으로 움직이면 보일 장면을 알게 한 뒤 차가 벗어나면 다시 조정하도록 했다.

p10

결국, behavioral cloning을 실제 상황에서 어떻게 잘 작동하게 할 것인가?

  • imitation learning은 supervised learning과 다르게 항상 work하진 않는다. 그 이유는 iid 가정이 성립하지 않기 때문이다.

우리는 이 문제를 formalize하고(part 2), 다음과 같은 해결 방법을 살펴볼 것이다(part 3,4)

728x90