cs285: lec 2, part 2
p12
Behavioral cloning은 왜 실패할까?
- training trajectory (data)의 분포를 $p_{data}(o_t)$, 에이전트가 직접 운전하며 얻는 데이터를 $p_{\pi_{\theta}}(o_t)$라고 하자.
여기서 문제는 policy가 학습된 분포 $p_{data}(o_t)$와 test되는 분포 $p_{\pi_{\theta}}(o_t)$가 다른 distribution shift가 생기긴다는 것이다.
p13
좋은 policy는 어떻게 측정할 수 있을까? $p_{data}(o_t)$ 같은 행동을 할 가능성이 높은 것?
그것보단 훈련 데이터와 다른 상황에서도 좋은 행동을 할 수 있는 policy
→ cost를 정의하자.
- cost: human driver와 행동이 같으면 0, 다르면 1
이제 목표는 이 expected cost를 최소화하는 것이다.
p14
tight rope 위를 걷는 예시에서 하나의 실수라도 만들면 떨어진다. 실수할 확률이 $\epsilon$이라고 하면 전체 T만큼의 step에서 cost는 $O(\epsilon T^2)$가 된다(worst bound)
p15-16
더 general한 예시를 보자.
state는 training dataset에서 샘플되고, 실수를 할 기댓값이 $\epsilon$보다 작다고 하자.
지금처럼 $p_{train}$과 $p_{\theta}$가 다른 상황에서 $p_{\theta}(s_t)$는 실수를 하나도 안했을 확률과(이 경우 아직 $p_{train}$분포에 있게 된다) 그 외 모든 상황들로 나눌 수 있다.
- total variation divergence: 두 분포의 차이의 합의 절댓값
수학적으로 계속 expected cost의 upper bound를 계산해주면 결국 $O(\epsilon T^2)$를 얻게 되고, 결국 $O(\epsilon T^2)$가 behavioral cloning의 bound가 된다.
p17
tight rope 예시는 pessimistic하지만, 운전 예시가 현실에서는 잘 작동했었다. 이는 camera trick도 있지만 다양한 training trajectory를 보며 약간의 실수를 해도 recover할 수 있게 되었기 때문이다.
여기에서 imitation learning의 패러독스: 높은 질의 완벽한 데이터가 오히려 성능을 낮출 수 있다
- imitation learning은 데이터가 많은 실수를 포함하고 회복하는 것을 포함할 때 더 잘 작동한다.