p12
Behavioral cloning은 왜 실패할까?
- training trajectory (data)의 분포를 pdata(ot), 에이전트가 직접 운전하며 얻는 데이터를 pπθ(ot)라고 하자.
여기서 문제는 policy가 학습된 분포 pdata(ot)와 test되는 분포 pπθ(ot)가 다른 distribution shift가 생기긴다는 것이다.
p13
좋은 policy는 어떻게 측정할 수 있을까? pdata(ot) 같은 행동을 할 가능성이 높은 것?
그것보단 훈련 데이터와 다른 상황에서도 좋은 행동을 할 수 있는 policy
→ cost를 정의하자.
- cost: human driver와 행동이 같으면 0, 다르면 1
이제 목표는 이 expected cost를 최소화하는 것이다.
p14
tight rope 위를 걷는 예시에서 하나의 실수라도 만들면 떨어진다. 실수할 확률이 ϵ이라고 하면 전체 T만큼의 step에서 cost는 O(ϵT2)가 된다(worst bound)
p15-16
더 general한 예시를 보자.
state는 training dataset에서 샘플되고, 실수를 할 기댓값이 ϵ보다 작다고 하자.
지금처럼 ptrain과 pθ가 다른 상황에서 pθ(st)는 실수를 하나도 안했을 확률과(이 경우 아직 ptrain분포에 있게 된다) 그 외 모든 상황들로 나눌 수 있다.
- total variation divergence: 두 분포의 차이의 합의 절댓값
수학적으로 계속 expected cost의 upper bound를 계산해주면 결국 O(ϵT2)를 얻게 되고, 결국 O(ϵT2)가 behavioral cloning의 bound가 된다.
p17
tight rope 예시는 pessimistic하지만, 운전 예시가 현실에서는 잘 작동했었다. 이는 camera trick도 있지만 다양한 training trajectory를 보며 약간의 실수를 해도 recover할 수 있게 되었기 때문이다.
여기에서 imitation learning의 패러독스: 높은 질의 완벽한 데이터가 오히려 성능을 낮출 수 있다
- imitation learning은 데이터가 많은 실수를 포함하고 회복하는 것을 포함할 때 더 잘 작동한다.