cs285: lec 2, part 2

카테고리 없음

비쵸비쵸비 2024. 11. 16. 21:51

728x90

p12

Behavioral cloning은 왜 실패할까?

training trajectory (data)의 분포를 $p_{data}(o_t)$, 에이전트가 직접 운전하며 얻는 데이터를 $p_{\pi_{\theta}}(o_t)$라고 하자.

여기서 문제는 policy가 학습된 분포 $p_{data}(o_t)$와 test되는 분포 $p_{\pi_{\theta}}(o_t)$가 다른 distribution shift가 생기긴다는 것이다.

p13

좋은 policy는 어떻게 측정할 수 있을까? $p_{data}(o_t)$ 같은 행동을 할 가능성이 높은 것?

그것보단 훈련 데이터와 다른 상황에서도 좋은 행동을 할 수 있는 policy

→ cost를 정의하자.

이제 목표는 이 expected cost를 최소화하는 것이다.

p14

tight rope 위를 걷는 예시에서 하나의 실수라도 만들면 떨어진다. 실수할 확률이 $\epsilon$이라고 하면 전체 T만큼의 step에서 cost는 $O(\epsilon T^2)$가 된다(worst bound)

p15-16

더 general한 예시를 보자.

state는 training dataset에서 샘플되고, 실수를 할 기댓값이 $\epsilon$보다 작다고 하자.

지금처럼 $p_{train}$과 $p_{\theta}$가 다른 상황에서 $p_{\theta}(s_t)$는 실수를 하나도 안했을 확률과(이 경우 아직 $p_{train}$분포에 있게 된다) 그 외 모든 상황들로 나눌 수 있다.

수학적으로 계속 expected cost의 upper bound를 계산해주면 결국 $O(\epsilon T^2)$를 얻게 되고, 결국 $O(\epsilon T^2)$가 behavioral cloning의 bound가 된다.

p17

tight rope 예시는 pessimistic하지만, 운전 예시가 현실에서는 잘 작동했었다. 이는 camera trick도 있지만 다양한 training trajectory를 보며 약간의 실수를 해도 recover할 수 있게 되었기 때문이다.

여기에서 imitation learning의 패러독스: 높은 질의 완벽한 데이터가 오히려 성능을 낮출 수 있다

728x90