📌프로그래머스 인공지능 데브코스 6기 강화학습 스터디 Open AI spinning up - Introduction to RL 이 섹션에서는 policy optimization 알고리즘의 수학적 토대를 알아볼 것이고, 다음과 같은 policy gradient 이론의 세 가지 key results를 다룰 것이다. policy parameter에 대해 policy performance의 gradient를 설명하는 가장 간단한 공식 위 식에서 필요 없는 term을 drop하는 규칙 위 식에 필요한 term을 더하는 규칙 Deriving the Simplest Policy Gradient stochastic, parameterized policy $\pi_\theta$가 있다고 해보자. 우리의 목표는 expec..