728x90

강화학습 2

[OpenAI Spinning Up] Introduction to RL / Part 3: Intro to Policy Optimization

📌프로그래머스 인공지능 데브코스 6기 강화학습 스터디 Open AI spinning up - Introduction to RL 이 섹션에서는 policy optimization 알고리즘의 수학적 토대를 알아볼 것이고, 다음과 같은 policy gradient 이론의 세 가지 key results를 다룰 것이다. policy parameter에 대해 policy performance의 gradient를 설명하는 가장 간단한 공식 위 식에서 필요 없는 term을 drop하는 규칙 위 식에 필요한 term을 더하는 규칙 Deriving the Simplest Policy Gradient stochastic, parameterized policy $\pi_\theta$가 있다고 해보자. 우리의 목표는 expec..

카테고리 없음 2023.10.07

[OpenAI Spinning Up] Introduction to RL / Part 1: Key Concepts in RL

📌프로그래머스 인공지능 데브코스 6기 강화학습 스터디 Open AI spinning up - Introduction to RL Key Concepts and Terminology 에이전트-환경 상호작용 루프 강화학습은 에이전트(agent)가 주어진 환경(environment)에서 어떻게 시행착오(trial and error)를 통해 학습하는지에 대한 연구이다. 환경은 에이전트가 살고 상호작용하는 세계이다. 에이전트는 환경으로부터 리워드(reward)를 받는다. 리워드란 현재의 상태가 얼마나 좋고 나쁜지를 알려주는 척도이다. 에이전트의 목표는 누적 리워드 리턴(return)을 최대화하는 것이다. 강화학습은 이 목표를 달성할 수 있는 행동을 배우는 방법이다. Terminology States and Obse..

카테고리 없음 2023.10.03
728x90