📌프로그래머스 인공지능 데브코스 6기 강화학습 스터디 Foundations of Deep RL Series by Pieter Abbeel 1강을 정리한 글입니다. 목차 1. Markov Decision Processes(MDPs) 2. Exact Solution Methods 2.1 Value Iteration 2.2 Policy Evaluation 3. Maximum Entropy Formulation L1: MDPs and Exact Solution Methods 강화학습은 2013년 Atari 게임부터 시작해 알파고, 로봇 조종, 알파스타 등 발전해왔다. 1. Markov Decision Processes(MDPs) 에이전트는 action을 하고, 그로 인해 environment는 변하고, 그 때마..