728x90

DL 3

[OpenAI Spinning Up] Introduction to RL / Part 3: Intro to Policy Optimization

📌프로그래머스 인공지능 데브코스 6기 강화학습 스터디 Open AI spinning up - Introduction to RL 이 섹션에서는 policy optimization 알고리즘의 수학적 토대를 알아볼 것이고, 다음과 같은 policy gradient 이론의 세 가지 key results를 다룰 것이다. policy parameter에 대해 policy performance의 gradient를 설명하는 가장 간단한 공식 위 식에서 필요 없는 term을 drop하는 규칙 위 식에 필요한 term을 더하는 규칙 Deriving the Simplest Policy Gradient stochastic, parameterized policy $\pi_\theta$가 있다고 해보자. 우리의 목표는 expec..

카테고리 없음 2023.10.07

[OpenAI Spinning Up] Introduction to RL / Part 1: Key Concepts in RL

📌프로그래머스 인공지능 데브코스 6기 강화학습 스터디 Open AI spinning up - Introduction to RL Key Concepts and Terminology 에이전트-환경 상호작용 루프 강화학습은 에이전트(agent)가 주어진 환경(environment)에서 어떻게 시행착오(trial and error)를 통해 학습하는지에 대한 연구이다. 환경은 에이전트가 살고 상호작용하는 세계이다. 에이전트는 환경으로부터 리워드(reward)를 받는다. 리워드란 현재의 상태가 얼마나 좋고 나쁜지를 알려주는 척도이다. 에이전트의 목표는 누적 리워드 리턴(return)을 최대화하는 것이다. 강화학습은 이 목표를 달성할 수 있는 행동을 배우는 방법이다. Terminology States and Obse..

카테고리 없음 2023.10.03

[인공지능 데브코스 TIL] 0921 Deep Learning: 신경망의 기초 - 기계학습

📌프로그래머스 인공지능 데브코스 5주차 강의 기계학습 기계학습이란? 프로그램(기계)이 특정 작업을 수행하며 그 성능을 평가했을 때 경험을 따라 성능이 개선된다면 이 프로그램은 학습을 하는 것이다. 기계학습의 훈련 주어진 문제인 예측을 가장 정확하게 할 수 있는 최적의 매개변수를 찾는 작업 훈련이 끝나면 추론(inference)을 통해 새로운 특징에 대응되는 값을 예측하고자 한다. 기계학습의 궁극적인 목표 훈련하지 않은 데이터에 대한 일반화 기계학습의 필수 요소 데이터의 존재하고, 데이터의 규칙이 존재하며, 그 규칙이 수학적으로 설명 불가능해야한다. (수학적으로 설명이 가능하다면 모델링을 하면 된다.) 특징 공간 데이터는 특징 공간 상에 존재한다. 우리는 그 공간에 있는 데이터의 위치의 규칙을 찾고자 한다..

728x90