728x90

분류 전체보기 32

[유튜브] Human-in-the-Loop Reinforcement Learning

2021 Ray Summit의 Pieter Abbeel 교수님 강연이다. https://www.youtube.com/watch?v=LEzdi-eJR8kFast Progress on Deep RL2013년 - 딥마인드의 DQN이 신경망이 human label이 아닌, 스스로 trial and error를 통해 학습할 수 있다는 것을 보여주었다. 2015년 - 알파고가 top human player를 이길 수 있음을 보여주었다.2016년 - 3D locomotion, robotic control을 배우고, real robot까지 적용: vision system + control system2019년 - OpenAI의 Rubik's Cube Challenge: Designing Suitable Reward에이..

Explore 2024.04.02

SQLD 합격 후기, 공부법, 책

동아리 데이터분석팀에서 SQLD를 준비하게 되어서 제50회 SQLD를 봤고 합격했다!내가 SQLD를 준비했던 방법과 다음에 준비한다면 이렇게 하면 좋지 않을까하는 점을 써보려고 한다.일단 나는 작년 쯤인가 SQL 기본 강의 2강정도 듣고 중도포기했던.. SELECT FROM 정도만 기억나는 거의 노베였다. 준비 당시 다른 것들을 병행하고 있었기에 시간 투자를 많이는 못했고 기본서 + 기출 1회독 + 전날 빠르게 2회독만 하고 갔다. 내 경험 상 기출 1~2회독 + 유튜브 강의 정도면 충분하지 않을까 싶다!여기서부터는 내가 공부한 순서이다.1. SQL 첫걸음 SQL 첫걸음본격적인 빅데이터 시대에 접어들면서 기존 대비 더 효율적이고 폭넓은 데이터 분석을 위한 수요가 커질 것으로 기대되는 가운데, SQL 활용..

후기 2023.11.01

ValueError: could not convert string to float

corr_matrix = housing.corr()를 돌렸는데 이런 에러가 떴다. 찾아보니 correlation 값을 구하기 위해 float로 convert하려고 하는데 데이터가 string 형식이라 에러가 나는 거였다. 데이터셋을 보니 ocean_proximity 행 값들이 string이라서 문제가 발생한 것 같다. 원핫인코딩이나 pd.get_dummies()를 이용할 수도 있겠지만 간편하게 corr의 numeric_only를 True로 설정해서 수치형 값의 correlation만 계산하도록 해결했다.

Troubleshooting 2023.10.22

[RL] MDP, Value Iteration, Policy Evaluation, Maximum Entropy Formulation

📌프로그래머스 인공지능 데브코스 6기 강화학습 스터디 Foundations of Deep RL Series by Pieter Abbeel 1강을 정리한 글입니다. 목차 1. Markov Decision Processes(MDPs) 2. Exact Solution Methods 2.1 Value Iteration 2.2 Policy Evaluation 3. Maximum Entropy Formulation L1: MDPs and Exact Solution Methods 강화학습은 2013년 Atari 게임부터 시작해 알파고, 로봇 조종, 알파스타 등 발전해왔다. 1. Markov Decision Processes(MDPs) 에이전트는 action을 하고, 그로 인해 environment는 변하고, 그 때마..

[OpenAI Spinning Up] Introduction to RL / Part 3: Intro to Policy Optimization

📌프로그래머스 인공지능 데브코스 6기 강화학습 스터디 Open AI spinning up - Introduction to RL 이 섹션에서는 policy optimization 알고리즘의 수학적 토대를 알아볼 것이고, 다음과 같은 policy gradient 이론의 세 가지 key results를 다룰 것이다. policy parameter에 대해 policy performance의 gradient를 설명하는 가장 간단한 공식 위 식에서 필요 없는 term을 drop하는 규칙 위 식에 필요한 term을 더하는 규칙 Deriving the Simplest Policy Gradient stochastic, parameterized policy $\pi_\theta$가 있다고 해보자. 우리의 목표는 expec..

카테고리 없음 2023.10.07

[백준] 11651 - 좌표 정렬하기 2

[백준] 11651 - 좌표 정렬하기 2 문제 2차원 평면 위의 점 N개가 주어진다. 좌표를 y좌표가 증가하는 순으로, y좌표가 같으면 x좌표가 증가하는 순서로 정렬한 다음 출력하는 프로그램을 작성하시오. 입력 첫째 줄에 점의 개수 N (1 ≤ N ≤ 100,000)이 주어진다. 둘째 줄부터 N개의 줄에는 i번점의 위치 xi와 yi가 주어진다. (-100,000 ≤ xi, yi ≤ 100,000) 좌표는 항상 정수이고, 위치가 같은 두 점은 없다. 출력 첫째 줄부터 N개의 줄에 점을 정렬한 결과를 출력한다. 코드 n = int(input()) coor = [] for _ in range(n): coor.append(list(map(int, input().split()))) coor.sort(key=lam..

알고리즘/BOJ 2023.10.06

[백준] 1449 - 수리공 항승

[백준] 1449 - 수리공 항승 문제 항승이는 품질이 심각하게 나쁜 수도 파이프 회사의 수리공이다. 항승이는 세준 지하철 공사에서 물이 샌다는 소식을 듣고 수리를 하러 갔다. 파이프에서 물이 새는 곳은 신기하게도 가장 왼쪽에서 정수만큼 떨어진 거리만 물이 샌다. 항승이는 길이가 L인 테이프를 무한개 가지고 있다. 항승이는 테이프를 이용해서 물을 막으려고 한다. 항승이는 항상 물을 막을 때, 적어도 그 위치의 좌우 0.5만큼 간격을 줘야 물이 다시는 안 샌다고 생각한다. 물이 새는 곳의 위치와, 항승이가 가지고 있는 테이프의 길이 L이 주어졌을 때, 항승이가 필요한 테이프의 최소 개수를 구하는 프로그램을 작성하시오. 테이프를 자를 수 없고, 테이프를 겹쳐서 붙이는 것도 가능하다. 입력 첫째 줄에 물이 새..

알고리즘/BOJ 2023.10.03

[OpenAI Spinning Up] Introduction to RL / Part 1: Key Concepts in RL

📌프로그래머스 인공지능 데브코스 6기 강화학습 스터디 Open AI spinning up - Introduction to RL Key Concepts and Terminology 에이전트-환경 상호작용 루프 강화학습은 에이전트(agent)가 주어진 환경(environment)에서 어떻게 시행착오(trial and error)를 통해 학습하는지에 대한 연구이다. 환경은 에이전트가 살고 상호작용하는 세계이다. 에이전트는 환경으로부터 리워드(reward)를 받는다. 리워드란 현재의 상태가 얼마나 좋고 나쁜지를 알려주는 척도이다. 에이전트의 목표는 누적 리워드 리턴(return)을 최대화하는 것이다. 강화학습은 이 목표를 달성할 수 있는 행동을 배우는 방법이다. Terminology States and Obse..

카테고리 없음 2023.10.03

[백준] 1931 - 회의실

[백준] 1931 - 회의실 문제 한 개의 회의실이 있는데 이를 사용하고자 하는 N개의 회의에 대하여 회의실 사용표를 만들려고 한다. 각 회의 I에 대해 시작시간과 끝나는 시간이 주어져 있고, 각 회의가 겹치지 않게 하면서 회의실을 사용할 수 있는 회의의 최대 개수를 찾아보자. 단, 회의는 한번 시작하면 중간에 중단될 수 없으며 한 회의가 끝나는 것과 동시에 다음 회의가 시작될 수 있다. 회의의 시작시간과 끝나는 시간이 같을 수도 있다. 이 경우에는 시작하자마자 끝나는 것으로 생각하면 된다. 입력 첫째 줄에 회의의 수 N(1 ≤ N ≤ 100,000)이 주어진다. 둘째 줄부터 N+1 줄까지 각 회의의 정보가 주어지는데 이것은 공백을 사이에 두고 회의의 시작시간과 끝나는 시간이 주어진다. 시작 시간과 끝나..

알고리즘/BOJ 2023.10.02

[백준] 4375 - 1

[백준] 4375 - 1 문제 2와 5로 나누어 떨어지지 않는 정수 n(1 ≤ n ≤ 10000)가 주어졌을 때, 각 자릿수가 모두 1로만 이루어진 n의 배수를 찾는 프로그램을 작성하시오. 입력 입력은 여러 개의 테스트 케이스로 이루어져 있다. 각 테스트 케이스는 한 줄로 이루어져 있고, n이 주어진다. 출력 각 자릿수가 모두 1로만 이루어진 n의 배수 중 가장 작은 수의 자리수를 출력한다. 코드 while True: try: n = int(input()) except: break i = 0 ones = 0 while True: ones = ones * 10 + 1 if ones % n == 0: print(len(str(ones))) break모든 자릿수가 1로 구성된 숫자를 만들며 하나씩 나눠보고, ..

알고리즘/BOJ 2023.10.01
728x90