본문 바로가기

인공지능/강화학습

(4)
강화학습(4) 개요이전 글에서는 DQN(Deep Q-Network)의 원리에 대해 자세히 알아보았는데, 이젠 이를 실제로 활용하여 학습을 진행한다테트리스 게임을 환경으로 선택하여 학습을 진행했으며, 이를 통해 깨달은 내용들에 대해 끄적여본다 KaggleGymnasium학습 코드마무리(하소연?) Kaggle무료로 P100을 최대 연속 9시간 사용할 수 있는 서비스가 있다? 이전까지 Colab을 사용하면서, 브라우저로 작업을 돌면서 항상 세션이 종료되지 않을까 걱정했었는데 찾아보니 Kaggle을 이용하면 이런 불편함을 해소할 수 있었다Kaggle에서 Job은 코드 셀 실행 시 자동으로 시작되며, 사용자 개입 없이 백그라운드에서 작업을 처리한다 즉, 기존에 노트북파일을 직접 연결해서 수행하던 걸 그냥 해당 파일만 전달하면 ..
강화학습(3) 개요이전까지 강화학습이 무엇인지, 그리고 다양한 강화학습 알고리즘 중 게임 환경에 적합한 DQN의 기반이 되는 Q-Learning의 수학적 원리에 대해 알아보았다 그 내용을 한 번 간단하게 요약해 보면 다음과 같다마르코프 결정 과정(MDP)을 활용하면 환경을 수학적으로 모델링할 수 있고, 이를 통해 행동 선택의 기준이 되는 최적의 Q-값을 반환하는 최적 행동 가치 함수(q*)를 정의했었다 이 글은 이제부터 아래와 같은 요소들을 정리하면서 진행된다 Q-LearningDeep Q-learningDQN(Deep Q-Network) Q-LearningQ-Learning은 학습 과정을 통해 이 최적 행동 가치 함수의 값을 점진적으로 근사해가는 알고리즘이다이전에 다음과 같이 최적 행동 가치 함수를 정의했다 이제부턴..
강화학습(2) 개요이번 학기에 수업을 들으면서, 우연히 강화학습에 대해 공부할 기회가 생겼는데 이 글은 강화학습에 대해 정리한 두 번째 글이다이번 글에서는 게임환경에서의 강화학습에서 사용되는 Q-Learning을 이해하기 위해, 우선 수학적 기반들에 대해 알아본다 마르코프 결정 과정상태 가치 함수와 행동 가치 함수최적 행동 가치 함수 마르코프 결정 과정(Markov Decision Process, MDP)마르코프 결정 과정(Markov Decision Process, MDP)는 연속적인 상태와 행동을 통해 에이전트가 최적의 정책을 찾아 최대의 누적 보상을 얻도록 의사 결정을 모델링하는 수학적 프레임워크다구성요소아래와 같은 그림을 기반으로 MDP의 구성요소들을 설명해보면 다음과 같다상태 집합 S상태의 유한집합으로, 그림..
강화학습(1) 개요이번 학기에 수업을 들으면서, 우연히 강화학습에 대해 공부할 기회가 생겼는데 이 글은 강화학습에 대해 정리한 글이다특히 게임환경에서의 강화학습 관련해서 중점적으로 정리하며, 앞으로 몇 주간에 걸쳐서 글을 이어갈 예정이다 또한 최종적으로 직접 만든 게임을 Gymnasium으로 강화학습 환경으로 배포하는 것을 목표로 하고 있다우선은 이번 글에서는 다음과 같은 내용을 정리한다 강화학습이란?강화학습 분류Q-Learning 강화학습이란? 강화 학습은 에이전트(agent)가 환경(environment)에서 행동(action)을 선택하고,관측(observation)을 통해 그 행동의 결과로 얻은 보상(reward)을 바탕으로 점진적으로 학습하여,상태(state)에 따라 행동을 선택하는 최적의 정책(policy)을..