본문 바로가기

인공지능

(5)

Tensor에 대하여(with PyTorch, TPU) 개요이 글은 PyTorch를 기반으로 DQN 관련 프로젝트를 하면서, 이 프레임워크에 대해 가볍게 정리해보고 싶었던 것들에 대한 글이다 우선 그동안 막연하게만 알았던 Tensor라는 데이터 타입에 대해 정리해본다그리고 PyTorch에서 이런 Tensor들로 구성된 모델을 저장하고 불러오는 방법에 대해 정리한다이런 모델은 CPU, GPU 뿐만 아니라 TPU에도 로드가 가능한데, TPU에 대해서도 간단히 알아본다 Tensor모델 저장 및 불러오기TPU TensorPyTorch의 핵심 개념 중 하나는 Tensor다 Tensor는 수학적으로는 다차원 배열을 의미하며, PyTorch에서 데이터를 저장하고 연산을 수행하는 기본 자료 구조다NumPy의 배열과 상당히 유사하여 상호변환 시, 오버헤드가 거의 없다(메모리..

강화학습(4) 개요이전 글에서는 DQN(Deep Q-Network)의 원리에 대해 자세히 알아보았는데, 이젠 이를 실제로 활용하여 학습을 진행한다테트리스 게임을 환경으로 선택하여 학습을 진행했으며, 이를 통해 깨달은 내용들에 대해 끄적여본다 KaggleGymnasium학습 코드마무리(하소연?) Kaggle무료로 P100을 최대 연속 9시간 사용할 수 있는 서비스가 있다? 이전까지 Colab을 사용하면서, 브라우저로 작업을 돌면서 항상 세션이 종료되지 않을까 걱정했었는데 찾아보니 Kaggle을 이용하면 이런 불편함을 해소할 수 있었다Kaggle에서 Job은 코드 셀 실행 시 자동으로 시작되며, 사용자 개입 없이 백그라운드에서 작업을 처리한다 즉, 기존에 노트북파일을 직접 연결해서 수행하던 걸 그냥 해당 파일만 전달하면 ..

강화학습(3) 개요이전까지 강화학습이 무엇인지, 그리고 다양한 강화학습 알고리즘 중 게임 환경에 적합한 DQN의 기반이 되는 Q-Learning의 수학적 원리에 대해 알아보았다 그 내용을 한 번 간단하게 요약해 보면 다음과 같다마르코프 결정 과정(MDP)을 활용하면 환경을 수학적으로 모델링할 수 있고, 이를 통해 행동 선택의 기준이 되는 최적의 Q-값을 반환하는 최적 행동 가치 함수(q*)를 정의했었다 이 글은 이제부터 아래와 같은 요소들을 정리하면서 진행된다 Q-LearningDeep Q-learningDQN(Deep Q-Network) Q-LearningQ-Learning은 학습 과정을 통해 이 최적 행동 가치 함수의 값을 점진적으로 근사해가는 알고리즘이다이전에 다음과 같이 최적 행동 가치 함수를 정의했다 이제부턴..

강화학습(2) 개요이번 학기에 수업을 들으면서, 우연히 강화학습에 대해 공부할 기회가 생겼는데 이 글은 강화학습에 대해 정리한 두 번째 글이다이번 글에서는 게임환경에서의 강화학습에서 사용되는 Q-Learning을 이해하기 위해, 우선 수학적 기반들에 대해 알아본다 마르코프 결정 과정상태 가치 함수와 행동 가치 함수최적 행동 가치 함수 마르코프 결정 과정(Markov Decision Process, MDP)마르코프 결정 과정(Markov Decision Process, MDP)는 연속적인 상태와 행동을 통해 에이전트가 최적의 정책을 찾아 최대의 누적 보상을 얻도록 의사 결정을 모델링하는 수학적 프레임워크다구성요소아래와 같은 그림을 기반으로 MDP의 구성요소들을 설명해보면 다음과 같다상태 집합 S상태의 유한집합으로, 그림..

강화학습(1) 개요이번 학기에 수업을 들으면서, 우연히 강화학습에 대해 공부할 기회가 생겼는데 이 글은 강화학습에 대해 정리한 글이다특히 게임환경에서의 강화학습 관련해서 중점적으로 정리하며, 앞으로 몇 주간에 걸쳐서 글을 이어갈 예정이다 또한 최종적으로 직접 만든 게임을 Gymnasium으로 강화학습 환경으로 배포하는 것을 목표로 하고 있다우선은 이번 글에서는 다음과 같은 내용을 정리한다 강화학습이란?강화학습 분류Q-Learning 강화학습이란? 강화 학습은 에이전트(agent)가 환경(environment)에서 행동(action)을 선택하고,관측(observation)을 통해 그 행동의 결과로 얻은 보상(reward)을 바탕으로 점진적으로 학습하여,상태(state)에 따라 행동을 선택하는 최적의 정책(policy)을..

이전 1 다음

티스토리툴바