본문 바로가기

Reinforcement Learning

(3)
[Spinning Up 해석] Part 3 : Intro to Policy Optimization [Reference] OpenAI Spinning Up - Introduction to RL - Part 3 : Intro to Policy Optimization Part 3에서는 정책 최적화 알고리즘의 수학적 기초를 살펴보고, 샘플 코드와 연결해본다. 정책 그레디언트(policy gradients) 이론의 다음 세 가지 주요 결과를 다룬다.정책 파라미터에 대한 정책 성능의 그레디언트를 설명하는 가장 간단한 방정식,해당 표현식에서 쓸모없는 항을 삭제할 수 있는 규칙,그리고 해당 표현식에 유용한 항을 추가할 수 있는 규칙.마지막으로, 이 세 가지를 결합해 정책 그래디언트에 대한 advantage-based 표현식을 설명한다. 이는 우리가 구현할 Vanilla Policy Gradient 에서 사용할 ..
[Spinning Up 해석] Part 2 : Kinds of RL Algorithms [Reference] OpenAI Spinning Up - Introduction to RL - Part 2 : Kinds of RL Algorithms RL 알고리즘의 분류 (A Taxonomy of RL Algorithms) 위 표는 완전한 것은 아니지만, 아래의 목적을 위해 설계되었다.다양한 RL 알고리즘의 기초 디자인 선택을 파악알고리즘 간의 trade-off 보여주기대표적인 현대 알고리즘을 이러한 맥락에서 위치시키기 Model-Free vs. Model-Based RLRL 알고리즘에서 핵심 질문💡 에이전트가 환경 모델을 가지는가 (또는 학습하는가)?환경 모델 (enviroment model) : 상태 전이와 보상을 예측하는 함수환경 모델을 알면 여러 옵션들 중 어떤 것을 선택할지 명시적으로 결..
[Spinning Up 해석] Part 1 : Key Concepts in RL [Reference] OpenAI Spinning Up - Introduction to RL - Part 1 : Key Concepts in RL 종종 참고할 수 있을 것 같아서 번역 및 정리를 해보려고 합니다.잘 이해 안되는 부분은 보충 설명도 조금씩 추가했습니다. 핵심 개념 및 용어 강화학습(RL)의 주인공은 에이전트(agent)와 환경(environment)이다. 환경은 에이전트가 살고 상호작용하는 world이다. 매 상호작용 스텝에서, 에이전트는 world의 상태(state)를 (부분적으로) 관측하고 취할 행동(action)을 결정한다. 환경은 그 행동에 반응해 보상(reward)와 다음 상태를 반환한다. 때때로 환경은 혼자 변화하기도 한다. 앞으로 다음 용어들에 대해 다룬다.상태(state)와..