29 lines
2.1 KiB
Markdown
29 lines
2.1 KiB
Markdown
---
|
|
id: PG-METHOD-001
|
|
category: "[[10_Wiki/💡 Topics/AI]]"
|
|
confidence_score: 1.0
|
|
tags: [reinforcement-learning, ai, policy-gradient, optimization]
|
|
last_reinforced: 2026-04-26
|
|
---
|
|
|
|
# [[Policy Gradient Methods (정책 경사법)]]
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "행동의 가치를 계산하지 말고, 좋은 행동의 확률을 직접 높여라" — 가치 함수(Value Function)를 거치지 않고 신경망이 직접 정책($\pi$)을 출력하게 하여, 기대 보상을 최대화하는 방향으로 정책의 파라미터를 업데이트하는 강화학습 기법.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **추출된 패턴:** 에이전트가 수행한 행동 시퀀스가 높은 보상을 받으면 해당 행동들이 나타날 확률을 높이고, 낮은 보상을 받으면 낮추는 방식으로 최적의 전략을 직접 탐색하는 패턴.
|
|
- **세부 내용:**
|
|
- **Stochastic Policy:** 행동을 확률적으로 결정하므로 탐색(Exploration)이 자연스럽게 이루어짐.
|
|
- **High-dimensional Action Spaces:** 가치 기반 방식(DQN 등)과 달리 연속적이거나 매우 큰 액션 공간에서도 효과적임.
|
|
- **REINFORCE Algorithm:** 가장 기본적인 정책 경사 알고리즘. 에피소드 전체의 보상을 사용하여 업데이트.
|
|
- **Variance Problem:** 보상의 변동성이 커 학습이 불안정할 수 있으며, 이를 해결하기 위해 베이스라인(Baseline)이나 액터-크리틱(Actor-Critic) 구조 사용.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌:** 가치 함수 학습에만 집중하던 초기 강화학습에서, 더 복잡하고 유연한 행동 제어가 가능한 정책 기반 학습으로 중심축이 이동.
|
|
- **정책 변화:** Skybound의 보스 AI 학습 시, 복잡한 패턴을 자연스럽게 생성하기 위해 PPO(Proximal Policy Optimization)와 같은 고도화된 정책 경사법을 적용함.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- [[Reinforcement-Learning]], [[Actor-Critic-Methods]], [[Q-Learning]], [[PPO]]
|
|
- **Raw Source:** [[10_Wiki/Topics/AI/Policy-Gradient-Methods.md]]
|