2.1 KiB
2.1 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||
|---|---|---|---|---|---|---|---|---|
| PG-METHOD-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Policy Gradient Methods (정책 경사법)
📌 한 줄 통찰 (The Karpathy Summary)
"행동의 가치를 계산하지 말고, 좋은 행동의 확률을 직접 높여라" — 가치 함수(Value Function)를 거치지 않고 신경망이 직접 정책(
\pi)을 출력하게 하여, 기대 보상을 최대화하는 방향으로 정책의 파라미터를 업데이트하는 강화학습 기법.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 에이전트가 수행한 행동 시퀀스가 높은 보상을 받으면 해당 행동들이 나타날 확률을 높이고, 낮은 보상을 받으면 낮추는 방식으로 최적의 전략을 직접 탐색하는 패턴.
- 세부 내용:
- Stochastic Policy: 행동을 확률적으로 결정하므로 탐색(Exploration)이 자연스럽게 이루어짐.
- High-dimensional Action Spaces: 가치 기반 방식(DQN 등)과 달리 연속적이거나 매우 큰 액션 공간에서도 효과적임.
- REINFORCE Algorithm: 가장 기본적인 정책 경사 알고리즘. 에피소드 전체의 보상을 사용하여 업데이트.
- Variance Problem: 보상의 변동성이 커 학습이 불안정할 수 있으며, 이를 해결하기 위해 베이스라인(Baseline)이나 액터-크리틱(Actor-Critic) 구조 사용.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 가치 함수 학습에만 집중하던 초기 강화학습에서, 더 복잡하고 유연한 행동 제어가 가능한 정책 기반 학습으로 중심축이 이동.
- 정책 변화: Skybound의 보스 AI 학습 시, 복잡한 패턴을 자연스럽게 생성하기 위해 PPO(Proximal Policy Optimization)와 같은 고도화된 정책 경사법을 적용함.