bluemsi/2nd

Files

T

Antigravity Agent c612160a13 chore(wiki): reinforce knowledge batch #6-#10 (200 docs milestone)

2026-04-26 15:07:47 +09:00

2.1 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

PG-METHOD-001

10_Wiki/💡 Topics/AI

1.0

reinforcement-learning

ai

policy-gradient

optimization

2026-04-26

Policy Gradient Methods (정책 경사법)

📌 한 줄 통찰 (The Karpathy Summary)

"행동의 가치를 계산하지 말고, 좋은 행동의 확률을 직접 높여라" — 가치 함수(Value Function)를 거치지 않고 신경망이 직접 정책(\pi)을 출력하게 하여, 기대 보상을 최대화하는 방향으로 정책의 파라미터를 업데이트하는 강화학습 기법.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: 에이전트가 수행한 행동 시퀀스가 높은 보상을 받으면 해당 행동들이 나타날 확률을 높이고, 낮은 보상을 받으면 낮추는 방식으로 최적의 전략을 직접 탐색하는 패턴.
세부 내용:
- Stochastic Policy: 행동을 확률적으로 결정하므로 탐색(Exploration)이 자연스럽게 이루어짐.
- High-dimensional Action Spaces: 가치 기반 방식(DQN 등)과 달리 연속적이거나 매우 큰 액션 공간에서도 효과적임.
- REINFORCE Algorithm: 가장 기본적인 정책 경사 알고리즘. 에피소드 전체의 보상을 사용하여 업데이트.
- Variance Problem: 보상의 변동성이 커 학습이 불안정할 수 있으며, 이를 해결하기 위해 베이스라인(Baseline)이나 액터-크리틱(Actor-Critic) 구조 사용.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 가치 함수 학습에만 집중하던 초기 강화학습에서, 더 복잡하고 유연한 행동 제어가 가능한 정책 기반 학습으로 중심축이 이동.
정책 변화: Skybound의 보스 AI 학습 시, 복잡한 패턴을 자연스럽게 생성하기 위해 PPO(Proximal Policy Optimization)와 같은 고도화된 정책 경사법을 적용함.

🔗 지식 연결 (Graph)

Reinforcement-Learning, Actor-Critic-Methods, Q-Learning, PPO
Raw Source: 10_Wiki/Topics/AI/Policy-Gradient-Methods.md