---
id: wiki-2026-0508-policy-gradient-methods
title: Policy Gradient Methods
category: 10_Wiki/Topics
status: duplicate
canonical_id: policy-optimization
duplicate_of: "[[Policy-Optimization]]"
aliases: []
source_trust_level: A
confidence_score: 0.9
verification_status: redirected
tags: [duplicate, reinforcement-learning, policy-gradient]
last_reinforced: 2026-05-10
github_commit: pending
---

# Policy Gradient Methods

> **이 문서는 [[Policy-Optimization]] 의 중복본입니다.** Canonical 문서로 redirect.

## 핵심 요약 (PG-specific aspects)
- 매 policy gradient = ∇J = E[∇log π · A] — 매 foundational identity.
- 매 REINFORCE → A2C → TRPO → PPO → GRPO → DPO 매 lineage 매 [[Policy-Optimization]] 에 정리.
- 매 vanilla PG 매 high variance — 매 baseline + GAE 의 mitigate.

## 🔗 Graph
- 부모: [[Policy-Optimization]] (canonical)

## 🕓 변경 이력
| 날짜 | 변경 |
|---|---|
| 2026-05-08 | Phase 1 |
| 2026-05-10 | 중복 처리 — canonical 문서로 redirect |