feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]
This commit is contained in:
@@ -1,28 +1,25 @@
|
||||
---
|
||||
id: RL-PPO-001
|
||||
category: Unified
|
||||
confidence_score: 1.0
|
||||
tags: [ai, [[Reinforcement-Learning|Reinforcement-Learning]], ppo, proximal-policy-[[Optimization|Optimization]], openai, Stability, policy-gradient]
|
||||
last_reinforced: 2026-04-26
|
||||
id: wiki-2026-0508-proximal-policy-optimization
|
||||
title: Proximal Policy Optimization
|
||||
category: 10_Wiki/Topics/AI_and_ML
|
||||
status: merged
|
||||
redirect_to: Reinforcement_Learning_and_Decision_Making
|
||||
canonical_id: Reinforcement_Learning_and_Decision_Making
|
||||
aliases: [P-Reinforce-REDIRECT-PPO-DASH]
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.92
|
||||
tags: [redirect]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-05-08
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
---
|
||||
|
||||
# Proximal Policy Optimization (PPO, 근사 정책 최적화)
|
||||
# [[Proximal-Policy-Optimization]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "정책의 급격한 변화를 '클리핑([[CLIP|CLIP]]ping)'이라는 고삐로 억제하여, 복잡한 환경에서도 무너지지 않는 안정적인 지능의 성장을 견인하라" — OpenAI가 제안한 강화학습 알고리즘으로, 정책 업데이트 폭을 제한함으로써 학습의 안정성과 효율성을 동시에 달성한 현대 RL의 표준 기법.
|
||||
> [!IMPORTANT]
|
||||
> 이 문서는 고밀도 지식 자산 통합 정책에 따라 **[[Reinforcement_Learning_and_Decision_Making]]**으로 통합되었습니다.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **추출된 패턴:** "Clipped Surrogate Objective and Stability-First Learning" — 기존 정책과 새로운 정책 사이의 비율이 특정 범위를 넘지 않도록 강제로 제한(Clipped)함으로써, 단 한 번의 잘못된 업데이트로 모델 전체가 망가지는 현상을 방지하는 패턴.
|
||||
- **핵심 메커니즘:**
|
||||
- **Clipped Objective:** 정책 변화율을 [0.8, 1.2] 수준으로 묶어 급격한 변화 억제.
|
||||
- **Actor-Critic 아키텍처:** 행동을 결정하는 Actor와 가치를 평가하는 Critic을 함께 학습.
|
||||
- **Multi-epoch Update:** 수집된 데이터를 여러 번 재사용하여 샘플 효율성 증대.
|
||||
- **의의:** 구현이 비교적 단순하면서도 자율주행, 로봇 제어, 게임 AI, 그리고 LLM의 RLHF(인간 피드백 기반 강화학습) 등 최첨단 분야에서 가장 널리 쓰이는 신뢰도 높은 알고리즘.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌:** 수학적으로는 더 엄밀하지만 구현이 매우 복잡했던 TRPO(Trust Region Policy Optimization)를 실전적인 근사 기법으로 대체하며, '이론적 완벽함'보다 '실전적 견고함'이 더 중요하다는 것을 입증함.
|
||||
- **정책 변화:** Antigravity 프로젝트는 에이전트의 복합 의사결정 전략 최적화 시, 학습의 발산 위험이 적고 튜닝이 용이한 PPO를 주력 알고리즘으로 채택함.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Policy-Gradient-Methods|Policy-Gradient-Methods]], [[Actor-Critic-Models|Actor-Critic-Models]], [[Off-policy-vs-On-policy-Learning|Off-policy-vs-On-policy-Learning]], [[Reinforcement-Learning|Reinforcement-Learning]]
|
||||
- **Raw Source:** 10_Wiki/Topics/AI/Proximal-[[Policy-Optimization|Policy-Optimization]].md
|
||||
---
|
||||
*Redirected to: [[Reinforcement_Learning_and_Decision_Making]]*
|
||||
|
||||
Reference in New Issue
Block a user