[G1-Sync] Manual knowledge update

2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -2,14 +2,14 @@
 id: RL-PPO-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 1.0
-tags: [ai, reinforcement-learning, ppo, proximal-policy-optimization, openai, stability, policy-gradient]
+tags: [ai, [[Reinforcement-Learning]], ppo, proximal-policy-[[Optimization]], openai, [[Stability]], policy-gradient]
 last_reinforced: 2026-04-26
 ---

 # Proximal Policy Optimization (PPO, 근사 정책 최적화)

 ## 📌 한 줄 통찰 (The Karpathy Summary)
-> "정책의 급격한 변화를 '클리핑(Clipping)'이라는 고삐로 억제하여, 복잡한 환경에서도 무너지지 않는 안정적인 지능의 성장을 견인하라" — OpenAI가 제안한 강화학습 알고리즘으로, 정책 업데이트 폭을 제한함으로써 학습의 안정성과 효율성을 동시에 달성한 현대 RL의 표준 기법.
+> "정책의 급격한 변화를 '클리핑([[CLIP]]ping)'이라는 고삐로 억제하여, 복잡한 환경에서도 무너지지 않는 안정적인 지능의 성장을 견인하라" — OpenAI가 제안한 강화학습 알고리즘으로, 정책 업데이트 폭을 제한함으로써 학습의 안정성과 효율성을 동시에 달성한 현대 RL의 표준 기법.

 ## 📖 구조화된 지식 (Synthesized Content)
 - **추출된 패턴:** "Clipped Surrogate Objective and Stability-First Learning" — 기존 정책과 새로운 정책 사이의 비율이 특정 범위를 넘지 않도록 강제로 제한(Clipped)함으로써, 단 한 번의 잘못된 업데이트로 모델 전체가 망가지는 현상을 방지하는 패턴.
@@ -25,4 +25,4 @@ last_reinforced: 2026-04-26

 ## 🔗 지식 연결 (Graph)
 - [[Policy-Gradient-Methods]], [[Actor-Critic-Models]], [[Off-policy-vs-On-policy-Learning]], [[Reinforcement-Learning]]
- **Raw Source:** 10_Wiki/Topics/AI/Proximal-Policy-Optimization.md
+- **Raw Source:** 10_Wiki/Topics/AI/Proximal-[[Policy-Optimization]].md