[G1-Sync] Manual knowledge update

2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -1,12 +1,12 @@
 ---
-id: P-REINFORCE-AUTO-PPO-001
+id: [[P-Reinforce]]-AUTO-PPO-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 0.99
-tags: [auto-reinforced, reinforcement-learning, algorithm, openai, policy-gradient]
+tags: [auto-reinforced, [[Reinforcement-Learning]], algorithm, openai, policy-gradient]
 last_reinforced: 2026-04-20
 ---

-# [[Proximal Policy Optimization (PPO)]]
+# [[Proximal Policy [[Optimization]] (PPO)]]

 ## 📌 한 줄 통찰 (The Karpathy Summary)
 > "강화학습계의 안정적인 표준: 너무 과감한 변화로 성과가 망가지는 것을 막으면서도, 효율적으로 지식을 습득하게 설계된 '중용'의 최적화 알고리즘."
@@ -14,7 +14,7 @@ last_reinforced: 2026-04-20
 ## 📖 구조화된 지식 (Synthesized Content)
 PPO(근접 정책 최적화)는 OpenAI에서 2017년에 발표한 알고리즘으로, 정책 그래디언트 방식의 불안정성을 해결하여 현재 가장 널리 쓰이는 표준 강화학습 알고리즘입니다.

-1.  **핵심 아이디어 (Clipped Objective)**:
+1.  **핵심 아이디어 ([[CLIP]]ped Objective)**:
    *   새로운 정책이 이전 정책에서 너무 멀리 벗어나지 못하도록 업데이트 크기를 일정 범위(보통 10~20%) 내로 강제 제한(Clipping).
    *   이를 통해 학습 데이터의 재사용성을 높이면서도 성능이 급격히 떨어지는 '붕괴' 현상 방지.
 2.  **구조 유형**: