[G1-Sync] Manual knowledge update

2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -1,8 +1,8 @@
 ---
-id: P-REINFORCE-AUTO-POLO-001
+id: [[P-Reinforce]]-AUTO-POLO-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 0.98
-tags: [auto-reinforced, reinforcement-learning, optimization, policy-gradient, ai-training]
+tags: [auto-reinforced, [[Reinforcement-Learning]], [[Optimization]], policy-gradient, ai-training]
 last_reinforced: 2026-04-20
 ---

@@ -19,7 +19,7 @@ last_reinforced: 2026-04-20
    *   $\nabla J(\theta) \approx \mathbb{E} [\nabla \log \pi_\theta(a|s) R]$
 2.  **주요 알고리즘**:
    *   **REINFORCE**: 보상의 전체 합계를 사용하여 업데이트하는 가장 기초적인 정책 그래디언트 방식.
-    *   **PPO (Proximal Policy Optimization)**: 급격한 정책 변화를 억제(Clipping)하여 학습의 안정성을 획기적으로 높인 오픈AI의 표준 알고리즘.
+    *   **PPO (Proximal Policy Optimization)**: 급격한 정책 변화를 억제([[CLIP]]ping)하여 학습의 안정성을 획기적으로 높인 오픈AI의 표준 알고리즘.
    *   **TRPO (Trust Region Policy Optimization)**: 정책 변화량을 신뢰 영역 내로 제한하여 성능 향상을 보장.
 3.  **장점**:
    *   연속적인 행동 공간(예: 로봇 팔 조절) 문제를 해결하는 데 탁월함.