[G1-Sync] Manual knowledge update

This commit is contained in:
Antigravity Agent
2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
+3 -3
View File
@@ -1,8 +1,8 @@
---
id: P-REINFORCE-AUTO-POLO-001
id: [[P-Reinforce]]-AUTO-POLO-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.98
tags: [auto-reinforced, reinforcement-learning, optimization, policy-gradient, ai-training]
tags: [auto-reinforced, [[Reinforcement-Learning]], [[Optimization]], policy-gradient, ai-training]
last_reinforced: 2026-04-20
---
@@ -19,7 +19,7 @@ last_reinforced: 2026-04-20
* $\nabla J(\theta) \approx \mathbb{E} [\nabla \log \pi_\theta(a|s) R]$
2. **주요 알고리즘**:
* **REINFORCE**: 보상의 전체 합계를 사용하여 업데이트하는 가장 기초적인 정책 그래디언트 방식.
* **PPO (Proximal Policy Optimization)**: 급격한 정책 변화를 억제(Clipping)하여 학습의 안정성을 획기적으로 높인 오픈AI의 표준 알고리즘.
* **PPO (Proximal Policy Optimization)**: 급격한 정책 변화를 억제([[CLIP]]ping)하여 학습의 안정성을 획기적으로 높인 오픈AI의 표준 알고리즘.
* **TRPO (Trust Region Policy Optimization)**: 정책 변화량을 신뢰 영역 내로 제한하여 성능 향상을 보장.
3. **장점**:
* 연속적인 행동 공간(예: 로봇 팔 조절) 문제를 해결하는 데 탁월함.