[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -1,8 +1,8 @@
|
||||
---
|
||||
id: P-REINFORCE-AUTO-POLO-001
|
||||
id: [[P-Reinforce]]-AUTO-POLO-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 0.98
|
||||
tags: [auto-reinforced, reinforcement-learning, optimization, policy-gradient, ai-training]
|
||||
tags: [auto-reinforced, [[Reinforcement-Learning]], [[Optimization]], policy-gradient, ai-training]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
@@ -19,7 +19,7 @@ last_reinforced: 2026-04-20
|
||||
* $\nabla J(\theta) \approx \mathbb{E} [\nabla \log \pi_\theta(a|s) R]$
|
||||
2. **주요 알고리즘**:
|
||||
* **REINFORCE**: 보상의 전체 합계를 사용하여 업데이트하는 가장 기초적인 정책 그래디언트 방식.
|
||||
* **PPO (Proximal Policy Optimization)**: 급격한 정책 변화를 억제(Clipping)하여 학습의 안정성을 획기적으로 높인 오픈AI의 표준 알고리즘.
|
||||
* **PPO (Proximal Policy Optimization)**: 급격한 정책 변화를 억제([[CLIP]]ping)하여 학습의 안정성을 획기적으로 높인 오픈AI의 표준 알고리즘.
|
||||
* **TRPO (Trust Region Policy Optimization)**: 정책 변화량을 신뢰 영역 내로 제한하여 성능 향상을 보장.
|
||||
3. **장점**:
|
||||
* 연속적인 행동 공간(예: 로봇 팔 조절) 문제를 해결하는 데 탁월함.
|
||||
|
||||
Reference in New Issue
Block a user