[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -1,12 +1,12 @@
|
||||
---
|
||||
id: P-REINFORCE-AUTO-PPO-001
|
||||
id: [[P-Reinforce]]-AUTO-PPO-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 0.99
|
||||
tags: [auto-reinforced, reinforcement-learning, algorithm, openai, policy-gradient]
|
||||
tags: [auto-reinforced, [[Reinforcement-Learning]], algorithm, openai, policy-gradient]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
# [[Proximal Policy Optimization (PPO)]]
|
||||
# [[Proximal Policy [[Optimization]] (PPO)]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "강화학습계의 안정적인 표준: 너무 과감한 변화로 성과가 망가지는 것을 막으면서도, 효율적으로 지식을 습득하게 설계된 '중용'의 최적화 알고리즘."
|
||||
@@ -14,7 +14,7 @@ last_reinforced: 2026-04-20
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
PPO(근접 정책 최적화)는 OpenAI에서 2017년에 발표한 알고리즘으로, 정책 그래디언트 방식의 불안정성을 해결하여 현재 가장 널리 쓰이는 표준 강화학습 알고리즘입니다.
|
||||
|
||||
1. **핵심 아이디어 (Clipped Objective)**:
|
||||
1. **핵심 아이디어 ([[CLIP]]ped Objective)**:
|
||||
* 새로운 정책이 이전 정책에서 너무 멀리 벗어나지 못하도록 업데이트 크기를 일정 범위(보통 10~20%) 내로 강제 제한(Clipping).
|
||||
* 이를 통해 학습 데이터의 재사용성을 높이면서도 성능이 급격히 떨어지는 '붕괴' 현상 방지.
|
||||
2. **구조 유형**:
|
||||
|
||||
Reference in New Issue
Block a user