docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

This commit is contained in:
Antigravity Agent
2026-05-02 09:18:34 +09:00
parent c84dcb8371
commit 6445fcc05b
13150 changed files with 55394 additions and 100862 deletions
+2 -2
View File
@@ -6,7 +6,7 @@ tags: [auto-reinforced, grpo, reinforcement-learning, llm, optimization, ppo, de
last_reinforced: 2026-04-20
---
# [[GRPO]]
# [[GRPO|GRPO]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "비평가 없는 학습의 효율: 기존 PPO가 판별자(Critic) 모델을 따로 두어 연산량이 많았던 것과 달리, 하나의 행동 집단(Group) 안에서 상대적인 성과를 계산하여 훨씬 적은 자원으로 대형 언어 모델을 비약적으로 똑똑하게 만드는 최신 강화학습 기법."
@@ -25,6 +25,6 @@ GRPO(Group Relative Policy Optimization)는 DeepSeek-V3 등 최신 거대 언어
- **정책 변화(RL Update)**: 이제는 단순 언어 모델 정책을 넘어, 복잡한 다단계 추론 정책(Multi-step reasoning)이 필요한 수학이나 코딩 전문 모델 정책을 학습시키는 데 필수적인 기술로 자리 잡는 중임. (Reasoning와 연결)
## 🔗 지식 연결 (Graph)
- [[Efficiency]], [[Reliability]], [[Reasoning]], [[Reinforcement Learning (RL)]], Deep Learning (DL), [[Optimization]]
- [[Efficiency|Efficiency]], [[Reliability|Reliability]], [[Reasoning|Reasoning]], [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]], Deep Learning (DL), [[Optimization|Optimization]]
- **Key Origin**: DeepSeek AI.
---