docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

2026-05-02 09:18:34 +09:00
parent c84dcb8371
commit 6445fcc05b
13150 changed files with 55394 additions and 100862 deletions
@@ -6,7 +6,7 @@ tags: [auto-reinforced, reinforcement-learning, rl, markov-decision-process, rew
 last_reinforced: 2026-04-20
 ---

-# [[Reinforcement-Learning]]
+# [[Reinforcement-Learning|Reinforcement-Learning]]

 ## 📌 한 줄 통찰 (The Karpathy Summary)
 > "시행착오를 통한 우승의 기록: 정답이 정해진 데이터를 공부하는 대신, 가상의 환경에서 무수히 많은 행동을 해보고 그 결과로 주어지는 보상(Reward)을 극대화하는 방향으로 스스로 '최적의 전략(Policy)'을 짜 나가는 야생의 학습법."
@@ -28,6 +28,6 @@ last_reinforced: 2026-04-20
 - **정책 변화(RL Update)**: 지식 베이스 구축 정책에서도, 대표님의 승인 정책 여부를 보상(Reward)으로 삼아 에이전트가 더 나은 문서 구조 정책과 요약 기술 정책을 스스로 학습해 나가는 '메타 강화학습 정책'으로 확장 중임.

 ## 🔗 지식 연결 (Graph)
- [[Markov-Decision-Processes]], [[Decision Theory]], [[Optimization]], [[P-Reinforce]], Agentic-Workflow, [[Mastery]]
+- [[Markov-Decision-Processes|Markov-Decision-Processes]], [[Decision Theory|Decision Theory]], [[Optimization|Optimization]], [[P-Reinforce|P-Reinforce]], Agentic-Workflow, [[Mastery|Mastery]]
 - **Modern Tech/Tools**: OpenAI Gym, AlphaGo, PPO (Proximal Policy Optimization), RLHF.
 ---