docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

2026-05-02 09:18:34 +09:00
parent c84dcb8371
commit 6445fcc05b
13150 changed files with 55394 additions and 100862 deletions
@@ -1,12 +1,12 @@
 ---
-id: [[P-Reinforce]]-AUTO-RL-001
+id: [[P-Reinforce|P-Reinforce]]-AUTO-RL-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 0.99
-tags: [auto-reinforced, [[Reinforcement-Learning]], machine-learning, ai-training, [[Optimization]]]
+tags: [auto-reinforced, [[Reinforcement-Learning|Reinforcement-Learning]], machine-learning, ai-training, [[Optimization|Optimization]]]
 last_reinforced: 2026-04-20
 ---

-# [[Reinforcement Learning (RL)]]
+# [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]]

 ## 📌 한 줄 통찰 (The Karpathy Summary)
 > "시행착오를 통한 지능의 획득: 데이터가 아닌 '보상'이라는 피드백을 나침반 삼아, 에이전트가 환경과 상호작용하며 스스로 최후의 승리 전략을 깨우쳐가는 야생의 학습법."
@@ -17,7 +17,7 @@ last_reinforced: 2026-04-20
 1.  **기본 구성 요소 (MDP, Markov Decision Process)**:
    *   **Agent (에이전트)**: 학습의 주체.
    *   **Environment (환경)**: 에이전트가 상호작용하는 대상.
-    *   **[[State]] (상태)**: 에이전트가 처한 상황에 대한 정보.
+    *   **[[State|State]] (상태)**: 에이전트가 처한 상황에 대한 정보.
    *   **Action (행동)**: 에이전트가 상태를 변화시키기 위해 수행하는 일.
    *   **Reward (보상)**: 행동의 결과로 받는 점수.
 2.  **학심 딜레마**:
@@ -28,9 +28,9 @@ last_reinforced: 2026-04-20

 ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
 - **과거 데이터와의 충돌**: 초기 RL은 바둑이나 체스 같은 한정된 환경에서만 가능해 보였으나, 최근에는 현실 세계의 복잡한 로봇 제어와 인간의 가치관을 학습하는 RLHF 단계까지 정복하며 '범용 인공지능(AGI)'으로 가는 가장 강력한 기술적 사다리로 평가됨.
- **정책 변화(RL Update)**: 보상만을 쫓는 에이전트가 예상치 못한 위험(Safety Violation)을 저지르는 것을 막기 위해, 수치화된 보상 뒤에 '인간의 윤리적 제약'을 프로그래밍하는 '정렬([[Alignment]]) 정책'이 RL 연구의 최우선 순위로 부상함.
+- **정책 변화(RL Update)**: 보상만을 쫓는 에이전트가 예상치 못한 위험(Safety Violation)을 저지르는 것을 막기 위해, 수치화된 보상 뒤에 '인간의 윤리적 제약'을 프로그래밍하는 '정렬([[Alignment|Alignment]]) 정책'이 RL 연구의 최우선 순위로 부상함.

 ## 🔗 지식 연결 (Graph)
- [[Proximal Policy Optimization (PPO)]], [[Policy-Optimization]], [[Ps-Reinforce]], Neurobiology of Reward, Game Theory
+- [[Proximal Policy Optimization (PPO)|Proximal Policy Optimization (PPO)]], [[Policy-Optimization|Policy-Optimization]], [[Ps-Reinforce|Ps-Reinforce]], Neurobiology of Reward, Game Theory
 - **Modern Tech/Tools**: Gymnasium (OpenAI Gym), DeepMind MuJoCo, Ray Rllib.
 ---