docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

2026-05-02 09:18:34 +09:00
parent c84dcb8371
commit 6445fcc05b
13150 changed files with 55394 additions and 100862 deletions
@@ -2,7 +2,7 @@
 id: RLHF-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 1.0
-tags: [ai, llm, [[Reinforcement-Learning]], [[Alignment]], rlhf]
+tags: [ai, llm, [[Reinforcement-Learning|Reinforcement-Learning]], [[Alignment|Alignment]], rlhf]
 last_reinforced: 2026-04-26
 ---

@@ -16,7 +16,7 @@ last_reinforced: 2026-04-26
 - **세부 프로세스:**
    - **1. Pre-training:** 대규모 텍스트 데이터로 언어의 기본 구조 학습.
    - **2. Reward Modeling:** 모델의 여러 답변 후보에 대해 인간이 순위를 매기고, 이 선호도를 예측하는 별도의 보상 모델 학습.
-    - **3. RL [[Fine-tuning]]:** 보상 모델이 높은 점수를 주는 방향으로 PPO와 같은 알고리즘을 사용하여 주 모델(Policy)을 업데이트.
+    - **3. RL [[Fine-tuning|Fine-tuning]]:** 보상 모델이 높은 점수를 주는 방향으로 PPO와 같은 알고리즘을 사용하여 주 모델(Policy)을 업데이트.
 - **의의:** 단순한 다음 단어 예측을 넘어, 인간과 자연스럽고 안전하게 대화할 수 있는 챗봇(ChatGPT 등) 탄생의 핵심 동력.

 ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
@@ -24,5 +24,5 @@ last_reinforced: 2026-04-26
 - **정책 변화:** Antigravity 에이전트는 사용자의 'Thumbs Up/Down' 피드백을 수집하여 로컬 브레인의 답변 스타일을 실시간으로 교정하는 Mini-RLHF 루프를 운용함.

 ## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning]], [[Alignment]], [[LLM]], PPO, AI-Safety
+- [[Reinforcement-Learning|Reinforcement-Learning]], [[Alignment|Alignment]], [[LLM|LLM]], PPO, AI-Safety
 - **Raw Source:** 10_Wiki/Topics/AI/Reinforcement-Learning-from-Human-Feedback-RLHF.md