docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

This commit is contained in:
Antigravity Agent
2026-05-02 09:18:34 +09:00
parent c84dcb8371
commit 6445fcc05b
13150 changed files with 55394 additions and 100862 deletions
@@ -6,7 +6,7 @@ tags: [auto-reinforced, llm, reinforcement-learning, rlhf, ai-alignment]
last_reinforced: 2026-04-20
---
# [[RLHF (인간 피드백 기반 강화 학습)]]
# [[RLHF (인간 피드백 기반 강화 학습)|RLHF (인간 피드백 기반 강화 학습)]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "AI에게 인간의 마음을 가르치는 마침표: 수학적으로는 정의하기 어려운 '도움이 되고 안전하며 정직한' 답변의 기준을 인간의 선호도(Preference)를 통해 모델에 주입하는 정렬 기술."
@@ -30,6 +30,6 @@ RLHF(Reinforcement Learning from Human Feedback)는 대규모 언어 모델(LLM)
- **정책 변화(RL Update)**: 인간 피드백 과정에서 발생하는 데이터 라벨러의 주관적 편향이 모델에 투영될 위험이 지적됨에 따라, 최근에는 'AI가 AI를 피드백'하는 RLAIF(AI Feedback)나 DPO(Direct Preference Optimization)와 같은 탈-인간 피드백 정책이 연구 표준으로 부상함.
## 🔗 지식 연결 (Graph)
- [[Reinforcement Learning (RL)]], [[Proximal Policy Optimization (PPO)]], Foundational Models, [[Ethics & AI]], [[Ps-Reinforce]]
- [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]], [[Proximal Policy Optimization (PPO)|Proximal Policy Optimization (PPO)]], Foundational Models, [[Ethics & AI|Ethics & AI]], [[Ps-Reinforce|Ps-Reinforce]]
- **Modern Tech/Tools**: OpenAI InstructGPT, Anthropic Claude, Meta Llama-2/3 RLHF.
---