---
id: RLHF-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, llm, reinforcement-learning, alignment, rlhf]
last_reinforced: 2026-04-26
---

# Reinforcement Learning from Human Feedback (RLHF)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "인간의 선호도를 AI의 나침반으로 삼아라" — 모델의 출력 결과에 대해 사람이 매긴 점수나 순위를 보상 함수(Reward Model)로 학습시켜, AI가 인간의 의도와 가치에 부합하도록 정렬(Alignment)하는 기술.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 수학적으로 정의하기 어려운 '유용함', '무해함', '정확함'과 같은 추상적인 가치를 인간의 직접적인 평가를 통해 모델에 주입하는 3단계 정렬 패턴.
- **세부 프로세스:**
    - **1. Pre-training:** 대규모 텍스트 데이터로 언어의 기본 구조 학습.
    - **2. Reward Modeling:** 모델의 여러 답변 후보에 대해 인간이 순위를 매기고, 이 선호도를 예측하는 별도의 보상 모델 학습.
    - **3. RL Fine-tuning:** 보상 모델이 높은 점수를 주는 방향으로 PPO와 같은 알고리즘을 사용하여 주 모델(Policy)을 업데이트.
- **의의:** 단순한 다음 단어 예측을 넘어, 인간과 자연스럽고 안전하게 대화할 수 있는 챗봇(ChatGPT 등) 탄생의 핵심 동력.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 초기 강화학습은 게임 점수 등 명확한 보상 지표가 필요했으나, RLHF는 인간의 주관적 피드백을 보상으로 승화시킴으로써 적용 범위를 무한히 넓힘.
- **정책 변화:** Antigravity 에이전트는 사용자의 'Thumbs Up/Down' 피드백을 수집하여 로컬 브레인의 답변 스타일을 실시간으로 교정하는 Mini-RLHF 루프를 운용함.

## 🔗 지식 연결 (Graph)
- [[Reinforcement-Learning|Reinforcement-Learning]], [[Alignment|Alignment]], [[LLM|LLM]], PPO, AI-Safety
- **Raw Source:** 10_Wiki/Topics/AI/Reinforcement-Learning-from-Human-Feedback-RLHF.md