---
id: P-REINFORCE-AUTO-RLHF-001
category: "[[10_Wiki/💡 Topics/AI]]"
confidence_score: 0.99
tags: [auto-reinforced, llm, reinforcement-learning, rlhf, ai-alignment]
last_reinforced: 2026-04-20
---

# [[RLHF (인간 피드백 기반 강화 학습)]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "AI에게 인간의 마음을 가르치는 마침표: 수학적으로는 정의하기 어려운 '도움이 되고 안전하며 정직한' 답변의 기준을 인간의 선호도(Preference)를 통해 모델에 주입하는 정렬 기술."

## 📖 구조화된 지식 (Synthesized Content)
RLHF(Reinforcement Learning from Human Feedback)는 대규모 언어 모델(LLM)이 인간의 가치관과 의도에 맞게 행동하도록 미세 조정(Fine-tuning)하는 핵심 프로세스입니다.

1.  **3단계 프로세스**:
    *   **Pre-training & SFT**: 대량의 텍스트로 기본 지식을 학습하고, 인간이 작성한 고품질 입출력 쌍으로 기본 성능 확보.
    *   **Reward Modeling**: 모델의 여러 답변 후보 중 인간이 더 좋다고 판단한 순위를 기반으로, 어떤 답변이 '인간다운지' 점수를 매기는 별도의 '보상 모델' 학습.
    *   **PPO Optimization**: 보상 모델로부터 높은 점수를 받도록 원래 모델을 강화학습(PPO 알고리즘 등)으로 업데이트.
2.  **핵심 목적 (HHH)**:
    *   **Helpful**: 질문의 의도를 정확히 파악하여 유용한 정보 제공.
    *   **Honest**: 모르는 것은 모른다고 답하고 할루시네이션(환각) 최소화.
    *   **Harmless**: 혐오 표현, 위험 정보 제공 등 사회적 위해 요소 차단.
3.  **RLHF의 마법**:
    *   단순히 텍스트를 예측하는 '예측기'를 인간과 대화 가능한 '에이전트(ChatBot)'로 탈바꿈시키는 최종 단계임.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 초기 AI는 데이터가 많으면 똑똑해질 것이라 믿었으나, 데이터가 많을수록 편향과 독성도 커짐을 확인. 이에 따라 '규모의 경쟁'에서 '정렬(Alignment)의 기술'로 메타가 전환됨(RL Update).
- **정책 변화(RL Update)**: 인간 피드백 과정에서 발생하는 데이터 라벨러의 주관적 편향이 모델에 투영될 위험이 지적됨에 따라, 최근에는 'AI가 AI를 피드백'하는 RLAIF(AI Feedback)나 DPO(Direct Preference Optimization)와 같은 탈-인간 피드백 정책이 연구 표준으로 부상함.

## 🔗 지식 연결 (Graph)
- [[Reinforcement Learning (RL)]], [[Proximal Policy Optimization (PPO)]], [[Foundational Models]], [[Ethics & AI]], [[Ps-Reinforce]]
- **Modern Tech/Tools**: OpenAI InstructGPT, Anthropic Claude, Meta Llama-2/3 RLHF.
---