Files
2nd/10_Wiki/Topics/AI_and_ML/RLHF (인간 피드백 기반 강화 학습).md
T

3.0 KiB


id: P-Reinforce-AUTO-RLHF-001 category: Unified confidence_score: 0.99 tags: [auto-reinforced, llm, Reinforcement-Learning, rlhf, AI-Alignment] last_reinforced: 2026-04-20

RLHF (인간 피드백 기반 강화 학습)

📌 한 줄 통찰 (The Karpathy Summary)

"AI에게 인간의 마음을 가르치는 마침표: 수학적으로는 정의하기 어려운 '도움이 되고 안전하며 정직한' 답변의 기준을 인간의 선호도(PReference)를 통해 모델에 주입하는 정렬 기술."

📖 구조화된 지식 (Synthesized Content)

RLHF(Reinforcement Learning from Human Feedback)는 대규모 언어 모델(LLM)이 인간의 가치관과 의도에 맞게 행동하도록 미세 조정(Fine-tuning)하는 핵심 프로세스입니다.

  1. 3단계 프로세스:
    • Pre-training & SFT: 대량의 텍스트로 기본 지식을 학습하고, 인간이 작성한 고품질 입출력 쌍으로 기본 성능 확보.
    • Reward Modeling: 모델의 여러 답변 후보 중 인간이 더 좋다고 판단한 순위를 기반으로, 어떤 답변이 '인간다운지' 점수를 매기는 별도의 '보상 모델' 학습.
    • PPO Optimization: 보상 모델로부터 높은 점수를 받도록 원래 모델을 강화학습(PPO 알고리즘 등)으로 업데이트.
  2. 핵심 목적 (HHH):
    • Helpful: 질문의 의도를 정확히 파악하여 유용한 정보 제공.
    • Honest: 모르는 것은 모른다고 답하고 할루시네이션(환각) 최소화.
    • Harmless: 혐오 표현, 위험 정보 제공 등 사회적 위해 요소 차단.
  3. RLHF의 마법:
    • 단순히 텍스트를 예측하는 '예측기'를 인간과 대화 가능한 '에이전트(ChatBot)'로 탈바꿈시키는 최종 단계임.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 초기 AI는 데이터가 많으면 똑똑해질 것이라 믿었으나, 데이터가 많을수록 편향과 독성도 커짐을 확인. 이에 따라 '규모의 경쟁'에서 '정렬(Alignment)의 기술'로 메타가 전환됨(RL Update).
  • 정책 변화(RL Update): 인간 피드백 과정에서 발생하는 데이터 라벨러의 주관적 편향이 모델에 투영될 위험이 지적됨에 따라, 최근에는 'AI가 AI를 피드백'하는 RLAIF(AI Feedback)나 DPO(Direct Preference Optimization)와 같은 탈-인간 피드백 정책이 연구 표준으로 부상함.

🔗 지식 연결 (Graph)