2.7 KiB
2.7 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||
|---|---|---|---|---|---|---|---|---|---|
| P-REINFORCE-AUTO-RLHF-001 | 10_Wiki/💡 Topics/AI | 0.99 |
|
2026-04-20 |
RLHF (인간 피드백 기반 강화 학습)
📌 한 줄 통찰 (The Karpathy Summary)
"AI에게 인간의 마음을 가르치는 마침표: 수학적으로는 정의하기 어려운 '도움이 되고 안전하며 정직한' 답변의 기준을 인간의 선호도(Preference)를 통해 모델에 주입하는 정렬 기술."
📖 구조화된 지식 (Synthesized Content)
RLHF(Reinforcement Learning from Human Feedback)는 대규모 언어 모델(LLM)이 인간의 가치관과 의도에 맞게 행동하도록 미세 조정(Fine-tuning)하는 핵심 프로세스입니다.
- 3단계 프로세스:
- Pre-training & SFT: 대량의 텍스트로 기본 지식을 학습하고, 인간이 작성한 고품질 입출력 쌍으로 기본 성능 확보.
- Reward Modeling: 모델의 여러 답변 후보 중 인간이 더 좋다고 판단한 순위를 기반으로, 어떤 답변이 '인간다운지' 점수를 매기는 별도의 '보상 모델' 학습.
- PPO Optimization: 보상 모델로부터 높은 점수를 받도록 원래 모델을 강화학습(PPO 알고리즘 등)으로 업데이트.
- 핵심 목적 (HHH):
- Helpful: 질문의 의도를 정확히 파악하여 유용한 정보 제공.
- Honest: 모르는 것은 모른다고 답하고 할루시네이션(환각) 최소화.
- Harmless: 혐오 표현, 위험 정보 제공 등 사회적 위해 요소 차단.
- RLHF의 마법:
- 단순히 텍스트를 예측하는 '예측기'를 인간과 대화 가능한 '에이전트(ChatBot)'로 탈바꿈시키는 최종 단계임.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 초기 AI는 데이터가 많으면 똑똑해질 것이라 믿었으나, 데이터가 많을수록 편향과 독성도 커짐을 확인. 이에 따라 '규모의 경쟁'에서 '정렬(Alignment)의 기술'로 메타가 전환됨(RL Update).
- 정책 변화(RL Update): 인간 피드백 과정에서 발생하는 데이터 라벨러의 주관적 편향이 모델에 투영될 위험이 지적됨에 따라, 최근에는 'AI가 AI를 피드백'하는 RLAIF(AI Feedback)나 DPO(Direct Preference Optimization)와 같은 탈-인간 피드백 정책이 연구 표준으로 부상함.
🔗 지식 연결 (Graph)
- Reinforcement Learning (RL), Proximal Policy Optimization (PPO), Foundational Models, Ethics & AI, Ps-Reinforce
- Modern Tech/Tools: OpenAI InstructGPT, Anthropic Claude, Meta Llama-2/3 RLHF.