RLHF (인간 피드백 기반 강화 학습)

📌 한 줄 통찰 (The Karpathy Summary)

"AI에게 인간의 마음을 가르치는 마침표: 수학적으로는 정의하기 어려운 '도움이 되고 안전하며 정직한' 답변의 기준을 인간의 선호도(Preference)를 통해 모델에 주입하는 정렬 기술."

RLHF(Reinforcement Learning from Human Feedback)는 대규모 언어 모델(LLM)이 인간의 가치관과 의도에 맞게 행동하도록 미세 조정(Fine-tuning)하는 핵심 프로세스입니다.

3단계 프로세스:
- Pre-training & SFT: 대량의 텍스트로 기본 지식을 학습하고, 인간이 작성한 고품질 입출력 쌍으로 기본 성능 확보.
- Reward Modeling: 모델의 여러 답변 후보 중 인간이 더 좋다고 판단한 순위를 기반으로, 어떤 답변이 '인간다운지' 점수를 매기는 별도의 '보상 모델' 학습.
- PPO Optimization: 보상 모델로부터 높은 점수를 받도록 원래 모델을 강화학습(PPO 알고리즘 등)으로 업데이트.
핵심 목적 (HHH):
- Helpful: 질문의 의도를 정확히 파악하여 유용한 정보 제공.
- Honest: 모르는 것은 모른다고 답하고 할루시네이션(환각) 최소화.
- Harmless: 혐오 표현, 위험 정보 제공 등 사회적 위해 요소 차단.
RLHF의 마법:
- 단순히 텍스트를 예측하는 '예측기'를 인간과 대화 가능한 '에이전트(ChatBot)'로 탈바꿈시키는 최종 단계임.

과거 데이터와의 충돌: 초기 AI는 데이터가 많으면 똑똑해질 것이라 믿었으나, 데이터가 많을수록 편향과 독성도 커짐을 확인. 이에 따라 '규모의 경쟁'에서 '정렬(Alignment)의 기술'로 메타가 전환됨(RL Update).
정책 변화(RL Update): 인간 피드백 과정에서 발생하는 데이터 라벨러의 주관적 편향이 모델에 투영될 위험이 지적됨에 따라, 최근에는 'AI가 AI를 피드백'하는 RLAIF(AI Feedback)나 DPO(Direct Preference Optimization)와 같은 탈-인간 피드백 정책이 연구 표준으로 부상함.

Reinforcement Learning (RL), Proximal Policy Optimization (PPO), Foundational Models, Ethics & AI, Ps-Reinforce
Modern Tech/Tools: OpenAI InstructGPT, Anthropic Claude, Meta Llama-2/3 RLHF.