--- id: P-REINFORCE-AUTO-RLHF-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.99 tags: [auto-reinforced, llm, reinforcement-learning, rlhf, ai-alignment] last_reinforced: 2026-04-20 --- # [[RLHF (안ᄀᅑᆫ 파드ᄇᅒᆨ 가ᄇᅑᆫ α„€α…‘α†Όα„’α…ͺ ᄒᅑᆨ습)|RLHF (인간 ν”Όλ“œλ°± 기반 κ°•ν™” ν•™μŠ΅)]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "AIμ—κ²Œ μΈκ°„μ˜ λ§ˆμŒμ„ κ°€λ₯΄μΉ˜λŠ” λ§ˆμΉ¨ν‘œ: μˆ˜ν•™μ μœΌλ‘œλŠ” μ •μ˜ν•˜κΈ° μ–΄λ €μš΄ '도움이 되고 μ•ˆμ „ν•˜λ©° μ •μ§ν•œ' λ‹΅λ³€μ˜ 기쀀을 μΈκ°„μ˜ μ„ ν˜Έλ„(Preference)λ₯Ό 톡해 λͺ¨λΈμ— μ£Όμž…ν•˜λŠ” μ •λ ¬ 기술." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) RLHF(Reinforcement Learning from Human Feedback)λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 μΈκ°„μ˜ κ°€μΉ˜κ΄€κ³Ό μ˜λ„μ— 맞게 ν–‰λ™ν•˜λ„λ‘ λ―Έμ„Έ μ‘°μ •(Fine-tuning)ν•˜λŠ” 핡심 ν”„λ‘œμ„ΈμŠ€μž…λ‹ˆλ‹€. 1. **3단계 ν”„λ‘œμ„ΈμŠ€**: * **Pre-training & SFT**: λŒ€λŸ‰μ˜ ν…μŠ€νŠΈλ‘œ κΈ°λ³Έ 지식을 ν•™μŠ΅ν•˜κ³ , 인간이 μž‘μ„±ν•œ κ³ ν’ˆμ§ˆ μž…μΆœλ ₯ 쌍으둜 κΈ°λ³Έ μ„±λŠ₯ 확보. * **Reward Modeling**: λͺ¨λΈμ˜ μ—¬λŸ¬ λ‹΅λ³€ 후보 쀑 인간이 더 μ’‹λ‹€κ³  νŒλ‹¨ν•œ μˆœμœ„λ₯Ό 기반으둜, μ–΄λ–€ 닡변이 'μΈκ°„λ‹€μš΄μ§€' 점수λ₯Ό λ§€κΈ°λŠ” λ³„λ„μ˜ '보상 λͺ¨λΈ' ν•™μŠ΅. * **PPO Optimization**: 보상 λͺ¨λΈλ‘œλΆ€ν„° 높은 점수λ₯Ό 받도둝 μ›λž˜ λͺ¨λΈμ„ κ°•ν™”ν•™μŠ΅(PPO μ•Œκ³ λ¦¬μ¦˜ λ“±)으둜 μ—…λ°μ΄νŠΈ. 2. **핡심 λͺ©μ  (HHH)**: * **Helpful**: 질문의 μ˜λ„λ₯Ό μ •ν™•νžˆ νŒŒμ•…ν•˜μ—¬ μœ μš©ν•œ 정보 제곡. * **Honest**: λͺ¨λ₯΄λŠ” 것은 λͺ¨λ₯Έλ‹€κ³  λ‹΅ν•˜κ³  ν• λ£¨μ‹œλ„€μ΄μ…˜(ν™˜κ°) μ΅œμ†Œν™”. * **Harmless**: 혐였 ν‘œν˜„, μœ„ν—˜ 정보 제곡 λ“± μ‚¬νšŒμ  μœ„ν•΄ μš”μ†Œ 차단. 3. **RLHF의 λ§ˆλ²•**: * λ‹¨μˆœνžˆ ν…μŠ€νŠΈλ₯Ό μ˜ˆμΈ‘ν•˜λŠ” '예츑기'λ₯Ό 인간과 λŒ€ν™” κ°€λŠ₯ν•œ 'μ—μ΄μ „νŠΈ(ChatBot)'둜 νƒˆλ°”κΏˆμ‹œν‚€λŠ” μ΅œμ’… λ‹¨κ³„μž„. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: 초기 AIλŠ” 데이터가 많으면 λ˜‘λ˜‘ν•΄μ§ˆ 것이라 λ―Ώμ—ˆμœΌλ‚˜, 데이터가 λ§Žμ„μˆ˜λ‘ 편ν–₯κ³Ό 독성도 컀짐을 확인. 이에 따라 '규λͺ¨μ˜ 경쟁'μ—μ„œ 'μ •λ ¬(Alignment)의 기술'둜 메타가 μ „ν™˜λ¨(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: 인간 ν”Όλ“œλ°± κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” 데이터 라벨러의 주관적 편ν–₯이 λͺ¨λΈμ— 투영될 μœ„ν—˜μ΄ 지적됨에 따라, μ΅œκ·Όμ—λŠ” 'AIκ°€ AIλ₯Ό ν”Όλ“œλ°±'ν•˜λŠ” RLAIF(AI Feedback)λ‚˜ DPO(Direct Preference Optimization)와 같은 νƒˆ-인간 ν”Όλ“œλ°± 정책이 연ꡬ ν‘œμ€€μœΌλ‘œ 뢀상함. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]], [[Proximal Policy Optimization (PPO)|Proximal Policy Optimization (PPO)]], Foundational Models, [[Ethics & AI|Ethics & AI]], [[Ps-Reinforce|Ps-Reinforce]] - **Modern Tech/Tools**: OpenAI InstructGPT, Anthropic Claude, Meta Llama-2/3 RLHF. ---