--- id: P-REINFORCE-AUTO-DPOO-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.97 tags: [auto-reinforced, dpo, direct-preference-optimization, llm-alignment, reinforcement-learning, machine-learning] last_reinforced: 2026-04-20 --- # [[DPO (Direct Preference Optimization)|DPO (Direct Preference Optimization)]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ³΅μž‘ν•œ 보상 λͺ¨λΈμ€ 가라: μΈκ°„μ˜ μ„ ν˜Έλ„λ₯Ό λ§žμΆ”κΈ° μœ„ν•΄ λ³„λ„μ˜ λ¦¬μ›Œλ“œ λͺ¨λΈμ„ λ§Œλ“€κ³  κ°•ν™”ν•™μŠ΅(PPO)을 λŒλ¦¬λŠ” λ³΅μž‘ν•œ κ³Όμ • λŒ€μ‹ , λ‹΅λ³€ 쌍(Pair) 쀑 무엇이 쒋은지 직접 μ•Œλ €μ€ŒμœΌλ‘œμ¨ λͺ¨λΈμ„ ν•œ λ²ˆμ— μ •λ ¬ν•˜λŠ” 효율적인 ν˜μ‹ ." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) 직접 μ„ ν˜Έλ„ μ΅œμ ν™”(DPO, Direct Preference Optimization)λŠ” LLM을 μΈκ°„μ˜ μ˜λ„μ— 맞게 μ •λ ¬ν•˜λŠ” μ΅œμ‹  κΈ°λ²•μž…λ‹ˆλ‹€. 1. **전톡적 방식(RLHF/PPO)과의 차이**: * **RLHF**: 보상 λͺ¨λΈ ν•™μŠ΅ -> 보상 λͺ¨λΈμ„ μ΄μš©ν•œ κ°•ν™”ν•™μŠ΅(PPO)의 2λ‹¨κ³„λ‘œ 맀우 λΆˆμ•ˆμ •ν•˜κ³  μžμ›μ΄ 많이 듦. * **DPO**: 보상 λͺ¨λΈ 없이, "λ‹΅λ³€ Aκ°€ λ‹΅λ³€ B보닀 λ‚«λ‹€"λŠ” μ„ ν˜Έλ„ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ λͺ¨λΈμ˜ 둜그 ν™•λ₯ (Log probability)을 직접 μ‘°μ •. 2. **μž₯점**: * μˆ˜ν•™μ μœΌλ‘œ 더 λ‹¨μˆœν•˜κ³  μ•ˆμ •μ μž„. * PPO와 같은 κ·Ήλ„λ‘œ λ³΅μž‘ν•œ κ°•ν™”ν•™μŠ΅ ν•˜μ΄νΌνŒŒλΌλ―Έν„° νŠœλ‹μ΄ ν•„μš” μ—†μŒ. * ν•™μŠ΅ 속도가 λΉ λ₯΄κ³  νš¨κ³Όκ°€ λΉ„μŠ·ν•˜κ±°λ‚˜ 더 뛰어남. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” 성곡적인 정렬을 μœ„ν•΄ λ°˜λ“œμ‹œ 'μ™ΈλΆ€ 보상 μ •μ±…'이 ν•„μš”ν•˜λ‹€κ³  λ―Ώμ—ˆμœΌλ‚˜, ν˜„λŒ€ 정책은 λͺ¨λΈμ˜ 자체 뢄포 μ •μ±…λ§ŒμœΌλ‘œλ„ μΆ©λΆ„νžˆ μ„ ν˜Έλ„λ₯Ό ν•™μŠ΅ν•  수 μžˆμŒμ„ μž…μ¦ν•¨(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: DPO 이후 이λ₯Ό κ°œμ„ ν•œ ORPO, SimPO, IPO λ“± '직접 μ΅œμ ν™” νŒŒμƒ μ •μ±…'듀이 μŸμ•„μ Έ λ‚˜μ˜€λ©°, 데이터 νš¨μœ¨μ„ κ·ΉλŒ€ν™”ν•˜κ³  λͺ¨λΈμ˜ κ±°λΆ€(Refusal) κ²½ν–₯을 μ‘°μ ˆν•˜λŠ” 정책이 정밀화됨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[RLHF (안ᄀᅑᆫ 파드ᄇᅒᆨ 가ᄇᅑᆫ α„€α…‘α†Όα„’α…ͺ ᄒᅑᆨ습)|RLHF (인간 ν”Όλ“œλ°± 기반 κ°•ν™” ν•™μŠ΅)]], [[Constitutional AI (α„’α…₯ᆫᄇα…₯α†Έ AI)|Constitutional AI (ν—Œλ²• AI)]], [[Alignment|Alignment]], [[Optimization|Optimization]], [[Policy-Optimization|Policy-Optimization]] - **Modern Tech/Tools**: TRL (Transformer Reinforcement Learning) library, Llama-3 alignment, Axolotl. ---