--- id: P-REINFORCE-AI-INSTRUCTION-TUNING category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.99 tags: [AI, LLM, InstructionTuning, FineTuning, Alignment] last_reinforced: 2026-04-20 --- # [[Instruction-Tuning|Instruction-Tuning]] (μ§€μ‹œμ–΄ νŠœλ‹) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ‹¨μˆœνžˆ 말을 μž˜ν•˜λŠ” AIλ₯Ό '말을 잘 λ“£λŠ”' AI둜 κ°œμ‘°ν•˜λŠ” κ³Όμ •." λ‹€μŒ 단어 예츑만 μž˜ν•˜λ˜ κΈ°λ³Έ λͺ¨λΈ(Base Model)μ—κ²Œ μΈκ°„μ˜ λͺ…λ Ή(μ§€μ‹œ-응닡 쌍)을 ν•™μŠ΅μ‹œμΌœ, 질문의 μ˜λ„λ₯Ό νŒŒμ•…ν•˜κ³  μœ μš©ν•œ 닡변을 λ‚΄λ†“κ²Œ λ§Œλ“œλŠ” μ •λ ¬μ˜ μ •μˆ˜λ‹€. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **Base vs Chat Model**: - **Base**: μΈν„°λ„·μ˜ λͺ¨λ“  글을 μ½μ—ˆμ§€λ§Œ, "μ§ˆλ¬Έν•΄λ΄"라고 ν•˜λ©΄ λ‹€λ₯Έ μ§ˆλ¬Έμ„ 좜λ ₯ν•  μˆ˜λ„ 있음. - **Instruction-Tuned**: "μ§ˆλ¬Έν•΄λ΄"라고 ν•˜λ©΄ μ‹€μ œλ‘œ μœ μš©ν•œ 닡변을 μ‹œμž‘ν•¨. - **The Dataset**: (λͺ…λ Ή, μ»¨ν…μŠ€νŠΈ, μ •λ‹΅) ν˜•νƒœμ˜ 데이터 μˆ˜μ‹­λ§Œ 건을 지도 ν•™μŠ΅(Supervised Fine-tuning) μ‹œν‚΄. - **Effect**: 전이 ν•™μŠ΅(Transfer Learning)을 톡해 λͺ¨λΈμ΄ ν•œ λ²ˆλ„ 보지 λͺ»ν•œ μƒˆλ‘œμš΄ μœ ν˜•μ˜ μ§€μ‹œ 사항도 눈치껏 μˆ˜ν–‰ν•˜κ²Œ 됨 (Zero-shot performance). ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (RL Update) - μ§€μ‹œμ–΄ νŠœλ‹μ€ λͺ¨λΈμ΄ 'μ§„μ‹€'을 λ§ν•˜κ²Œ ν•˜κΈ°λ³΄λ‹€ '인간이 정닡이라고 λ―ΏλŠ” 말'을 ν•˜κ²Œ λ§Œλ“€ μœ„ν—˜(Sycophancy)이 μžˆλ‹€. λ˜ν•œ νŠœλ‹ κ³Όμ •μ—μ„œ λͺ¨λΈμ˜ μ°½μ˜μ„±μ΄ 일뢀 μ–΅μ œλ˜κΈ°λ„ ν•œλ‹€. 이λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ νŠœλ‹ 이후 κ°•ν™”ν•™μŠ΅(RLHF)을 톡해 λ‹΅λ³€μ˜ λ―Έμ„Έν•œ ν’ˆμ§ˆκ³Ό μ•ˆμ „μ„±μ„ μ‘°μœ¨ν•˜λŠ” λ‹€νšŒμ°¨ 곡정이 ν•„μˆ˜μ μ΄λ‹€. ## πŸ”— 지식 μ—°κ²° (Graph) - Related: Fine-Tuning (λ―Έμ„Έ μ‘°μ •) , RLHF (인간 ν”Όλ“œλ°± 기반 κ°•ν™”ν•™μŠ΅) - Fundamental: Self-Instruct