--- id: P-REINFORCE-AUTO-SFT-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.99 tags: [auto-reinforced, llm, fine-tuning, sft, instruction-tuning] last_reinforced: 2026-04-20 --- # [[SFT (Supervised Fine-Tuning)|SFT (Supervised Fine-Tuning)]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ•Όμƒμ˜ μ§€λŠ₯에 λ§€λ„ˆλ₯Ό μž…νžˆλ‹€: κ±°λŒ€ λͺ¨λΈμ΄ κ°€μ§„ λ°©λŒ€ν•œ 지식을 μΈκ°„μ˜ μ§ˆλ¬Έμ— 'λ‹΅λ³€ν•˜λŠ” ν˜•μ‹'으둜 길듀이기 μœ„ν•΄, κ³ ν’ˆμ§ˆμ˜ λͺ¨λ²” λ‹΅μ•ˆμ§€λ‘œ λ‹€μ‹œ ν•œ 번 κ³΅λΆ€μ‹œν‚€λŠ” κ³Όμ •." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) 지도 λ―Έμ„Έ μ‘°μ •(Supervised Fine-Tuning, SFT)은 사전 ν•™μŠ΅λœ(Pre-trained) λͺ¨λΈμ΄ νŠΉμ • μž‘μ—…μ΄λ‚˜ λŒ€ν™” ν˜•μ‹μ„ λ”°λ₯΄λ„둝 인간이 μž‘μ„±ν•œ λ°μ΄ν„°μ…‹μœΌλ‘œ μΆ”κ°€ ν•™μŠ΅μ‹œν‚€λŠ” λ‹¨κ³„μž…λ‹ˆλ‹€. 1. **SFT의 μ—­ν• **: * **Alignment (μ •λ ¬)**: λͺ¨λΈμ΄ λ‹¨μˆœνžˆ λ¬Έμž₯을 이어 μ“°λŠ” 것(Autocomplete)μ—μ„œ λ²—μ–΄λ‚˜, μ§ˆλ¬Έμ— λŒ€λ‹΅ν•˜λ„λ‘ 행동 μˆ˜μ •. * **Style Transfer**: νŠΉμ • 말투(μΉœμ ˆν•œ 상담원, λƒ‰μ² ν•œ μ „λ¬Έκ°€ λ“±)λ‚˜ μ„œμ‹μ„ ν•™μŠ΅. * **Focusing**: νŠΉμ • λΆ„μ•Ό(μ½”λ”©, 법λ₯  λ“±)의 데이터 비쀑을 λ†’μ—¬ ν•΄λ‹Ή μž‘μ—… μˆ™λ ¨λ„ κ°•ν™”. 2. **λ°μ΄ν„°μ˜ νŠΉμ§•**: * **Instruction-Response Pair**: "질문: ~ ν•΄μ€˜", "λ‹΅λ³€: (λͺ¨λ²” λ‹΅μ•ˆ)" ν˜•νƒœμ˜ κ³ ν’ˆμ§ˆ 데이터셋. * **Quality > Quantity**: μΈν„°λ„·μ˜ μ§€μ €λΆ„ν•œ 수쑰 개의 토큰보닀, 인간 μ „λ¬Έκ°€κ°€ μ“΄ 만 개의 κΉ”λ”ν•œ λͺ¨λ²” λ‹΅μ•ˆμ΄ 훨씬 κ°•λ ₯ν•œ 효과λ₯Ό λ°œνœ˜ν•¨. 3. **단계적 μœ„μΉ˜**: * Pre-training -> **SFT (ν˜„μž¬ 단계)** -> RLHF (μ΅œμ’… μ •λ ¬). ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” νŒŒμΈνŠœλ‹μ΄ 데이터 μ–‘ 싸움이라 λ―Ώμ—ˆμœΌλ‚˜, ν˜„λŒ€ AI 정책은 λ°μ΄ν„°μ˜ 양을 1/1000둜 쀄이더라도 독보적인 ν’ˆμ§ˆμ˜ 데이터λ₯Ό ν™•λ³΄ν•˜λŠ” '데이터 νλ ˆμ΄μ…˜ μ •μ±…'을 기술 경쟁λ ₯의 ν•΅μ‹¬μœΌλ‘œ μ‚ΌμŒ(RL Update, 예: LIMA 연ꡬ). - **μ •μ±… λ³€ν™”(RL Update)**: κΈ°μ—… λ‚΄λΆ€μ˜ SFT 데이터셋이 μ™ΈλΆ€λ‘œ 유좜될 경우 κ²½μŸμ‚¬μ— λͺ¨λΈμ˜ 페λ₯΄μ†Œλ‚˜λ₯Ό κ·ΈλŒ€λ‘œ λ…ΈμΆœν•˜κ²Œ λ˜λ―€λ‘œ, SFT용 ν•™μŠ΅ 데이터에 λŒ€ν•œ '지적 μž¬μ‚°κΆŒ 보호 및 λ³΄μ•ˆ 격리 μ •μ±…'이 강화됨. ## πŸ”— 지식 μ—°κ²° (Graph) - Foundational Models, [[RLHF (안ᄀᅑᆫ 파드ᄇᅒᆨ 가ᄇᅑᆫ α„€α…‘α†Όα„’α…ͺ ᄒᅑᆨ습)|RLHF (인간 ν”Όλ“œλ°± 기반 κ°•ν™” ν•™μŠ΅)]], [[Prompt-Engineering|Prompt-Engineering]], [[Transfer Learning|Transfer Learning]], [[Ps-Reinforce|Ps-Reinforce]] - **Modern Tech/Tools**: PEFT (LoRA, QLoRA), Axolotl, Hugging Face TRL. ---