---
id: P-REINFORCE-AI-INSTRUCTION-TUNING
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.99
tags: [AI, LLM, InstructionTuning, FineTuning, Alignment]
last_reinforced: 2026-04-20
---

# [[Instruction-Tuning|Instruction-Tuning]] (지시어 튜닝)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "단순히 말을 잘하는 AI를 '말을 잘 듣는' AI로 개조하는 과정." 다음 단어 예측만 잘하던 기본 모델(Base Model)에게 인간의 명령(지시-응답 쌍)을 학습시켜, 질문의 의도를 파악하고 유용한 답변을 내놓게 만드는 정렬의 정수다.

## 📖 구조화된 지식 (Synthesized Content)
- **Base vs Chat Model**:
    - **Base**: 인터넷의 모든 글을 읽었지만, "질문해봐"라고 하면 다른 질문을 출력할 수도 있음.
    - **Instruction-Tuned**: "질문해봐"라고 하면 실제로 유용한 답변을 시작함.
- **The Dataset**: (명령, 컨텍스트, 정답) 형태의 데이터 수십만 건을 지도 학습(Supervised Fine-tuning) 시킴.
- **Effect**: 전이 학습(Transfer Learning)을 통해 모델이 한 번도 보지 못한 새로운 유형의 지시 사항도 눈치껏 수행하게 됨 (Zero-shot performance).

## ⚠️ 모순 및 업데이트 (RL Update)
- 지시어 튜닝은 모델이 '진실'을 말하게 하기보다 '인간이 정답이라고 믿는 말'을 하게 만들 위험(Sycophancy)이 있다. 또한 튜닝 과정에서 모델의 창의성이 일부 억제되기도 한다. 이를 극복하기 위해 튜닝 이후 강화학습(RLHF)을 통해 답변의 미세한 품질과 안전성을 조율하는 다회차 공정이 필수적이다.

## 🔗 지식 연결 (Graph)
- Related: Fine-Tuning (미세 조정) , RLHF (인간 피드백 기반 강화학습)
- Fundamental: Self-Instruct