id: P-Reinforce-AUTO-FTAL-001 category: Unified confidence_score: 1.00 tags: [auto-reinforced, fine-tuning, alignment, sft, rlhf, dpo, llm-training] last_reinforced: 2026-05-04

Fine-Tuning & Alignment

"야생의 모델을 신사로 만드는 과정: 방대한 지식을 배운 사전 학습(Pre-training) 모델에게 인간의 언어 규범과 지시 이행 능력을 가르치고, 가치관을 정렬하여 실질적으로 '사용 가능한' 도구로 완성하는 정교한 조각 기술."

거대 언어 모델(LLM)의 성능을 극대화하고 특정 목적에 맞게 조정하기 위해 필수적인 후속 학습 및 정렬 프로세스입니다.

SFT (Supervised Fine-Tuning):
- 정의: 고품질의 [질문, 답변] 쌍을 사용하여 모델이 지시사항(Instruction)을 따르는 법을 배우게 하는 단계입니다.
- 역할: 모델이 가진 지식을 꺼내는 '말문'을 틔워주며, 특정 문체나 형식을 습득시킵니다.
RLHF (Reinforcement Learning from Human Feedback):
- 정의: 인간의 선호도(Preference)를 반영하여 모델을 더 유용하고 안전하게 정렬하는 기술입니다.
- 프로세스: [SFT] \rightarrow [Reward Model 학습] \rightarrow [PPO 등 강화학습 알고리즘으로 모델 최적화].
DPO (Direct Preference Optimization):
- 정의: 복잡한 보상 모델과 강화학습 루프 없이, 선호도 데이터를 사용하여 직접 모델을 최적화하는 효율적인 대안 기법입니다.
- 장점: 파이프라인이 단순하고 학습이 안정적이며, 최신 Llama 시리즈 등 주요 모델의 표준 정렬 방식으로 채택되었습니다.
Grokking (그로킹):
- 훈련 데이터 암기(과적합) 상태를 넘어, 어느 순간 갑자기 데이터 이면의 실제 규칙(알고리즘)을 깨우치며 일반화 성능이 폭발하는 현상을 의미합니다.

Catastrophic Forgetting (파괴적 망각): 특정 작업에 대해 너무 강하게 미세 조정할 경우, 모델이 원래 가지고 있던 일반적인 상식이나 다른 능력을 잃어버릴 수 있습니다.
Alignment Tax (정렬세): 모델을 너무 안전하게만 정렬(Over-alignment)하면, 정당한 질문에도 "답변할 수 없습니다"라고 거절하거나 창의성이 감소하는 부작용이 발생합니다.
Smiling Facade: RLHF가 모델의 내부적인 결함을 고치는 것이 아니라, 겉으로만 그럴듯한 답변을 내놓게 하는 '가면'을 씌우는 것일 수 있다는 비판적 시각이 존재합니다.

Last updated: 2026-05-04