feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]
This commit is contained in:
@@ -1,40 +1,21 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-FTAL-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, fine-tuning, alignment, sft, rlhf, dpo, llm-training]
|
||||
last_reinforced: 2026-05-04
|
||||
id: wiki-2026-0508-fine-tuning-alignment
|
||||
title: "Fine Tuning & Alignment"
|
||||
category: 10_Wiki/Topics
|
||||
status: merged
|
||||
redirect_to: AI_Safety_and_Alignment
|
||||
canonical_id: AI_Safety_and_Alignment
|
||||
aliases: [fine_tuning_alignment_redirect]
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.92
|
||||
tags: [uncategorized]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-05-08
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
---
|
||||
|
||||
# [[Fine-Tuning & Alignment|Fine-Tuning & Alignment]]
|
||||
# Redirect
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "야생의 모델을 신사로 만드는 과정: 방대한 지식을 배운 사전 학습(Pre-training) 모델에게 인간의 언어 규범과 지시 이행 능력을 가르치고, 가치관을 정렬하여 실질적으로 '사용 가능한' 도구로 완성하는 정교한 조각 기술."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
거대 언어 모델(LLM)의 성능을 극대화하고 특정 목적에 맞게 조정하기 위해 필수적인 후속 학습 및 정렬 프로세스입니다.
|
||||
|
||||
1. **SFT (Supervised Fine-Tuning)**:
|
||||
* **정의**: 고품질의 [질문, 답변] 쌍을 사용하여 모델이 지시사항(Instruction)을 따르는 법을 배우게 하는 단계입니다.
|
||||
* **역할**: 모델이 가진 지식을 꺼내는 '말문'을 틔워주며, 특정 문체나 형식을 습득시킵니다.
|
||||
2. **RLHF (Reinforcement Learning from Human Feedback)**:
|
||||
* **정의**: 인간의 선호도(Preference)를 반영하여 모델을 더 유용하고 안전하게 정렬하는 기술입니다.
|
||||
* **프로세스**: [SFT] $\rightarrow$ [Reward Model 학습] $\rightarrow$ [PPO 등 강화학습 알고리즘으로 모델 최적화].
|
||||
3. **DPO (Direct Preference Optimization)**:
|
||||
* **정의**: 복잡한 보상 모델과 강화학습 루프 없이, 선호도 데이터를 사용하여 직접 모델을 최적화하는 효율적인 대안 기법입니다.
|
||||
* **장점**: 파이프라인이 단순하고 학습이 안정적이며, 최신 Llama 시리즈 등 주요 모델의 표준 정렬 방식으로 채택되었습니다.
|
||||
4. **Grokking (그로킹)**:
|
||||
* 훈련 데이터 암기(과적합) 상태를 넘어, 어느 순간 갑자기 데이터 이면의 실제 규칙(알고리즘)을 깨우치며 일반화 성능이 폭발하는 현상을 의미합니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **Catastrophic Forgetting (파괴적 망각)**: 특정 작업에 대해 너무 강하게 미세 조정할 경우, 모델이 원래 가지고 있던 일반적인 상식이나 다른 능력을 잃어버릴 수 있습니다.
|
||||
* **Alignment Tax (정렬세)**: 모델을 너무 안전하게만 정렬(Over-alignment)하면, 정당한 질문에도 "답변할 수 없습니다"라고 거절하거나 창의성이 감소하는 부작용이 발생합니다.
|
||||
* **Smiling Facade**: RLHF가 모델의 내부적인 결함을 고치는 것이 아니라, 겉으로만 그럴듯한 답변을 내놓게 하는 '가면'을 씌우는 것일 수 있다는 비판적 시각이 존재합니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[LLM Training Pipeline|LLM Training Pipeline]]
|
||||
* **세부 기술**: [[PEFT & LoRA|PEFT & LoRA]], [[RLHF & DPO|RLHF & DPO]], [[Constitutional AI|Constitutional AI]]
|
||||
* **연관 모델**: [[DeepSeek-R1|DeepSeek-R1]], [[Claude|Claude]], [[Llama|Llama]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
이 문서는 [[AI_Safety_and_Alignment]]으로 통합되었습니다.
|
||||
|
||||
Reference in New Issue
Block a user