feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]
This commit is contained in:
@@ -1,9 +1,18 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AI-INSTRUCTION-TUNING
|
||||
category: Unified
|
||||
id: wiki-2026-0508-instruction-tuning
|
||||
title: Instruction Tuning
|
||||
category: 10_Wiki/Topics
|
||||
status: needs_review
|
||||
canonical_id: self
|
||||
aliases: [P-Reinforce-AI-INSTRUCTION-TUNING]
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.99
|
||||
tags: [AI, LLM, InstructionTuning, FineTuning, [[Alignment|Alignment]]]
|
||||
tags: [AI, LLM, InstructionTuning, FineTuning, Alignment]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-04-20
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
---
|
||||
|
||||
# [[Instruction-Tuning|Instruction-Tuning]] (지시어 튜닝)
|
||||
@@ -18,9 +27,35 @@ last_reinforced: 2026-04-20
|
||||
- **The Dataset**: (명령, 컨텍스트, 정답) 형태의 데이터 수십만 건을 지도 학습(Supervised [[Fine-tuning|Fine-tuning]]) 시킴.
|
||||
- **Effect**: 전이 학습([[Transfer Learning|Transfer Learning]])을 통해 모델이 한 번도 보지 못한 새로운 유형의 지시 사항도 눈치껏 수행하게 됨 (Zero-shot performance).
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
|
||||
- 지시어 튜닝은 모델이 '진실'을 말하게 하기보다 '인간이 정답이라고 믿는 말'을 하게 만들 위험(Sycophancy)이 있다. 또한 튜닝 과정에서 모델의 창의성이 일부 억제되기도 한다. 이를 극복하기 위해 튜닝 이후 강화학습(RLHF)을 통해 답변의 미세한 품질과 안전성을 조율하는 다회차 공정이 필수적이다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- Related: Fine-Tuning (미세 조정) , RLHF (인간 피드백 기반 강화학습)
|
||||
- Fundamental: Self-Instruct
|
||||
|
||||
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
|
||||
|
||||
**언제 이 지식을 쓰는가:**
|
||||
- *(TODO)*
|
||||
|
||||
**언제 쓰면 안 되는가:**
|
||||
- *(TODO)*
|
||||
|
||||
## 🧪 검증 상태 (Validation)
|
||||
|
||||
- **정보 상태:** needs_review
|
||||
- **출처 신뢰도:** A
|
||||
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
|
||||
|
||||
## 🧬 중복 검사 (Duplicate Check)
|
||||
|
||||
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
|
||||
- **처리 방식:** UPDATE (자동 정규화)
|
||||
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
|
||||
|
||||
## 🕓 변경 이력 (Changelog)
|
||||
|
||||
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|
||||
|------|-----------|-----------|--------|
|
||||
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
|
||||
Reference in New Issue
Block a user