feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup

This commit is contained in:
2026-04-27 18:58:22 +09:00
parent 3424166ea2
commit 6b86b0da4c
2706 changed files with 9074 additions and 7273 deletions
+3 -3
View File
@@ -1,6 +1,6 @@
---
id: P-REINFORCE-AI-INSTRUCTION-TUNING
category: "[[10_Wiki/💡 Topics/AI]]"
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.99
tags: [AI, LLM, InstructionTuning, FineTuning, Alignment]
last_reinforced: 2026-04-20
@@ -22,5 +22,5 @@ last_reinforced: 2026-04-20
- 지시어 튜닝은 모델이 '진실'을 말하게 하기보다 '인간이 정답이라고 믿는 말'을 하게 만들 위험(Sycophancy)이 있다. 또한 튜닝 과정에서 모델의 창의성이 일부 억제되기도 한다. 이를 극복하기 위해 튜닝 이후 강화학습(RLHF)을 통해 답변의 미세한 품질과 안전성을 조율하는 다회차 공정이 필수적이다.
## 🔗 지식 연결 (Graph)
- Related: [[Fine-Tuning (미세 조정)]] , [[RLHF (인간 피드백 기반 강화학습)]]
- Fundamental: [[Self-Instruct]]
- Related: Fine-Tuning (미세 조정) , RLHF (인간 피드백 기반 강화학습)
- Fundamental: Self-Instruct