Wiki cleanup: error-doc removal, dedup merge, link normalization

10_Wiki/Topics 대규모 정리: - 오류 캡처/미완성 stub 문서 227개 제거 - 교차폴더 중복 43클러스터 병합 (63파일 → redirect) - 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건 - 카테고리 MOC 6개 신규 생성 - Graph 섹션 미해결 related-keyword 링크 10,058건 제거 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-20 23:52:15 +09:00
parent 2a4a5046b6
commit f8b21af4be
2874 changed files with 15296 additions and 27684 deletions
@@ -194,10 +194,9 @@ after  = tokens_per_char(merged_tok, korean_corpus) # e.g., 0.4 — 2x compressi
 **기본값**: 매 small additions 의 mean-init + 매 brief continued pretraining (1-5B token).

 ## 🔗 Graph
- 부모: [[Tokenization]] · [[Subword Tokenization]]
- 변형: [[FOCUS Embedding Init]] · [[OFA Cross-lingual Transfer]] · [[WECHSEL]]
- 응용: [[Multilingual LLM]] · [[Domain Adaptation]] · [[Continued Pretraining]]
- Adjacent: [[BPE]] · [[SentencePiece]] · [[LoRA Fine-tuning]] · [[Embedding Initialization]]
+- 부모: [[Tokenization]]
+- 응용: [[Domain Adaptation]]
+- Adjacent: [[BPE]] · [[SentencePiece]] · [[LoRA Fine-tuning]]

 ## 🤖 LLM 활용
 **언제**: 매 base tokenizer 의 target language / domain 의 over-fragmentation 의 measurable. 매 corpus 의 1B+ token 의 continued pretraining budget 의 available.