--- id: TOKEN-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [nlp, ai, tokenization, llm, preprocessing] last_reinforced: 2026-04-26 --- # Tokenization Strategies (ν† ν¬λ‚˜μ΄μ§• μ „λž΅) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ–Έμ–΄μ˜ μ΅œμ†Œ 의미 λ‹¨μœ„λ₯Ό 효율적으둜 μˆ˜μΉ˜ν™”ν•˜λΌ" β€” λΉ„μ •ν˜• ν…μŠ€νŠΈλ₯Ό AI λͺ¨λΈμ΄ μ²˜λ¦¬ν•  수 μžˆλŠ” κ°€μž₯ μž‘μ€ 의미 λ‹¨μœ„(Token)둜 λΆ„μ ˆν•˜κ³ , 이λ₯Ό μ •μˆ˜(ID)둜 λ³€ν™˜ν•˜λŠ” μ „λž΅μ  μ „μ²˜λ¦¬ κ³Όμ •. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** μ–΄νœ˜ μ‚¬μ „μ˜ 크기와 정보 손싀 μ‚¬μ΄μ˜ κ· ν˜•μ„ λ§žμΆ”μ–΄, 미등둝 단어(OOV) 문제λ₯Ό ν•΄κ²°ν•˜κ³  λ¬Έλ§₯ νŒŒμ•… λŠ₯λ ₯을 κ·ΉλŒ€ν™”ν•˜λŠ” λΆ„μ ˆ νŒ¨ν„΄. - **μ£Όμš” μ „λž΅:** - **Word-based:** 단어 λ‹¨μœ„λ‘œ λΆ„μ ˆ. μ–΄νœ˜ 사전이 λΉ„λŒ€ν•΄μ§€κ³  μƒˆλ‘œμš΄ 단어에 취약함. - **Character-based:** κΈ€μž λ‹¨μœ„λ‘œ λΆ„μ ˆ. 정보 손싀은 μ—†μœΌλ‚˜ μ‹œν€€μŠ€κ°€ λ„ˆλ¬΄ 길어짐. - **Subword-based:** 단어λ₯Ό 더 μž‘μ€ 쑰각으둜 λ‚˜λˆ”. ν˜„λŒ€ LLM의 ν‘œμ€€ (예: BPE, WordPiece, SentencePiece). - **Byte-Pair Encoding (BPE):** 자주 λ“±μž₯ν•˜λŠ” λ¬Έμžμ—΄ 쑰합을 ν•˜λ‚˜μ˜ ν† ν°μœΌλ‘œ λ³‘ν•©ν•˜μ—¬ 효율적인 사전을 ꡬ좕. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λ‹¨μˆœν•œ 띄어쓰기 기반의 ν˜•νƒœμ†Œ λΆ„μ„μ—μ„œ, μ΅œκ·Όμ—λŠ” 언어에 상관없이 λ°”μ΄νŠΈ μˆ˜μ€€μ—μ„œ μž‘λ™ν•˜λŠ” λ‹€κ΅­μ–΄ λŒ€μ‘ ν† ν¬λ‚˜μ΄μ €λ‘œ λ°œμ „. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” λ‹€κ΅­μ–΄ μœ„ν‚€ λ¬Έμ„œμ˜ μΌκ΄€λœ 처리λ₯Ό μœ„ν•΄ SentencePiece와 같은 μ–Έμ–΄ 독립적 ν† ν¬λ‚˜μ΄μ§• μ „λž΅μ„ 채택함. ## πŸ”— 지식 μ—°κ²° (Graph) - NLP, Word-Embeddings, [[Transformer-Architecture]], [[LLM]] - **Raw Source:** 10_Wiki/Topics/AI/Tokenization-Strategies.md