--- id: wiki-2026-0508-stem-analysis title: Stem Analysis category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [P-Reinforce-AUTO-STEA-001] duplicate_of: none source_trust_level: A confidence_score: 0.9 tags: [auto-reinforced, stem-Analysis, Text-Mining, linguistic, Normalization, Search-Efficiency] raw_sources: [] last_reinforced: 2026-04-20 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) --- # [[Stem-Analysis|Stem-Analysis]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ‹¨μ–΄μ˜ 뿌리 μ°ΎκΈ°: 'Running, Ran, Runs' 같은 λ‹€μ–‘ν•œ λ³€ν˜•λ“€μ„ 'Run'μ΄λΌλŠ” ν•˜λ‚˜μ˜ μ›ν˜•μœΌλ‘œ κΉŽμ•„λ‚΄μ–΄, 컴퓨터가 같은 의미λ₯Ό κ°€μ§„ λ‹¨μ–΄λ“€μ˜ 집합을 효율적으둜 λ¬Άκ³  κ²€μƒ‰ν•˜κ²Œ λ•λŠ” 언어적 λ‹€μ΄μ–΄νŠΈ." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) μ–΄κ°„ 뢄석(Stem-Analysis) ν˜Ήμ€ μŠ€ν…Œλ°μ€ λ‹¨μ–΄μ˜ 접미사λ₯Ό μ œκ±°ν•˜μ—¬ ν˜•νƒœλ‘ μ  어간을 μΆ”μΆœν•˜λŠ” μžμ—°μ–΄ 처리(NLP) κΈ°λ²•μž…λ‹ˆλ‹€. 1. **κ°€μ„±λΉ„ 효과**: * **Dimensionality Reduction**: λΉ„μŠ·ν•œ 단어듀을 ν•˜λ‚˜λ‘œ 합쳐 전체 단어μž₯ 크기λ₯Ό μ€„μž„. (Efficiency와 μ—°κ²°) * **Recall [[Optimization|Optimization]]**: μ‚¬μš©μžκ°€ '곡뢀'라고 검색해도 'κ³΅λΆ€ν•˜λ‹€, κ³΅λΆ€ν–ˆλ˜'이 검색 결과에 걸리게 함. (Search와 μ—°κ²°) 2. **단점 (Over-stemming)**: * λ„ˆλ¬΄ 많이 κΉŽμ•„μ„œ μ•„μ˜ˆ λ‹€λ₯Έ 단어가 λ˜μ–΄λ²„λ¦΄ μœ„ν—˜ 쑴재. (예: 'University'λ₯Ό 'Universe'둜 깎음). 이λ₯Ό λ³΄μ™„ν•˜λŠ” 것이 ν‘œμ œμ–΄ μΆ”μΆœ(Lemmatization). 3. **μ™œ μ€‘μš”ν•œκ°€?**: * λ‚ κ²ƒμ˜ μ–Έμ–΄λŠ” λ„ˆλ¬΄λ‚˜ λ³€ν™”λ¬΄μŒν•œλ°, μ–΄κ°„ 뢄석은 κ·Έ 속에 μˆ¨μ€ '쀑심 의미'λ₯Ό λΉ λ₯΄κ²Œ λ½‘μ•„λ‚΄λŠ” μ €λΉ„μš© 고효율의 ν•„μˆ˜ μ „μ²˜λ¦¬ 단계이기 λ•Œλ¬Έμž„. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” κ·œμΉ™ 기반(Porter Stemmer λ“±)의 ν•˜λ“œμ½”λ”© 정책이 ν•„μˆ˜μ˜€μœΌλ‚˜, ν˜„λŒ€ 정책은 λ”₯λŸ¬λ‹ 기반의 μž„λ² λ”© 정책이 λ‹¨μ–΄μ˜ μ›ν˜• 정책을 '의미 벑터 μ •μ±…' μ•ˆμ— 은연쀑에 ν¬ν•¨ν•˜κ³  μžˆμ–΄ μŠ€ν…Œλ°μ˜ 단계 정책이 μƒλž΅λ˜κΈ°λ„ 함(RL Update). ([[Representation-Learning|Representation-Learning]]와 μ—°κ²°) - **μ •μ±… λ³€ν™”(RL Update)**: ν•œκ΅­μ–΄μ™€ 같은 ꡐ착어 μ •μ±…μ—μ„œλŠ” λ‹¨μˆœνžˆ λ’€λ₯Ό κΉŽλŠ” μ •μ±…λ§ŒμœΌλ‘œλŠ” ν•œκ³„ 정책이 μžˆμ–΄, ν˜•νƒœμ†Œ 뢄석(Morpho[[Logic|Logic]]al Analysis) 정책이 μŠ€ν…Œλ°μ˜ μ—­ν•  정책을 λŒ€μ‹ ν•˜κ³  있음. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Search|Search]], [[Efficiency|Efficiency]], [[Representation-Learning|Representation-Learning]], [[Scripts|Scripts]], [[Analysis|Analysis]] - **Modern Tech/Tools**: NLTK (Porter, Snowball), SpaCy, KoNLPy (Mekkaja, Komoran). --- ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A |