--- id: [[P-Reinforce|P-Reinforce]]-AUTO-STEA-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.90 tags: [auto-reinforced, stem-[[Analysis|Analysis]], [[Text-Mining|Text-Mining]], linguistic, [[Normalization|Normalization]], [[Search|Search]]-[[Efficiency|Efficiency]]] last_reinforced: 2026-04-20 --- # [[Stem-Analysis|Stem-Analysis]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ‹¨μ–΄μ˜ 뿌리 μ°ΎκΈ°: 'Running, Ran, Runs' 같은 λ‹€μ–‘ν•œ λ³€ν˜•λ“€μ„ 'Run'μ΄λΌλŠ” ν•˜λ‚˜μ˜ μ›ν˜•μœΌλ‘œ κΉŽμ•„λ‚΄μ–΄, 컴퓨터가 같은 의미λ₯Ό κ°€μ§„ λ‹¨μ–΄λ“€μ˜ 집합을 효율적으둜 λ¬Άκ³  κ²€μƒ‰ν•˜κ²Œ λ•λŠ” 언어적 λ‹€μ΄μ–΄νŠΈ." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) μ–΄κ°„ 뢄석(Stem-Analysis) ν˜Ήμ€ μŠ€ν…Œλ°μ€ λ‹¨μ–΄μ˜ 접미사λ₯Ό μ œκ±°ν•˜μ—¬ ν˜•νƒœλ‘ μ  어간을 μΆ”μΆœν•˜λŠ” μžμ—°μ–΄ 처리(NLP) κΈ°λ²•μž…λ‹ˆλ‹€. 1. **κ°€μ„±λΉ„ 효과**: * **Dimensionality Reduction**: λΉ„μŠ·ν•œ 단어듀을 ν•˜λ‚˜λ‘œ 합쳐 전체 단어μž₯ 크기λ₯Ό μ€„μž„. (Efficiency와 μ—°κ²°) * **Recall [[Optimization|Optimization]]**: μ‚¬μš©μžκ°€ '곡뢀'라고 검색해도 'κ³΅λΆ€ν•˜λ‹€, κ³΅λΆ€ν–ˆλ˜'이 검색 결과에 걸리게 함. (Search와 μ—°κ²°) 2. **단점 (Over-stemming)**: * λ„ˆλ¬΄ 많이 κΉŽμ•„μ„œ μ•„μ˜ˆ λ‹€λ₯Έ 단어가 λ˜μ–΄λ²„λ¦΄ μœ„ν—˜ 쑴재. (예: 'University'λ₯Ό 'Universe'둜 깎음). 이λ₯Ό λ³΄μ™„ν•˜λŠ” 것이 ν‘œμ œμ–΄ μΆ”μΆœ(Lemmatization). 3. **μ™œ μ€‘μš”ν•œκ°€?**: * λ‚ κ²ƒμ˜ μ–Έμ–΄λŠ” λ„ˆλ¬΄λ‚˜ λ³€ν™”λ¬΄μŒν•œλ°, μ–΄κ°„ 뢄석은 κ·Έ 속에 μˆ¨μ€ '쀑심 의미'λ₯Ό λΉ λ₯΄κ²Œ λ½‘μ•„λ‚΄λŠ” μ €λΉ„μš© 고효율의 ν•„μˆ˜ μ „μ²˜λ¦¬ 단계이기 λ•Œλ¬Έμž„. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” κ·œμΉ™ 기반(Porter Stemmer λ“±)의 ν•˜λ“œμ½”λ”© 정책이 ν•„μˆ˜μ˜€μœΌλ‚˜, ν˜„λŒ€ 정책은 λ”₯λŸ¬λ‹ 기반의 μž„λ² λ”© 정책이 λ‹¨μ–΄μ˜ μ›ν˜• 정책을 '의미 벑터 μ •μ±…' μ•ˆμ— 은연쀑에 ν¬ν•¨ν•˜κ³  μžˆμ–΄ μŠ€ν…Œλ°μ˜ 단계 정책이 μƒλž΅λ˜κΈ°λ„ 함(RL Update). ([[Representation-Learning|Representation-Learning]]와 μ—°κ²°) - **μ •μ±… λ³€ν™”(RL Update)**: ν•œκ΅­μ–΄μ™€ 같은 ꡐ착어 μ •μ±…μ—μ„œλŠ” λ‹¨μˆœνžˆ λ’€λ₯Ό κΉŽλŠ” μ •μ±…λ§ŒμœΌλ‘œλŠ” ν•œκ³„ 정책이 μžˆμ–΄, ν˜•νƒœμ†Œ 뢄석(Morpho[[Logic|Logic]]al Analysis) 정책이 μŠ€ν…Œλ°μ˜ μ—­ν•  정책을 λŒ€μ‹ ν•˜κ³  있음. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Search|Search]], [[Efficiency|Efficiency]], [[Representation-Learning|Representation-Learning]], [[Scripts|Scripts]], [[Analysis|Analysis]] - **Modern Tech/Tools**: NLTK (Porter, Snowball), SpaCy, KoNLPy (Mekkaja, Komoran). ---