Files
2nd/10_Wiki/Topics_Blog/Stem-Analysis.md
T

2.4 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
P-REINFORCE-AUTO-STEA-001 10_Wiki/💡 Topics/AI 0.90
auto-reinforced
stem-analysis
text-mining
linguistic
normalization
search-efficiency
2026-04-20

Stem-Analysis

📌 한 줄 통찰 (The Karpathy Summary)

"단어의 뿌리 찾기: 'Running, Ran, Runs' 같은 다양한 변형들을 'Run'이라는 하나의 원형으로 깎아내어, 컴퓨터가 같은 의미를 가진 단어들의 집합을 효율적으로 묶고 검색하게 돕는 언어적 다이어트."

📖 구조화된 지식 (Synthesized Content)

어간 분석(Stem-Analysis) 혹은 스테밍은 단어의 접미사를 제거하여 형태론적 어간을 추출하는 자연어 처리(NLP) 기법입니다.

  1. 가성비 효과:
    • Dimensionality Reduction: 비슷한 단어들을 하나로 합쳐 전체 단어장 크기를 줄임. (Efficiency와 연결)
    • Recall Optimization: 사용자가 '공부'라고 검색해도 '공부하다, 공부했던'이 검색 결과에 걸리게 함. (Search와 연결)
  2. 단점 (Over-stemming):
    • 너무 많이 깎아서 아예 다른 단어가 되어버릴 위험 존재. (예: 'University'를 'Universe'로 깎음). 이를 보완하는 것이 표제어 추출(Lemmatization).
  3. 왜 중요한가?:
    • 날것의 언어는 너무나 변화무쌍한데, 어간 분석은 그 속에 숨은 '중심 의미'를 빠르게 뽑아내는 저비용 고효율의 필수 전처리 단계이기 때문임.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 과거에는 규칙 기반(Porter Stemmer 등)의 하드코딩 정책이 필수였으나, 현대 정책은 딥러닝 기반의 임베딩 정책이 단어의 원형 정책을 '의미 벡터 정책' 안에 은연중에 포함하고 있어 스테밍의 단계 정책이 생략되기도 함(RL Update). (Representation-Learning와 연결)
  • 정책 변화(RL Update): 한국어와 같은 교착어 정책에서는 단순히 뒤를 깎는 정책만으로는 한계 정책이 있어, 형태소 분석(Morphological Analysis) 정책이 스테밍의 역할 정책을 대신하고 있음.

🔗 지식 연결 (Graph)