bluemsi/2nd

Files

T

Antigravity Agent 6445fcc05b docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

2026-05-02 09:18:34 +09:00

2.4 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AUTO-STEA-001

10_Wiki/💡 Topics/AI

0.90

auto-reinforced

stem-analysis

text-mining

linguistic

normalization

search-efficiency

2026-04-20

Stem-Analysis

📌 한 줄 통찰 (The Karpathy Summary)

"단어의 뿌리 찾기: 'Running, Ran, Runs' 같은 다양한 변형들을 'Run'이라는 하나의 원형으로 깎아내어, 컴퓨터가 같은 의미를 가진 단어들의 집합을 효율적으로 묶고 검색하게 돕는 언어적 다이어트."

📖 구조화된 지식 (Synthesized Content)

어간 분석(Stem-Analysis) 혹은 스테밍은 단어의 접미사를 제거하여 형태론적 어간을 추출하는 자연어 처리(NLP) 기법입니다.

가성비 효과:
- Dimensionality Reduction: 비슷한 단어들을 하나로 합쳐 전체 단어장 크기를 줄임. (Efficiency와 연결)
- Recall Optimization: 사용자가 '공부'라고 검색해도 '공부하다, 공부했던'이 검색 결과에 걸리게 함. (Search와 연결)
단점 (Over-stemming):
- 너무 많이 깎아서 아예 다른 단어가 되어버릴 위험 존재. (예: 'University'를 'Universe'로 깎음). 이를 보완하는 것이 표제어 추출(Lemmatization).
왜 중요한가?:
- 날것의 언어는 너무나 변화무쌍한데, 어간 분석은 그 속에 숨은 '중심 의미'를 빠르게 뽑아내는 저비용 고효율의 필수 전처리 단계이기 때문임.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 과거에는 규칙 기반(Porter Stemmer 등)의 하드코딩 정책이 필수였으나, 현대 정책은 딥러닝 기반의 임베딩 정책이 단어의 원형 정책을 '의미 벡터 정책' 안에 은연중에 포함하고 있어 스테밍의 단계 정책이 생략되기도 함(RL Update). (Representation-Learning와 연결)
정책 변화(RL Update): 한국어와 같은 교착어 정책에서는 단순히 뒤를 깎는 정책만으로는 한계 정책이 있어, 형태소 분석(Morphological Analysis) 정책이 스테밍의 역할 정책을 대신하고 있음.

🔗 지식 연결 (Graph)

Search, Efficiency, Representation-Learning, Scripts, Analysis
Modern Tech/Tools: NLTK (Porter, Snowball), SpaCy, KoNLPy (Mekkaja, Komoran).