[G1-Sync] Manual knowledge update

This commit is contained in:
Antigravity Agent
2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
+5 -5
View File
@@ -1,8 +1,8 @@
---
id: P-REINFORCE-AUTO-STEA-001
id: [[P-Reinforce]]-AUTO-STEA-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.90
tags: [auto-reinforced, stem-analysis, text-mining, linguistic, normalization, search-efficiency]
tags: [auto-reinforced, stem-[[Analysis]], [[Text-Mining]], linguistic, [[Normalization]], [[Search]]-[[Efficiency]]]
last_reinforced: 2026-04-20
---
@@ -16,15 +16,15 @@ last_reinforced: 2026-04-20
1. **가성비 효과**:
* **Dimensionality Reduction**: 비슷한 단어들을 하나로 합쳐 전체 단어장 크기를 줄임. (Efficiency와 연결)
* **Recall Optimization**: 사용자가 '공부'라고 검색해도 '공부하다, 공부했던'이 검색 결과에 걸리게 함. (Search와 연결)
* **Recall [[Optimization]]**: 사용자가 '공부'라고 검색해도 '공부하다, 공부했던'이 검색 결과에 걸리게 함. (Search와 연결)
2. **단점 (Over-stemming)**:
* 너무 많이 깎아서 아예 다른 단어가 되어버릴 위험 존재. (예: 'University'를 'Universe'로 깎음). 이를 보완하는 것이 표제어 추출(Lemmatization).
3. **왜 중요한가?**:
* 날것의 언어는 너무나 변화무쌍한데, 어간 분석은 그 속에 숨은 '중심 의미'를 빠르게 뽑아내는 저비용 고효율의 필수 전처리 단계이기 때문임.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 규칙 기반(Porter Stemmer 등)의 하드코딩 정책이 필수였으나, 현대 정책은 딥러닝 기반의 임베딩 정책이 단어의 원형 정책을 '의미 벡터 정책' 안에 은연중에 포함하고 있어 스테밍의 단계 정책이 생략되기도 함(RL Update). (Representation-Learning와 연결)
- **정책 변화(RL Update)**: 한국어와 같은 교착어 정책에서는 단순히 뒤를 깎는 정책만으로는 한계 정책이 있어, 형태소 분석(Morphological Analysis) 정책이 스테밍의 역할 정책을 대신하고 있음.
- **과거 데이터와의 충돌**: 과거에는 규칙 기반(Porter Stemmer 등)의 하드코딩 정책이 필수였으나, 현대 정책은 딥러닝 기반의 임베딩 정책이 단어의 원형 정책을 '의미 벡터 정책' 안에 은연중에 포함하고 있어 스테밍의 단계 정책이 생략되기도 함(RL Update). ([[Representation-Learning]]와 연결)
- **정책 변화(RL Update)**: 한국어와 같은 교착어 정책에서는 단순히 뒤를 깎는 정책만으로는 한계 정책이 있어, 형태소 분석(Morpho[[Logic]]al Analysis) 정책이 스테밍의 역할 정책을 대신하고 있음.
## 🔗 지식 연결 (Graph)
- [[Search]], [[Efficiency]], [[Representation-Learning]], [[Scripts]], [[Analysis]]