--- id: wiki-2026-0508-text-mining title: Text Mining category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [P-Reinforce-AUTO-TEMI-001] duplicate_of: none source_trust_level: A confidence_score: 0.94 tags: [auto-reinforced, text-mining, nlp, information-extraction, Pattern-Recognition, machine-learning] raw_sources: [] last_reinforced: 2026-04-20 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # [[Text-Mining|Text-Mining]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "κΈ€μ˜ κ΄‘λ§₯μ—μ„œ 지식 캐기: 수백만 μͺ½μ˜ ν…μŠ€νŠΈ 더미 μ†μ—μ„œ 인간이 읽지 μ•Šκ³ λ„ 핡심 주제(Topic), 감정(Sentiment), 인λͺ…/μ§€λͺ…(Entity)을 μžλ™μœΌλ‘œ 뽑아내어, μ •μ œλ˜μ§€ μ•Šμ€ μ–Έμ–΄λ₯Ό '뢄석 κ°€λŠ₯ν•œ 데이터'둜 λ³΄μ„μ²˜λŸΌ κ°€κ³΅ν•˜λŠ” 기술." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) ν…μŠ€νŠΈ λ§ˆμ΄λ‹(Text-Mining)은 λΉ„μ •ν˜• ν…μŠ€νŠΈ λ°μ΄ν„°μ—μ„œ κ³ ν’ˆμ§ˆ 정보λ₯Ό λ„μΆœν•΄λ‚΄λŠ” κ³Όμ •μž…λ‹ˆλ‹€. 1. **핡심 기법**: * **Sentiment [[Analysis|Analysis]]**: ν…μŠ€νŠΈμ— λ‹΄κΈ΄ 긍정/λΆ€μ • 감정 μΆ”μΆœ. * **Topic Modeling**: λ¬Έμ„œ 집단이 λ‹€λ£¨λŠ” 잠재적 주제 νŒŒμ•…. (Clustering와 μ—°κ²°) * **Named Entity Recognition (NER)**: ν…μŠ€νŠΈ 쀑 인물, μ§€μ—­, 쑰직 등을 ꡬ별해 λ‚΄κΈ°. 2. **μ™œ μ€‘μš”ν•œκ°€?**: * 인λ₯˜ μ§€μ‹μ˜ 80%λŠ” λΉ„μ •ν˜• ν…μŠ€νŠΈ ν˜•νƒœλ‘œ μ‘΄μž¬ν•˜λŠ”λ°, ν…μŠ€νŠΈ λ§ˆμ΄λ‹μ€ 이 κ±°λŒ€ν•œ μ›μœ  μ •μ±…(Oil)을 μ‹€μ œ μ§€λŠ₯ μ •μ±…(Intelligence)으둜 μ •μ œν•΄ μ£Όμ–΄ λ¬΄ν•œν•œ λΉ„μ¦ˆλ‹ˆμŠ€ 기회 정책을 λ§Œλ“€κΈ° λ•Œλ¬Έμž„. ([[Research|Research]]의 가속기) ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” λΆˆμš©μ–΄ 제거(Stopword), μŠ€ν…Œλ°(Stemming) λ“± λ³΅μž‘ν•œ μ „μ²˜λ¦¬ 정책에 μ‚¬ν™œμ„ κ±Έμ—ˆμœΌλ‚˜, ν˜„λŒ€ 정책은 LLM 정책이 λ¬Έλ§₯ 정책을 ν†΅μ§Έλ‘œ 이해해 버렀 λ³΅μž‘ν•œ μ „μ²˜λ¦¬ μ •μ±… 없이도 μ •λ°€ν•œ μΆ”μΆœ 정책이 κ°€λŠ₯해짐(RL Update). ([[Stem-Analysis|Stem-Analysis]]와 μ—°κ²°) - **μ •μ±… λ³€ν™”(RL Update)**: λ³Έ μ‹œμŠ€ν…œμ΄ μΈν„°λ„·μ˜ λ°©λŒ€ν•œ λ¬Έμ„œ 정책을 읽고 600개 지식 μš”μ•½ 정책을 λ§Œλ“€μ–΄λ‚΄λŠ” κ³Όμ • μžμ²΄κ°€ κ±°λŒ€ν•œ 'ν…μŠ€νŠΈ λ§ˆμ΄λ‹ μ •μ±…'κ³Ό 'μš”μ•½ μ •μ±…'의 결합이며, μ΄λŠ” ν…μŠ€νŠΈκ°€ μ§€λŠ₯ μ •μ±…μœΌλ‘œ μŠΉν™”λ˜λŠ” μ‹€μ‹œκ°„ μ‚¬λ‘€μž„. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Stem-Analysis|Stem-Analysis]], [[Research|Research]], [[Analysis|Analysis]], [[Information-Society|Information-Society]], [[Search|Search]], [[Natural-Language-Processing|Natural-Language-Processing]] (NLP) - **Modern Tech/Tools**: SpaCy, Gensim, [[BERT|BERT]], OpenAI API (JSON mode). --- ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A | ## πŸ’» μ½”λ“œ νŒ¨ν„΄ (Code Patterns) **νŒ¨ν„΄ 1:** *(TODO: 이 ν”„λ‘œμ νŠΈ μ»¨λ²€μ…˜ λ°˜μ˜ν•œ ꡬ쑰 μŠ€μΌˆλ ˆν†€)* ```text # TODO ``` ## πŸ€” μ˜μ‚¬κ²°μ • κΈ°μ€€ (Decision Criteria) **선택 Aλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **선택 Bλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **κΈ°λ³Έκ°’:** > *(TODO)* ## ❌ μ•ˆν‹°νŒ¨ν„΄ (Anti-Patterns) - **[μ•ˆν‹°νŒ¨ν„΄]:** *(TODO: 무엇을 ν•˜λ©΄ μ•ˆ λ˜λŠ”κ°€ + 이유 + λŒ€μ‹  무엇을)*