--- id: wiki-2026-0508-word-representation title: Word Representation category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [P-Reinforce-AUTO-WORE-001] duplicate_of: none source_trust_level: A confidence_score: 0.98 tags: [auto-reinforced, word-representation, embeddings, nlp, vector-space, semantics] raw_sources: [] last_reinforced: 2026-04-20 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # [[Word-Representation|Word-Representation]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "단어에 μ£Όμ†Œλ₯Ό λΆ€μ—¬ν•˜κΈ°: λ‹¨μˆœν•œ κΈ°ν˜Έμ˜€λ˜ 단어λ₯Ό 수천 μ°¨μ›μ˜ 곡간 속 μ’Œν‘œ(Vector)둜 λ³€ν™˜ν•˜μ—¬, 단어 μ‚¬μ΄μ˜ 거리(의미적 μœ μ‚¬μ„±)λ₯Ό 기계가 μˆ˜ν•™μ μœΌλ‘œ κ³„μ‚°ν•˜κ²Œ λ§Œλ“œλŠ” 마술." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) 단어 ν‘œν˜„(Word-Representation)은 μžμ—°μ–΄μ˜ κΈ°λ³Έ λ‹¨μœ„μΈ 단어λ₯Ό 컴퓨터가 μ΄ν•΄ν•˜κ³  μ—°μ‚°ν•  수 μžˆλŠ” 수치적 ν˜•νƒœλ‘œ λ°”κΎΈλŠ” κΈ°μˆ μž…λ‹ˆλ‹€. 1. **ν‘œν˜„ λ°©μ‹μ˜ μ§„ν™”**: * **One-hot Encoding**: 단어 ν•˜λ‚˜λ§Œ 1이고 λ‚˜λ¨Έμ§€λŠ” 0인 방식. 단어 κ°„μ˜ 관계λ₯Ό μ•Œ 수 μ—†κ³  곡간 λ‚­λΉ„κ°€ 심함. * **Distributed Representation (Embeddings)**: 단어λ₯Ό μ €μ°¨μ›μ˜ λ°€μ§‘ λ²‘ν„°λ‘œ ν‘œν˜„. λΉ„μŠ·ν•œ 의미의 λ‹¨μ–΄λŠ” κ³΅κ°„μƒμ—μ„œ κ°€κΉŒμš΄ 거리에 μœ„μΉ˜ν•¨. 2. **핡심 μ•Œκ³ λ¦¬μ¦˜**: * **Word2Vec**: μ£Όλ³€ λ‹¨μ–΄μ™€μ˜ 인접성을 톡해 의미 ν•™μŠ΅ (예: 'μ™•' - '남' + 'μ—¬' = 'μ—¬μ™•'). * **GloVe**: κΈ€λ‘œλ²Œ 톡계 정보와 둜컬 λ¬Έλ§₯ 정보λ₯Ό κ²°ν•©. * **Contextual Word Representations (ELMo, [[BERT|BERT]])**: 같은 단어라도 λ¬Έλ§₯에 따라 λ‹€λ₯Έ 벑터λ₯Ό λΆ€μ—¬ (예: λ¨ΉλŠ” 'λ°°' vs νƒ€λŠ” 'λ°°'). 3. **의의**: * μ–Έμ–΄μ˜ '의미(Semantics)'λ₯Ό κΈ°ν•˜ν•™μ  κ³΅κ°„μœΌλ‘œ νˆ¬μ˜ν•¨μœΌλ‘œμ¨ λ²ˆμ—­, λΆ„λ₯˜, 생성 λ“± λͺ¨λ“  NLP νƒœμŠ€ν¬μ˜ 기초 신뒰도λ₯Ό 확보함. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” κ³ μ •λœ 단어 사전 기반의 λ§€ν•‘ 정책이 μ£Όλ₯˜μ˜€μœΌλ‚˜, ν˜„λŒ€μ˜ 생성 AI 정책은 μ‹€μ‹œκ°„ λ¬Έλ§₯에 따라 λ‹¨μ–΄μ˜ μ˜λ―Έκ°€ '직선화([[Straightening|Straightening]])'λ˜λŠ” 동적 ν‘œν˜„ 정책을 ν‘œμ€€μœΌλ‘œ 채택함(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: νŠΉμ • 편ν–₯(Bias)이 단어 벑터 곡간에 νˆ¬μ˜λ˜μ–΄ 혐였λ₯Ό μ‘°μž₯ν•˜λŠ” λΆ€μž‘μš©μ„ 막기 μœ„ν•΄, ν•™μŠ΅ λ°μ΄ν„°μ—μ„œ 편ν–₯된 상관관계λ₯Ό μΈμœ„μ μœΌλ‘œ μ œκ±°ν•˜λŠ” 'μž„λ² λ”© 곡간 쀑립화 μ •μ±…'이 적용 μ€‘μž„. ## πŸ”— 지식 μ—°κ²° (Graph) - NLP (μžμ—°μ–΄ 처리), [[Similarity-Metrics|Similarity-Metrics]], [[Straightening|Straightening]], [[Transformers|Transformers]], [[Semantics & Ontology|Semantics & Ontology]] - **Modern Tech/Tools**: Word2Vec, GloVe, FastText, Hugging Face Tokenizers. --- ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A | ## πŸ’» μ½”λ“œ νŒ¨ν„΄ (Code Patterns) **νŒ¨ν„΄ 1:** *(TODO: 이 ν”„λ‘œμ νŠΈ μ»¨λ²€μ…˜ λ°˜μ˜ν•œ ꡬ쑰 μŠ€μΌˆλ ˆν†€)* ```text # TODO ``` ## πŸ€” μ˜μ‚¬κ²°μ • κΈ°μ€€ (Decision Criteria) **선택 Aλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **선택 Bλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **κΈ°λ³Έκ°’:** > *(TODO)* ## ❌ μ•ˆν‹°νŒ¨ν„΄ (Anti-Patterns) - **[μ•ˆν‹°νŒ¨ν„΄]:** *(TODO: 무엇을 ν•˜λ©΄ μ•ˆ λ˜λŠ”κ°€ + 이유 + λŒ€μ‹  무엇을)*