--- id: DATA-ONEHOT-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [machine-learning, data-preprocessing, one-hot-encoding, categorical-data, feature-engineering] last_reinforced: 2026-04-26 --- # One-Hot Encoding (원-ν•« 인코딩) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "데이터에 μ‘΄μž¬ν•˜μ§€ μ•ŠλŠ” μΈμœ„μ μΈ μ„œμ—΄(μˆœμ„œ)을 λ°°μ œν•˜κ³ , 각 범주에 였직 단 ν•˜λ‚˜μ˜ λΉ›λ‚˜λŠ” '1'을 λΆ€μ—¬ν•˜μ—¬ ν‰λ“±ν•œ ꡬ뢄을 μ™„μ„±ν•˜λΌ" β€” λ²”μ£Όν˜• 데이터λ₯Ό 컴퓨터가 μ—°μ‚° κ°€λŠ₯ν•œ 이진 벑터(0κ³Ό 1) ν˜•μ‹μœΌλ‘œ λ³€ν™˜ν•˜μ—¬, 데이터 κ°„μ˜ μ˜λ„μΉ˜ μ•Šμ€ μš°μ„ μˆœμœ„ μ™œκ³‘μ„ λ°©μ§€ν•˜λŠ” μ „μ²˜λ¦¬ 기술. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Binary Categorical Representation" β€” 'λΉ¨κ°•=1, νŒŒλž‘=2, 초둝=3' μ‹μœΌλ‘œ 숫자λ₯Ό λ§€κΈΈ λ•Œ λ°œμƒν•˜λŠ” '초둝이 빨강보닀 크닀'λŠ” μˆ˜ν•™μ  였λ₯˜λ₯Ό 막기 μœ„ν•΄, 각 λ²”μ£Όλ₯Ό 독립적인 μ°¨μ›μœΌλ‘œ λΆ„λ¦¬ν•˜κ³  ν•΄λ‹Ήλ˜λŠ” μΉΈμ—λ§Œ 1을 μ±„μš°λŠ” 평등 λ³€ν™˜ νŒ¨ν„΄. - **μ£Όμš” νŠΉμ§•:** - **Equidistance:** λͺ¨λ“  λ²”μ£Ό μ‚¬μ΄μ˜ 거리가 λ™μΌν•˜κ²Œ μœ μ§€λ˜μ–΄ λͺ¨λΈμ˜ 편ν–₯ λ°©μ§€. - **Dimensionality Increase:** λ²”μ£Όμ˜ 수만큼 차원이 λŠ˜μ–΄λ‚˜λ―€λ‘œ, 데이터가 ν¬μ†Œ(Sparse)ν•΄μ§€λŠ” 'μ°¨μ›μ˜ μ €μ£Ό' μœ„ν—˜ 쑴재. - **의의:** μ„ ν˜• νšŒκ·€, λ‘œμ§€μŠ€ν‹± νšŒκ·€ λ“± 거리 기반 λͺ¨λΈμ—μ„œ λ²”μ£Όν˜• 데이터λ₯Ό μ•ˆμ „ν•˜κ²Œ μ²˜λ¦¬ν•˜κΈ° μœ„ν•œ κ°€μž₯ ν‘œμ€€μ μ΄κ³  기초적인 데이터 λ³€ν™˜ 기법. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λͺ¨λ“  λ²”μ£Όν˜• 데이터λ₯Ό 원-ν•« μΈμ½”λ”©μœΌλ‘œ μ²˜λ¦¬ν•˜λ˜ λ°©μ‹μ—μ„œ, μ΄μ œλŠ” λ²”μ£Όκ°€ 수만 개 이상인 경우(단어 λ“±) 차원 ν­λ°œμ„ 막기 μœ„ν•΄ μ €μ°¨μ›μ˜ λ°€μ§‘ λ²‘ν„°λ‘œ μ••μΆ•ν•˜λŠ” 'μž„λ² λ”©(Embedding)' 기술둜 λŒ€μ²΄λ˜λŠ” κ²½ν–₯이 강함. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ—μ΄μ „νŠΈμ˜ μ•‘μ…˜ νƒ€μž…(Search, Code, Ask λ“±) λΆ„λ₯˜ μ‹œ, λͺ…ν™•ν•œ μƒν˜Έ 배타성을 보μž₯ν•˜κΈ° μœ„ν•΄ 원-ν•« 인코딩을 κΈ°λ³Έ 벑터 ν‘œν˜„μ‹μœΌλ‘œ μ‚¬μš©ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Pre-processing-Data-for-AI|Pre-processing-Data-for-AI]], [[Dimensionality-Reduction|Dimensionality-Reduction]], Word-Embeddings-Foundations, Feature-Engineering-Best-Practices - **Raw Source:** 10_Wiki/Topics/AI/One-Hot-Encoding.md