--- id: DATA-SPARSE-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [data-science, machine-learning, sparse-data, missing-values, matrix-compression, recommendation-systems, feature-engineering] last_reinforced: 2026-04-26 --- # Sparse Data Handling (ν¬μ†Œ 데이터 처리) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ°μ΄ν„°μ˜ 빈 곡간(0)을 물리적으둜 μ œκ±°ν•˜μ—¬ μžμ›μ„ 아끼고, λ…Όλ¦¬μ μœΌλ‘œλŠ” κ·Έ 결핍 속에 μˆ¨κ²¨μ§„ 잠재적 관계λ₯Ό μΆ”λ‘ ν•˜μ—¬ μ§€μ‹μ˜ 밀도λ₯Ό 높여라" β€” λŒ€λΆ€λΆ„μ˜ 값이 μœ νš¨ν•˜μ§€ μ•Šκ±°λ‚˜ 0인 고차원 데이터λ₯Ό λ©”λͺ¨λ¦¬ 효율적이고 μ„±λŠ₯ μ§€ν–₯적으둜 μ²˜λ¦¬ν•˜λŠ” 기법. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Sparse Representation and Latent Completion" β€” 0이 μ•„λ‹Œ μœ νš¨ν•œ κ°’μ˜ μœ„μΉ˜μ™€ κ°’λ§Œμ„ κΈ°λ‘ν•˜μ—¬(CSR, CSC ν˜•μ‹) μ—°μ‚° 속도λ₯Ό 높이고, ν–‰λ ¬ λΆ„ν•΄(Matrix Factorization) 등을 톡해 λΉ„μ–΄ μžˆλŠ” κ°’μ˜ κ°€λŠ₯성을 μ˜ˆμΈ‘ν•˜μ—¬ μ±„μš°λŠ” νŒ¨ν„΄. - **μ£Όμš” μ „λž΅:** - **Compression:** Sparse Matrix ν˜•μ‹μ„ μ‚¬μš©ν•΄ λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰ 90% 이상 절감. - **Dimensionality Reduction:** SVD 등을 톡해 핡심 μ •λ³΄λ§Œ 남기고 차원 μΆ•μ†Œ. - **Imputation:** 평균, 쀑앙값 λ˜λŠ” νšŒκ·€ λͺ¨λΈμ„ μ‚¬μš©ν•΄ 결츑치 보좩. - **Embedding:** ν¬μ†Œν•œ 원-ν•« 벑터λ₯Ό λ°€μ§‘λœ 저차원 λ²‘ν„°λ‘œ λ³€ν™˜ (Word2Vec λ“±). - **의의:** μΆ”μ²œ μ‹œμŠ€ν…œ, μžμ—°μ–΄ 처리, μœ μ „μ²΄ 뢄석 λ“± λ°μ΄ν„°μ˜ 차원은 κ·Ήλ‹¨μ μœΌλ‘œ λ†’μ§€λ§Œ 유효 μ •λ³΄λŠ” 적은 ν˜„λŒ€ 빅데이터 λΆ„μ•Όμ˜ ν•„μˆ˜μ μΈ 곡학적 생쑴 μ „λž΅. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λ‹¨μˆœνžˆ 0을 μ±„μš°λŠ” 것이 λͺ©ν‘œμ˜€λ˜ 과거와 달리, μ΄μ œλŠ” 0(ν˜Ήμ€ κ²°μΈ‘) μžμ²΄κ°€ 'μ‚¬μš©μžκ°€ 관심 μ—†μŒ'μ΄λΌλŠ” μ€‘μš”ν•œ 정보(Implicit Feedback)λ₯Ό λ‹΄κ³  μžˆλ‹€λŠ” 사싀을 λͺ¨λΈ 섀계에 적극 λ°˜μ˜ν•˜λŠ” μΆ”μ„Έμž„. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” λ¬Έμ„œ κ°„μ˜ ν‚€μ›Œλ“œ ν–‰λ ¬μ΄λ‚˜ μ‚¬μš©μž 질의 이λ ₯을 뢄석할 λ•Œ, μ—°μ‚° 병λͺ©μ„ λ°©μ§€ν•˜κΈ° μœ„ν•΄ ν¬μ†Œ ν–‰λ ¬ μ—°μ‚° μ΅œμ ν™” 라이브러리λ₯Ό κΈ°λ³Έ μŠ€νƒμœΌλ‘œ ν™œμš©ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Singular-Value-Decomposition|Singular-Value-Decomposition]], [[Recommendation-Systems|Recommendation-Systems]], [[Pre-processing-Data-for-AI|Pre-processing-Data-for-AI]], [[Representation-Learning|Representation-Learning]] - **Raw Source:** 10_Wiki/Topics/AI/Sparse-Data-Handling.md