--- id: DIST-COMP-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [computer-science, [[Distributed-Systems]], [[Parallel-Computing]], infrastructure, [[Scalability]]] last_reinforced: 2026-04-26 --- # Distributed Computing (λΆ„μ‚° μ»΄ν“¨νŒ…) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "ν•œ λŒ€μ˜ κ±°λŒ€ν•œ 컴퓨터 λŒ€μ‹ , 수만 λŒ€μ˜ μž‘μ€ 컴퓨터가 ν•˜λ‚˜μ˜ λͺ©ν‘œλ₯Ό μœ„ν•΄ ν˜‘λ ₯ν•˜κ²Œ ν•˜λΌ" β€” λ„€νŠΈμ›Œν¬λ‘œ μ—°κ²°λœ μ—¬λŸ¬ λŒ€μ˜ 컴퓨터 μžμ›μ„ ν™œμš©ν•˜μ—¬, 단일 μ‹œμŠ€ν…œμœΌλ‘œλŠ” 처리 λΆˆκ°€λŠ₯ν•œ λŒ€κ·œλͺ¨ μ—°μ‚°μ΄λ‚˜ 데이터λ₯Ό λ³‘λ ¬μ μœΌλ‘œ μ²˜λ¦¬ν•˜λŠ” 기술 체계. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** κ±°λŒ€ν•œ 문제λ₯Ό μž‘μ€ 쑰각으둜 λ‚˜λˆ„μ–΄ λΆ„μ‚°λœ λ…Έλ“œμ— ν• λ‹Ήν•˜κ³ , 각 λ…Έλ“œμ˜ 결과물을 λ‹€μ‹œ 톡합(Aggregation)ν•˜μ—¬ μ΅œμ’… 해닡을 λ„μΆœν•˜λŠ” λΆ„ν•  정볡(Divide and Conquer) νŒ¨ν„΄. - **핡심 μš”μ†Œ:** - **Parallelism:** 데이터 병렬화(Data Parallel) 및 λͺ¨λΈ 병렬화(Model Parallel)λ₯Ό ν†΅ν•œ ν•™μŠ΅ 속도 ν–₯상. - **Concurrency Control:** μ—¬λŸ¬ λ…Έλ“œκ°€ λ™μ‹œμ— 데이터에 μ ‘κ·Όν•  λ•Œ μ •ν•©μ„± μœ μ§€. - **Fault Tolerance:** 일뢀 λ…Έλ“œμ— μž₯μ• κ°€ 생겨도 전체 μ‹œμŠ€ν…œμ΄ μ€‘λ‹¨λ˜μ§€ μ•Šλ„λ‘ 섀계 (CAP 정리 μ°Έκ³ ). - **Communication Overhead:** λ…Έλ“œ κ°„ 데이터λ₯Ό μ£Όκ³ λ°›λŠ” 톡신 λΉ„μš©μ„ μ΅œμ†Œν™”ν•˜λŠ” 것이 μ„±λŠ₯의 핡심. - **μ£Όμš” ν”„λ ˆμž„μ›Œν¬:** Apache Spark, Ray, Horovod, Kubernetes. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λ‹¨μˆœν•œ μ„œλ²„-ν΄λΌμ΄μ–ΈνŠΈ κ΅¬μ‘°μ—μ„œ, 수만 개의 GPUκ°€ κΈ΄λ°€ν•˜κ²Œ λ™κΈ°ν™”λ˜μ–΄ κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€λŠ” μ΄ˆκ±°λŒ€ λΆ„μ‚° μ»΄ν“¨νŒ… μ‹œλŒ€λ‘œ μ§„ν™”. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” ν–₯ν›„ 수쑰 개의 지식 λ…Έλ“œλ₯Ό μ²˜λ¦¬ν•˜κΈ° μœ„ν•΄ Ray와 같은 μ΅œμ‹  λΆ„μ‚° ν”„λ ˆμž„μ›Œν¬λ₯Ό 기반으둜 지식 κ°€λ“œλ‹ μ—μ΄μ „νŠΈμ˜ μ—°μ‚° 인프라λ₯Ό ν™•μž₯ν•  κ³„νšμž„. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Parallel-Computing]], [[CAP-Theorem]],[[ system]]-Design-for-AI-Scale, [[GPU-Architecture]] - **Raw Source:** 10_Wiki/Topics/AI/Distributed-Computing.md