2nd/10_Wiki/Topics/AI/System-Design for AI Scale.md

---
id: SYS-DESIGN-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [system-design, scalability, ai-infrastructure, distributed-systems, mlops]
last_reinforced: 2026-04-26
---

# System Design for AI Scale (AI 스케일을 위한 시스템 디자인)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "모델이 커져도 무너지지 않는 견고한 지능의 고속도로를 닦아라" — 수조 개의 파라미터와 페타바이트급 데이터를 다루는 대규모 AI 서비스의 가용성, 확장성, 지연 시간 최적화를 위한 아키텍처 설계.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 연산 집약적인 AI 추론과 학습 과정을 분산 처리하고, 병목 현상(I/O, Network)을 제거하여 시스템 전체의 효율을 극대화하는 고성능 시스템 설계 패턴.
- **핵심 요소:**
    - **Load Balancing for AI:** GPU 자원의 부하를 분산하고 최적의 추론 서버로 요청 할당.
    - **Model Serving & Optimization:** 양자화(Quantization), 가지치기(Pruning)를 통해 모델 크기를 줄이고 추론 속도 개선.
    - **Vector Database Scaling:** 대규모 임베딩 데이터의 고속 검색을 위한 샤딩(Sharding)과 인덱싱 전략.
    - **Data Pipeline Efficiency:** 데이터 학습 시 스토리지 병목을 방지하기 위한 분산 파일 시스템 활용.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 웹 서비스 위주의 전통적인 시스템 디자인에서, 모델의 크기와 연산 비용이 지배적인 '컴퓨팅 집약적' 디자인으로 패러다임 전환.
- **정책 변화:** Antigravity 프로젝트는 향후 수천 명의 동시 사용자를 수용하기 위해, 서버리스 추론 엔진과 분산형 벡터 DB 구조를 결합한 확장 가능한 아키텍처를 로드맵에 반영함.

## 🔗 지식 연결 (Graph)
- [[Infrastructure-as-Code-IaC]], [[Parallel-Computing]], Vector-Database, [[MLOps]]
- **Raw Source:** 10_Wiki/Topics/AI/System-Design for AI Scale.md