--- id: DATA-PIPE-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [data-engineering, mlops, data-pipeline, orchestration, airflow] last_reinforced: 2026-04-26 --- # Data Pipeline Orchestration (데이터 νŒŒμ΄ν”„λΌμΈ μ˜€μΌ€μŠ€νŠΈλ ˆμ΄μ…˜) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ³΅μž‘ν•˜κ²Œ μ–½νžŒ λ°μ΄ν„°μ˜ 흐름을 μ‘°μœ¨ν•˜κ³  μž₯μ• λ₯Ό μžλ™ λ³΅κ΅¬ν•˜λŠ” μ§€νœ˜μžκ°€ λ˜μ–΄λΌ" β€” 데이터 μˆ˜μ§‘, λ³€ν™˜, ν•™μŠ΅, 배포에 이λ₯΄λŠ” μˆ˜λ§Žμ€ μž‘μ—…(Task)λ“€ κ°„μ˜ μ˜μ‘΄μ„±μ„ κ΄€λ¦¬ν•˜κ³ , μŠ€μΌ€μ€„λ§ 및 λͺ¨λ‹ˆν„°λ§μ„ μžλ™ν™”ν•˜λŠ” μ‹œμŠ€ν…œ μ•„ν‚€ν…μ²˜. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** μ›Œν¬ν”Œλ‘œμš°λ₯Ό 유ν–₯ λΉ„μˆœν™˜ κ·Έλž˜ν”„(DAG)둜 λͺ¨λΈλ§ν•˜μ—¬, νŠΉμ • μž‘μ—…μ˜ μ‹€νŒ¨κ°€ 전체 μ‹œμŠ€ν…œμ— λ―ΈμΉ˜λŠ” 영ν–₯을 μ΅œμ†Œν™”ν•˜κ³  μž¬μ‹œλ„(Retry) 및 μ•ŒλžŒμ„ μžλ™ν™”ν•˜λŠ” 운영 νŒ¨ν„΄. - **핡심 κΈ°λŠ₯:** - **DAG Management:** μž‘μ—… κ°„μ˜ μ„ ν›„ 관계 μ •μ˜. - **Scheduling:** νŠΉμ • μ‹œκ°„μ΄λ‚˜ 이벀트 λ°œμƒ μ‹œ μžλ™μœΌλ‘œ νŒŒμ΄ν”„λΌμΈ μ‹€ν–‰. - **Error Handling:** μž‘μ—… μ‹€νŒ¨ μ‹œ μžλ™ μž¬μ‹œλ„ 및 μƒνƒœ 기둝. - **Observability:** νŒŒμ΄ν”„λΌμΈ 각 λ‹¨κ³„μ˜ 처리 속도와 데이터 ν’ˆμ§ˆ λͺ¨λ‹ˆν„°λ§. - **μ£Όμš” 도ꡬ:** Apache Airflow, Prefect, Dagster, Kubeflow Pipelines. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λ‹¨μˆœν•œ 크둠탭(Crontab) 기반의 슀크립트 μ‹€ν–‰μ—μ„œ, μ½”λ“œλ‘œμ„œμ˜ 인프라(IaC) 관점이 λ„μž…λœ λ³΅μž‘ν•œ μ›Œν¬ν”Œλ‘œμš° 관리 μ—”μ§„μœΌλ‘œ μ§„ν™”. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ™ΈλΆ€ μœ„ν‚€ 데이터 μˆ˜μ§‘ 및 μž„λ² λ”© μ—…λ°μ΄νŠΈ μ‹œ Airflow 기반의 μ˜€μΌ€μŠ€νŠΈλ ˆμ΄μ…˜μ„ ν™œμš©ν•˜μ—¬ 데이터 일관성을 보μž₯함. ## πŸ”— 지식 μ—°κ²° (Graph) - [[MLOps|MLOps]], [[Infrastructure-as-Code-IaC|Infrastructure-as-Code-IaC]], System-Design-for-AI-Scale, [[Data-Flywheel-Effect|Data-Flywheel-Effect]] - **Raw Source:** 10_Wiki/Topics/AI/Data-Pipeline Orchestration.md