2nd/10_Wiki/Topics_Rag/MLOps.md

---
id: mlops
title: "MLOps"
category: "AI_and_ML"
status: "draft"
verification_status: "conceptual"
canonical_id: ""
aliases: ["Machine Learning Operations", "머신러닝 운영", "ML 운영 체계", "ML 파이프라인 관리", "기계 학습 운영"]
duplicate_of: ""
source_trust_level: "A"
confidence_score: 0.88
created_at: 2026-06-08
updated_at: 2026-06-08
review_reason: ""
merge_history: []
tags: ["research", "MLOps", "Pipeline", "Automation", "Kubeflow"]
raw_sources: ["RAG 기반 AI 서비스의 신뢰성을 확보하는 방법: 자동화 평가 체계 및 운영 최적화", "[Tech Series] kt cloud AI 검색 증강 생성(RAG) #2 : 데이터 파싱과 전처리 최적화", "1. RAG 파이프라인 기초 아키텍처"]
applied_in: ["Kubeflow Pipelines integration", "MLflow performance tracking", "DVC & Git-LFS versioning"]
github_commit: ""
---

# [[MLOps]]

## 🎯 한 줄 통찰 (One-line insight)
MLOps는 머신러닝 모델을 단순한 개발 대상이 아닌 데이터 기반의 지속적 운영 대상으로 관리하며, 파이프라인 자동화와 버전 제어를 통해 실험의 재현성과 시스템 신뢰성을 확보하는 체계이다 [S217, S340].

## 🧠 핵심 개념 (Core concepts)
- **ML 파이프라인 (Pipeline):** 임베딩 생성이나 모델 업데이트를 독립된 단계(Step)로 구성하여 관리하는 자동화된 워크플로우이다 [S340].
- **모델 추적 및 모니터링 (Tracking & Monitoring):** 프롬프트나 파라미터 변경에 따른 성능 변화를 기록하고 시스템의 건강성을 실시간으로 관찰하는 능력이다 [S221, S336].
- **데이터 및 모델 버전 관리 (Versioning):** 특정 결과물이 어떤 데이터셋과 파이프라인 버전을 통해 도출되었는지 추적할 수 있도록 태깅하고 관리하는 기능이다 [S326].
- **재현성 (Reproducibility):** 동일한 입력과 설정을 통해 언제든 동일한 모델 결과물을 만들어낼 수 있도록 인프라와 코드를 관리하는 속성이다 [S125, S326].

## 🧩 추출된 패턴 (Extracted patterns)
- **Step-based Orchestration Pattern:** Kubeflow를 활용해 임베딩 생성이나 모델 업데이트를 개별 ML 스텝으로 관리하여 데이터 반영과 학습 타이밍을 동기화하는 패턴이다 [S340].
- **Observability Integration Pattern:** Prometheus, Grafana와 같은 도구를 파이프라인에 연결하여 성공/실패 건수 및 리소스 사용량을 실시간 대시보드로 관리하는 패턴이다 [S336].
- **Hybrid Versioning Pattern:** Git-LFS로 대용량 문서를 관리하고, DVC를 연동하여 데이터셋과 파이프라인의 종속성을 관리하는 계층적 버전 관리 패턴이다 [S326].

## 📖 세부 내용 (Details)

### 1. MLOps의 역할과 필요성 [S217, S226]
전통적인 소프트웨어 개발과 달리 머신러닝 시스템은 데이터 변화에 따라 성능이 유동적이다. 따라서 모델을 '블랙박스'로 두지 않고, 정량적 지표를 통해 품질을 지속적으로 측정하는 MLOps 체계가 필수적이다. 이는 시스템의 투명성을 높이고 인적 검수의 한계를 극복하기 위한 운영 관점의 전환이다.

### 2. 주요 기술 스택 및 도구 [S221, S339, S340]
- **Kubeflow Pipelines:** 쿠버네티스 환경에서 ML 워크플로우를 구성하며, 임베딩 생성이나 모델 업데이트를 체계적으로 관리한다.
- **MLflow:** 실험 결과와 프롬프트 변경 이력을 기록하여 모델 성능을 데이터 기반으로 비교 분석할 수 있게 돕는다.
- **DVC (Data Version Control):** 어떤 데이터와 파이프라인 버전으로 임베딩이 생성되었는지 추적하며, 대규모 데이터셋의 버전을 관리한다.
- **Apache Airflow:** 문서 크롤링부터 벡터 DB 반영까지의 다단계 프로세스를 DAG(Directed Acyclic Graph)로 정의하여 오류 시 자동 재시도를 수행한다.

### 3. 운영 및 품질 관리 전략 [S332, S338]
- **배치 및 스트리밍 처리:** 대규모 데이터는 주간/월간 배치로 처리하여 자원 예측 가능성을 높이고, 장애 로그 등은 스트리밍으로 즉시 반영하여 최신성을 유지한다.
- **멱등성(Idempotency) 확보:** 동일한 데이터를 여러 번 처리해도 결과가 일관되게 유지되도록 체크포인트 기반 복구 구조를 마련한다.
- **관찰성(Observability):** 중앙 집중형 로그 관리 시스템(Loki 등)을 통해 처리 지연 및 메모리 이슈를 조기에 발견하고 알림 체계를 구축한다 [S336].

## ⚖️ 모순 및 업데이트 (Contradictions & updates)
- **MLOps vs LLMOps:** 소스에서는 MLOps가 전통적인 머신러닝 운영을 담당한다면, LLMOps는 언어 모델의 확률적 특성과 RAG 검색 품질 관리에 더 집중하는 상위 운영 체계로 진화하고 있다고 설명한다 [S217, S221].
- **자동화의 트레이드오프:** 파이프라인 자동화는 운영 효율을 높이지만, 시스템 복잡도를 증가시켜 디버깅을 어렵게 만들 수 있으므로 '구조화된 로깅'이 병행되어야 한다 [S284, S336].

## 🛠️ 적용 사례 (Applied in summary)
- **Kubeflow 적용:** 데이터 반영과 모델 업데이트 타이밍을 ML 스텝처럼 관리하여 일치시킨 사례가 기술되어 있다 [S340].
- **성능 기록:** MLflow와 W&B(Weights & Biases)를 사용하여 프롬프트 변경에 따른 결과 변화를 데이터 기반으로 분석하는 체계를 구축하였다 [S221].
- **버전 관리 실현:** DVC와 Git-LFS를 결합하여 대규모 문서의 변경 이력과 임베딩 생성 과정을 추적 관리하고 있다 [S326].

## ✅ 검증 상태 및 신뢰도
- **상태:** draft
- **검증 단계:** conceptual (실제 활용되는 기술 스택 기반 설명)
- **출처 신뢰도:** A (kt cloud, 교보DTS 등 인프라 및 운영 전문 조직의 기술 블로그 근거)
- **신뢰 점수:** 0.88
- **중복 검사 결과:** 신규 생성 (New discovery)


## 🔗 관련 문서 링크 (Related document links)

### 상위/유사 개념
#### [아키텍처/기반 기술]
- [[LLMOps]]
  - 연결 이유: LLMOps는 MLOps의 개념을 계승하여 언어 모델에 특화된 운영 체계를 제공함 [S217].
- [[데이터 인덱싱 및 오케스트레이션]]
  - 연결 이유: 자동화된 인덱싱 파이프라인 구축은 MLOps의 핵심 실행 엔진 역할을 함 [S220, S339].

#### [관리 도구]
- [[데이터 버전 관리]]
  - 연결 이유: DVC와 Git-LFS를 통한 데이터 계보 추적은 MLOps의 필수 기능임 [S325, S326].
- [[RAG 아키텍처 및 파이프라인 기초]]
  - 연결 이유: MLOps는 RAG 파이프라인 전체의 안정적 운영을 지원하는 기반 인프라임 [S1, S216].

### 심층 후속 질문 (Deeper Research Questions)
- Kubeflow Pipelines에서 sLLM 기반의 자동 평가 노드를 ML 스텝으로 통합할 때의 최적 리소스 할당 방식은? [S223, S340]
- DVC와 벡터 DB 인덱스 스냅샷 간의 일관성을 보장하기 위한 하이브리드 동기화 알고리즘은 무엇이 있는가? [S125, S326]
- 배치 처리 파이프라인에서 중복 제거(MinHash 등) 과정의 연산 부하가 전체 MLOps Latency에 미치는 영향은? [S323, S332]
- 멱등성이 보장된 재처리 전략에서 '실패한 특정 청크'만 골라내는 부분 재처리 로직의 구현 난이도는? [S338]

### 실무 적용 맥락 (Practical Application Contexts)
- **Implementation:** Apache Airflow 또는 Kubeflow를 사용하여 데이터 유입부터 인덱싱까지의 전 과정을 코드로 정의 [S339, S340].
- **System Design:** 모델 성능 저하 시 즉각 롤백이 가능하도록 이전 버전의 인덱스와 파라미터를 스냅샷 형태로 보관 [S125, S326].
- **Operation / Maintenance:** Prometheus+Grafana를 연동하여 파이프라인 병목 지점을 시각화하고 에러율 기반 알림 설정 [S336, S337].
- **Learning Path:** 파이프라인 자동화 원리 학습 -> DVC를 통한 버전 관리 실습 -> Kubeflow 기반 ML 워크플로우 구축 [S341].

### 인접 주변 주제
- [[DevOps]]
  - 확장 방향: 전통적인 소프트웨어 배포 자동화 기법을 ML 모델 배포에 적용하는 방법론 [S349].

## 🔗 지식 그래프 (Knowledge Graph)
- **상위/루트:** [[RAG 아키텍처 및 파이프라인 기초]]
- **관련 개념:** [[LLMOps]], [[데이터 버전 관리]], [[Kubeflow]], [[파이프라인 자동화]]
- **참조 맥락:** 대규모 AI 시스템의 지속 가능한 운영 및 데이터 정합성 보장을 위한 기술 표준으로 참조.

## 📚 출처 (Sources)
- [S125] 임베딩, 인덱스, 프롬프트의 통합 버전 관리 필요성 (Cloudian)
- [S217] AI 시스템을 개발 대상이 아닌 운영 대상으로 전환하는 관점 (교보DTS)
- [S221] MLflow, W&B 등 핵심 솔루션 스택 (교보DTS)
- [S326] DVC와 Git-LFS를 활용한 데이터 버전 관리 기법 (kt cloud)
- [S336] 관찰성 확보 및 중앙 집중형 로그 관리 (kt cloud)
- [S339] Apache Airflow 기반의 파이프라인 자동화 (kt cloud)
- [S340] Kubeflow Pipelines를 이용한 ML 스텝 관리 (kt cloud)

## 📝 변경 이력 (Change history)
- 2026-06-08: Initial draft generated via Datacollector_MAC P-Reinforce engine.