f8b21af4be
10_Wiki/Topics 대규모 정리: - 오류 캡처/미완성 stub 문서 227개 제거 - 교차폴더 중복 43클러스터 병합 (63파일 → redirect) - 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건 - 카테고리 MOC 6개 신규 생성 - Graph 섹션 미해결 related-keyword 링크 10,058건 제거 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
121 lines
6.2 KiB
Markdown
121 lines
6.2 KiB
Markdown
---
|
|
id: wiki-2026-0508-001
|
|
title: 데이터 엔지니어링 표준
|
|
category: 10_Wiki/Topics
|
|
status: verified
|
|
canonical_id: self
|
|
aliases: [wiki-2026-0508-001, Data Engineering, Data Warehouse, Data Quality, Governance, Snowflake, Firebase Data Connect, ETL, Data Pipeline, 데이터 엔지니어링]
|
|
duplicate_of: none
|
|
source_trust_level: B
|
|
confidence_score: 1.0
|
|
tags: [Data Engineering, Infrastructure, Cloud, Data Governance, Database, SaaS]
|
|
raw_sources: [Principles-of-Data-Connect.md, Snowflake-Data-Warehousing.md, 데이터 품질 계층 (Data Quality Layer).md, Active Metadata.md, Schema Drift.md]
|
|
last_reinforced: 2026-05-08
|
|
github_commit: pending
|
|
tech_stack:
|
|
language: unspecified
|
|
framework: unspecified
|
|
---
|
|
|
|
# 데이터_엔지니어링_표준
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "데이터의 흐름은 공학이고, 파이프라인은 생명선이다." 원천 데이터의 수집부터 정제, 저장, 그리고 분석에 이르기까지 전 과정의 신뢰성을 확보하고, 데이터 품질 계층(Data Quality Layer)을 통해 AI 에이전트의 판단 근거를 견고히 하는 현대적 데이터 아키텍처 구축 표준.
|
|
|
|
---
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
**추출된 패턴:**
|
|
> '저장과 연산의 분리(Separation of Storage and Compute)' 및 '스키마 우선 설계(Schema-First Design)'를 통해 확장성과 무결성을 동시에 확보한다. 특히 AI 에이전트 환경에서는 데이터의 최신성과 인증 상태를 실시간으로 검증하는 '데이터 품질 계층'이 필수적이다.
|
|
|
|
**세부 내용:**
|
|
- **데이터 엔지니어링 아키텍처:**
|
|
- **Cloud Native Data Warehouse (Snowflake):** 다중 클러스터 공유 데이터 아키텍처를 통해 무한한 확장성을 확보. 데이터 공유(Data Sharing) 기능을 활용하여 복제 없이 실시간 협업 수행.
|
|
- **Hybrid Data Access (Firebase Data Connect):** NoSQL의 민첩성과 SQL(PostgreSQL)의 엄격함을 결합. GraphQL 인터페이스를 통해 복잡한 관계형 데이터를 타입 안전하게 처리.
|
|
- **데이터 품질 및 거버넌스 (Data Quality Layer):**
|
|
- **액티브 메타데이터 (Active Metadata):** 데이터 시스템을 지속적으로 모니터링하여 최신성 및 인증 상태를 에이전트에게 컨텍스트로 제공.
|
|
- **데이터 계약 (Data Contracts):** 스키마 변경(Schema Drift)을 선제적으로 감지하고 차단하여 AI 에이전트의 환각 현상 방지.
|
|
- **데이터 리니지 (Data Lineage):** 컬럼 단위의 계보 추적을 통해 오류 발생 시 원천 소스 식별.
|
|
- **가상 인프라 운영:**
|
|
- **SaaS 중심 운영:** 복잡한 서버 관리 대신 완전 관리형 서비스를 활용하여 '데이터의 가치' 창출에 집중.
|
|
- **MCP 기반 연동:** 활성 메타데이터와 리니지 정보를 모델 컨텍스트 프로토콜(MCP)을 통해 에이전트와 동기화.
|
|
|
|
---
|
|
|
|
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
|
|
**언제 이 지식을 쓰는가:**
|
|
- 대규모 데이터 파이프라인이나 분석 플랫폼(Snowflake 등)을 설계할 때.
|
|
- AI 에이전트가 참조할 데이터의 신뢰성을 보장하기 위한 거버넌스 체계를 구축할 때.
|
|
- 관계형 데이터베이스를 현대적인 GraphQL 환경에서 통합 관리해야 할 때.
|
|
|
|
**언제 이 지식을 쓰면 안 되는가:**
|
|
- 데이터 관계가 매우 단순하고 무결성이 중요하지 않은 소규모 토이 프로젝트.
|
|
|
|
**이 지식을 적용할 때의 권장 절차:**
|
|
1. **스키마 정의:** 모든 데이터 모델링의 시작은 명확한 스키마 정의(GraphQL/SQL)에서 출발.
|
|
2. **저장/연산 분리:** 비용 효율성과 확장성을 고려하여 스토리지와 컴퓨팅 자원을 분리 운영.
|
|
3. **거버넌스 통합:** 데이터 파이프라인 초기 단계에 품질 검증 및 리니지 추적 메커니즘 삽입.
|
|
4. **인증 자동화:** 에이전트가 사용할 데이터 소스에 대한 '인증 상태'를 자동 업데이트.
|
|
|
|
---
|
|
|
|
## ⚖️ 트레이드오프 및 고려사항
|
|
|
|
- **복잡성 vs 제어력:** 완전 관리형 SaaS(Snowflake, Firebase)는 운영 편의성을 제공하지만, 세부적인 성능 튜닝이나 인프라 비용 제어 측면에서 제약이 있을 수 있음.
|
|
- **보안 vs 접근성:** 데이터 거버넌스가 강화될수록 데이터 접근 속도와 사용자 편의성이 저하될 수 있으므로, 'Zero Trust' 기반의 정교한 접근 제어 정책 병행 필요.
|
|
|
|
---
|
|
|
|
## 🧪 검증 상태 (Validation)
|
|
- **정보 상태:** verified
|
|
- **출처 신뢰도:** B
|
|
- **검토 이유:** 해당 없음
|
|
|
|
---
|
|
|
|
## 🧬 중복 검사 (Duplicate Check)
|
|
- **기존 유사 문서:** [[Snowflake-Data-Warehousing]], [[Principles-of-Data-Connect]], [[데이터 품질 계층 (Data Quality Layer)]], [[데이터_엔지니어링_표준|Active Metadata]], [[Schema Drift]] 등
|
|
- **처리 방식:** MERGE
|
|
- **처리 이유:** 파편화되어 있던 데이터 창고 아키텍처, 실시간 데이터 연동 기술, 데이터 거버넌스 및 품질 관리 표준을 하나로 통합하여 '데이터 엔지니어링' 도메인의 단일 진실 공급원(Single Source of Truth)으로 구축함.
|
|
|
|
---
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- **Parent:** [[10_Wiki/Topics]]
|
|
- **Related:** [[백엔드_엔지니어링_및_데이터베이스_설계]], [[보안_및_시스템_신뢰성_표준]], [[데이터_사이언스_및_ML_엔지니어링]]
|
|
- **Redirects:** [[Data-Engineering]], [[Snowflake]]
|
|
|
|
---
|
|
|
|
## 🕓 변경 이력 (Changelog)
|
|
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|
|
|------|-----------|-----------|--------|
|
|
| 2026-05-08 | 데이터 엔지니어링 및 가상 인프라 관련 파편화된 자산 통합 및 v3.0 규격 적용 | CREATE | B |
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
|
|
|
|
- **과거 데이터와의 충돌:** 없음
|
|
- **정책 변화:** 없음
|
|
|
|
## 💻 코드 패턴 (Code Patterns)
|
|
|
|
**패턴 1:** *(TODO: 이 프로젝트 컨벤션 반영한 구조 스켈레톤)*
|
|
|
|
```text
|
|
# TODO
|
|
```
|
|
|
|
## 🤔 의사결정 기준 (Decision Criteria)
|
|
|
|
**선택 A를 써야 할 때:**
|
|
- *(TODO)*
|
|
|
|
**선택 B를 써야 할 때:**
|
|
- *(TODO)*
|
|
|
|
**기본값:**
|
|
> *(TODO)*
|
|
|
|
## ❌ 안티패턴 (Anti-Patterns)
|
|
|
|
- **[안티패턴]:** *(TODO: 무엇을 하면 안 되는가 + 이유 + 대신 무엇을)* |