feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]

This commit is contained in:
2026-05-08 19:52:07 +09:00
parent 9dd3d40662
commit 5ba5a55c78
3984 changed files with 334557 additions and 28839 deletions
@@ -1,36 +1,9 @@
---
id: HARNESS-RES-2026-05-001
title: 데이터 품질 계층 (Data Quality Layer)
category: "10_Wiki/Topics/Infrastructure"
status: verified
confidence_score: 0.95
tags: [harness, data-quality, governance, ai-agent, mcp]
created_at: 2026-05-05
updated_at: 2026-05-08
redirect_to: "[[데이터_엔지니어링_및_가상_인프라_표준]]"
canonical_id: "wiki-2026-0508-001"
---
# 데이터 품질 계층 (Data Quality Layer)
# Redirect
## 📌 한 줄 통찰 (The Karpathy Summary)
> "AI 에이전트의 '쓰레기 입력, 쓰레기 출력(GIGO)' 문제를 해결하는 필터: 오케스트레이션 중심의 에이전트 환경에서 데이터의 최신성, 정합성, 출처를 실시간으로 인증하여 환각 현상을 원천 차단하는 신뢰 인프라 계층."
## 📖 구조화된 지식 (Synthesized Content)
* **구조적 공백과 거버넌스의 필요성:** LangGraph, CrewAI, AutoGen 등 2026년의 주요 에이전트 하네스 프레임워크들은 에이전트가 실행되는 방식(제어 계층)만을 관리하며, 입력되는 데이터의 신뢰성, 최신성, 인증 여부를 검증하는 기능은 제공하지 않는다 [1-5]. AI 거버넌스 연구에 따르면, 흔히 모델의 '환각(Hallucination)'으로 치부되는 문제의 상당수는 실제로는 일관성 없거나 기한이 지난(stale), 혹은 불완전하게 복제된 데이터 소스에서 기인한다 [6, 7]. 맥킨지(McKinsey)의 조사에서도 에이전트형 AI 구현에 소요되는 시간의 80%가 프레임워크 구성이 아닌 데이터 엔지니어링과 거버넌스 작업에 쓰이며, 기업 10곳 중 8곳이 데이터 한계를 확장의 가장 큰 장애물로 지목하고 있다 [6-8].
* **데이터 품질 계층의 필수 구성 요소:** 에이전트 파이프라인의 신뢰성을 확보하기 위해 도입되는 데이터 품질 인프라(예: Atlan)는 에이전트의 컨텍스트 윈도우에 정보가 들어가기 전에 다음과 같은 기능을 제공해야 한다 [9-13].
* **액티브 메타데이터 (Active Metadata):** 데이터 시스템을 지속적으로 모니터링하여 메타데이터의 최신성, 실시간 인증 상태, 스키마 상태를 에이전트에게 구조화된 컨텍스트로 전달한다 [11].
* **데이터 계약 (Data Contracts):** 데이터가 하네스 환경에 유입되기 전 스키마 계약을 강제하여, 에이전트가 변형된 스키마(Schema drift)를 읽고 잘못된 결과를 내기 전에 선제적으로 오류를 차단한다 [11].
* **데이터 리니지 (Data Lineage):** 컬럼(Column) 단위의 데이터 계보를 추적하여 에이전트가 정보의 원천을 확인할 수 있도록 한다. 이를 통해 출력 오류 발생 시 문제의 근본 원인이 모델인지, 프롬프트인지, 원본 데이터인지 명확히 식별할 수 있다 [12].
* **인증 상태 (Certification Status):** 데이터 스튜어드가 데이터를 인증하고, 에이전트가 인증된 데이터만 참조하도록 구성하여 기업 환경에서 발생하는 주요 실패 유형을 제거한다 [12].
* **MCP 서버 (MCP Server):** 이러한 활성 메타데이터, 계약, 리니지 정보를 모델 컨텍스트 프로토콜(MCP)을 통해 쿼리할 수 있도록 노출시켜 다양한 하네스와 연결한다 [13].
## ⚖️ 트레이드오프 및 고려사항
* **사후 모니터링 및 오케스트레이션 도구의 근본적 제약:** 에이전트 프레임워크가 제공하는 오케스트레이션이 아무리 고도화되더라도, 에이전트가 검증되지 않거나 변형된 데이터를 읽는다면 이를 프레임워크 수준에서 보완할 방법이 없다는 치명적인 한계가 존재한다 [14]. AgentOps나 Langfuse와 같은 사후 모니터링(Post-hoc observability) 도구를 활용하더라도, 이는 에이전트가 잘못된 입력을 바탕으로 행동했다는 사후 기록만을 제공할 뿐 원본 소스에서 나쁜 데이터가 유입되는 것을 방지하지는 못한다 [4, 5, 15, 16].
* **인프라 구성의 복잡성과 비용 증가:** 결과적으로 기업이나 개발팀은 에이전트 하네스 도구와는 별개로, Atlan과 같은 거버넌스가 적용된 데이터 기반 구조(Governed data substrate)를 구축해야 하는 추가적인 인프라 부담을 안게 된다 [9, 10, 17, 18]. 특히 규제가 심한 산업 분야에서는 이러한 데이터 인증 인프라가 단순한 선택 사항이 아니라, 규정 준수(Compliance)를 위한 필수적인 감사 추적 요구사항으로 작용하여 에이전트 AI 시스템을 프로덕션 환경에 배포하는 데 높은 진입 장벽과 초기 투자 비용을 요구하게 된다 [13, 19].
## 🔗 지식 연결 (Graph)
- **상위 개념**: [[AI Infrastructure]], [[Data Governance]]
- **유사 개념**: [[Schema Drift (스키마 표류)]], [[Active Metadata]]
- **관련 프로젝트**: [[ConnectAI]], [[Skybound Protocol]]
---
*Last updated: 2026-05-08*
이 문서는 Canonical 문서인 [[데이터_엔지니어링_및_가상_인프라_표준]]으로 통합되었습니다.
모든 최신 지식과 세부 내용은 위 링크를 참조하십시오.