Files
2nd/01_Archive/2026-04-20/Semantic Grounding & Provenance.md

4.8 KiB

Semantic Grounding (의미적 접지) & Provenance (출처 역추적)

📌 Brief Summary

Semantic Grounding(의미적 접지)은 LLM의 생성 답변을 검증된 지식 그래프·온톨로지의 사실에 물리적으로 연결하여 환각을 방지하는 기법이다. Provenance(출처 역추적)는 AI가 생성한 답변의 각 사실이 어느 노드·트리플에서 유래했는지 추적하여 신뢰성과 투명성을 보장하는 메커니즘이다.


📖 Core Content

1. Semantic Grounding (의미적 접지)

문제 정의

  • 기존 LLM: 학습 데이터의 통계적 패턴으로 텍스트 생성 → "그럴듯한" 내용이지만 사실 검증 없음.
  • Grounding 목표: LLM의 출력이 반드시 검증된 외부 지식 베이스의 사실에 "접지(anchored)"되도록 강제.

핵심 메커니즘

[LLM 답변 생성 요청]
        ↓
[Grounding 레이어]
  1. 질의에서 핵심 엔티티 추출
  2. 지식 그래프에서 해당 엔티티의 사실 검색
  3. 검색된 사실(트리플)을 LLM 프롬프트에 주입
        ↓
[LLM이 접지된 사실 기반으로만 답변 생성]
        ↓
[결과] 환각 40% 이상 감소, 팩트 기반 정확한 답변

Grounding 방식 분류

방식 설명 장단점
KG Grounding 지식 그래프 트리플을 프롬프트에 직접 주입 정확성 ↑, 구축 비용 ↑
RAG Grounding 외부 문서 검색 후 컨텍스트 주입 구축 용이, 정확성 KG보다 낮음
Ontology-Guided 온톨로지 스키마를 프롬프트에 포함, 제약 내에서만 생성 정밀, 도메인 전문성 필요

2. Provenance (출처 역추적)

정의

AI가 생성한 답변의 각 사실이 어느 지식 그래프 노드·트리플·문서에서 유래했는지 추적 가능하게 만드는 투명성 메커니즘.

왜 중요한가? (인과관계)

  • 원인: LLM은 답변 생성 시 어떤 학습 데이터에서 정보를 가져왔는지 알 수 없음.
  • 문제: 답변이 틀렸을 때 어디가 잘못됐는지 추적 불가 → "블랙박스" 문제.
  • Provenance 도입 효과: 각 사실에 출처 URI/트리플 링크 부착 → 틀린 정보의 원천 즉시 파악 → 지식 그래프 수정·업데이트 가능.

RDF에서의 Provenance 표현

전통적 방식 (Reification, 장황):

ex:Statement1 rdf:type rdf:Statement ;
  rdf:subject ex:홍길동 ;
  rdf:predicate ex:직업 ;
  rdf:object ex:의사 ;
  ex:출처 ex:서울대병원DB ;       # 메타데이터 추가
  ex:확인날짜 "2026-04-15" .     # 메타데이터 추가

RDF-star 방식 (간결):

<<ex:홍길동 ex:직업 ex:의사>> ex:출처 ex:서울대병원DB ;
                               ex:확인날짜 "2026-04-15" .

실용적 활용 시나리오

시나리오 Provenance 역할
의료 AI 진단 진단 근거가 어느 논문/임상 데이터에서 왔는지 의사에게 제시
금융 규제 준수 규정 위반 판단의 근거 조항 자동 링크 제공
법률 AI 판결 예측의 근거 판례 출처 자동 인용

3. Grounding & Provenance 결합 효과

지식 그래프(사실) + Grounding(연결) → LLM 답변 생성
        ↓
Provenance(출처 태깅) → 각 사실에 트리플 출처 URI 부착
        ↓
검증자가 출처 클릭 → 원본 노드 즉시 확인 가능
        ↓
오류 발견 시 지식 그래프 노드 수정 → 자동 영향 전파

🔗 Knowledge Connections