2nd/01_Archive/2026-04-20/Semantic Grounding & Provenance.md

Semantic Grounding (의미적 접지) & Provenance (출처 역추적)

📌 Brief Summary

Semantic Grounding(의미적 접지)은 LLM의 생성 답변을 검증된 지식 그래프·온톨로지의 사실에 물리적으로 연결하여 환각을 방지하는 기법이다. Provenance(출처 역추적)는 AI가 생성한 답변의 각 사실이 어느 노드·트리플에서 유래했는지 추적하여 신뢰성과 투명성을 보장하는 메커니즘이다.

---

📖 Core Content

## 1. Semantic Grounding (의미적 접지)

### 문제 정의
- **기존 LLM**: 학습 데이터의 통계적 패턴으로 텍스트 생성 → "그럴듯한" 내용이지만 사실 검증 없음.
- **Grounding 목표**: LLM의 출력이 반드시 검증된 외부 지식 베이스의 사실에 "접지(anchored)"되도록 강제.

### 핵심 메커니즘

```
[LLM 답변 생성 요청]
        ↓
[Grounding 레이어]
  1. 질의에서 핵심 엔티티 추출
  2. 지식 그래프에서 해당 엔티티의 사실 검색
  3. 검색된 사실(트리플)을 LLM 프롬프트에 주입
        ↓
[LLM이 접지된 사실 기반으로만 답변 생성]
        ↓
[결과] 환각 40% 이상 감소, 팩트 기반 정확한 답변
```

### Grounding 방식 분류

| 방식 | 설명 | 장단점 |
|------|------|--------|
| **KG Grounding** | 지식 그래프 트리플을 프롬프트에 직접 주입 | 정확성 ↑, 구축 비용 ↑ |
| **RAG Grounding** | 외부 문서 검색 후 컨텍스트 주입 | 구축 용이, 정확성 KG보다 낮음 |
| **Ontology-Guided** | 온톨로지 스키마를 프롬프트에 포함, 제약 내에서만 생성 | 정밀, 도메인 전문성 필요 |

---

## 2. Provenance (출처 역추적)

### 정의
AI가 생성한 답변의 각 사실이 **어느 지식 그래프 노드·트리플·문서에서 유래했는지** 추적 가능하게 만드는 투명성 메커니즘.

### 왜 중요한가? (인과관계)
- **원인**: LLM은 답변 생성 시 어떤 학습 데이터에서 정보를 가져왔는지 알 수 없음.
- **문제**: 답변이 틀렸을 때 어디가 잘못됐는지 추적 불가 → "블랙박스" 문제.
- **Provenance 도입 효과**: 각 사실에 출처 URI/트리플 링크 부착 → 틀린 정보의 원천 즉시 파악 → 지식 그래프 수정·업데이트 가능.

### RDF에서의 Provenance 표현

**전통적 방식 (Reification, 장황):**
```turtle
ex:Statement1 rdf:type rdf:Statement ;
  rdf:subject ex:홍길동 ;
  rdf:predicate ex:직업 ;
  rdf:object ex:의사 ;
  ex:출처 ex:서울대병원DB ;       # 메타데이터 추가
  ex:확인날짜 "2026-04-15" .     # 메타데이터 추가
```

**RDF-star 방식 (간결):**
```turtle
<<ex:홍길동 ex:직업 ex:의사>> ex:출처 ex:서울대병원DB ;
                               ex:확인날짜 "2026-04-15" .
```

### 실용적 활용 시나리오

| 시나리오 | Provenance 역할 |
|---------|----------------|
| **의료 AI 진단** | 진단 근거가 어느 논문/임상 데이터에서 왔는지 의사에게 제시 |
| **금융 규제 준수** | 규정 위반 판단의 근거 조항 자동 링크 제공 |
| **법률 AI** | 판결 예측의 근거 판례 출처 자동 인용 |

---

## 3. Grounding & Provenance 결합 효과

```
지식 그래프(사실) + Grounding(연결) → LLM 답변 생성
        ↓
Provenance(출처 태깅) → 각 사실에 트리플 출처 URI 부착
        ↓
검증자가 출처 클릭 → 원본 노드 즉시 확인 가능
        ↓
오류 발견 시 지식 그래프 노드 수정 → 자동 영향 전파
```

---

🔗 Knowledge Connections

- **Related Topics:** [[LLM Hallucination (언어 모델 환각)|LLM Hallucination (언어 모델 환각)]], [[RAG (검색 증강 생성)|RAG (검색 증강 생성)]], [[GraphRAG (그래프 기반 검색 증강 생성)|GraphRAG (그래프 기반 검색 증강 생성)]], [[RDF와 OWL|RDF와 OWL]], [[RDF-star (RDF 확장 사양)|RDF-star (RDF*)]], [[지식 그래프 (Knowledge Graph)|지식 그래프 (Knowledge Graph)]], [[온톨로지 (Ontology)|온톨로지 (Ontology)]], [[Ontology-Guided Knowledge Extraction|Ontology-Guided Knowledge Extraction]]
- **Projects/Contexts:** [[온톨로지 지식 베이스|온톨로지 지식 베이스]], AI 신뢰성·투명성, LLM 환각 방지
- **Contradictions/Notes:**
  - Grounding은 LLM 생성 품질을 높이지만, 지식 그래프 자체가 오래되거나 불완전하면 Grounding된 답변도 틀릴 수 있음 (Garbage In, Garbage Out).
  - Provenance를 완전히 구현하려면 RDF-star 또는 Named Graph 패턴 필요 → 기존 RDF Reification은 너무 장황.