2nd/10_Wiki/Topics_Blog/Ontology-Guided Knowledge Extraction.md

---
id: P-REINFORCE-AUTO-ONTK-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.93
tags: [auto-reinforced, information-extraction, nlp, semantic-search]
last_reinforced: 2026-04-20
---

# [[Ontology-Guided Knowledge Extraction|Ontology-Guided Knowledge Extraction]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "지도 있는 보물찾기: 온톨로지라는 개념 지도를 비정형 데이터(텍스트, 이미지) 위에 투영하여, 기계가 의미 있고 구조화된 정보만을 정확히 골라내게 하는 기술."

## 📖 구조화된 지식 (Synthesized Content)
온톨로지 기반 지식 추출(Ontology-Guided Knowledge Extraction)은 미리 정의된 지식 체계를 가이드로 삼아 정보 추출(IE)의 정확도와 맥락 이해도를 높이는 방식입니다.

1.  **추출 프로세스**:
    *   **Entity Linking**: 텍스트 내 단어가 온톨로지의 어떤 클래스/인스턴스에 해당하는지 매핑.
    *   **Relation Extraction**: 추출된 엔티티 간의 관계가 온톨로지에 정의된 속성과 일치하는지 확인.
    *   **Sanity Check**: 온톨로지의 논리 제약 조건(예: '사람은 동시에 장소일 수 없다')을 사용하여 오류 필터링.
2.  **장점**:
    *   **도메인 특화**: 의료, 법률 등 전문 용어가 많은 분야에서 일반 NLP 모델보다 훨씬 높은 정밀도 발휘.
    *   **Reasoning 연계**: 추출된 정보가 즉시 논리 추론 엔진에서 사용 가능한 형태로 저장됨.
3.  **현대적 결합 (Hybrid IE)**:
    *   LLM의 강력한 언어 이해 능력과 온톨로지의 엄격한 구조를 결합하여, LLM이 온톨로지 스키마에 맞춰 JSON 등 구조화된 데이터로 출력하게 유도.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 온톨로지에 없는 정보는 전혀 추출하지 못하는 폐쇄적 구조였으나, 현재는 '온톨로지 확장(Ontology Learning)' 기법을 통해 새로운 개념을 발견하면 온톨로지에 역으로 제안하는 개방형 시스템으로 발전함.
- **정책 변화(RL Update)**: 공공 데이터 개방 사업 등에서 '단순 텍스트 공개'가 아닌 '온톨로지 기반 구조화 데이터 공개'를 의무화하여 인공지능이 즉시 학습 가능한 지식 생태계를 구축하려는 정책이 강화됨.

## 🔗 지식 연결 (Graph)
- **Related**: [[Ontology-Engineering|Ontology-Engineering]], Natural Language Processing (NLP), Information Extraction (IE), [[RAG (검색 증강 생성)|RAG (검색 증강 생성)]]
- **Modern Tech/Tools**: SpaCy, Stanford CoreNLP, LLM-based parsing (LangChain).
---