3.7 KiB
3.7 KiB
id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, tags, raw_sources, last_reinforced, github_commit, inferred_by
| id | title | category | status | canonical_id | aliases | duplicate_of | source_trust_level | confidence_score | tags | raw_sources | last_reinforced | github_commit | inferred_by | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| wiki-2026-0508-ontology-guided-knowledge-extrac | Ontology Guided Knowledge Extraction | 10_Wiki/Topics | needs_review | self |
|
none | A | 0.93 |
|
2026-04-20 | pending | Claude Opus 4.7 (auto-normalize 2026-05-08) |
Ontology-Guided Knowledge Extraction
📌 한 줄 통찰 (The Karpathy Summary)
"지도 있는 보물찾기: 온톨로지라는 개념 지도를 비정형 데이터(텍스트, 이미지) 위에 투영하여, 기계가 의미 있고 구조화된 정보만을 정확히 골라내게 하는 기술."
📖 구조화된 지식 (Synthesized Content)
온톨로지 기반 지식 추출(Ontology-Guided Knowledge Extraction)은 미리 정의된 지식 체계를 가이드로 삼아 정보 추출(IE)의 정확도와 맥락 이해도를 높이는 방식입니다.
- 추출 프로세스:
- Entity Linking: 텍스트 내 단어가 온톨로지의 어떤 클래스/인스턴스에 해당하는지 매핑.
- Relation Extraction: 추출된 엔티티 간의 관계가 온톨로지에 정의된 속성과 일치하는지 확인.
- Sanity Check: 온톨로지의 논리 제약 조건(예: '사람은 동시에 장소일 수 없다')을 사용하여 오류 필터링.
- 장점:
- 도메인 특화: 의료, 법률 등 전문 용어가 많은 분야에서 일반 NLP 모델보다 훨씬 높은 정밀도 발휘.
- Reasoning 연계: 추출된 정보가 즉시 논리 추론 엔진에서 사용 가능한 형태로 저장됨.
- 현대적 결합 (Hybrid IE):
- LLM의 강력한 언어 이해 능력과 온톨로지의 엄격한 구조를 결합하여, LLM이 온톨로지 스키마에 맞춰 JSON 등 구조화된 데이터로 출력하게 유도.
⚠️ 모순 및 업데이트 (Contradictions & Updates)
- 과거 데이터와의 충돌: 과거에는 온톨로지에 없는 정보는 전혀 추출하지 못하는 폐쇄적 구조였으나, 현재는 '온톨로지 확장(Ontology Learning)' 기법을 통해 새로운 개념을 발견하면 온톨로지에 역으로 제안하는 개방형 시스템으로 발전함.
- 정책 변화(RL Update): 공공 데이터 개방 사업 등에서 '단순 텍스트 공개'가 아닌 '온톨로지 기반 구조화 데이터 공개'를 의무화하여 인공지능이 즉시 학습 가능한 지식 생태계를 구축하려는 정책이 강화됨.
🔗 지식 연결 (Graph)
- Related: Ontology-Engineering, Natural Language Processing (NLP), Information Extraction (IE), RAG (검색 증강 생성)
- Modern Tech/Tools: SpaCy, Stanford CoreNLP, LLM-based parsing (LangChain).
🤖 LLM 활용 힌트 (How to Use This Knowledge)
언제 이 지식을 쓰는가:
- (TODO)
언제 쓰면 안 되는가:
- (TODO)
🧪 검증 상태 (Validation)
- 정보 상태: needs_review
- 출처 신뢰도: A
- 검토 이유: (P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)
🧬 중복 검사 (Duplicate Check)
- 기존 유사 문서: (TODO: 인덱서 클러스터 리포트 참조)
- 처리 방식: UPDATE (자동 정규화)
- 처리 이유: Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
🕓 변경 이력 (Changelog)
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|---|---|---|---|
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |