2.7 KiB
2.7 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||
|---|---|---|---|---|---|---|---|---|
| P-REINFORCE-AUTO-ONTK-001 | Unified | 0.93 |
|
2026-04-20 |
Ontology-Guided Knowledge Extraction
📌 한 줄 통찰 (The Karpathy Summary)
"지도 있는 보물찾기: 온톨로지라는 개념 지도를 비정형 데이터(텍스트, 이미지) 위에 투영하여, 기계가 의미 있고 구조화된 정보만을 정확히 골라내게 하는 기술."
📖 구조화된 지식 (Synthesized Content)
온톨로지 기반 지식 추출(Ontology-Guided Knowledge Extraction)은 미리 정의된 지식 체계를 가이드로 삼아 정보 추출(IE)의 정확도와 맥락 이해도를 높이는 방식입니다.
- 추출 프로세스:
- Entity Linking: 텍스트 내 단어가 온톨로지의 어떤 클래스/인스턴스에 해당하는지 매핑.
- Relation Extraction: 추출된 엔티티 간의 관계가 온톨로지에 정의된 속성과 일치하는지 확인.
- Sanity Check: 온톨로지의 논리 제약 조건(예: '사람은 동시에 장소일 수 없다')을 사용하여 오류 필터링.
- 장점:
- 도메인 특화: 의료, 법률 등 전문 용어가 많은 분야에서 일반 NLP 모델보다 훨씬 높은 정밀도 발휘.
- Reasoning 연계: 추출된 정보가 즉시 논리 추론 엔진에서 사용 가능한 형태로 저장됨.
- 현대적 결합 (Hybrid IE):
- LLM의 강력한 언어 이해 능력과 온톨로지의 엄격한 구조를 결합하여, LLM이 온톨로지 스키마에 맞춰 JSON 등 구조화된 데이터로 출력하게 유도.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 과거에는 온톨로지에 없는 정보는 전혀 추출하지 못하는 폐쇄적 구조였으나, 현재는 '온톨로지 확장(Ontology Learning)' 기법을 통해 새로운 개념을 발견하면 온톨로지에 역으로 제안하는 개방형 시스템으로 발전함.
- 정책 변화(RL Update): 공공 데이터 개방 사업 등에서 '단순 텍스트 공개'가 아닌 '온톨로지 기반 구조화 데이터 공개'를 의무화하여 인공지능이 즉시 학습 가능한 지식 생태계를 구축하려는 정책이 강화됨.
🔗 지식 연결 (Graph)
- Related: Ontology-Engineering, Natural Language Processing (NLP), Information Extraction (IE), RAG (검색 증강 생성)
- Modern Tech/Tools: SpaCy, Stanford CoreNLP, LLM-based parsing (LangChain).