Files
2nd/10_Wiki/Topics/Ontology-Guided Knowledge Extraction.md
T
2026-05-02 23:33:34 +09:00

2.7 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
P-REINFORCE-AUTO-ONTK-001 Unified 0.93
auto-reinforced
information-extraction
nlp
semantic-search
2026-04-20

Ontology-Guided Knowledge Extraction

📌 한 줄 통찰 (The Karpathy Summary)

"지도 있는 보물찾기: 온톨로지라는 개념 지도를 비정형 데이터(텍스트, 이미지) 위에 투영하여, 기계가 의미 있고 구조화된 정보만을 정확히 골라내게 하는 기술."

📖 구조화된 지식 (Synthesized Content)

온톨로지 기반 지식 추출(Ontology-Guided Knowledge Extraction)은 미리 정의된 지식 체계를 가이드로 삼아 정보 추출(IE)의 정확도와 맥락 이해도를 높이는 방식입니다.

  1. 추출 프로세스:
    • Entity Linking: 텍스트 내 단어가 온톨로지의 어떤 클래스/인스턴스에 해당하는지 매핑.
    • Relation Extraction: 추출된 엔티티 간의 관계가 온톨로지에 정의된 속성과 일치하는지 확인.
    • Sanity Check: 온톨로지의 논리 제약 조건(예: '사람은 동시에 장소일 수 없다')을 사용하여 오류 필터링.
  2. 장점:
    • 도메인 특화: 의료, 법률 등 전문 용어가 많은 분야에서 일반 NLP 모델보다 훨씬 높은 정밀도 발휘.
    • Reasoning 연계: 추출된 정보가 즉시 논리 추론 엔진에서 사용 가능한 형태로 저장됨.
  3. 현대적 결합 (Hybrid IE):
    • LLM의 강력한 언어 이해 능력과 온톨로지의 엄격한 구조를 결합하여, LLM이 온톨로지 스키마에 맞춰 JSON 등 구조화된 데이터로 출력하게 유도.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 과거에는 온톨로지에 없는 정보는 전혀 추출하지 못하는 폐쇄적 구조였으나, 현재는 '온톨로지 확장(Ontology Learning)' 기법을 통해 새로운 개념을 발견하면 온톨로지에 역으로 제안하는 개방형 시스템으로 발전함.
  • 정책 변화(RL Update): 공공 데이터 개방 사업 등에서 '단순 텍스트 공개'가 아닌 '온톨로지 기반 구조화 데이터 공개'를 의무화하여 인공지능이 즉시 학습 가능한 지식 생태계를 구축하려는 정책이 강화됨.

🔗 지식 연결 (Graph)