88 lines
7.2 KiB
Markdown
88 lines
7.2 KiB
Markdown
---
|
|
id: 개체-및-관계-추출
|
|
title: "개체 및 관계 추출"
|
|
category: "AI_and_ML"
|
|
status: "draft"
|
|
verification_status: "conceptual"
|
|
canonical_id: ""
|
|
aliases: ["Entity and Relationship Extraction", "NER", "개체명 인식", "지식 추출", "개체-관계 추출", "Entity Extraction", "Relationship Extraction"]
|
|
duplicate_of: ""
|
|
source_trust_level: "A"
|
|
confidence_score: 0.95
|
|
created_at: 2026-06-08
|
|
updated_at: 2026-06-08
|
|
review_reason: ""
|
|
merge_history: []
|
|
tags: ["research", "RAG 아키텍처 및 파이프라인 기초", "GraphRAG", "NER", "Knowledge Extraction"]
|
|
raw_sources: ["RAG의 진화: GraphRAG, Agentic RAG, CRAG의 등장 - CSLEE Tech Blog %", "[Tech Series] kt cloud AI 검색 증강 생성(RAG) #2 : 데이터 파싱과 전처리 최적화", "기업용 RAG 시스템 보안 설계 방법, 핵심은 '외부 지식 통제' - 알체라"]
|
|
applied_in: ["Microsoft Research GraphRAG 인덱싱 파이프라인", "kt cloud 민감정보 탐지 및 마스킹 시스템", "알체라 자동 데이터 민감도 탐지 모듈"]
|
|
github_commit: ""
|
|
---
|
|
|
|
# [[개체 및 관계 추출]]
|
|
|
|
## 🎯 한 줄 통찰 (One-line insight)
|
|
개체 및 관계 추출은 비정형 텍스트 내에 숨겨진 지식의 원자(Entity)와 연결고리(Relationship)를 식별하여, 파편화된 정보를 상호 연결된 지식 그래프 구조로 전환함으로써 RAG의 복합 추론 능력을 극대화하는 핵심 공정이다 [S276, S277].
|
|
|
|
## 🧠 핵심 개념 (Core concepts)
|
|
- **개체 식별 (Entity Identification):** 문서 내에서 인물, 장소, 조직, 개념 등 고유한 의미를 가진 대상(Node)을 찾아내는 과정이다 [S277].
|
|
- **관계 추출 (Relationship Extraction):** 식별된 개체들 사이의 의미적 연관성(Edge)을 파악하여 지식의 연결망을 구성하는 작업이다 [S277].
|
|
- **클레임 추출 (Claim Extraction):** 개체 간 관계 외에 문서가 담고 있는 구체적인 주장이나 사실 정보 자체를 별도로 추출하여 정보의 밀도를 높인다 [S277].
|
|
- **개체명 인식 (NER, Named Entity Recognition):** 사전에 정의된 범주(인명, 이메일, 주소 등)에 따라 텍스트 조각을 분류하는 기술로, 보안 마스킹과 검색 최적화에 활용된다 [S329, S408].
|
|
|
|
## 🧩 추출된 패턴 (Extracted patterns)
|
|
- **Triple-Extraction Pattern:** LLM이 문서를 분석하여 "주체-관계-객체"의 삼조고(Triple) 형태로 지식을 정형화하여 추출하는 패턴이다 [S277].
|
|
- **Multi-Level Detection Pattern:** 정규표현식(Rule-based), ML 모델(spaCy, Presidio), LLM(GLiNER)을 결합하여 탐지 정확도와 문맥 이해도를 동시에 확보하는 하이브리드 탐지 패턴이다 [S329].
|
|
- **AST-based Code Extraction:** 소스코드 파싱 시 추상 구문 트리(AST)를 활용해 함수 시그니처, 클래스 계층, 임포트 관계를 별도의 메타데이터로 추출하여 인덱싱한다 [S313].
|
|
|
|
## 📖 세부 내용 (Details)
|
|
|
|
### 1. GraphRAG에서의 지식 추출 프로세스 [S277]
|
|
전통적인 RAG가 문서를 단순 조각으로 나누는 것과 달리, 지식 그래프 기반 RAG(GraphRAG)는 인덱싱 단계에서 다음 과정을 거친다.
|
|
* **TextUnit 분할:** 원본 문서를 분석 가능한 작은 단위로 나눈다.
|
|
* **개체 및 관계 식별:** LLM을 호출하여 각 단위 내에서 핵심 개체와 그들 사이의 관계를 추출한다.
|
|
* **커뮤니티 탐지:** 추출된 그래프 구조를 알고리즘으로 분석하여 밀접하게 연관된 개체 그룹(Community)을 형성하고 이를 요약한다.
|
|
|
|
### 2. 기술적 구현 방법론 [S329, S330]
|
|
* **룰 기반 (Regex):** 전화번호, 이메일 등 패턴이 일정한 데이터 탐지에 효과적이다.
|
|
* **ML 기반 (NER 모델):** spaCy나 Microsoft Presidio 같은 모델을 사용하여 문맥 내에서 인명, 위치, 조직명을 식별한다.
|
|
* **LLM 기반:** GPT-3.5 등을 활용한 GLiNER 방식은 맥락 이해력이 뛰어나 복잡한 지식 추출에서 높은 Precision/Recall(90%대)을 보이나 비용이 높다.
|
|
|
|
### 3. 보안 및 거버넌스 활용 [S328, S405, S408]
|
|
추출 기술은 지식 구성뿐만 아니라 데이터 통제에도 필수적이다.
|
|
* **PII 탐지 및 마스킹:** 개인식별정보(PII)를 자동으로 찾아 태깅하고, 외부 LLM 전송 전 가명화하거나 마스킹하여 보안 리스크를 차단한다.
|
|
* **메타데이터 강화:** 추출된 개체 정보를 문서 ID, 페이지 번호 등과 결합하여 답변의 출처(Provenance)를 투명하게 추적할 수 있도록 지원한다.
|
|
|
|
## ⚖️ 모순 및 업데이트 (Contradictions & updates)
|
|
* **추출 비용 vs 품질:** 모든 문서를 대상으로 LLM 기반 추출을 수행하면 품질은 비약적으로 상승하지만, 초기 인덱싱 비용이 상당히 발생한다는 경고가 존재한다 [S279].
|
|
* **단순 텍스트 vs 멀티모달:** 과거에는 텍스트 기반 추출이 주류였으나, 최신 기술(GPT-4o 등)은 표나 이미지 내의 개체 관계를 직접 읽어내는 방향으로 진화하고 있다 [S313].
|
|
|
|
## 🛠️ 적용 사례 (Applied in summary)
|
|
* **Microsoft Research GraphRAG:** 2024년 7월 오픈소스화된 이 기술은 LLM을 통해 지식 그래프를 자동 생성하고 커뮤니티 요약을 추출하는 파이프라인의 표준을 제시했다 [S276, S279].
|
|
* **kt cloud AI Foundry:** 이미지, PDF 등에서 텍스트를 추출한 후 NER 모델을 통해 민감정보를 탐지하고 마스킹하는 자동화 파이프라인으로 운영 중이다 [S329, S342].
|
|
* **알체라 보안 설계:** 문서 생성 시점부터 "고객 개인정보" 키워드나 패턴을 분석해 자동으로 기밀 등급을 할당하고 개체 정보를 태깅하는 시스템이 제안되었다 [S405, S406].
|
|
|
|
## ✅ 검증 상태 및 신뢰도
|
|
- **상태:** draft
|
|
- **검증 단계:** conceptual (Microsoft Research 및 주요 클라우드 벤더의 실무 사례 기반)
|
|
- **출처 신뢰도:** A (최신 기술 동향 분석 및 인프라 보안 가이드라인에 근거)
|
|
- **신뢰 점수:** 0.95
|
|
- **중복 검사 결과:** 신규 생성 (New discovery)
|
|
|
|
## 🔗 지식 그래프 (Knowledge Graph)
|
|
- **상위/루트:** [[RAG 아키텍처 및 파이프라인 기초]]
|
|
- **관련 개념:** [[지식 그래프]], [[GraphRAG]], [[텍스트 정규화]], [[데이터 인덱싱 및 오케스트레이션]]
|
|
- **참조 맥락:** 복합적인 정보 연결이 필요한 지식 베이스 구축 및 민감 데이터 필터링이 포함된 기업용 RAG 시스템 설계 시 참조.
|
|
|
|
## 📚 출처 (Sources)
|
|
- [S276] GraphRAG의 정의 및 지식 그래프 기반 접근법 (CSLEE)
|
|
- [S277] GraphRAG 인덱싱 단계: 개체, 관계, 클레임 추출 (CSLEE)
|
|
- [S279] GraphRAG 인덱싱 비용 및 프롬프트 튜닝 고려사항 (CSLEE)
|
|
- [S313] 코드 파싱 시 AST 활용 및 구조적 메타데이터 추출 (kt cloud)
|
|
- [S329] PII 탐지를 위한 NER 모델 및 LLM 활용 기법 (kt cloud)
|
|
- [S342] kt cloud AI Foundry RAG Suite의 파싱 및 추출 기능 (kt cloud)
|
|
- [S405] 문서 분류를 위한 자동 데이터 민감도 탐지 설계 (알체라)
|
|
- [S408] 저장소 내 개인정보 식별 및 태깅 메커니즘 (알체라)
|
|
|
|
## 📝 변경 이력 (Change history)
|
|
- 2026-06-08: Initial draft generated via Datacollector_MAC P-Reinforce engine. |