id, title, category, status, verification_status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, created_at, updated_at, review_reason, merge_history, tags, raw_sources, applied_in, github_commit
| id |
title |
category |
status |
verification_status |
canonical_id |
aliases |
duplicate_of |
source_trust_level |
confidence_score |
created_at |
updated_at |
review_reason |
merge_history |
tags |
raw_sources |
applied_in |
github_commit |
| 개체-및-관계-추출 |
개체 및 관계 추출 |
AI_and_ML |
draft |
conceptual |
|
| Entity and Relationship Extraction |
| NER |
| 개체명 인식 |
| 지식 추출 |
| 개체-관계 추출 |
| Entity Extraction |
| Relationship Extraction |
|
|
A |
0.95 |
2026-06-08 |
2026-06-08 |
|
|
| research |
| RAG 아키텍처 및 파이프라인 기초 |
| GraphRAG |
| NER |
| Knowledge Extraction |
|
| RAG의 진화: GraphRAG, Agentic RAG, CRAG의 등장 - CSLEE Tech Blog % |
| [Tech Series] kt cloud AI 검색 증강 생성(RAG) #2 : 데이터 파싱과 전처리 최적화 |
| 기업용 RAG 시스템 보안 설계 방법, 핵심은 '외부 지식 통제' - 알체라 |
|
| Microsoft Research GraphRAG 인덱싱 파이프라인 |
| kt cloud 민감정보 탐지 및 마스킹 시스템 |
| 알체라 자동 데이터 민감도 탐지 모듈 |
|
|
🎯 한 줄 통찰 (One-line insight)
개체 및 관계 추출은 비정형 텍스트 내에 숨겨진 지식의 원자(Entity)와 연결고리(Relationship)를 식별하여, 파편화된 정보를 상호 연결된 지식 그래프 구조로 전환함으로써 RAG의 복합 추론 능력을 극대화하는 핵심 공정이다 [S276, S277].
🧠 핵심 개념 (Core concepts)
- 개체 식별 (Entity Identification): 문서 내에서 인물, 장소, 조직, 개념 등 고유한 의미를 가진 대상(Node)을 찾아내는 과정이다 [S277].
- 관계 추출 (Relationship Extraction): 식별된 개체들 사이의 의미적 연관성(Edge)을 파악하여 지식의 연결망을 구성하는 작업이다 [S277].
- 클레임 추출 (Claim Extraction): 개체 간 관계 외에 문서가 담고 있는 구체적인 주장이나 사실 정보 자체를 별도로 추출하여 정보의 밀도를 높인다 [S277].
- 개체명 인식 (NER, Named Entity Recognition): 사전에 정의된 범주(인명, 이메일, 주소 등)에 따라 텍스트 조각을 분류하는 기술로, 보안 마스킹과 검색 최적화에 활용된다 [S329, S408].
- Triple-Extraction Pattern: LLM이 문서를 분석하여 "주체-관계-객체"의 삼조고(Triple) 형태로 지식을 정형화하여 추출하는 패턴이다 [S277].
- Multi-Level Detection Pattern: 정규표현식(Rule-based), ML 모델(spaCy, Presidio), LLM(GLiNER)을 결합하여 탐지 정확도와 문맥 이해도를 동시에 확보하는 하이브리드 탐지 패턴이다 [S329].
- AST-based Code Extraction: 소스코드 파싱 시 추상 구문 트리(AST)를 활용해 함수 시그니처, 클래스 계층, 임포트 관계를 별도의 메타데이터로 추출하여 인덱싱한다 [S313].
📖 세부 내용 (Details)
1. GraphRAG에서의 지식 추출 프로세스 [S277]
전통적인 RAG가 문서를 단순 조각으로 나누는 것과 달리, 지식 그래프 기반 RAG(GraphRAG)는 인덱싱 단계에서 다음 과정을 거친다.
- TextUnit 분할: 원본 문서를 분석 가능한 작은 단위로 나눈다.
- 개체 및 관계 식별: LLM을 호출하여 각 단위 내에서 핵심 개체와 그들 사이의 관계를 추출한다.
- 커뮤니티 탐지: 추출된 그래프 구조를 알고리즘으로 분석하여 밀접하게 연관된 개체 그룹(Community)을 형성하고 이를 요약한다.
2. 기술적 구현 방법론 [S329, S330]
- 룰 기반 (Regex): 전화번호, 이메일 등 패턴이 일정한 데이터 탐지에 효과적이다.
- ML 기반 (NER 모델): spaCy나 Microsoft Presidio 같은 모델을 사용하여 문맥 내에서 인명, 위치, 조직명을 식별한다.
- LLM 기반: GPT-3.5 등을 활용한 GLiNER 방식은 맥락 이해력이 뛰어나 복잡한 지식 추출에서 높은 Precision/Recall(90%대)을 보이나 비용이 높다.
3. 보안 및 거버넌스 활용 [S328, S405, S408]
추출 기술은 지식 구성뿐만 아니라 데이터 통제에도 필수적이다.
- PII 탐지 및 마스킹: 개인식별정보(PII)를 자동으로 찾아 태깅하고, 외부 LLM 전송 전 가명화하거나 마스킹하여 보안 리스크를 차단한다.
- 메타데이터 강화: 추출된 개체 정보를 문서 ID, 페이지 번호 등과 결합하여 답변의 출처(Provenance)를 투명하게 추적할 수 있도록 지원한다.
⚖️ 모순 및 업데이트 (Contradictions & updates)
- 추출 비용 vs 품질: 모든 문서를 대상으로 LLM 기반 추출을 수행하면 품질은 비약적으로 상승하지만, 초기 인덱싱 비용이 상당히 발생한다는 경고가 존재한다 [S279].
- 단순 텍스트 vs 멀티모달: 과거에는 텍스트 기반 추출이 주류였으나, 최신 기술(GPT-4o 등)은 표나 이미지 내의 개체 관계를 직접 읽어내는 방향으로 진화하고 있다 [S313].
🛠️ 적용 사례 (Applied in summary)
- Microsoft Research GraphRAG: 2024년 7월 오픈소스화된 이 기술은 LLM을 통해 지식 그래프를 자동 생성하고 커뮤니티 요약을 추출하는 파이프라인의 표준을 제시했다 [S276, S279].
- kt cloud AI Foundry: 이미지, PDF 등에서 텍스트를 추출한 후 NER 모델을 통해 민감정보를 탐지하고 마스킹하는 자동화 파이프라인으로 운영 중이다 [S329, S342].
- 알체라 보안 설계: 문서 생성 시점부터 "고객 개인정보" 키워드나 패턴을 분석해 자동으로 기밀 등급을 할당하고 개체 정보를 태깅하는 시스템이 제안되었다 [S405, S406].
✅ 검증 상태 및 신뢰도
- 상태: draft
- 검증 단계: conceptual (Microsoft Research 및 주요 클라우드 벤더의 실무 사례 기반)
- 출처 신뢰도: A (최신 기술 동향 분석 및 인프라 보안 가이드라인에 근거)
- 신뢰 점수: 0.95
- 중복 검사 결과: 신규 생성 (New discovery)
🔗 지식 그래프 (Knowledge Graph)
📚 출처 (Sources)
- [S276] GraphRAG의 정의 및 지식 그래프 기반 접근법 (CSLEE)
- [S277] GraphRAG 인덱싱 단계: 개체, 관계, 클레임 추출 (CSLEE)
- [S279] GraphRAG 인덱싱 비용 및 프롬프트 튜닝 고려사항 (CSLEE)
- [S313] 코드 파싱 시 AST 활용 및 구조적 메타데이터 추출 (kt cloud)
- [S329] PII 탐지를 위한 NER 모델 및 LLM 활용 기법 (kt cloud)
- [S342] kt cloud AI Foundry RAG Suite의 파싱 및 추출 기능 (kt cloud)
- [S405] 문서 분류를 위한 자동 데이터 민감도 탐지 설계 (알체라)
- [S408] 저장소 내 개인정보 식별 및 태깅 메커니즘 (알체라)
📝 변경 이력 (Change history)
- 2026-06-08: Initial draft generated via Datacollector_MAC P-Reinforce engine.