Files

T

koriweb 95cd8bb891 feat(wiki): 코드 그라운딩 23문서 + MOC 학습지도 39개

- 코드 그라운딩: 기술 주제 문서의 '적용 사례'에 실제 레포 구현 위치
  (file:line)+커밋 자동 주입 (예: 문서 청킹 전략→connectai/src/retrieval/chunker.ts).
  멱등 마커(CODE-GROUNDING)로 재실행 시 갱신.
- MOC: 39개 클러스터 폴더에 _MOC.md 학습지도 생성(진입점+통찰 주석).
도구: Datacollect/scripts/{code_grounding,moc_generator}.mjs

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-08 18:56:11 +09:00

7.2 KiB

Raw Blame History

id, title, category, status, verification_status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, created_at, updated_at, review_reason, merge_history, tags, raw_sources, applied_in, github_commit

title

개체 및 관계 추출

🎯 한 줄 통찰 (One-line insight)

개체 및 관계 추출은 비정형 텍스트 내에 숨겨진 지식의 원자(Entity)와 연결고리(Relationship)를 식별하여, 파편화된 정보를 상호 연결된 지식 그래프 구조로 전환함으로써 RAG의 복합 추론 능력을 극대화하는 핵심 공정이다 [S276, S277].

🧠 핵심 개념 (Core concepts)

개체 식별 (Entity Identification): 문서 내에서 인물, 장소, 조직, 개념 등 고유한 의미를 가진 대상(Node)을 찾아내는 과정이다 [S277].
관계 추출 (Relationship Extraction): 식별된 개체들 사이의 의미적 연관성(Edge)을 파악하여 지식의 연결망을 구성하는 작업이다 [S277].
클레임 추출 (Claim Extraction): 개체 간 관계 외에 문서가 담고 있는 구체적인 주장이나 사실 정보 자체를 별도로 추출하여 정보의 밀도를 높인다 [S277].
개체명 인식 (NER, Named Entity Recognition): 사전에 정의된 범주(인명, 이메일, 주소 등)에 따라 텍스트 조각을 분류하는 기술로, 보안 마스킹과 검색 최적화에 활용된다 [S329, S408].

🧩 추출된 패턴 (Extracted patterns)

Triple-Extraction Pattern: LLM이 문서를 분석하여 "주체-관계-객체"의 삼조고(Triple) 형태로 지식을 정형화하여 추출하는 패턴이다 [S277].
Multi-Level Detection Pattern: 정규표현식(Rule-based), ML 모델(spaCy, Presidio), LLM(GLiNER)을 결합하여 탐지 정확도와 문맥 이해도를 동시에 확보하는 하이브리드 탐지 패턴이다 [S329].
AST-based Code Extraction: 소스코드 파싱 시 추상 구문 트리(AST)를 활용해 함수 시그니처, 클래스 계층, 임포트 관계를 별도의 메타데이터로 추출하여 인덱싱한다 [S313].

📖 세부 내용 (Details)

1. GraphRAG에서의 지식 추출 프로세스 [S277]

전통적인 RAG가 문서를 단순 조각으로 나누는 것과 달리, 지식 그래프 기반 RAG(GraphRAG)는 인덱싱 단계에서 다음 과정을 거친다.

TextUnit 분할: 원본 문서를 분석 가능한 작은 단위로 나눈다.
개체 및 관계 식별: LLM을 호출하여 각 단위 내에서 핵심 개체와 그들 사이의 관계를 추출한다.
커뮤니티 탐지: 추출된 그래프 구조를 알고리즘으로 분석하여 밀접하게 연관된 개체 그룹(Community)을 형성하고 이를 요약한다.

2. 기술적 구현 방법론 [S329, S330]

룰 기반 (Regex): 전화번호, 이메일 등 패턴이 일정한 데이터 탐지에 효과적이다.
ML 기반 (NER 모델): spaCy나 Microsoft Presidio 같은 모델을 사용하여 문맥 내에서 인명, 위치, 조직명을 식별한다.
LLM 기반: GPT-3.5 등을 활용한 GLiNER 방식은 맥락 이해력이 뛰어나 복잡한 지식 추출에서 높은 Precision/Recall(90%대)을 보이나 비용이 높다.

3. 보안 및 거버넌스 활용 [S328, S405, S408]

추출 기술은 지식 구성뿐만 아니라 데이터 통제에도 필수적이다.

PII 탐지 및 마스킹: 개인식별정보(PII)를 자동으로 찾아 태깅하고, 외부 LLM 전송 전 가명화하거나 마스킹하여 보안 리스크를 차단한다.
메타데이터 강화: 추출된 개체 정보를 문서 ID, 페이지 번호 등과 결합하여 답변의 출처(Provenance)를 투명하게 추적할 수 있도록 지원한다.

⚖️ 모순 및 업데이트 (Contradictions & updates)

추출 비용 vs 품질: 모든 문서를 대상으로 LLM 기반 추출을 수행하면 품질은 비약적으로 상승하지만, 초기 인덱싱 비용이 상당히 발생한다는 경고가 존재한다 [S279].
단순 텍스트 vs 멀티모달: 과거에는 텍스트 기반 추출이 주류였으나, 최신 기술(GPT-4o 등)은 표나 이미지 내의 개체 관계를 직접 읽어내는 방향으로 진화하고 있다 [S313].

🛠️ 적용 사례 (Applied in summary)

Microsoft Research GraphRAG: 2024년 7월 오픈소스화된 이 기술은 LLM을 통해 지식 그래프를 자동 생성하고 커뮤니티 요약을 추출하는 파이프라인의 표준을 제시했다 [S276, S279].
kt cloud AI Foundry: 이미지, PDF 등에서 텍스트를 추출한 후 NER 모델을 통해 민감정보를 탐지하고 마스킹하는 자동화 파이프라인으로 운영 중이다 [S329, S342].
알체라 보안 설계: 문서 생성 시점부터 "고객 개인정보" 키워드나 패턴을 분석해 자동으로 기밀 등급을 할당하고 개체 정보를 태깅하는 시스템이 제안되었다 [S405, S406].

✅ 검증 상태 및 신뢰도

상태: draft
검증 단계: conceptual (Microsoft Research 및 주요 클라우드 벤더의 실무 사례 기반)
출처 신뢰도: A (최신 기술 동향 분석 및 인프라 보안 가이드라인에 근거)
신뢰 점수: 0.95
중복 검사 결과: 신규 생성 (New discovery)

🔗 지식 그래프 (Knowledge Graph)

상위/루트: RAG 아키텍처 및 파이프라인 기초
관련 개념: 지식 그래프, GraphRAG, 텍스트 정규화, 데이터 인덱싱 및 오케스트레이션
참조 맥락: 복합적인 정보 연결이 필요한 지식 베이스 구축 및 민감 데이터 필터링이 포함된 기업용 RAG 시스템 설계 시 참조.

📚 출처 (Sources)

[S276] GraphRAG의 정의 및 지식 그래프 기반 접근법 (CSLEE)
[S277] GraphRAG 인덱싱 단계: 개체, 관계, 클레임 추출 (CSLEE)
[S279] GraphRAG 인덱싱 비용 및 프롬프트 튜닝 고려사항 (CSLEE)
[S313] 코드 파싱 시 AST 활용 및 구조적 메타데이터 추출 (kt cloud)
[S329] PII 탐지를 위한 NER 모델 및 LLM 활용 기법 (kt cloud)
[S342] kt cloud AI Foundry RAG Suite의 파싱 및 추출 기능 (kt cloud)
[S405] 문서 분류를 위한 자동 데이터 민감도 탐지 설계 (알체라)
[S408] 저장소 내 개인정보 식별 및 태깅 메커니즘 (알체라)

📝 변경 이력 (Change history)

2026-06-08: Initial draft generated via Datacollector_MAC P-Reinforce engine.

7.2 KiB Raw Blame History