2nd/10_Wiki/Topics/LLM_Context_Extraction.md

---
id: P-REINFORCE-WIKI-AI-CONTEXT-EXTRACTION
title: "LLM 기반 개발 컨텍스트 추출 (LLM-based Context Extraction)"
category: Dev
status: verified
canonical_id: ""
aliases: ["컨텍스트 추출", "LLM Context Extraction", "아티팩트 분석", "지식 구조화"]
duplicate_of: ""
source_trust_level: A
confidence_score: 1.0
tags: ["AI", "LLM", "Context", "Artifacts", "Knowledge_Graph", "Developer_Efficiency"]
raw_sources: ["Datacollector_Export_2026-05-02"]
last_reinforced: 2026-05-02
github_commit: ""
---

# [[LLM 기반 개발 컨텍스트 추출 (LLM-based Context Extraction)]]

## 1. 개요
LLM 기반 컨텍스트 추출은 코드가 작성된 근본적인 이유(Why)와 아키텍처적 역할(What)을 파악하기 위해 코드베이스 내외부의 지식을 수집하고 구조화하는 과정이다. 소스 코드뿐만 아니라 PR 설명, 커밋 메시지, 이슈 토론 등의 자연어 아티팩트를 LLM이 이해할 수 있는 형태로 변환하여 지능적인 분석의 근거로 제공한다.

## 2. 주요 추출 소스 (Artifacts)
- **자연어 아티팩트 (NL Artifacts)**: 커밋 메시지, PR 본문, 이슈 트래커 기록, 설계 문서(Wiki), README.
- **구조적 정보**: 의존성 맵, 패키지 구성, API 명세, 데이터베이스 스키마.
- **역사적 맥락**: 코드 변경 이력, 과거에 채택되거나 기각된 설계 대안, 관련 PR의 토론 요약.

## 3. 컨텍스트 구축 파이프라인
1.  **데이터 수집**: GitHub GraphQL API 등을 활용해 코드와 연관된 커밋, PR, 이슈를 계층적으로 역추적.
2.  **정제 및 필터링**: 불필요한 상용구(Boilerplate), 이모지, 형식이 잘못된 본문을 제거하여 정보 밀도 극대화.
3.  **구조화 (Context Building)**: 추출된 데이터를 LLM이 참조하기 쉬운 마크다운이나 계층적 태그 형식으로 직렬화.
4.  **검증 (LLM-as-a-Judge)**: 생성된 분석 결과가 실제 추출된 컨텍스트에 기반하고 있는지(Groundedness) 상호 검증.

## 4. 트레이드오프 및 주의사항
- **토큰 한계**: 방대한 히스토리를 한 번에 주입할 수 없으므로, 관련성 높은 데이터 위주의 선별적 추출(Chunking) 및 요약이 필수적.
- **성능 오버헤드**: 대규모 저장소의 경우 실시간 인덱싱 및 검색에 따른 레이턴시 발생 가능.
- **환각 방지**: 명확한 근거가 없는 추측성 분석을 차단하기 위해 정적 분석 데이터와의 교차 검증 필요.

## 5. 지식 연결 (Related)
- [[Model_Context_Protocol]]: 컨텍스트를 구조적으로 전달하기 위한 통신 표준.
- [[AI_Powered_Code_Review]]: 추출된 컨텍스트를 활용하는 대표적인 엔지니어링 사례.
- [[GitHub_History_Analysis]]: 컨텍스트 추출의 핵심 원천 데이터 분석 기술.

## 🧪 검증 상태 (Validation)
- **정보 상태**: 검증 완료 (Verified)
- **출처 신뢰도**: A
- **검토 이유**: 단순 코드 읽기를 넘어 시스템의 설계 의도와 역사적 배경을 파악하는 지능형 개발 환경 구축의 핵심 기반 정립.