- 코드 그라운딩: 기술 주제 문서의 '적용 사례'에 실제 레포 구현 위치
(file:line)+커밋 자동 주입 (예: 문서 청킹 전략→connectai/src/retrieval/chunker.ts).
멱등 마커(CODE-GROUNDING)로 재실행 시 갱신.
- MOC: 39개 클러스터 폴더에 _MOC.md 학습지도 생성(진입점+통찰 주석).
도구: Datacollect/scripts/{code_grounding,moc_generator}.mjs
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
해결책: 완전 자동화에 의존하지 않고, 주기적인 인간 검수(Human-in-the-loop)를 통해 AI의 평가 결과를 교정하는 과정이 병행되어야 한다.
⚖️ 모순 및 업데이트 (Contradictions & updates)
평가 비용 이슈: 초기에는 모든 로그 평가에 고성능 LLM을 사용했으나, 최근에는 비용과 지연 시간을 줄이기 위해 평가 전용 sLLM이나 DPO (Direct Preference Optimization) 루프를 활용하는 방식으로 업데이트되고 있다 [S223, S232].
지표의 상호 보완: 개별 지표의 높은 점수가 반드시 '최고의 사용자 경험'을 보장하지는 않으므로, 세 지표의 균형과 함께 정성적 리뷰가 반드시 수반되어야 함이 강조된다 [S262].
🛠️ 적용 사례 (Applied in summary)
Arize Phoenix: RAG Triad 지표를 자동으로 산출하고, 검색 문서와 답변 간의 관계를 시각화하여 품질 저하 지점을 추적하는 도구로 적용되었다 [S221, S230].
RAG 실험 가속기: Azure 환경에서 여러 실험의 평가 결과를 집계하고 시각화하여 가장 적합한 RAG 구현 전략을 찾는 데 활용되었다 [S261].
데이터 기반 운영: "Faithfulness 90% 유지"와 같은 SLA(Service Level Agreement) 수립의 근거 데이터로 활용되고 있다 [S224, S233].
✅ 검증 상태 및 신뢰도
상태: draft
검증 단계: conceptual (실제 솔루션 스택 및 실험 가속기에 적용됨)
출처 신뢰도: A (Microsoft Azure, 교보DTS 등 기술 운영 전문 조직의 분석에 기반함)