# [[Context Precision & Recall]] ## πŸ“Œ Brief Summary μ»¨ν…μŠ€νŠΈ 정밀도(Context Precision)와 μ»¨ν…μŠ€νŠΈ μž¬ν˜„μœ¨(Context Recall)은 검색 증강 생성(RAG)κ³Ό 같은 정보 검색 μ‹œμŠ€ν…œμ—μ„œ κ²€μƒ‰λœ μ •λ³΄μ˜ ν’ˆμ§ˆμ„ μ²΄κ³„μ μœΌλ‘œ μΈ‘μ •ν•˜κΈ° μœ„ν•œ 핡심 평가 μ§€ν‘œμ΄λ‹€ [1]. μ»¨ν…μŠ€νŠΈ μ •λ°€λ„λŠ” κ²€μƒ‰λœ λ¬Έμ„œλ“€μ΄ μ‹€μ œ 쿼리와 관련성이 μžˆλŠ”μ§€λ₯Ό ν‰κ°€ν•˜λ©°, μ»¨ν…μŠ€νŠΈ μž¬ν˜„μœ¨μ€ μ‹œμŠ€ν…œμ΄ ν•„μš”ν•œ λͺ¨λ“  κ΄€λ ¨ 정보λ₯Ό λˆ„λ½ 없이 μ°Ύμ•„λƒˆλŠ”μ§€λ₯Ό μΈ‘μ •ν•œλ‹€ [1]. μ΄λŸ¬ν•œ μ§€ν‘œλ₯Ό ν™œμš©ν•œ 체계적인 ν‰κ°€λŠ” κΈ°μ—…μš© AI μ‹œμŠ€ν…œ 배포 ν›„ λ°œμƒν•  수 μžˆλŠ” ν’ˆμ§ˆ μ €ν•˜λ₯Ό λ°©μ§€ν•˜κ³  μ„±λŠ₯을 μ΅œμ ν™”ν•˜λŠ” 데 ν•„μˆ˜μ μœΌλ‘œ ν™œμš©λœλ‹€ [1]. ## πŸ“– Core Content * **κ°œλ… 및 μ •μ˜:** * **Context Precision (μ»¨ν…μŠ€νŠΈ 정밀도):** μ‹œμŠ€ν…œμ΄ λ°˜ν™˜ν•œ λ¬Έμ„œλ‚˜ 청크(chunk)듀이 μ‚¬μš©μžμ˜ μ§ˆμ˜μ™€ μ‹€μ œλ‘œ 관련이 μžˆλŠ”μ§€λ₯Ό ν‰κ°€ν•˜λŠ” μ§€ν‘œμ΄λ‹€ [1, 2]. 검색 결과에 λΆˆν•„μš”ν•œ λ…Έμ΄μ¦ˆ 없이 μ ν•©ν•œ 정보λ₯Ό μ–Όλ§ˆλ‚˜ 잘 κ°€μ Έμ™”λŠ”μ§€λ₯Ό μΈ‘μ •ν•˜μ—¬ κ²€μƒ‰μ˜ 정확성을 νŒŒμ•…ν•œλ‹€ [2]. * **Context Recall (μ»¨ν…μŠ€νŠΈ μž¬ν˜„μœ¨):** μ‹œμŠ€ν…œμ΄ μ§ˆμ˜μ— μ‘λ‹΅ν•˜λŠ” 데 ν•„μš”ν•œ λͺ¨λ“  κ΄€λ ¨ 정보λ₯Ό μ„±κ³΅μ μœΌλ‘œ μ°Ύμ•„λƒˆλŠ”μ§€λ₯Ό μΈ‘μ •ν•˜λŠ” μ§€ν‘œμ΄λ‹€ [1]. κ΄€λ ¨μ„± μžˆλŠ” 정보가 검색 κ³Όμ •μ—μ„œ λˆ„λ½λ˜μ§€ μ•Šμ•˜λŠ”μ§€λ₯Ό ν‰κ°€ν•œλ‹€. * **평가 ν”„λ ˆμž„μ›Œν¬ 및 적용:** * μ—”ν„°ν”„λΌμ΄μ¦ˆ ν™˜κ²½μ—μ„œλŠ” 과거의 λ‹¨μˆœ λ¬΄μž‘μœ„ μƒ˜ν”Œλ§ 검사(spot-checking)μ—μ„œ λ²—μ–΄λ‚˜, RAGAS, Galileo, Maxim AI와 같은 μ΅œμ‹  ν”Œλž«νΌμ„ λ„μž…ν•˜μ—¬ 'LLM-as-judge' 기반의 λ§žμΆ€ν˜• 루브릭으둜 이 μ§€ν‘œλ“€μ„ ν‰κ°€ν•œλ‹€ [1]. * 정밀도, μž¬ν˜„μœ¨, F1-score λ“±μ˜ 정확도 μ§€ν‘œλŠ” RAG λͺ¨λΈμ˜ μ„±λŠ₯을 λ²€μΉ˜λ§ˆν‚Ήν•˜κ³ , 지속적인 평가λ₯Ό 톡해 ν’ˆμ§ˆ μ €ν•˜κ°€ 감지될 경우 배포λ₯Ό μ€‘λ‹¨μ‹œν‚€λŠ” ν’ˆμ§ˆ 게이트(quality gates) μ—­ν• λ‘œ μ‚¬μš©λœλ‹€ [3, 4]. * μ΄λŸ¬ν•œ μ§€ν‘œλ₯Ό 기반으둜 ν•œ 체계적인 평가 ν”„λ ˆμž„μ›Œν¬λ₯Ό λ„μž…ν•˜λ©΄ μ‹œμŠ€ν…œ 배포 ν›„ λ°œμƒν•˜λŠ” 문제(post-deployment issues)λ₯Ό 50~70%κΉŒμ§€ 쀄일 수 μžˆλ‹€ [1]. ## βš–οΈ Trade-offs & Caveats * **ꡬ좕 μ˜€λ²„ν—€λ“œ 및 λ¦¬μ†ŒμŠ€ μš”κ΅¬:** μ»¨ν…μŠ€νŠΈ 정밀도와 μž¬ν˜„μœ¨μ„ μΈ‘μ •ν•˜κΈ° μœ„ν•΄ 골든 데이터셋을 κ΅¬μΆ•ν•˜κ³  μžλ™ν™”λœ ν’ˆμ§ˆ μ§€ν‘œ 및 κ΄€μΈ‘μ„±(observability) 인프라λ₯Ό λ§ˆλ ¨ν•˜λŠ” λ°μ—λŠ” 초기 κ΅¬ν˜„ μ‹œκ°„μ΄ 15~20% 더 μ†Œμš”λ˜λŠ” μ˜€λ²„ν—€λ“œκ°€ λ°œμƒν•œλ‹€ [4]. λ˜ν•œ, μ΄λŸ¬ν•œ 체계적인 평가λ₯Ό μ§€μ†μ μœΌλ‘œ μš΄μ˜ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ „λ‹΄ 평가 μ—”μ§€λ‹ˆμ–΄λ§ λ¦¬μ†ŒμŠ€(dedicated evaluation engineering resources)κ°€ ν•„μˆ˜μ μœΌλ‘œ μš”κ΅¬λœλ‹€ [1]. * **λΉ„μ¦ˆλ‹ˆμŠ€ μ§€ν‘œμ™€μ˜ 뢈일치 μœ„ν—˜(Misalignment):** 평가 μ§€ν‘œ(Context Precision/Recall) μƒμœΌλ‘œλŠ” μ‹œμŠ€ν…œ 벀치마크 μ μˆ˜κ°€ λ†’κ²Œ λ‚˜μ˜€λ”λΌλ„, 이 μ§€ν‘œλ“€μ΄ μ‹€μ œ λΉ„μ¦ˆλ‹ˆμŠ€ μ„±κ³Ό(KPI)λ‚˜ μ‚¬μš©μž λ§Œμ‘±λ„μ™€ μ§κ²°λ˜μ§€ μ•ŠλŠ”λ‹€λ©΄ μ‹€μ œ 문제λ₯Ό ν•΄κ²°ν•˜μ§€ λͺ»ν•˜λŠ” μ‹€νŒ¨λ‘œ μ΄μ–΄μ§ˆ 수 μžˆλ‹€ [5]. * **인간 ν‰κ°€μ˜ 병행 ν•„μš”μ„±:** μžλ™ν™”λœ μ§€ν‘œμ˜ ν•œκ³„λ₯Ό λ³΄μ™„ν•˜κΈ° μœ„ν•΄ 도메인에 νŠΉν™”λœ 평가 기쀀을 μ •μ˜ν•˜κ³ , μžλ™ν™”λœ μΈ‘μ • κΈ°μ€€κ³Ό μƒ˜ν”Œλ§λœ μ§ˆμ˜μ— λŒ€ν•œ μΈκ°„μ˜ 평가(human evaluation)λ₯Ό κ²°ν•©ν•˜λŠ” 과정이 μš”κ΅¬λœλ‹€ [5]. --- *Last updated: 2026-05-04*