# [[Faithfulness & Answer Relevancy]] ## πŸ“Œ Brief Summary Faithfulness(μΆ©μ‹€μ„±)와 Answer Relevancy(λ‹΅λ³€ κ΄€λ ¨μ„±)λŠ” 검색 증강 생성(RAG) μ‹œμŠ€ν…œμ˜ ν’ˆμ§ˆμ„ μΈ‘μ •ν•˜κΈ° μœ„ν•΄ μ‚¬μš©λ˜λŠ” 핡심적인 평가 μ§€ν‘œμ΄λ‹€ [1]. FaithfulnessλŠ” μƒμ„±λœ 닡변이 κ²€μƒ‰λœ μΆœμ²˜μ— μ–Όλ§ˆλ‚˜ 잘 κΈ°λ°˜ν•˜κ³  μžˆλŠ”μ§€λ₯Ό ν‰κ°€ν•˜λ©°, Answer RelevancyλŠ” ν•΄λ‹Ή 닡변이 μ‚¬μš©μžμ˜ μ§ˆλ¬Έμ„ μ •ν™•ν•˜κ²Œ ν•΄κ²°ν•˜κ³  μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚Έλ‹€ [1]. μ΄λŸ¬ν•œ μ§€ν‘œλ₯Ό ν†΅ν•œ 체계적인 ν‰κ°€λŠ” κΈ°μ—…μš© AI ν™˜κ²½μ—μ„œ 신뒰성을 ν™•λ³΄ν•˜κ³  배포 ν›„ λ°œμƒν•  수 μžˆλŠ” 문제λ₯Ό 사전에 μ˜ˆλ°©ν•˜λŠ” 데 ν•„μˆ˜μ μΈ 역할을 ν•œλ‹€ [1, 2]. ## πŸ“– Core Content * **평가 μ§€ν‘œμ˜ μ •μ˜**: ν”„λ‘œλ•μ…˜ ν™˜κ²½μ˜ RAG μ‹œμŠ€ν…œμ€ 검색(Retrieval)κ³Ό 생성(Generation) μΈ‘λ©΄ λͺ¨λ‘μ—μ„œ 지속적인 평가λ₯Ό μš”κ΅¬ν•œλ‹€ [1]. 'Faithfulness'λŠ” 닡변이 μΆœμ²˜μ— κ·Όκ±°λ₯Ό 두고 μžˆλŠ”κ°€(Does the answer stay grounded in sources?)λ₯Ό νŒλ³„ν•˜λŠ” μ§€ν‘œμ΄λ©°, 'Answer Relevancy'λŠ” 닡변이 질문의 μ˜λ„λ₯Ό μ œλŒ€λ‘œ 닀루고 μžˆλŠ”κ°€(Does it address the question?)λ₯Ό ν‰κ°€ν•˜λŠ” μ§€ν‘œμ΄λ‹€ [1]. * **평가 ν”„λ ˆμž„μ›Œν¬ 및 기술**: RAGAS, Galileo, Maxim AI와 같은 평가 ν”Œλž«νΌλ“€μ€ λ§žμΆ€ν˜• 루브릭(Custom rubrics)κ³Ό 'LLM-as-judge(LLM을 μ‹¬μ‚¬κ΄€μœΌλ‘œ ν™œμš©)' 방식을 톡해 μ΄λŸ¬ν•œ μ§€ν‘œλ“€μ„ μ‹œμŠ€ν…œμ μœΌλ‘œ ν‰κ°€ν•œλ‹€ [1]. * **ν’ˆμ§ˆ 관리 체계 적용**: 기업듀은 이 평가 인프라λ₯Ό ν™œμš©ν•˜μ—¬ μ‹œμŠ€ν…œμ˜ κΈ°λŒ€ λ™μž‘μ„ 담은 골든 데이터셋(Golden datasets)을 κ΅¬μΆ•ν•˜κ³ , 평가 μ§€ν‘œκ°€ ν•˜λ½ν•  경우 배포λ₯Ό μ‹€νŒ¨μ‹œν‚€λŠ” μžλ™ν™”λœ ν’ˆμ§ˆ 게이트(Quality gates)λ₯Ό μ„€μ •ν•œλ‹€ [2]. 이처럼 μ§€ν‘œλ₯Ό 기반으둜 ν•œ 체계적 평가λ₯Ό λ„μž…ν•˜λ©΄ 배포 ν›„ λ°œμƒν•˜λŠ” 문제의 50~70%λ₯Ό 쀄일 수 μžˆλ‹€ [1]. ## βš–οΈ Trade-offs & Caveats * **λΉ„μ¦ˆλ‹ˆμŠ€ μ„±κ³Όμ™€μ˜ 뢈일치 ν•œκ³„**: Faithfulnessλ‚˜ Answer Relevancy와 같은 평가 μ§€ν‘œ μ μˆ˜κ°€ λ²€μΉ˜λ§ˆν¬μƒμ—μ„œ λ†’κ²Œ λ‚˜μ˜€λ”λΌλ„, 이것이 μ‹€μ œ λΉ„μ¦ˆλ‹ˆμŠ€ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” 결과둜 μ§κ²°λ˜μ§€ μ•Šμ„ 수 μžˆλŠ” ν•œκ³„(Failure)κ°€ μ‘΄μž¬ν•œλ‹€ [3]. * **정성적 ν‰κ°€μ˜ 병행 ν•„μš”μ„±**: μžλ™ν™”λœ μ§€ν‘œμ˜ 맹점을 λ³΄μ™„ν•˜κΈ° μœ„ν•΄μ„œλŠ” λΉ„μ¦ˆλ‹ˆμŠ€ 핡심 μ„±κ³Ό μ§€ν‘œ(KPI)와 μ •λ ¬λœ 도메인 νŠΉν™” 평가 기쀀을 μƒˆλ‘­κ²Œ μ •μ˜ν•΄μ•Ό ν•˜λ©°, μƒ˜ν”Œλ§λœ 쿼리에 λŒ€ν•΄ μΈκ°„μ˜ 평가(Human evaluation)λ₯Ό μžλ™ν™”λœ μΈ‘μ • μ§€ν‘œμ™€ κ²°ν•©ν•΄μ•Ό ν•œλ‹€ [3]. * **μ—”μ§€λ‹ˆμ–΄λ§ λ¦¬μ†ŒμŠ€ 및 초기 μ˜€λ²„ν—€λ“œ 증가**: 체계적인 평가 ν”„λ ˆμž„μ›Œν¬λ₯Ό λ„μž…ν•˜κ³  μœ μ§€ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ „λ‹΄ 평가 μ—”μ§€λ‹ˆμ–΄λ§ λ¦¬μ†ŒμŠ€κ°€ μš”κ΅¬λœλ‹€ [1]. ν’ˆμ§ˆ μ§€ν‘œ λͺ¨λ‹ˆν„°λ§, 골든 데이터셋 ꡬ좕, μžλ™ν™”λœ ν’ˆμ§ˆ 게이트 μ„€μ • λ“± 평가 인프라λ₯Ό κ΅¬μ„±ν•˜λŠ” 과정은 초기 κ΅¬ν˜„ μ‹œκ°„μ— μ•½ 15~20%의 좔가적인 μ˜€λ²„ν—€λ“œλ₯Ό λ°œμƒμ‹œν‚€λ©°, ν”„λ‘œμ νŠΈ λ…Έλ ₯의 20~30%λ₯Ό 평가 및 관리에 μ˜ˆμ‚°μœΌλ‘œ ν• λ‹Ήν•΄μ•Ό ν•˜λŠ” μ œμ•½μ΄ λ”°λ₯Έλ‹€ [2, 4]. --- *Last updated: 2026-05-04*