# [[LLM-as-judge]] ## πŸ“Œ Brief Summary LLM-as-judgeλŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)을 ν™œμš©ν•˜μ—¬ AI μ‹œμŠ€ν…œμ˜ 검색 및 생성 ν’ˆμ§ˆμ„ μ²΄κ³„μ μœΌλ‘œ ν‰κ°€ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬μž…λ‹ˆλ‹€ [1]. RAGAS, Galileo, Maxim AI와 같은 ν”Œλž«νΌμ—μ„œ λ§žμΆ€ν˜• 평가 κΈ°μ€€(custom rubrics)κ³Ό ν•¨κ»˜ 주둜 μ œκ³΅λ©λ‹ˆλ‹€ [1]. 이λ₯Ό 톡해 기업은 평가 μ§€ν‘œκ°€ ν•˜λ½ν•  경우 배포λ₯Ό μ€‘λ‹¨ν•˜λŠ” ν’ˆμ§ˆ 게이트(quality gates)λ₯Ό μ„€μ •ν•˜μ—¬ μ‹œμŠ€ν…œ μ•ˆμ •μ„±μ„ 높일 수 μžˆμŠ΅λ‹ˆλ‹€ [1]. ## πŸ“– Core Content μ†ŒμŠ€μ— κ΄€λ ¨ 정보가 λΆ€μ‘±ν•©λ‹ˆλ‹€. 제곡된 λ¬Έν—Œμ—μ„œ μ œν•œμ μœΌλ‘œ ν™•μΈλ˜λŠ” LLM-as-judge 기반 ν‰κ°€μ˜ μ£Όμš” λ‚΄μš©μ€ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. * **λ§žμΆ€ν˜• 평가 κΈ°μ€€ 적용:** LLM-as-judgeλŠ” κ³ μ •λœ 방식이 μ•„λ‹ˆλΌ 각 쑰직의 ν•„μš”μ— 맞좘 μ‚¬μš©μž μ •μ˜ 루브릭(custom rubrics)을 기반으둜 μ‹œμŠ€ν…œμ„ 평가할 수 μžˆλ„λ‘ μ§€μ›ν•©λ‹ˆλ‹€ [1]. * **ν’ˆμ§ˆ 게이트(Quality Gates) μ„€μ •:** 개발 νŒ€μ€ LLM-as-judge 평가 κ²°κ³Όλ₯Ό λ°”νƒ•μœΌλ‘œ ν’ˆμ§ˆ 게이트λ₯Ό ꡬ좕할 수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μ‹œμŠ€ν…œμ˜ μ„±λŠ₯ μ§€ν‘œκ°€ κΈ°μ€€ μ΄ν•˜λ‘œ ν•˜λ½(regress)ν•  경우, ν”„λ‘œλ•μ…˜ ν™˜κ²½μœΌλ‘œμ˜ 배포λ₯Ό μžλ™μœΌλ‘œ 차단(fail)ν•˜λŠ” 역할을 ν•©λ‹ˆλ‹€ [1]. * **μ‹œμŠ€ν…œ μ•ˆμ •μ„± κΈ°μ—¬:** μ—”ν„°ν”„λΌμ΄μ¦ˆ ν™˜κ²½μ— μ΄λŸ¬ν•œ 체계적인 평가 방식을 κ΅¬ν˜„ν•  경우, 배포 이후에 λ°œμƒν•˜λŠ” 문제(post-deployment issues)λ₯Ό 50%μ—μ„œ 70%κ°€λŸ‰ 크게 κ°μ†Œμ‹œν‚¬ 수 μžˆλŠ” κ²ƒμœΌλ‘œ μž…μ¦λ˜μ—ˆμŠ΅λ‹ˆλ‹€ [1]. ## βš–οΈ Trade-offs & Caveats μ†ŒμŠ€μ— κ΄€λ ¨ 정보가 λΆ€μ‘±ν•©λ‹ˆλ‹€. λ¬Έν—Œμ„ 톡해 μ œν•œμ μœΌλ‘œ ν™•μΈλ˜λŠ” λ„μž… μ‹œμ˜ μ œμ•½ 사항은 λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. * **μ „λ‹΄ μ—”μ§€λ‹ˆμ–΄λ§ λ¦¬μ†ŒμŠ€μ˜ ν•„μš”μ„±:** LLM-as-judge와 같은 체계적 평가 μ‹œμŠ€ν…œμ„ μš΄μ˜ν•˜μ—¬ 배포 ν›„ 였λ₯˜λ₯Ό μ€„μ΄λŠ” 효과λ₯Ό μ–»κΈ° μœ„ν•΄μ„œλŠ”, 이λ₯Ό μ„€κ³„ν•˜κ³  μœ μ§€λ³΄μˆ˜ν•  '평가 μ—”μ§€λ‹ˆμ–΄λ§ μ „λ‹΄ 인λ ₯(dedicated evaluation engineering resources)'이 ν•„μˆ˜μ μœΌλ‘œ μš”κ΅¬λ©λ‹ˆλ‹€ [1]. 즉, ν‰κ°€μ˜ μžλ™ν™”μ™€ ν’ˆμ§ˆ 확보λ₯Ό μœ„ν•΄ 좔가적인 운영 λ¦¬μ†ŒμŠ€ νˆ¬μžκ°€ μˆ˜λ°˜λ˜μ–΄μ•Ό ν•œλ‹€λŠ” λ°˜λŒ€ κΈ‰λΆ€κ°€ μ‘΄μž¬ν•©λ‹ˆλ‹€. --- *Last updated: 2026-05-04*