# [[LLM-as-judge]] ## ๐Ÿ“Œ Brief Summary LLM-as-judge๋Š” ์ธ๊ณต์ง€๋Šฅ ์—์ด์ „ํŠธ ํ•˜๋„ค์Šค ํ™˜๊ฒฝ์—์„œ ๋ชจ๋ธ์˜ ์‚ฐ์ถœ๋ฌผ์ด๋‚˜ ์‹œ์Šคํ…œ์˜ ๋™์ž‘์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ์ž์ฒด๋ฅผ ์‹ฌ์‚ฌ๊ด€(judge)์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ์ถ”๋ก ์ (Inferential) ์ œ์–ด ๋ฐ ํ‰๊ฐ€ ๋ฐฉ์‹์ด๋‹ค [1, 2]. ์ฃผ๋กœ AI ์ฝ”๋“œ ๋ฆฌ๋ทฐ, ์˜๋ฏธ๋ก ์  ๋ถ„์„, ์‘๋‹ต ํ’ˆ์งˆ์˜ ์ง€์†์  ์ƒ˜ํ”Œ๋ง ๋ฐ ๋กœ๊ทธ ์ด์ƒ ์ง•ํ›„ ํƒ์ง€ ๋“ฑ์— ํ™œ์šฉ๋œ๋‹ค [2, 3]. ์ด๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„ ๊ฐœ๋ฐœ์ž๊ฐ€ ๋ชจ๋“  ๊ฒƒ์„ ๊ฒ€ํ† ํ•˜์ง€ ์•Š๊ณ ๋„ ์—์ด์ „ํŠธ์˜ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ํ…Œ์ŠคํŠธํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒ€์ฆ ๋ฃจํ”„๋ฅผ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š”๋‹ค [1, 2]. ## ๐Ÿ“– Core Content * **์ถ”๋ก ์  ํ”ผ๋“œ๋ฐฑ ์„ผ์„œ๋กœ์„œ์˜ ์—ญํ• :** ์—์ด์ „ํŠธ ํ•˜๋„ค์Šค ๋‚ด์—์„œ LLM-as-judge๋Š” ์˜๋ฏธ๋ก ์  ํŒ๋‹จ(Semantic judgment)์ด ํ•„์š”ํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” '์ถ”๋ก ์  ์„ผ์„œ(Inferential sensor)'๋กœ ๊ธฐ๋Šฅํ•œ๋‹ค [2, 4]. ๋ฆฐํ„ฐ(Linter)๋‚˜ ๋‹จ์œ„ ํ…Œ์ŠคํŠธ์™€ ๊ฐ™์ด ๋น ๋ฅด๊ณ  ๊ฒฐ์ •๋ก ์ ์ธ ์—ฐ์‚ฐ์ (Computational) ์„ผ์„œ์™€ ๋‹ฌ๋ฆฌ, ๋ฌธ๋งฅ์  ์ดํ•ด๊ฐ€ ํ•„์š”ํ•œ AI ์ฝ”๋“œ ๋ฆฌ๋ทฐ๋‚˜ ์‘๋‹ต ํ’ˆ์งˆ ๋ชจ๋‹ˆํ„ฐ๋ง ๋“ฑ์˜ ์˜์—ญ์—์„œ ์—์ด์ „ํŠธ์˜ ์ƒํƒœ๋ฅผ ๊ฐ์‹œํ•˜๊ณ  ์˜ค๋ฅ˜๋ฅผ ์‹๋ณ„ํ•œ๋‹ค [2, 3]. * **ํ‰๊ฐ€ ๋ฐ CI ํŒŒ์ดํ”„๋ผ์ธ ํ†ตํ•ฉ:** ๋‹ค์–‘ํ•œ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๊ด€์ธก ๋„๊ตฌ๋“ค์€ LLM-as-judge๋ฅผ ๊ธฐ๋ณธ ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ์ฑ„ํƒํ•˜๊ณ  ์žˆ๋‹ค. `promptfoo`, `Weights & Biases Weave`, `Mastra` ๋“ฑ์˜ ๋„๊ตฌ๋Š” LLM-as-judge๋ฅผ ๋‚ด์žฅํ•˜์—ฌ ์—์ด์ „ํŠธ ์‚ฐ์ถœ๋ฌผ์˜ ํšŒ๊ท€ ํ…Œ์ŠคํŠธ๋ฅผ CI(์ง€์†์  ํ†ตํ•ฉ) ํŒŒ์ดํ”„๋ผ์ธ์— ์ง์ ‘ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•œ๋‹ค [1, 5, 6]. * **ํ‰๊ฐ€์ž ๋ชจ๋ธ ์—ญ๋Ÿ‰์— ๋Œ€ํ•œ ๋†’์€ ์˜์กด์„ฑ:** Red Hat์˜ ํ‰๊ฐ€ ์ฃผ๋„ ๊ฐœ๋ฐœ(Eval-Driven Development) ์‚ฌ๋ก€ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด, LLM-as-judge ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ํ‰๊ฐ€์ž ๋ชจ๋ธ์˜ ์—ญ๋Ÿ‰(Capability)์€ ํ‰๊ฐ€์˜ ์ •ํ™•๋„์— ๊ฒฐ์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค [1]. ์‹ค์ œ ์‹คํ—˜์—์„œ ๋Œ€ํ˜• ๋ชจ๋ธ(llama-3-3-70b)์€ ์•Œ๋ ค์ง„ ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ ๋ชจ๋‘ ์žก์•„๋‚ธ ๋ฐ˜๋ฉด, ๋” ์ž‘์€ ๋ชจ๋ธ๋“ค์€ ์—ฌ๋Ÿฌ ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ ๋†“์น˜๋Š” ํ•œ๊ณ„๋ฅผ ๋ณด์˜€๋‹ค [1]. ์ฆ‰, ์ ์ ˆํ•˜๊ณ  ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์„ ํ‰๊ฐ€์ž๋กœ ์‚ฌ์šฉํ•  ๋•Œ๋งŒ ์‹œ์Šคํ…œ์— ๋Œ€ํ•œ ์‹ค์งˆ์ ์ธ ์‹ ๋ขฐ๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค [2]. ## โš–๏ธ Trade-offs & Caveats * **๋†’์€ ๋น„์šฉ ๋ฐ ์‹คํ–‰ ์ง€์—ฐ:** LLM-as-judge๋Š” GPU๋‚˜ NPU ์ž์›์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ „ํ†ต์ ์ธ ์—ฐ์‚ฐ์  ์„ผ์„œ์— ๋น„ํ•ด ์‹คํ–‰ ์†๋„๊ฐ€ ๋А๋ฆฌ๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ ๋‹ค [2, 4]. ๋”ฐ๋ผ์„œ ์—์ด์ „ํŠธ๊ฐ€ ์ฝ”๋“œ๋ฅผ ๋ณ€๊ฒฝํ•˜๋Š” ๋ชจ๋“  ์ปค๋ฐ‹(Commit)๋งˆ๋‹ค LLM-as-judge๋ฅผ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์€ ๊ฒฝ์ œ์ ์œผ๋กœ๋‚˜ ์‹œ๊ฐ„์ ์œผ๋กœ ๋น„ํšจ์œจ์ ์ด๋‹ค [4]. * **๋น„๊ฒฐ์ •์„ฑ(Non-determinism)๊ณผ ํ‰๊ฐ€ ํ”ผ๋กœ:** ํ™•๋ฅ ๋ก ์  ๋ชจ๋ธ์— ๊ธฐ๋ฐ˜ํ•˜๋ฏ€๋กœ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๊ฐ€ ํ•ญ์ƒ 100% ๋™์ผํ•˜๊ฒŒ ๋ณด์žฅ๋˜์ง€ ์•Š๋Š” ๋น„๊ฒฐ์ •์„ฑ์„ ๋ค๋‹ค [2, 4]. * **์„ค๊ณ„์  ์ œ์•ฝ:** ๋ฌด๋ถ„๋ณ„ํ•œ LLM-as-judge์˜ ์‚ฌ์šฉ์€ ๋ง‰๋Œ€ํ•œ ํ‰๊ฐ€ ๋น„์šฉ์œผ๋กœ ์ธํ•ด ์‹œ์Šคํ…œ ์ „์ฒด๋ฅผ ๋ฌด๋„ˆ๋œจ๋ฆด ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ(eval cost collapse), ์œ ์˜๋ฏธํ•œ ๋ฆฌ์Šคํฌ๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ํ•ต์‹ฌ์ ์ธ ์œ„์น˜์—๋งŒ ๊ฐ’๋น„์‹ผ ๊ฒ€์‚ฌ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ณ„์ธต์  ๊ฐ€๋“œ๋ ˆ์ผ ์„ค๊ณ„๊ฐ€ ํ•„์ˆ˜์ ์ด๋‹ค [1]. --- *Last updated: 2026-05-05*