# [[RAG Evaluation Frameworks]] ## ๐Ÿ“Œ Brief ๋‹จ๊ธฐ Summary RAG ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” RAG(๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ) ์‹œ์Šคํ…œ์˜ ๊ฒ€์ƒ‰(Retrieval) ๋ฐ ์ƒ์„ฑ(Generation) ์„ฑ๋Šฅ์„ ์ง€์†์ ์ด๊ณ  ์ฒด๊ณ„์ ์œผ๋กœ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•œ ๋„๊ตฌ ๋ฐ ๋ฐฉ๋ฒ•๋ก ์ž…๋‹ˆ๋‹ค [1]. ๊ธฐ์กด์˜ ๋ฌด์ž‘์œ„ ์ถ”์ถœ ์ ๊ฒ€(Spot-checking) ๋ฐฉ์‹์„ ๋„˜์–ด, ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ์˜ ๊ด€๋ จ์„ฑ๊ณผ ์ƒ์„ฑ๋œ ๋‹ต๋ณ€์˜ ์ •ํ™•์„ฑ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค [1]. ์ด๋ฅผ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํ™˜๊ฐ(Hallucination)์„ ๋ฐฉ์ง€ํ•˜๊ณ , ๊ธฐ์—… ํ™˜๊ฒฝ์—์„œ AI ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ทœ์ œ ์ค€์ˆ˜(Compliance)๋ฅผ ๋ณด์žฅํ•˜๋Š” ํ•ต์‹ฌ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค [1, 2]. ## ๐Ÿ“– Core Content RAG ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ํ™˜๊ฒฝ์—์„œ RAG ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ํ•„์ˆ˜์ ์œผ๋กœ ์š”๊ตฌ๋˜๋Š” ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค [2]. ์†Œ์Šค์— ๋”ฐ๋ฅด๋ฉด RAG ํ‰๊ฐ€์˜ ํ•ต์‹ฌ ๋‚ด์šฉ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. * **๋‹ค์ฐจ์›์  ํ‰๊ฐ€ ์ง€ํ‘œ (Evaluation Dimensions):** ํ‰๊ฐ€๋Š” ํฌ๊ฒŒ ๊ฒ€์ƒ‰๊ณผ ์ƒ์„ฑ์˜ ๋‘ ๊ฐ€์ง€ ์ฐจ์›์—์„œ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค [1]. * **Context Precision (๋ฌธ๋งฅ ์ •๋ฐ€๋„):** ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ๊ฐ€ ์‚ฌ์šฉ์ž์˜ ์งˆ์˜์™€ ์–ผ๋งˆ๋‚˜ ๊ด€๋ จ์ด ์žˆ๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค [1]. * **Context Recall (๋ฌธ๋งฅ ์žฌํ˜„์œจ):** ํ•„์š”ํ•œ ๋ชจ๋“  ๊ด€๋ จ ์ •๋ณด๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์ฐพ์•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค [1]. * **Faithfulness (์ถฉ์‹ค๋„):** ์ƒ์„ฑ๋œ ๋‹ต๋ณ€์ด ๊ฒ€์ƒ‰๋œ ์ถœ์ฒ˜์— ํ™•๊ณ ํžˆ ๊ธฐ๋ฐ˜์„ ๋‘๊ณ  ์žˆ๋Š”์ง€(ํ™˜๊ฐ ์—ฌ๋ถ€)๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค [1]. * **Answer Relevancy (๋‹ต๋ณ€ ๊ด€๋ จ์„ฑ):** ์ตœ์ข… ๋‹ต๋ณ€์ด ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ์— ์ ์ ˆํžˆ ์‘๋‹ตํ•˜๊ณ  ์žˆ๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค [1]. * ๊ทธ ์™ธ์—๋„ ๋ฒกํ„ฐ ์œ ์‚ฌ๋„, ์ฒญํฌ(Chunk) ๊ด€๋ จ์„ฑ, ์‘๋‹ต ์ผ๊ด€์„ฑ, ์ง€์—ฐ ์‹œ๊ฐ„, ์ฟผ๋ฆฌ๋‹น ๋น„์šฉ ๋“ฑ์„ ํฌ๊ด„์ ์œผ๋กœ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค [3, 4]. * **ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก  ๋ฐ ํ”Œ๋žซํผ:** ์ตœ์‹  ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 'LLM-as-judge(ํ‰๊ฐ€์ž๋กœ์„œ์˜ LLM)' ๋ฐฉ๋ฒ•๋ก ์„ ์ฑ„ํƒํ•˜์—ฌ ๋งž์ถคํ˜• ๋ฃจ๋ธŒ๋ฆญ(Rubrics)์— ๋”ฐ๋ผ ํ‰๊ฐ€๋ฅผ ์ž๋™ํ™”ํ•ฉ๋‹ˆ๋‹ค [1]. ๋Œ€ํ‘œ์ ์ธ ํ‰๊ฐ€ ํ”Œ๋žซํผ์œผ๋กœ๋Š” RAGAS, Galileo, Maxim AI, ARES, Braintrust ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค [1, 5]. * **์ง€์†์  ํ‰๊ฐ€์™€ ํ’ˆ์งˆ ๊ฒŒ์ดํŠธ (Continuous Evaluation & Quality Gates):** ํ”„๋กœ๋•์…˜ ๋ฐฐํฌ ์ „ํ›„๋กœ ํ’ˆ์งˆ ์ €ํ•˜(Regression)๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ํ’ˆ์งˆ ๊ฒŒ์ดํŠธ๋ฅผ ์„ค์ •ํ•˜๊ณ , ์„ฑ๋Šฅ ๊ธฐ์ค€์— ๋ฏธ๋‹ฌํ•  ๊ฒฝ์šฐ ๋ฐฐํฌ๋ฅผ ์ฐจ๋‹จํ•˜๊ฑฐ๋‚˜ ์ถ”๊ฐ€ ๊ฒ€์ƒ‰์„ ํŠธ๋ฆฌ๊ฑฐํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค [1, 2, 6]. ## โš–๏ธ Trade-offs & Caveats RAG ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๋„์ž… ์‹œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ œ์•ฝ ์‚ฌํ•ญ๊ณผ ๋ฐ˜๋Œ€ ๊ธ‰๋ถ€(Trade-off)๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. * **์ดˆ๊ธฐ ๊ตฌ์ถ• ๋ฆฌ์†Œ์Šค ๋ฐ ๋น„์šฉ ์ฆ๊ฐ€:** ์ฒด๊ณ„์ ์ธ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๊ด€์ธก ๊ฐ€๋Šฅ์„ฑ(Observability) ์ธํ”„๋ผ๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์€ ์ „๋‹ด ํ‰๊ฐ€ ์—”์ง€๋‹ˆ์–ด๋ง ๋ฆฌ์†Œ์Šค๋ฅผ ํ•„์š”๋กœ ํ•˜๋ฉฐ, ์ดˆ๊ธฐ ๊ตฌํ˜„ ์‹œ๊ฐ„์„ 15~20%๊ฐ€๋Ÿ‰ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค [1, 2]. * **๋น„์ฆˆ๋‹ˆ์Šค ์„ฑ๊ณผ์™€์˜ ๊ดด๋ฆฌ (Disconnect from Business Outcomes):** ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ์ง€ํ‘œ(๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜)๊ฐ€ ์šฐ์ˆ˜ํ•˜๋”๋ผ๋„ ์‹ค์ œ ๋น„์ฆˆ๋‹ˆ์Šค ๋ฌธ์ œ ํ•ด๊ฒฐ์ด๋‚˜ ์‚ฌ์šฉ์ž ๋งŒ์กฑ๋„๋กœ ์ง๊ฒฐ๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋Š” ์‹คํŒจ ์‚ฌ๋ก€(Failure mode)๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค [7]. * **ํ•œ๊ณ„ ๊ทน๋ณต์„ ์œ„ํ•œ ๋Œ€์‘ (Mitigation):** ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋น„์ฆˆ๋‹ˆ์Šค KPI์™€ ์ •๋ ฌ๋œ ๋„๋ฉ”์ธ ํŠนํ™” ํ‰๊ฐ€ ๊ธฐ์ค€์„ ์ •์˜ํ•˜๊ณ , ํ”„๋กœ๋•์…˜ ์‹คํŒจ ์‚ฌ๋ก€๋กœ ๊ตฌ์„ฑ๋œ '๊ณจ๋“  ๋ฐ์ดํ„ฐ์…‹(Golden datasets)'์„ ์œ ์ง€ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค [7]. ๋˜ํ•œ ์ž๋™ํ™”๋œ ์ง€ํ‘œ์—๋งŒ ์˜์กดํ•˜์ง€ ์•Š๊ณ , ์ƒ˜ํ”Œ๋ง๋œ ์ฟผ๋ฆฌ์— ๋Œ€ํ•œ ์ธ๊ฐ„์˜ ํ‰๊ฐ€(Human evaluation)๋ฅผ ๋ฐ˜๋“œ์‹œ ๋ณ‘ํ–‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค [7]. ## ๐Ÿ”— Knowledge Connections ### Related Concepts #### [๊ฒ€์ƒ‰ ๋ฐ ์ƒ์„ฑ ํ’ˆ์งˆ ํ‰๊ฐ€ ๊ธฐ์ˆ ] * **[[Context Precision & Recall]]** * ์—ฐ๊ฒฐ ์ด์œ : RAG ์‹œ์Šคํ…œ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ์ •๋ณด ๊ฒ€์ƒ‰(Retrieval) ํŒŒ์ดํ”„๋ผ์ธ์˜ ํ’ˆ์งˆ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ์ธก์ •ํ•˜๋Š” ๊ฐ€์žฅ ํ•ต์‹ฌ์ ์ธ ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค [1]. * ์ด ๊ฐœ๋…์„ ํ†ตํ•ด ๋” ๊นŠ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„: ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ฒ€์ƒ‰์ด๋‚˜ ์žฌ์ˆœ์œ„ํ™”(Reranking) ๊ธฐ์ˆ ์ด ์‹ค์ œ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ์˜ ์ •ํ™•์„ฑ๊ณผ ๋ˆ„๋ฝ ์—†๋Š” ์ •๋ณด ์ˆ˜์ง‘์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ•˜๋Š”์ง€ ๊ฐ๊ด€์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๋Š” ์›๋ฆฌ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [1, 8]. * **[[Faithfulness & Answer Relevancy]]** * ์—ฐ๊ฒฐ ์ด์œ : LLM์ด ๊ฒ€์ƒ‰๋œ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์‘๋‹ต์„ ์ƒ์„ฑ(Generation)ํ•  ๋•Œ์˜ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ์ค€์ž…๋‹ˆ๋‹ค [1]. * ์ด ๊ฐœ๋…์„ ํ†ตํ•ด ๋” ๊นŠ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„: ์‹œ์Šคํ…œ์ด ๊ธฐ์—…์˜ ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ์— ์ถฉ์‹คํ•˜๊ฒŒ ๊ธฐ๋ฐ˜ํ•˜์—ฌ ๋‹ต๋ณ€ํ•˜๋Š”์ง€, ์ฆ‰ ํ™˜๊ฐ(Hallucination) ํ˜„์ƒ์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์–ต์ œํ•˜๊ณ  ์žˆ๋Š”์ง€๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [1]. #### [ํ‰๊ฐ€ ๊ตฌํ˜„ ๋ฐ ์šด์˜ ๋ฐฉ๋ฒ•๋ก ] * **[[LLM-as-judge]]** * ์—ฐ๊ฒฐ ์ด์œ : RAGAS, Galileo ๋“ฑ์˜ ์ตœ์‹  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์ž…๋‹ˆ๋‹ค [1]. * ์ด ๊ฐœ๋…์„ ํ†ตํ•ด ๋” ๊นŠ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„: ์‚ฌ๋žŒ์ด ์ง์ ‘ ๋ชจ๋“  ์งˆ์˜๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ๋ฒ—์–ด๋‚˜, ํ”„๋กฌํ”„ํŠธ์™€ ๋ฃจ๋ธŒ๋ฆญ์„ ํ†ตํ•ด LLM ์ž์ฒด๊ฐ€ ๊ฒ€์ƒ‰ ๋ฐ ์ƒ์„ฑ ๊ฒฐ๊ณผ์˜ ํ’ˆ์งˆ์„ ์ ์ˆ˜ํ™”ํ•˜๋Š” ์ž๋™ํ™” ์ฒด๊ณ„๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [1]. * **[[Golden Datasets (๊ณจ๋“  ๋ฐ์ดํ„ฐ์…‹)]]** * ์—ฐ๊ฒฐ ์ด์œ : ์ž๋™ํ™”๋œ ํ‰๊ฐ€์˜ ๊ธฐ์ค€์ (Ground Truth)์„ ์ œ๊ณตํ•˜๋ฉฐ, ์‹œ์Šคํ…œ์˜ ํ’ˆ์งˆ ์ €ํ•˜(Drift)๋ฅผ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๊ธฐ ์œ„ํ•ด ํ•„์ˆ˜์ ์ธ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค [2, 7]. * ์ด ๊ฐœ๋…์„ ํ†ตํ•ด ๋” ๊นŠ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„: ์‹ค์ œ ํ”„๋กœ๋•์…˜ ํ™˜๊ฒฝ์˜ ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ์‹œ์Šคํ…œ์„ ์ง€์†์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ํ‰๊ฐ€ ์—”์ง€๋‹ˆ์–ด๋ง์˜ ์‹ค๋ฌด์  ์šด์˜ ๋ฐฉ์‹์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [2, 7]. ### Deeper Research Questions * ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ์ง€ํ‘œ(LLM-as-judge ๋“ฑ)๊ฐ€ ์‹ค์ œ ๋น„์ฆˆ๋‹ˆ์Šค ์„ฑ๊ณผ ๋ฐ ์‚ฌ์šฉ์ž ๋งŒ์กฑ๋„์™€ ์ง๊ฒฐ๋˜์ง€ ์•Š๋Š” ๊ดด๋ฆฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด, ์‚ฐ์—…๊ตฐ(๋„๋ฉ”์ธ) ํŠนํ™” ํ‰๊ฐ€ ๋ฃจ๋ธŒ๋ฆญ์€ ์–ด๋–ป๊ฒŒ ์„ค๊ณ„๋˜์–ด์•ผ ํ•˜๋Š”๊ฐ€? [1, 7] * ๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ ์ฒญํฌ(Chunk)์˜ ๊ด€๋ จ์„ฑ๊ณผ ๊ณ ์ฐจ์› ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ์˜ ๋ฒกํ„ฐ ์œ ์‚ฌ๋„(Vector similarity)๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ๋ฐ˜์˜ํ•œ ๊ฒ€์ƒ‰ ํ‰๊ฐ€(Retrieval Evaluation) ์ง€ํ‘œ๋Š” ์–ด๋–ค ์ˆ˜ํ•™์ /์•Œ๊ณ ๋ฆฌ์ฆ˜์  ๋ฉ”์ปค๋‹ˆ์ฆ˜์œผ๋กœ ์‚ฐ์ถœ๋˜๋Š”๊ฐ€? [4] * RAG ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ(RAGAS ๋“ฑ)๋ฅผ CI/CD ํŒŒ์ดํ”„๋ผ์ธ์— ํ†ตํ•ฉํ•˜์—ฌ ํ’ˆ์งˆ ์ €ํ•˜(Metric regression) ์‹œ ๋ฐฐํฌ๋ฅผ ์ž๋™ ์ฐจ๋‹จํ•˜๋Š” ํ’ˆ์งˆ ๊ฒŒ์ดํŠธ(Quality gates)์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑ๋˜๋Š”๊ฐ€? [1, 2] * ๋‹จ์ˆœ ๊ฒ€์ƒ‰-์ƒ์„ฑ์„ ๋„˜์–ด ์ž์œจ์ ์ธ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์—์ด์ „ํ‹ฑ RAG(Agentic RAG) ํ™˜๊ฒฝ์—์„œ, ๋ฌดํ•œ ๊ฒ€์ƒ‰ ๋ฃจํ”„(Infinite retrieval loops)๋‚˜ ์—์ด์ „ํŠธ์˜ ์ž˜๋ชป๋œ ๊ฒ€์ƒ‰ ๊ฒฐ์ •์€ ์–ด๋–ค ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ๋ชจ๋‹ˆํ„ฐ๋งํ•ด์•ผ ํ•˜๋Š”๊ฐ€? [9, 10] * ์ง€์†์ ์ธ ํ‰๊ฐ€์™€ ํ”„๋กœ๋•์…˜ ๊ด€์ธก(Observability)์œผ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” 20~30%์˜ ์ง€์—ฐ ์‹œ๊ฐ„(Latency overhead)์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์–ด๋–ค ์ƒ˜ํ”Œ๋ง(Sampling) ๋ฐ ๋น„๋™๊ธฐ(Asynchronous) ๋กœ๊น… ์ „๋žต์ด ํšจ๊ณผ์ ์ธ๊ฐ€? [7, 11] ### Practical Application Contexts * **Implementation:** ๊ฐœ๋ฐœ ํŒ€์€ RAGAS, Galileo, Maxim AI, Braintrust์™€ ๊ฐ™์€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•˜์—ฌ LLM-as-judge ๊ธฐ๋ฐ˜์˜ ํ‰๊ฐ€ ๋ฃจ๋ธŒ๋ฆญ์„ ํŒŒ์ดํ”„๋ผ์ธ์— ํ†ตํ•ฉ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค [1, 5]. * **System Design:** ์‹œ์Šคํ…œ ์„ค๊ณ„ ์ดˆ๊ธฐ(Day zero) ๋‹จ๊ณ„๋ถ€ํ„ฐ ๊ด€์ธก ๊ฐ€๋Šฅ์„ฑ(Observability) ์ธํ”„๋ผ์™€ ๊ณจ๋“  ๋ฐ์ดํ„ฐ์…‹์„ ํฌํ•จ์‹œ์ผœ, ํ’ˆ์งˆ ๋ฏธ๋‹ฌ ์‹œ ์šด์˜ ๋ฐฐํฌ๋ฅผ ๋ง‰๋Š” ํ’ˆ์งˆ ๊ฒŒ์ดํŠธ๋ฅผ ์•„ํ‚คํ…์ฒ˜์— ๋‚ด์žฌํ™”ํ•ฉ๋‹ˆ๋‹ค [2]. * **Operation / Maintenance:** ์šด์˜ ์ค‘์—๋Š” ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜์™€ ๋น„์ฆˆ๋‹ˆ์Šค ๊ฒฐ๊ณผ ๊ฐ„์˜ ๋ถˆ์ผ์น˜๋ฅผ ๋ง‰๊ธฐ ์œ„ํ•ด, ์ƒ˜ํ”Œ๋ง๋œ ์ฟผ๋ฆฌ์— ๋Œ€ํ•œ ์ธ๊ฐ„ ํ‰๊ฐ€(Human evaluation)๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ณ  ํ”„๋กœ๋•์…˜ ์žฅ์•  ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๊ณจ๋“  ๋ฐ์ดํ„ฐ์…‹์„ ์ง€์†์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค [2, 7]. * **Learning Path:** ๋ฒกํ„ฐ ๊ฒ€์ƒ‰์˜ ์œ ์‚ฌ๋„ ์ง€ํ‘œ ๋ฐ ์ •๋ณด ๊ฒ€์ƒ‰์˜ ์ •๋ฐ€๋„/์žฌํ˜„์œจ ๊ธฐ์ดˆ๋ฅผ ํ•™์Šตํ•œ ๋’ค, ์ƒ์„ฑ ๋‹จ๊ณ„์—์„œ์˜ ๋‹ต๋ณ€ ๊ด€๋ จ์„ฑ ๋ฐ ์ถฉ์‹ค๋„๋ฅผ ์ ์ˆ˜ํ™”ํ•˜๋Š” LLM ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก (LLM-as-judge)์œผ๋กœ ํ•™์Šต์„ ๊ณ ๋„ํ™”ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค [1, 4]. * **My Project Relevance:** '๊ฒ€์ƒ‰์˜ ์ •๊ตํ•จ'์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ธฐ์—…์˜ RAG ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•  ๋•Œ, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ์„ ์ด ์‹ค์ œ ์‘๋‹ต ํ’ˆ์งˆ ํ–ฅ์ƒ์œผ๋กœ ์ด์–ด์ง€๋Š”์ง€๋ฅผ ๊ฐ๊ด€์ ์œผ๋กœ ์ฆ๋ช…ํ•˜๊ณ , ๊ทœ์ œ ํ™˜๊ฒฝ์—์„œ AI์˜ ๊ฒฐ์ •(๋‹ต๋ณ€) ๊ณผ์ •์„ ๊ฐ์‚ฌ(Audit)ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ณด์žฅํ•˜๋Š” ๋ฐ ์ด ํ‰๊ฐ€ ์ฒด๊ณ„๊ฐ€ ์ง์ ‘์ ์œผ๋กœ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค [1, 2]. ### Adjacent Topics * **[[Production Observability (ํ”„๋กœ๋•์…˜ ๊ด€์ธก ๊ฐ€๋Šฅ์„ฑ)]]** * ํ™•์žฅ ๋ฐฉํ–ฅ: ํ‰๊ฐ€ ์‹œ์Šคํ…œ์—์„œ ๋‚ฎ์€ ์ ์ˆ˜๊ฐ€ ๋‚˜์™”์„ ๋•Œ, ์–ด๋–ค ๋ฌธ์„œ๊ฐ€ ์™œ ๊ทธ๋Ÿฐ ์ˆœ์œ„๋กœ ๊ฒ€์ƒ‰๋˜์—ˆ๋Š”์ง€, ๊ฐ ๋‹จ๊ณ„์˜ ์ง€์—ฐ ์‹œ๊ฐ„๊ณผ ์†Œ๋ชจ๋œ ํ† ํฐ ์ˆ˜๋Š” ์–ผ๋งˆ์ธ์ง€ ๊ฒ€์ƒ‰ ๊ถค์ (Retrieval trace)์„ ์ƒ์„ธํžˆ ๋””๋ฒ„๊น…ํ•˜๋Š” ์ธํ”„๋ผ ๊ตฌ์ถ• ๊ธฐ์ˆ ๋กœ ํ™•์žฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค [11]. * **[[Agentic RAG (์—์ด์ „ํ‹ฑ RAG)]]** * ํ™•์žฅ ๋ฐฉํ–ฅ: ๊ณ ์ •๋œ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์ž์œจํ˜• ์—์ด์ „ํŠธ๊ฐ€ ์Šค์Šค๋กœ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ๋ฅผ ์ž๊ฐ€ ํ‰๊ฐ€(Self-reflection)ํ•˜๊ณ  ํ•„์š”์‹œ ์žฌ๊ฒ€์ƒ‰์„ ๊ธฐํš(Planning)ํ•˜๋Š” ๋” ์ง„ํ™”๋œ ๊ฒ€์ƒ‰ ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ์˜ ํ•™์Šต์„ ๋„๋ชจํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [9, 12]. --- *Last updated: 2026-05-04*