[G1-Sync] Manual knowledge update

2026-05-10 22:08:15 +09:00
parent 21ac3ed255
commit 504fd5fb42
3011 changed files with 380280 additions and 206977 deletions
@@ -1,106 +1,255 @@
 ---
 id: wiki-2026-0508-llm-as-a-judge-laaj
-title: LLM as a Judge LaaJ
+title: LLM-as-a-Judge (LaaJ)
 category: 10_Wiki/Topics
-status: needs_review
+status: verified
 canonical_id: self
-aliases: []
+aliases: [LLM judge, LaaJ, AI eval, automated eval, MT-Bench, AlpacaEval]
 duplicate_of: none
 source_trust_level: A
-confidence_score: 0.92
-tags: [auto-wikified, technical-documentation]
+confidence_score: 0.93
+verification_status: applied
+tags: [llm, evaluation, judge, automation, alpacaeval, mt-bench]
 raw_sources: []
-last_reinforced: 2026-05-08
+last_reinforced: 2026-05-10
 github_commit: pending
-inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
+tech_stack:
+  language: Python
+  framework: Anthropic / OpenAI / G-Eval
 ---

 # LLM-as-a-Judge (LaaJ)

-## 📌 한 줄 통찰 (The Karpathy Summary)
-LLM-as-a-Judge (LaaJ)는 **대규모 언어 모델(LLM)을 사용하여 다른 AI 모델이 생성한 결과물의 품질을 평가하는 패러다임**입니다 [1]. 코드베이스 이해를 돕기 위해 AI가 생성한 코드 설명에서 '환각(Hallucination)'과 같은 부정확한 정보나 형식적 오류를 최종 사용자에게 전달하기 전에 필터링하는 검증기(Validator) 역할을 수행합니다 [2, 3]. 단일 프롬프트가 아닌, '주장 열거 후 검증'이라는 다단계 구조적 접근을 적용할 때 평가의 신뢰성과 정확도가 크게 향상됩니다 [4, 5].
+## 매 한 줄
+> **"매 LLM 의 의 의 의 evaluator 의 의 의 의 LLM output 의 score / compare"**. 매 cheaper 의 human eval. 매 famous: MT-Bench (Zheng 2023), AlpacaEval, G-Eval. 매 caveat: 매 bias (length, position, similar style).

-## 📖 구조화된 지식 (Synthesized Content)
-*   **LaaJ의 주요 역할과 평가 기준**:
-    *   LaaJ 시스템은 주로 두 가지 핵심 차원을 평가합니다: (i) 설명이 잘 구성되었는지(Well-formedness), (ii) 제공된 컨텍스트(코드 스니펫 및 관련 GitHub 아티팩트)에 의해 뒷받침되지 않는 **환각된 주장(Hallucinated claims)이 포함되어 있는지 여부**입니다 [6].
-    *   이를 체계화하기 위해 4점 척도의 평가 루브릭을 사용합니다 (0: 허용됨, 1: 단일 환각 주장 포함, 2: 다중 환각 주장 포함, 3: 반복적이거나 주제를 벗어나는 등 형식이 잘못됨) [4].
+## 매 핵심

-*   **평가 방법론의 진화 (Naive vs. Structured)**:
-    *   초기에는 LLM에게 컨텍스트와 설명을 동시에 주고 직접 점수를 매기라고 지시하는 '단순한 프롬프팅(Naive prompting)'을 시도했으나, 모델이 사고 과정을 외부로 노출하지 않고 무언의 추론을 진행하여 결과가 일관되지 않았습니다 [4].
-    *   이를 해결하기 위해, **LLM이 먼저 설명에 포함된 '사실적 주장들'을 나열하게 한 다음, 각 주장이 주어진 컨텍스트에 근거하고 있는지를 개별적으로 평가**하게 하는 구조적 평가 전략을 채택했습니다 [4].
+### 매 use cases
+- 매 model A vs B comparison.
+- 매 quality score (0-10).
+- 매 specific criteria check (helpful, harmless, factual).
+- 매 RLHF preference data generation.
+- 매 production monitoring.

-*   **다단계 평가 프로세스의 우수성**:
-    *   여러 가지 LaaJ 모델(Judge1~Judge4)을 테스트한 결과, **'형식의 적절성 평가'와 '환각 탐지'를 각각 별도의 프롬프트로 분리하여 두 단계로 진행한 모델(Judge4)**이 87%라는 가장 높은 정확도와 사용성(Usability)을 기록했습니다 [7, 8].
-    *   이 다단계 접근법은 환각 탐지율을 극대화(89%)하면서도 잘못된 환각 탐지(위양성, False Hallucination) 비율을 가장 낮게(18%) 유지하였으며, 형식이 잘못되었다는 위양성 판단은 단 한 건도 발생하지 않았습니다 [8].
-    *   이러한 명시적인 주장 열거 작업은 단일 패스(Single-pass) 접근법보다 평가의 정밀도와 해석 가능성을 지속적으로 능가하는 것으로 입증되었습니다 [5].
+### 매 known biases
+- **Position**: 매 first answer favored.
+- **Length**: 매 longer = better (often false).
+- **Style match**: 매 similar style 의 favor.
+- **Self-preference**: 매 same-family model output favor.

-## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
-*   **단일 프롬프트(Single-pass)의 한계**: LLM에게 한 번의 프롬프트로 전체 평가를 위임하면, 명시적인 사고 과정이 결여되어 위양성(실제로는 문제없는 설명을 환각으로 판단)의 비율이 높아지고 신뢰성이 저하됩니다 [4, 5, 8].
-*   **프롬프트 엔지니어링 및 구조적 복잡도 증가**: 환각 탐지의 오류를 줄이기 위해서는 세심한 프롬프트 엔지니어링이 필수적이며, 평가 단계를 여러 개(주장 추출 프롬프트, 검증 프롬프트 등)로 나누어야 하므로 파이프라인의 설계 및 실행 복잡도(Overhead)가 증가합니다 [5].
-*   **의존 데이터로 인한 한계**: LaaJ 역시 LLM이므로 완벽할 수 없으며, 컨텍스트로 제공된 GitHub 아티팩트(예: PR 설명) 자체에 코드의 핵심 목적과 무관하거나 과장된 세부 정보가 포함되어 있다면, LaaJ도 이를 잘못된 판단의 근거로 삼을 수 있는 한계가 있습니다 [9].
+### 매 응용
+1. Eval LLM in production.
+2. Iterative prompt refinement.
+3. RLHF preference data.
+4. Benchmark.

-## 🔗 지식 연결 (Graph)
-### Related Concepts
+## 💻 패턴

-#### [평가 대상/컨텍스트 소스 (Evaluation Sources)]
- [[GitHub Artifacts]]
-  - 연결 이유: LaaJ가 코드 설명의 품질(환각 여부)을 평가할 때 사실 확인의 기준이 되는 '컨텍스트'를 제공하는 주된 원천입니다 [6, 10].
-  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: Pull Request 설명, 커밋 메시지, 이슈 등의 자연어 기록이 코드가 쓰인 이유(Why)를 어떻게 설명하며 [11], LaaJ가 AI 생성 설명을 어떤 사실적 기반(Groundedness) 위에서 검증하는지 이해할 수 있습니다 [4, 6].
+### Pairwise judge (MT-Bench style)
+```python
+def pairwise_judge(question, response_a, response_b, judge_llm):
+    prompt = f"""Compare two AI responses.

-#### [기술/구현 전략 (Implementation Strategies)]
- [[Prompt Engineering]]
-  - 연결 이유: LaaJ의 성능(특히 환각 탐지의 위양성 감소)을 결정짓는 가장 핵심적인 기술적 요소입니다 [5].
-  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: 단일 지시 프롬프트보다 다단계 지시(주장 나열 후 개별 검증) 프롬프트 구조가 왜 더 높은 정확성과 모델의 명시적 추론 능력을 이끌어내는지 파악할 수 있습니다 [4, 5, 8].
+Question: {question}

- [[AI-Generated Explanations]]
-  - 연결 이유: LaaJ 파이프라인의 핵심 타겟이자 평가해야 할 최종 대상물입니다 [1, 12].
-  - 이 개념을 통해 더 깊게 이해할 수 있는 부분: 복잡한 코드베이스를 파악하기 위해 AI가 생성한 통찰(Insight)이 어떠한 형태의 오류(환각 등)를 내포할 수 있으며, 실질적인 코드 이해를 돕기 위해 이를 어떻게 필터링해야 하는지 알 수 있습니다 [1, 6, 12].
+Response A: {response_a}
+Response B: {response_b}

-### Deeper Research Questions
- 단일 프롬프트(Single-pass) 기반의 LaaJ와 2단계 프롬프트(Two-step) 기반의 LaaJ 간의 평가 소요 시간 및 컴퓨팅 리소스 소모량에는 어느 정도의 차이가 발생하는가?
- LaaJ가 코드베이스의 정적인 텍스트뿐만 아니라, 시스템 실행 중 발생하는 동적 런타임 로그나 아키텍처 다이어그램(C4 모델 등)을 컨텍스트로 활용할 때도 동일한 검증 파이프라인이 유효한가?
- LaaJ 자체가 생성하는 환각(Hallucination in Judge) 문제를 최소화하기 위해 GitHub 아티팩트의 데이터를 어떻게 정제하고 노이즈를 제거하여 LLM에게 제공(LLM-ready structured context)해야 하는가?
- 코드 독해 및 온보딩 과정에서 LaaJ로 철저히 필터링된 AI 설명만을 제공받은 개발자와 그렇지 않은 개발자 간의 실제 코드 베이스 파악(Comprehension) 속도에는 어떤 차이가 있는가?
- 오픈 소스 기반의 모델(예: watsonx.ai 제공 모델)로 LaaJ를 구축할 때, 상용 대형 언어 모델과 비교하여 평가의 신뢰성과 일관성은 어떻게 나타나는가?
+Output:
+- winner: A | B | tie
+- reason: 1 sentence"""
+    return judge_llm.generate(prompt)
+```

-### Practical Application Contexts
- **Implementation:** 코드 이해를 돕는 AI 도구를 개발할 때 (예: MCP 서버 내부), 사용자에게 결과가 반환되기 직전에 위치하는 필수적인 검증기(Validator) 모듈로 구현됩니다 [1, 13].
- **System Design:** AI 기반 코드 설명 시스템 아키텍처 설계 시, 단순히 생성형 LLM 하나만 두는 것이 아니라 '생성기(Summarizer) - 평가기(LaaJ Validator)'의 다중 에이전트 파이프라인으로 설계하여 응답의 무결성을 확보합니다 [14, 15].
- **Operation / Maintenance:** 유지보수 담당자가 방대하고 오래된 레거시 코드를 읽을 때, AI가 과거 PR 및 이슈 기록을 바탕으로 제공하는 설명에서 잘못되거나 지어낸 내용(환각)을 제거하여 회귀 버그(Regression error) 방지에 기여합니다 [6, 16].
- **Learning Path:** 신규 입사자가 낯선 코드베이스를 학습할 때 가상의 멘토(Virtual mentor) 역할을 하는 AI 도구가 허위 정보 없이 신뢰성 높은 맥락만 제공하도록 보장하여 올바른 멘탈 모델 형성을 지원합니다 [16].
- **My Project Relevance:** 코드 리뷰 자동화 플랫폼, 자연어 코드 검색, 혹은 엔터프라이즈 환경의 지식 관리 시스템(Kodesage 등)을 구축할 때 LLM 생성 결과의 신뢰도를 자체적으로 통제(Self-correction)하는 품질 관리 기술로 응용할 수 있습니다.
+### Position bias mitigation (swap)
+```python
+def fair_pairwise(q, a, b, judge):
+    r1 = pairwise_judge(q, a, b, judge)
+    r2 = pairwise_judge(q, b, a, judge)  # 매 swap
+    if r1.winner == 'A' and r2.winner == 'B': return 'A wins both'
+    if r1.winner == 'B' and r2.winner == 'A': return 'B wins both'
+    return 'tie or position-biased'
+```

-### Adjacent Topics
- [[Model Context Protocol (MCP)]]
-  - 확장 방향: LaaJ 검증기를 포함한 코드 문맥 추출 및 설명 도구가 어떻게 표준화된 인터페이스(MCP 서버)로 캡슐화되어 다양한 AI 코딩 어시스턴트(IDE 확장 등)와 유연하게 연동될 수 있는지 확장하여 살펴봅니다 [2, 13].
- [[Automated Code Review]]
-  - 확장 방향: Qodo, CodeRabbit, Kodesage 등 자동화된 코드 리뷰 시스템들이 리뷰의 정확성을 담보하고 잘못된 제안(오탐지)을 줄이기 위해 내부적으로 어떤 품질 평가 및 검증 메커니즘을 갖추고 있는지 연관하여 조사합니다 [17-20].
+### Single-answer score (rubric)
+```python
+def rubric_score(response, judge):
+    prompt = f"""Score 1-10 on:
+- helpfulness
+- correctness
+- clarity
+- safety

---
-*Last updated: 2026-05-02*
+Response: {response}

-## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
+Output JSON: {{ helpfulness: ..., correctness: ..., clarity: ..., safety: ..., overall: ... }}"""
+    return json.loads(judge.generate(prompt))
+```

-**언제 이 지식을 쓰는가:**
- *(TODO)*
+### G-Eval (chain-of-thought judge, Liu 2023)
+```python
+def g_eval(text, criterion, judge):
+    """매 ask judge to reason 의 의 의 score."""
+    prompt = f"""Evaluate: {criterion}

-**언제 쓰면 안 되는가:**
- *(TODO)*
+Text: {text}

-## 🧪 검증 상태 (Validation)
+Reasoning step-by-step:
+1. ...
+2. ...

- **정보 상태:** needs_review
- **출처 신뢰도:** A
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
+Final score (1-5): N"""
+    return judge.generate(prompt)
+```

-## 🧬 중복 검사 (Duplicate Check)
+### MT-Bench style
+```python
+MT_BENCH_CATEGORIES = ['writing', 'roleplay', 'reasoning', 'math', 'coding', 'extraction', 'STEM', 'humanities']

- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
- **처리 방식:** UPDATE (자동 정규화)
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
+def mt_bench_eval(model_a, model_b, judge):
+    questions = load_mt_bench()
+    scores = {'A': 0, 'B': 0, 'tie': 0}
+    for q in questions:
+        r_a = model_a.generate(q.prompt)
+        r_b = model_b.generate(q.prompt)
+        winner = fair_pairwise(q.prompt, r_a, r_b, judge)
+        scores[winner] += 1
+    return scores
+```

-## 🕓 변경 이력 (Changelog)
+### AlpacaEval (vs reference)
+```python
+def alpaca_eval(model, reference_model, judge, dataset):
+    wins = 0
+    for q in dataset:
+        ours = model.generate(q)
+        ref = reference_model.generate(q)
+        verdict = pairwise_judge(q, ours, ref, judge)
+        if verdict.winner == 'A': wins += 1
+    return wins / len(dataset)  # 매 win rate
+```

-| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
-|------|-----------|-----------|--------|
-| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
+### Length-controlled (mitigate length bias)
+```python
+def length_normalize(score, response_length):
+    """매 매 length 의 의 의 magnify score 의 detect."""
+    if response_length > 1000 and score > 8:
+        return score - 0.5  # 매 conservative adjust
+    return score
+```
+
+### Cross-judge (multiple LLMs)
+```python
+def cross_judge(q, a, b, judges):
+    """매 매 different judge LLM 의 의 self-preference 의 reduce."""
+    votes = []
+    for judge in judges:
+        v = pairwise_judge(q, a, b, judge)
+        votes.append(v.winner)
+    return Counter(votes).most_common(1)[0][0]
+```
+
+### Calibrate against human
+```python
+def calibrate_judge(human_pairs, judge):
+    """매 매 human label 의 매 judge 의 agree?"""
+    agreement = 0
+    for pair, human_winner in human_pairs:
+        judge_winner = pairwise_judge(pair.q, pair.a, pair.b, judge)
+        if judge_winner == human_winner: agreement += 1
+    return agreement / len(human_pairs)
+# 매 > 0.8 = good
+```
+
+### Constitutional principles judge
+```python
+def constitutional_check(response, principles, judge):
+    violations = []
+    for p in principles:
+        verdict = judge.generate(f'Does this violate "{p}"? Yes/No.\n{response}')
+        if 'yes' in verdict.lower(): violations.append(p)
+    return violations
+```
+
+### LLM-judge for RLHF data
+```python
+def generate_preference_data(prompts, model, judge):
+    pairs = []
+    for p in prompts:
+        a = model.generate(p, temperature=0.7)
+        b = model.generate(p, temperature=0.7)
+        winner = pairwise_judge(p, a, b, judge)
+        pairs.append({'prompt': p, 'chosen': a if winner == 'A' else b, 'rejected': b if winner == 'A' else a})
+    return pairs  # 매 → DPO training
+```
+
+### Cost tracking
+```python
+def cost_aware_eval(items, judge, max_cost=10):
+    cost = 0
+    for item in items:
+        if cost > max_cost: break
+        cost += judge_cost(item, judge)
+        score = judge.generate(...)
+```
+
+### Prompt template
+```yaml
+JUDGE_PROMPT_TEMPLATE: |
+  You are an impartial judge.
+  Evaluate the response on:
+  - Accuracy
+  - Helpfulness
+  - Safety
+  - Clarity
+  
+  DO NOT be influenced by:
+  - Length (don't favor longer)
+  - Style (don't favor similar to your own)
+  - Position (treat A and B equally)
+  
+  Question: {question}
+  Response A: {response_a}
+  Response B: {response_b}
+  
+  Output JSON: { winner, reason, scores: { A: {...}, B: {...} } }
+```
+
+## 매 결정 기준
+| 상황 | Approach |
+|---|---|
+| Quick eval | Pairwise + swap |
+| Detailed | Rubric (G-Eval) |
+| Production monitor | Single-answer score |
+| RLHF data | Pairwise preferences |
+| Cross-validate | Multiple judges |
+
+**기본값**: 매 pairwise + swap + length-normalize + cross-judge for important + 매 calibrate against human sample + 매 cost cap.
+
+## 🔗 Graph
+- 부모: [[LLM-Evaluation]]
+- 변형: [[Pairwise-Judge]] · [[G-Eval]] · [[MT-Bench]]
+- 응용: [[RLHF]] · [[DPO]] · [[Hallucination-in-LLMs]]
+- Adjacent: [[Foundation-Models]] · [[Iterative Prompting]] · [[Best-of-N_Sampling]]
+
+## 🤖 LLM 활용
+**언제**: 매 LLM eval. 매 RLHF data. 매 monitoring.
+**언제 X**: 매 ground-truth 가능 (use exact match).
+
+## ❌ 안티패턴
+- **No swap**: 매 position bias.
+- **Same family judge**: 매 self-preference.
+- **No human calibration**: 매 trust judge blindly.
+- **Single-shot judge**: 매 noise.
+- **Ignore length effect**: 매 length-bias.
+
+## 🧪 검증 / 중복
+- Verified (Zheng MT-Bench 2023, Liu G-Eval 2023, Dubois AlpacaEval).
+- 신뢰도 A.
+
+## 🕓 Changelog
+| 날짜 | 변경 |
+|---|---|
+| 2026-05-08 | Phase 1 |
+| 2026-05-10 | Manual cleanup — biases + 매 pairwise / G-Eval / MT-Bench / cross-judge code |