--- id: wiki-2026-0508-benchmarks title: Benchmarks category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [P-Reinforce-AUTO-BENC-001] duplicate_of: none source_trust_level: A confidence_score: 0.98 tags: [auto-reinforced, benchmarks, evaluation, performance-metrics, standardization, comparative-Analysis] raw_sources: [] last_reinforced: 2026-04-20 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # [[Benchmarks|Benchmarks]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ§€λŠ₯의 μ€„μž: μ„œλ‘œ λ‹€λ₯Έ μ‹œμŠ€ν…œμ΄λ‚˜ μ•Œκ³ λ¦¬μ¦˜μ˜ μ„±λŠ₯을 λ™μΌν•œ μž£λŒ€λ‘œ λΉ„κ΅ν•˜κΈ° μœ„ν•΄ μ„€κ³„λœ ν‘œμ€€ν™”λœ 문제 μ„ΈνŠΈμ΄λ©°, 기술 ν˜μ‹ μ˜ μ΄μ •ν‘œ(Milestone)λ₯Ό μ œμ‹œν•˜λŠ” 경쟁의 λ§ˆλ‹Ή." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) 벀치마크(Benchmarks)λŠ” νŠΉμ • λΆ„μ•Όμ˜ μ„±λŠ₯을 μΈ‘μ •ν•˜κ³  λΉ„κ΅ν•˜κΈ° μœ„ν•œ μ§€ν‘œμ΄μž ν…ŒμŠ€νŠΈ λ„κ΅¬μ˜ λͺ¨μŒμž…λ‹ˆλ‹€. 1. **AI λΆ„μ•Όμ˜ μ£Όμš” 벀치마크**: * **ImageNet**: 이미지 인식 μ„±λŠ₯의 비약적 λ°œμ „μ„ 이끈 데이터셋. * **GLUE/SuperGLUE**: μžμ—°μ–΄ 이해 λŠ₯λ ₯을 λ‹€κ°λ„λ‘œ ν‰κ°€ν•˜λŠ” ν‘œμ€€. * **MMLU**: λ°©λŒ€ν•œ 도메인 지식과 μΆ”λ‘  λŠ₯λ ₯을 μ’…ν•©μ μœΌλ‘œ 평가 (졜근 κ±°λŒ€ λͺ¨λΈ μ „μŸμ˜ μ£Όμ „μž₯). 2. **μ™œ μ€‘μš”ν•œκ°€?**: * 객관적인 수치λ₯Ό 톡해 기술의 ν•œκ³„λ₯Ό λͺ…ν™•νžˆ ν•˜κ³ , μ—°κ΅¬μžλ“€μ΄ 집쀑해야 ν•  λ‹€μŒ λͺ©ν‘œ(Next Challenge)λ₯Ό μ •μ˜ν•¨. 3. **μœ„ν—˜ μš”μ†Œ (Goodhart's Law)**: * μΈ‘μ • μ§€ν‘œκ°€ λͺ©ν‘œκ°€ λ˜λŠ” μˆœκ°„, μ‹œμŠ€ν…œμ€ 본질적인 μ„±λŠ₯ ν–₯상보닀 'μ‹œν—˜ 점수 λ”°κΈ°(Benchmarking hacks)'μ—λ§Œ λ§€λͺ°λ  수 있음. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” 정적인 데이터셋(Static test) μœ„μ£Όμ˜ μ •μ±…μ΄μ—ˆμœΌλ‚˜, ν˜„λŒ€ 정책은 λͺ¨λΈμ΄ ν•™μŠ΅ λ°μ΄ν„°λ‘œ μ‹œν—˜ 문제λ₯Ό 미리 보게 λ˜λŠ” '데이터 μ˜€μ—Ό(Contamination)' 리슀크 정책에 λŒ€μ‘ν•˜μ—¬ λ™μ μœΌλ‘œ λ³€ν•˜λŠ” 벀치마크 μ •μ±…μœΌλ‘œ μ „ν™˜ μ€‘μž„(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: λ‹¨μˆœνžˆ 기술적 μ„±λŠ₯뿐만 μ•„λ‹ˆλΌ 윀리적 μ•ˆμ •μ„±κ³Ό μœ ν•΄μ„±μ„ ν‰κ°€ν•˜λŠ” 'Safety Benchmark μ •μ±…'이 λͺ¨λΈ 배포의 ν•„μˆ˜ 톡과 관문이 됨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Assessment|Assessment]], [[Algorithmic Fairness|Algorithmic Fairness]], Foundational Models, [[Ps-Reinforce|Ps-Reinforce]], [[Safety & Reliability|Safety & Reliability]] - **Modern Tech/Tools**: Hugging Face Open LLM Leaderboard, HELM (Holistic Evaluation of Language Models). --- ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A | ## πŸ’» μ½”λ“œ νŒ¨ν„΄ (Code Patterns) **νŒ¨ν„΄ 1:** *(TODO: 이 ν”„λ‘œμ νŠΈ μ»¨λ²€μ…˜ λ°˜μ˜ν•œ ꡬ쑰 μŠ€μΌˆλ ˆν†€)* ```text # TODO ``` ## πŸ€” μ˜μ‚¬κ²°μ • κΈ°μ€€ (Decision Criteria) **선택 Aλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **선택 Bλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **κΈ°λ³Έκ°’:** > *(TODO)* ## ❌ μ•ˆν‹°νŒ¨ν„΄ (Anti-Patterns) - **[μ•ˆν‹°νŒ¨ν„΄]:** *(TODO: 무엇을 ν•˜λ©΄ μ•ˆ λ˜λŠ”κ°€ + 이유 + λŒ€μ‹  무엇을)*