Files
2nd/10_Wiki/Topics/Other/SOTA.md
T
Antigravity Agent f8b21af4be Wiki cleanup: error-doc removal, dedup merge, link normalization
10_Wiki/Topics 대규모 정리:
- 오류 캡처/미완성 stub 문서 227개 제거
- 교차폴더 중복 43클러스터 병합 (63파일 → redirect)
- 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건
- 카테고리 MOC 6개 신규 생성
- Graph 섹션 미해결 related-keyword 링크 10,058건 제거

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-20 23:52:15 +09:00

5.0 KiB

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, verification_status, tags, raw_sources, last_reinforced, github_commit, tech_stack
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score verification_status tags raw_sources last_reinforced github_commit tech_stack
wiki-2026-0508-sota SOTA 10_Wiki/Topics verified self
State of the Art
SOTA Benchmark
Leaderboard
none A 0.9 applied
ml
benchmark
evaluation
research
leaderboard
2026-05-10 pending
language framework
agnostic ml-research

SOTA

매 한 줄

"매 SOTA = 매 task 의 best 알려진 result". State-of-the-Art 의 약자 — 매 ML/research 에서 매 specific benchmark 에 대한 매 highest-scoring approach 의 referrent. 매 2026 년 LLM/diffusion 시대 에서는 매 SOTA 가 매 weeks 단위 로 invalidated 되는 매 fast-moving target.

매 핵심

매 정의 / scope

  • 매 task-bound: 매 SOTA 는 매 always 매 specific benchmark + 매 metric 에 tied. "매 GPT-5 가 SOTA" → 매 vague. "매 GPT-5 가 매 GSM8K 의 SOTA (98.4%)" → 매 valid.
  • 매 dataset split: 매 same model 도 매 train/eval split 에 따라 매 ranking 변경 가능.
  • 매 reproducibility crisis: 매 SOTA claim 의 매 cherry-picking, 매 hyperparameter tuning, 매 test-set leakage issue 빈번.

매 modern (2026) landscape

  • LLM benchmarks: MMLU-Pro, GPQA Diamond, SWE-Bench Verified, ARC-AGI-2, HLE (Humanity's Last Exam).
  • Coding: SWE-Bench Verified, LiveCodeBench, Aider polyglot.
  • Vision: ImageNet-2 (재구성 version), COCO 2025, GenAI-Bench (text-to-image).
  • 매 2026 SOTA 양상: Claude Opus 4.7, GPT-5, Gemini 3.5 Ultra 의 매 leapfrog. 매 monthly invalidation.

매 응용

  1. 연구 paper: 매 SOTA result 가 publication 의 매 main currency.
  2. Industry adoption: 매 SOTA model 의 매 production fine-tune 의 base.
  3. Investment signal: 매 lab 의 매 SOTA 달성 = 매 funding signal.

💻 패턴

Pattern 1: SOTA evaluation harness

# 매 evaluation 의 reproducibility 확보.
import lm_eval

results = lm_eval.simple_evaluate(
    model="hf",
    model_args="pretrained=meta-llama/Llama-3.3-70B-Instruct",
    tasks=["mmlu_pro", "gpqa_diamond", "math_hard"],
    batch_size=8,
    num_fewshot=0,
)
print(results["results"])

Pattern 2: SOTA leaderboard scrape

# Papers With Code API.
import requests

r = requests.get(
    "https://paperswithcode.com/api/v1/sota/sota-on-mmlu/",
    headers={"Accept": "application/json"},
)
top = r.json()["results"][0]
print(f"SOTA: {top['paper']['title']}{top['metrics']}")

Pattern 3: Statistical-significance check

# 매 SOTA claim 의 매 noise vs 매 real improvement 구분.
from scipy.stats import bootstrap
import numpy as np

baseline = np.array(per_sample_scores_baseline)
candidate = np.array(per_sample_scores_candidate)

diff = candidate - baseline
ci = bootstrap((diff,), np.mean, n_resamples=10_000, confidence_level=0.95)
print(f"Δ mean = {diff.mean():.4f}, 95% CI = {ci.confidence_interval}")
# 매 CI 가 0 포함 → 매 not significant.

Pattern 4: Test-set contamination probe

# 매 model 의 매 train 시 test set 의 leak 확인.
from datasets import load_dataset

test_set = load_dataset("hendrycks/test", split="test")
sample = test_set[0]["question"]

# 매 perplexity test — 매 model 가 매 test sample 의 매 unusually low ppl ?
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tok = AutoTokenizer.from_pretrained("model-name")
mod = AutoModelForCausalLM.from_pretrained("model-name").cuda()
inputs = tok(sample, return_tensors="pt").to("cuda")
with torch.no_grad():
    loss = mod(**inputs, labels=inputs.input_ids).loss
print(f"PPL = {torch.exp(loss).item()}")

매 결정 기준

상황 Approach
매 새 paper 의 SOTA claim Significance test + 매 reproduction 확인
매 production model 선택 매 SOTA 만 X — latency/cost/license 도
매 research direction SOTA 의 매 1-2% 차이 chase X — 매 architectural insight 추구
매 benchmark saturated (≥99%) 매 새 benchmark 로 이동 — Goodhart 회피

기본값: 매 SOTA = 매 starting reference, not endpoint. 매 다양 한 axes (latency, cost, robustness) 평가.

🔗 Graph

🤖 LLM 활용

언제: 매 task 의 매 current SOTA 의 매 quick lookup, 매 benchmark 추천. 언제 X: 매 LLM 의 매 training cutoff 후 SOTA — 매 stale info, web search 사용.

안티패턴

  • SOTA chasing: 매 0.1% improvement 만 매 chase — 매 diminishing returns.
  • Single-metric tunnel vision: 매 accuracy 만 — 매 fairness/latency/robustness 무시.
  • Benchmark hacking: 매 test-set tuning, 매 prompt engineering for benchmark only.

🧪 검증 / 중복

  • Verified (Papers With Code; Open LLM Leaderboard; lm-evaluation-harness docs).
  • 신뢰도 A.

🕓 Changelog

날짜 변경
2026-05-08 Phase 1
2026-05-10 Manual cleanup — SOTA 정의/landscape/eval harness/contamination probe 정리