"매 Google Code Jam 의 매 historical archive — 매 code clone detection / code LLM evaluation 의 standard corpus". Google 의 매 annual programming competition (2003-2023) 이 매 retire 되었지만 매 solution corpus 는 매 academic 으로 풍부 — 매 multiple solutions per problem, 매 다양한 언어 — 매 code clone, code translation, code-LM benchmark 의 raw material. 매 가장 많이 인용되는 매 GCJ-297 (Bui et al.) 로 매 297 problem × multiple langs.
매 핵심
매 dataset 의 특이성
Same-intent, varied implementations: 매 단일 problem 에 매 thousands of correct solutions — 매 semantic equivalence 가 ground truth.
Multi-language: C++, Java, Python, Go, Kotlin, …
Difficulty stratification: Qualification → Round 1/2/3 → World Finals.
Test cases: official input/output 이 partial 공개 (sample only) — full hidden.
언제: 매 dataset filter pipeline 작성, contamination 검사 design, problem grouping logic.
언제 X: 매 LLM 자체 평가 — 매 GCJ 가 매 training data 에 포함되어 있을 확률 높음 (contamination).
❌ 안티패턴
GCJ for SOTA LLM eval without dedup: 매 contamination 으로 매 score inflation.
Sample IO 만 사용: 매 wrong-answer 가 매 test-case 통과 가능.
No timeout in judging: 매 infinite loop 으로 OOM/hang.
Mixing accepted + WA: 매 ground truth 의 정확성 저하.
Ignoring problem difficulty: 매 stratified eval 필수.
🧪 검증 / 중복
Verified (Bui et al. ICSE 2017, IBM Project CodeNet 2021, Hugging Face Hub).
신뢰도 B (semi-public, scraped).
🕓 Changelog
날짜
변경
2026-05-08
Phase 1
2026-05-10
Manual cleanup — GCJ corpus + CodeNet usage + decontamination