Performance Metrics in AI (AI 성능 지표)

📌 한 줄 통찰 (The Karpathy Summary)

"단순한 정확도의 환상에 빠지지 말고, 문제의 본질에 부합하는 정교한 눈금자로 지능의 실력을 심판하라" — 모델의 예측 결과를 정량적으로 평가하여 학습의 방향을 설정하고 비즈니스 가치를 검증하는 통계적 지표들.

추출된 패턴: "Error Analysis and Confusion Matrix" — 정답을 맞힌 것뿐만 아니라 어떤 오답을 냈는지(FP, FN)를 분석하여, 모델이 특정 클래스에 편향되어 있지는 않은지, 혹은 치명적인 실수를 범하고 있지는 않은지 파악하는 패턴.
주요 지표 분류:
- Classification: Accuracy(정확도), Precision(정밀도), Recall(재현율), F1-score(조화 평균), ROC-AUC.
- Regression: RMSE(평균 제곱근 오차), MAE(평균 절대 오차), R-squared.
- NLP: BLEU, ROUGE (생성된 문장과 정답 문장의 겹침 측정).
- Ranking: NDCG, MRR (검색 결과의 순위 정확도).
의의: 암 진단(Recall이 중요)이나 스팸 메일 분류(Precision이 중요)처럼 서비스의 성격에 따라 최우선으로 관리해야 할 지표를 결정하는 전략적 판단 근거.

과거 데이터와의 충돌: 정확도 99%가 무조건 최고라는 인식에서 벗어나, 이제는 데이터 불균형 상황에서의 성능이나 모델의 '공정성(Fairness)', '설명 가능성' 지표까지 포함하는 입체적 평가가 강조됨.
정책 변화: Antigravity 프로젝트는 에이전트의 작업 성공률을 측정할 때, 단순 성공/실패 여부뿐만 아니라 소요 시간, 토큰 효율성, 사용자 만족도 점수를 가중치로 둔 커스텀 복합 지표(AG-Score)를 사용함.

Imbalanced-Data-Handling, Loss-Functions-Foundations, Cross-Validation-Techniques, Exploratory-Data-Analysis
Raw Source: 10_Wiki/Topics/AI/Performance-Metrics-in-AI.md