---
id: AI-METRICS-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, machine-learning, performance-metrics, accuracy, f1-score, precision, recall, roc-auc]
last_reinforced: 2026-04-26
---

# Performance Metrics in AI (AI 성능 지표)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "단순한 정확도의 환상에 빠지지 말고, 문제의 본질에 부합하는 정교한 눈금자로 지능의 실력을 심판하라" — 모델의 예측 결과를 정량적으로 평가하여 학습의 방향을 설정하고 비즈니스 가치를 검증하는 통계적 지표들.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Error Analysis and Confusion Matrix" — 정답을 맞힌 것뿐만 아니라 어떤 오답을 냈는지(FP, FN)를 분석하여, 모델이 특정 클래스에 편향되어 있지는 않은지, 혹은 치명적인 실수를 범하고 있지는 않은지 파악하는 패턴.
- **주요 지표 분류:**
    - **Classification:** Accuracy(정확도), Precision(정밀도), Recall(재현율), F1-score(조화 평균), ROC-AUC.
    - **Regression:** RMSE(평균 제곱근 오차), MAE(평균 절대 오차), R-squared.
    - **NLP:** BLEU, ROUGE (생성된 문장과 정답 문장의 겹침 측정).
    - **Ranking:** NDCG, MRR (검색 결과의 순위 정확도).
- **의의:** 암 진단(Recall이 중요)이나 스팸 메일 분류(Precision이 중요)처럼 서비스의 성격에 따라 최우선으로 관리해야 할 지표를 결정하는 전략적 판단 근거.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 정확도 99%가 무조건 최고라는 인식에서 벗어나, 이제는 데이터 불균형 상황에서의 성능이나 모델의 '공정성(Fairness)', '설명 가능성' 지표까지 포함하는 입체적 평가가 강조됨.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 작업 성공률을 측정할 때, 단순 성공/실패 여부뿐만 아니라 소요 시간, 토큰 효율성, 사용자 만족도 점수를 가중치로 둔 커스텀 복합 지표(AG-Score)를 사용함.

## 🔗 지식 연결 (Graph)
- [[Imbalanced-Data-Handling|Imbalanced-Data-Handling]], [[Loss-Functions-Foundations|Loss-Functions-Foundations]], Cross-Validation-Techniques, [[Exploratory-Data-Analysis|Exploratory-Data-Analysis]]
- **Raw Source:** 10_Wiki/Topics/AI/Performance-Metrics-in-AI.md