Files
2nd/10_Wiki/Topics/Performance-Metrics-in-AI.md
T

2.3 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
AI-METRICS-001 10_Wiki/💡 Topics/AI 1.0
ai
machine-learning
performance-metrics
accuracy
f1-score
precision
recall
roc-auc
2026-04-26

Performance Metrics in AI (AI 성능 지표)

📌 한 줄 통찰 (The Karpathy Summary)

"단순한 정확도의 환상에 빠지지 말고, 문제의 본질에 부합하는 정교한 눈금자로 지능의 실력을 심판하라" — 모델의 예측 결과를 정량적으로 평가하여 학습의 방향을 설정하고 비즈니스 가치를 검증하는 통계적 지표들.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Error Analysis and Confusion Matrix" — 정답을 맞힌 것뿐만 아니라 어떤 오답을 냈는지(FP, FN)를 분석하여, 모델이 특정 클래스에 편향되어 있지는 않은지, 혹은 치명적인 실수를 범하고 있지는 않은지 파악하는 패턴.
  • 주요 지표 분류:
    • Classification: Accuracy(정확도), Precision(정밀도), Recall(재현율), F1-score(조화 평균), ROC-AUC.
    • Regression: RMSE(평균 제곱근 오차), MAE(평균 절대 오차), R-squared.
    • NLP: BLEU, ROUGE (생성된 문장과 정답 문장의 겹침 측정).
    • Ranking: NDCG, MRR (검색 결과의 순위 정확도).
  • 의의: 암 진단(Recall이 중요)이나 스팸 메일 분류(Precision이 중요)처럼 서비스의 성격에 따라 최우선으로 관리해야 할 지표를 결정하는 전략적 판단 근거.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 정확도 99%가 무조건 최고라는 인식에서 벗어나, 이제는 데이터 불균형 상황에서의 성능이나 모델의 '공정성(Fairness)', '설명 가능성' 지표까지 포함하는 입체적 평가가 강조됨.
  • 정책 변화: Antigravity 프로젝트는 에이전트의 작업 성공률을 측정할 때, 단순 성공/실패 여부뿐만 아니라 소요 시간, 토큰 효율성, 사용자 만족도 점수를 가중치로 둔 커스텀 복합 지표(AG-Score)를 사용함.

🔗 지식 연결 (Graph)