---
id: CV-OBJ-DET-001
category: Unified
confidence_score: 1.0
tags: [[Computer Vision|[Computer-Vision]], ai, object-detection, yolo, bounding-box, localization]
last_reinforced: 2026-04-26
---

# Object Detection Foundations (객체 탐지 기초)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "이미지라는 평면 공간에서 사물의 '무엇(What)'과 '어디(Where)'를 동시에 정복하여, 기계가 시각적 세계를 논리적으로 해체하게 하라" — 이미지 내에 존재하는 여러 객체의 종류를 분류(Classification)하고 그 위치를 경계 상자(Bounding Box)로 표시(Localization)하는 컴퓨터 비전 기술.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Feature Pyramid and Anchors" — 다양한 크기의 객체를 잡기 위해 이미지의 여러 해상도에서 특징을 추출하고, 미리 정의된 사각형(Anchors)을 바탕으로 실제 객체의 위치를 미세하게 조정하여 예측하는 패턴.
- **주요 아키텍처:**
    - **One-stage Detectors (YOLO, SSD):** 이미지 전체를 한 번만 훑어 즉시 결과 도출. 매우 빠름.
    - **Two-stage Detectors (R-CNN, Faster R-CNN):** 후보 영역을 먼저 뽑고 상세 검증. 정밀도가 높음.
- **핵심 지표:**
    - **IoU (Intersection over Union):** 정답 상자와 예측 상자가 얼마나 겹치는지 측정.
    - **mAP (mean Average Precision):** 모델의 전체적인 탐색 성능을 나타내는 표준 평가지표.
- **의의:** 자율주행차의 장애물 인식, CCTV의 이상 행동 감지, 공정 자동화의 불량 검출 등 시각 지능이 필요한 모든 실전 분야의 핵심 기술.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 앵커 박스(Anchors)를 설계하는 수작업의 복잡함을 넘어, 최근에는 앵커 없이 점이나 중심을 기반으로 탐지하는 Anchor-free 방식(CenterNet 등)과 트랜스포머를 활용한 DETR 계열이 주류로 부상함.
- **정책 변화:** Antigravity 프로젝트는 에이전트의 시각 인터페이스 분석 시, 저지연 응답을 위해 최적화된 YOLOv8 아키텍처를 기반으로 화면 내의 버튼, 텍스트 입력창 등 UI 요소를 실시간으로 탐지함.

## 🔗 지식 연결 (Graph)
- Computer-Vision-Foundations, [[Image-Segmentation|Image-Segmentation]], [[Convolutional-Neural-Networks|Convolutional-Neural-Networks]]-CNN, [[Non-linear-Activation-Functions|Non-linear-Activation-Functions]]
- **Raw Source:** 10_Wiki/Topics/AI/Object-Detection-Foundations.md