--- id: CV-OBJ-DET-001 category: Unified confidence_score: 1.0 tags: [[Computer Vision|[Computer-Vision]], ai, object-detection, yolo, bounding-box, localization] last_reinforced: 2026-04-26 --- # Object Detection Foundations (객체 탐지 기초) ## 📌 한 줄 통찰 (The Karpathy Summary) > "이미지라는 평면 공간에서 사물의 '무엇(What)'과 '어디(Where)'를 동시에 정복하여, 기계가 시각적 세계를 논리적으로 해체하게 하라" — 이미지 내에 존재하는 여러 객체의 종류를 분류(Classification)하고 그 위치를 경계 상자(Bounding Box)로 표시(Localization)하는 컴퓨터 비전 기술. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** "Feature Pyramid and Anchors" — 다양한 크기의 객체를 잡기 위해 이미지의 여러 해상도에서 특징을 추출하고, 미리 정의된 사각형(Anchors)을 바탕으로 실제 객체의 위치를 미세하게 조정하여 예측하는 패턴. - **주요 아키텍처:** - **One-stage Detectors (YOLO, SSD):** 이미지 전체를 한 번만 훑어 즉시 결과 도출. 매우 빠름. - **Two-stage Detectors (R-CNN, Faster R-CNN):** 후보 영역을 먼저 뽑고 상세 검증. 정밀도가 높음. - **핵심 지표:** - **IoU (Intersection over Union):** 정답 상자와 예측 상자가 얼마나 겹치는지 측정. - **mAP (mean Average Precision):** 모델의 전체적인 탐색 성능을 나타내는 표준 평가지표. - **의의:** 자율주행차의 장애물 인식, CCTV의 이상 행동 감지, 공정 자동화의 불량 검출 등 시각 지능이 필요한 모든 실전 분야의 핵심 기술. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 앵커 박스(Anchors)를 설계하는 수작업의 복잡함을 넘어, 최근에는 앵커 없이 점이나 중심을 기반으로 탐지하는 Anchor-free 방식(CenterNet 등)과 트랜스포머를 활용한 DETR 계열이 주류로 부상함. - **정책 변화:** Antigravity 프로젝트는 에이전트의 시각 인터페이스 분석 시, 저지연 응답을 위해 최적화된 YOLOv8 아키텍처를 기반으로 화면 내의 버튼, 텍스트 입력창 등 UI 요소를 실시간으로 탐지함. ## 🔗 지식 연결 (Graph) - Computer-Vision-Foundations, [[Image-Segmentation|Image-Segmentation]], [[Convolutional-Neural-Networks|Convolutional-Neural-Networks]]-CNN, [[Non-linear-Activation-Functions|Non-linear-Activation-Functions]] - **Raw Source:** 10_Wiki/Topics/AI/Object-Detection-Foundations.md