Object Detection Foundations (객체 탐지 기초)

📌 한 줄 통찰 (The Karpathy Summary)

"이미지라는 평면 공간에서 사물의 '무엇(What)'과 '어디(Where)'를 동시에 정복하여, 기계가 시각적 세계를 논리적으로 해체하게 하라" — 이미지 내에 존재하는 여러 객체의 종류를 분류(Classification)하고 그 위치를 경계 상자(Bounding Box)로 표시(Localization)하는 컴퓨터 비전 기술.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: "Feature Pyramid and Anchors" — 다양한 크기의 객체를 잡기 위해 이미지의 여러 해상도에서 특징을 추출하고, 미리 정의된 사각형(Anchors)을 바탕으로 실제 객체의 위치를 미세하게 조정하여 예측하는 패턴.
주요 아키텍처:
- One-stage Detectors (YOLO, SSD): 이미지 전체를 한 번만 훑어 즉시 결과 도출. 매우 빠름.
- Two-stage Detectors (R-CNN, Faster R-CNN): 후보 영역을 먼저 뽑고 상세 검증. 정밀도가 높음.
핵심 지표:
- IoU (Intersection over Union): 정답 상자와 예측 상자가 얼마나 겹치는지 측정.
- mAP (mean Average Precision): 모델의 전체적인 탐색 성능을 나타내는 표준 평가지표.
의의: 자율주행차의 장애물 인식, CCTV의 이상 행동 감지, 공정 자동화의 불량 검출 등 시각 지능이 필요한 모든 실전 분야의 핵심 기술.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 앵커 박스(Anchors)를 설계하는 수작업의 복잡함을 넘어, 최근에는 앵커 없이 점이나 중심을 기반으로 탐지하는 Anchor-free 방식(CenterNet 등)과 트랜스포머를 활용한 DETR 계열이 주류로 부상함.
정책 변화: Antigravity 프로젝트는 에이전트의 시각 인터페이스 분석 시, 저지연 응답을 위해 최적화된 YOLOv8 아키텍처를 기반으로 화면 내의 버튼, 텍스트 입력창 등 UI 요소를 실시간으로 탐지함.

2.5 KiB Raw Blame History

Object Detection Foundations (객체 탐지 기초)

📌 한 줄 통찰 (The Karpathy Summary)

📖 구조화된 지식 (Synthesized Content)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

🔗 지식 연결 (Graph)

2.5 KiB

Raw Blame History