2.5 KiB
2.5 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| CV-OBJ-DET-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Object Detection Foundations (객체 탐지 기초)
📌 한 줄 통찰 (The Karpathy Summary)
"이미지라는 평면 공간에서 사물의 '무엇(What)'과 '어디(Where)'를 동시에 정복하여, 기계가 시각적 세계를 논리적으로 해체하게 하라" — 이미지 내에 존재하는 여러 객체의 종류를 분류(Classification)하고 그 위치를 경계 상자(Bounding Box)로 표시(Localization)하는 컴퓨터 비전 기술.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Feature Pyramid and Anchors" — 다양한 크기의 객체를 잡기 위해 이미지의 여러 해상도에서 특징을 추출하고, 미리 정의된 사각형(Anchors)을 바탕으로 실제 객체의 위치를 미세하게 조정하여 예측하는 패턴.
- 주요 아키텍처:
- One-stage Detectors (YOLO, SSD): 이미지 전체를 한 번만 훑어 즉시 결과 도출. 매우 빠름.
- Two-stage Detectors (R-CNN, Faster R-CNN): 후보 영역을 먼저 뽑고 상세 검증. 정밀도가 높음.
- 핵심 지표:
- IoU (Intersection over Union): 정답 상자와 예측 상자가 얼마나 겹치는지 측정.
- mAP (mean Average Precision): 모델의 전체적인 탐색 성능을 나타내는 표준 평가지표.
- 의의: 자율주행차의 장애물 인식, CCTV의 이상 행동 감지, 공정 자동화의 불량 검출 등 시각 지능이 필요한 모든 실전 분야의 핵심 기술.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 앵커 박스(Anchors)를 설계하는 수작업의 복잡함을 넘어, 최근에는 앵커 없이 점이나 중심을 기반으로 탐지하는 Anchor-free 방식(CenterNet 등)과 트랜스포머를 활용한 DETR 계열이 주류로 부상함.
- 정책 변화: Antigravity 프로젝트는 에이전트의 시각 인터페이스 분석 시, 저지연 응답을 위해 최적화된 YOLOv8 아키텍처를 기반으로 화면 내의 버튼, 텍스트 입력창 등 UI 요소를 실시간으로 탐지함.