2nd/10_Wiki/Topics/AI/Computer-Vision.md

---
id: CV-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, computer-vision, image-[[Processing]], [[Deep-Learning]], cnn]
last_reinforced: 2026-04-26
---

# [[Computer Vision]] [[Mastery]] (컴퓨터 비전 마스터리)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "픽셀의 나열에서 사물과 맥락을 읽어내는 AI의 눈을 완성하라" — 이미지나 비디오로부터 유의미한 정보를 추출, 분석 및 이해하기 위한 기술 체계로, 자율주행부터 의료 영상 판독까지 시각 지능의 정수.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 고차원의 시각 데이터를 특징 추출 레이어를 통해 저차원의 추상적 개념으로 변환하고, 이를 다시 객체 인식이나 분할 등의 태스크로 구체화하는 인지 패턴.
- **핵심 기술 계보:**
    - **Traditional CV:** 소벨 필터, Canny edge detection, SIFT 등 수학적 필터 기반 특징 추출.
    - **CNN (Convolutional Neural Networks):** 이미지의 지역적 특징을 계층적으로 학습 (AlexNet, ResNet).
    - **Object Detection:** 이미지 내 물체의 위치와 종류 파악 (YOLO, Faster R-CNN).
    - **Segmentation:** 픽셀 단위로 영역 구분 (U-Net, Mask R-CNN).
    - **Vision Transformer (ViT):** 텍스트 처리의 트랜스포머 구조를 이미지에 적용하여 전역적 맥락 파악.
- **의의:** 인간의 시각 기능을 기계로 완벽히 구현하여 물리 세계와 디지털 세계의 경계를 허묾.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 단순히 형태를 인식하는 수준에서, 현재는 [[CLIP]]이나 멀티모달 LLM을 통해 이미지 속 상황을 '설명'하고 '추론'하는 단계로 진입.
- **정책 변화:** Antigravity 프로젝트는 위키 문서 내의 비정형 도표나 스크린샷 데이터를 텍스트로 변환하여 지식 베이스에 통합할 때 최신 비전-언어 모델을 활용함.

## 🔗 지식 연결 (Graph)
- [[Convolutional-Neural-Networks]], [[CLIP]], Image-Processing, [[Transformer-Architecture]]
- **Raw Source:** 10_Wiki/Topics/AI/Computer-Vision.md