80 lines
4.9 KiB
Markdown
80 lines
4.9 KiB
Markdown
---
|
|
category: Unified
|
|
tags: [auto-consolidated, technical-documentation]
|
|
title: [[Computer Vision|Computer Vision]]
|
|
last_updated: 2026-05-02
|
|
---
|
|
|
|
# [[Computer Vision|Computer Vision]]
|
|
|
|
## 📌 Brief Summary
|
|
> "디지털 눈의 진화: 픽셀의 단순한 나열인 이미지와 비디오 데이터를 컴퓨터가 인간처럼 이해하고, 객체를 식별하며, 공간의 깊이를 읽고, 의미 있는 정보를 추출하게 만드는 인공지능의 시각 중추."
|
|
|
|
---
|
|
|
|
> "픽셀의 나열에서 사물과 맥락을 읽어내는 AI의 눈을 완성하라" — 이미지나 비디오로부터 유의미한 정보를 추출, 분석 및 이해하기 위한 기술 체계로, 자율주행부터 의료 영상 판독까지 시각 지능의 정수.
|
|
|
|
---
|
|
|
|
> 디지털 이미지와 비디오에서 고차원적인 의미를 추출하여 기계가 세상을 '보고' '이해하게' 만드는 AI의 감각 기관.
|
|
|
|
## 📖 Core Content
|
|
컴퓨터 비전(Computer Vision)은 가시광선 등 물리적 신호를 디지털 데이터로 변환하고 분석하여 '본다'는 행위를 기계로 구현하는 기술입니다.
|
|
|
|
1. **핵심 태스크**:
|
|
* **Classification**: 무엇이 들어있는가? (예: 개/고양이 구분)
|
|
* **Detection**: 무엇이 '어디에' 있는가? (Bounding Box 표시)
|
|
* **Segmentation**: 픽셀 단위로 객체의 경계선 따기.
|
|
* **Depth Estimation**: 공간의 입체적 거리감 파악.
|
|
2. **기반 기술**:
|
|
* CNN(Convolutional Neural Networks)에서 최근에는 Vision [[Transformers|Transformers]](ViT)로 아키텍처가 진화 중.
|
|
|
|
---
|
|
|
|
- **추출된 패턴:** 고차원의 시각 데이터를 특징 추출 레이어를 통해 저차원의 추상적 개념으로 변환하고, 이를 다시 객체 인식이나 분할 등의 태스크로 구체화하는 인지 패턴.
|
|
- **핵심 기술 계보:**
|
|
- **Traditional CV:** 소벨 필터, Canny edge detection, SIFT 등 수학적 필터 기반 특징 추출.
|
|
- **CNN (Convolutional Neural Networks):** 이미지의 지역적 특징을 계층적으로 학습 (AlexNet, ResNet).
|
|
- **Object Detection:** 이미지 내 물체의 위치와 종류 파악 (YOLO, Faster R-CNN).
|
|
- **Segmentation:** 픽셀 단위로 영역 구분 (U-Net, Mask R-CNN).
|
|
- **Vision Transformer (ViT):** 텍스트 처리의 트랜스포머 구조를 이미지에 적용하여 전역적 맥락 파악.
|
|
- **의의:** 인간의 시각 기능을 기계로 완벽히 구현하여 물리 세계와 디지털 세계의 경계를 허묾.
|
|
|
|
---
|
|
|
|
- **추출된 패턴:** 이미지 픽셀에서 특징(Feature)을 추출하고 이를 계층적으로 구조화하여 객체를 인식하는 비전 처리 패턴.
|
|
- **세부 내용:**
|
|
- CNN(합성곱 신경망)에서 ViT(비전 트랜스포머)로의 아키텍처 진화.
|
|
- 이미지 분류, 객체 탐지, 세그멘테이션 등 핵심 태스크 Taxonomy 정의.
|
|
- 실시간 객체 추적 및 공간 이해를 위한 딥러닝 기법 통합.
|
|
|
|
## ⚖️ Trade-offs & Caveats
|
|
- **과거 데이터와의 충돌**: 과거에는 필터 제작 등 수동 특징 추출(Hand-crafted features) 정책 위주였으나, 현대 정책은 데이터로부터 스스로 특징을 배우는 '딥러닝 기반 종단간 학습 정책(End-to-end)'으로 완전히 전환됨(RL Update).
|
|
- **정책 변화(RL Update)**: 2D 이미지 분석 정책을 넘어, 최근에는 '3D 공간 지능 정책'과 '멀티모달(시각+언어) 통합 정책'이 자율주행과 에이전틱 서비스의 핵심 정책 토대가 됨.
|
|
|
|
---
|
|
|
|
- **과거 데이터와의 충돌:** 단순히 형태를 인식하는 수준에서, 현재는 [[CLIP|CLIP]]이나 멀티모달 LLM을 통해 이미지 속 상황을 '설명'하고 '추론'하는 단계로 진입.
|
|
- **정책 변화:** Antigravity 프로젝트는 위키 문서 내의 비정형 도표나 스크린샷 데이터를 텍스트로 변환하여 지식 베이스에 통합할 때 최신 비전-언어 모델을 활용함.
|
|
|
|
---
|
|
|
|
- **과거 데이터와의 충돌:** 기하학적 매칭 중심의 전통적 CV에서 데이터 기반의 신경망 학습 모델로 패러다임 완전 전환.
|
|
- **정책 변화:** 기술적 정확도(w1)와 윤리적 프라이버시 보호의 가중치 균형 조절.
|
|
|
|
## 🔗 Knowledge Connections
|
|
- Pattern Recognition, [[Autonomous Vehicles|Autonomous Vehicles]], [[CV_Synthesis|CV_Synthesis]], [[Artificial Intelligence (AI)|Artificial Intelligence (AI)]], [[Robotics|Robotics]]
|
|
- **Modern Tech/Tools**: OpenCV, PyTorch/TensorFlow, YOLO, Segment Anything Model (SAM), NeRF.
|
|
---
|
|
|
|
---
|
|
|
|
- [[Convolutional-Neural-Networks|Convolutional-Neural-Networks]], [[CLIP|CLIP]], Image-Processing, [[Transformer-Architecture|Transformer-Architecture]]
|
|
- **Raw Source:** 10_Wiki/Topics/AI/Computer-Vision.md
|
|
|
|
---
|
|
|
|
- **Parent:** 10_Wiki/💡 Topics/AI
|
|
- **Related:** [[CV_Synthesis|CV_Synthesis]], Object-Detection, CNN
|
|
- **Raw Source:** 00_Raw/2026-04-20/[[Computer Vision|Computer Vision]].md
|