Files
2nd/10_Wiki/Topics/CNN.md
T

2.4 KiB


id: PREI-AUTO-CNN-001 category: Unified confidence_score: 0.96 tags: [auto-reinforced, CNN, convolution, local-patterns, feature-extraction, Mamba-integration] last_reinforced: 2026-05-05

CNN

📌 한 줄 통찰 (The Karpathy Summary)

"데이터를 작은 창(Window)으로 훑으며 국소적인 패턴의 정수를 뽑아내어, 거대한 정보 속에서 '중요한 단서'를 포착하는 탐정의 돋보기."

📖 구조화된 지식 (Synthesized Content)

합성곱 신경망(CNN)은 합성곱 연산을 통해 데이터의 국소적 특징(Feature)을 추출하는 기계 학습 알고리즘입니다.

  1. 국소적 패턴 인식:
    • 데이터 전체를 한꺼번에 보는 대신, 필터(Kernel)를 이동시키며 인접한 요소 간의 관계(이미지의 선, 텍스트의 구문 등)를 파악.
    • 이웃한 토큰 간의 종속성(예: 주어-동사 호응)을 추출하는 데 매우 효과적임.
  2. 훈련 단계의 고효율성:
    • 데이터 간의 간격이 일정할 경우, 전역적인 연산을 단일 합성곱 단계로 펼쳐서 처리할 수 있어 GPU 병렬 연산에 매우 유리함.
  3. 현대 LLM에서의 역할 (Short Conv):
    • Mamba와 같은 최신 아키텍처는 SSM 전 단계에 1차원 합성곱 계층을 배치하여 국소 패턴을 먼저 추출. 이를 통해 SSM이 장거리 전역 맥락에만 집중할 수 있도록 '전처리' 역할을 수행함.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 장거리 종속성의 한계 (RL Update): CNN은 국소적 처리에 특화되어 있어, 시퀀스 내에서 멀리 떨어진 요소 간의 관계(Long-term dependency)를 파악하는 데 본질적인 한계가 있음. 이 모순은 Attention-Mechanism이나 SSM과의 하이브리드 설계를 통해 해결됨.
  • 훈련 vs 추론의 비대칭: 훈련 시에는 모든 데이터를 알고 있어 합성곱이 매우 빠르지만, 실시간으로 다음 토큰을 예측해야 하는 추론 단계에서는 합성곱의 병렬성 이득을 온전히 누리기 어려움.

🔗 지식 연결 (Graph)