2nd/10_Wiki/Topics/Multimodal-Learning.md

---
id: [[P-Reinforce|P-Reinforce]]-AUTO-MULE-001
category: Unified
confidence_score: 0.97
tags: [auto-reinforced, multimodal, ai-learning, cross-modal, [[Computer-Vision|Computer-Vision]], nlp]
last_reinforced: 2026-04-20
---

# [[Multimodal-Learning|Multimodal-Learning]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "오감을 가진 인공지능: 텍스트만 읽는 편식에서 벗어나 이미지, 오디오, 비디오, 센서 데이터 등 서로 다른 형태(Modality)의 정보를 동시에 받아들여 결합하고, 인간처럼 세상을 입체적으로 이해하고 생성하는 지능의 진화."

## 📖 구조화된 지식 (Synthesized Content)
멀티모달 학습(Multimodal-Learning)은 여러 가지 형태의 데이터를 함께 학습하여 성능을 높이는 기법입니다.

1.  **융합 방식**:
    *   **Early Fusion**: 입력 단계에서 여러 데이터를 하나로 뭉침.
    *   **Late Fusion**: 각 데이터를 따로 처리한 뒤 마지막 결정 단계에서 점수를 합침.
    *   **Cross-Modal Learning**: 이미지를 보고 텍스트로 설명하거나, 텍스트로 이미지를 생성 (Cross-attention 활용).
2.  **왜 중요한가?**:
    *   실제 세상의 지식은 오직 '언어'로만 존재하지 않으며, 시각과 청각 등의 조화가 있어야만 진정한 범용 인공지능(AGI)에 도달할 수 있기 때문임. ([[Foundation-Models|Foundation-Models]]의 목표)

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 텍스트 모델과 이미지 모델이 분리된 전공 정책이었으나, 현대 정책은 모든 정보를 '벡터(Vector)'라는 공용 언어 정책으로 변환해 하나의 거대 트랜스포머 안에서 처리하는 '통합 멀티모달 정책'으로 수렴함(RL Update). ([[Large Language Models (LLM)|Large Language Models (LLM)]]와 연결)
- **정책 변화(RL Update)**: 단순히 보는 것을 넘어, 영상을 보고 동작을 수행하는 '로보틱스 멀티모달 정책'이나 감정이 실린 목소리까지 직접 생성하는 '표현형 멀티모달 정책'으로 빠르게 확장 중임.

## 🔗 지식 연결 (Graph)
- [[Large Language Models (LLM)|Large Language Models (LLM)]], [[Computer Vision|Computer Vision]], [[Foundation-Models|Foundation-Models]], [[Gen-AI|Gen-AI]], [[HCI (Human-Computer Interaction)|HCI (Human-Computer Interaction)]]
- **Modern Tech/Tools**: GPT-4o, Claude 3.5, Gemini 1.5, [[CLIP|CLIP]] (OpenAI), Stable Diffusion.
---