Files
2nd/10_Wiki/Topics/Multimodal-Learning.md
T

4.4 KiB

category, tags, title, last_updated
category tags title last_updated
Unified
auto-consolidated
technical-documentation
Multi-Modal Learning (멀티모달 학습) 2026-05-02

Multi-Modal Learning (멀티모달 학습)

📌 Brief Summary

"언어의 개념과 이미지의 형상을 하나의 공통된 공간(Latent Space)에서 융합하여, 보고 듣고 말하는 통합 지능을 완성하라" — 텍스트, 이미지, 오디오, 비디오 등 서로 다른 형식의 데이터를 동시에 학습하여 모달리티 간의 상관관계를 파악하고 상호 변환하는 학습 체계.


"오감을 가진 인공지능: 텍스트만 읽는 편식에서 벗어나 이미지, 오디오, 비디오, 센서 데이터 등 서로 다른 형태(Modality)의 정보를 동시에 받아들여 결합하고, 인간처럼 세상을 입체적으로 이해하고 생성하는 지능의 진화."

📖 Core Content

  • 추출된 패턴: "Cross-modal Embedding Alignment" — 이미지에서 추출한 특징 벡터와 텍스트에서 추출한 특징 벡터가 같은 의미를 가질 때 가깝게 위치하도록 학습시킴으로써, 기계가 "사과"라는 단어와 사과의 시각적 형상을 동일한 개념으로 인지하게 만드는 패턴.
  • 주요 구현 방식:
    • Early Fusion: 입력 단계에서 데이터를 물리적으로 결합.
    • Late Fusion: 각 모달리티를 개별 모델로 처리한 후 결과 단계에서 통합.
    • Joint Training (CLIP 등): 공유된 잠재 공간에서 두 데이터를 직접 비교하며 학습.
  • 의의: AI가 단순히 글자만 읽는 수준을 넘어, 현실 세계의 다채로운 정보를 인간처럼 복합적으로 이해하고 생성(Generative AI)할 수 있게 함.

멀티모달 학습(Multimodal-Learning)은 여러 가지 형태의 데이터를 함께 학습하여 성능을 높이는 기법입니다.

  1. 융합 방식:
    • Early Fusion: 입력 단계에서 여러 데이터를 하나로 뭉침.
    • Late Fusion: 각 데이터를 따로 처리한 뒤 마지막 결정 단계에서 점수를 합침.
    • Cross-Modal Learning: 이미지를 보고 텍스트로 설명하거나, 텍스트로 이미지를 생성 (Cross-attention 활용).
  2. 왜 중요한가?:
    • 실제 세상의 지식은 오직 '언어'로만 존재하지 않으며, 시각과 청각 등의 조화가 있어야만 진정한 범용 인공지능(AGI)에 도달할 수 있기 때문임. (Foundation-Models의 목표)

⚖️ Trade-offs & Caveats

  • 과거 데이터와의 충돌: 모달리티 간의 단순 결합이 정보의 노이즈를 키울 수 있다는 우려를 넘어, 최근에는 서로 다른 감각 정보가 보완 작용을 하여 단일 모달리티보다 더 강력한 일반화 성능을 낼 수 있음이 증명됨 (GPT-4o 등).
  • 정책 변화: Antigravity 프로젝트는 에이전트가 코드 설명뿐만 아니라 아키텍처 다이어그램(Image)과 사용자의 음성 지시(Audio)를 동시에 해석할 수 있도록 멀티모달 추론 레이어를 확장 중임.

  • 과거 데이터와의 충돌: 과거에는 텍스트 모델과 이미지 모델이 분리된 전공 정책이었으나, 현대 정책은 모든 정보를 '벡터(Vector)'라는 공용 언어 정책으로 변환해 하나의 거대 트랜스포머 안에서 처리하는 '통합 멀티모달 정책'으로 수렴함(RL Update). (Large Language Models (LLM)와 연결)
  • 정책 변화(RL Update): 단순히 보는 것을 넘어, 영상을 보고 동작을 수행하는 '로보틱스 멀티모달 정책'이나 감정이 실린 목소리까지 직접 생성하는 '표현형 멀티모달 정책'으로 빠르게 확장 중임.

🔗 Knowledge Connections