docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links
This commit is contained in:
@@ -2,7 +2,7 @@
|
||||
id: AI-MODAL-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [ai, [[Deep-Learning]], multi-modal, [[CLIP]], dall-e, cross-modal-learning]
|
||||
tags: [ai, [[Deep-Learning|Deep-Learning]], multi-modal, [[CLIP|CLIP]], dall-e, cross-modal-learning]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
@@ -12,7 +12,7 @@ last_reinforced: 2026-04-26
|
||||
> "언어의 개념과 이미지의 형상을 하나의 공통된 공간(Latent Space)에서 융합하여, 보고 듣고 말하는 통합 지능을 완성하라" — 텍스트, 이미지, 오디오, 비디오 등 서로 다른 형식의 데이터를 동시에 학습하여 모달리티 간의 상관관계를 파악하고 상호 변환하는 학습 체계.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **추출된 패턴:** "Cross-modal Embedding [[Alignment]]" — 이미지에서 추출한 특징 벡터와 텍스트에서 추출한 특징 벡터가 같은 의미를 가질 때 가깝게 위치하도록 학습시킴으로써, 기계가 "사과"라는 단어와 사과의 시각적 형상을 동일한 개념으로 인지하게 만드는 패턴.
|
||||
- **추출된 패턴:** "Cross-modal Embedding [[Alignment|Alignment]]" — 이미지에서 추출한 특징 벡터와 텍스트에서 추출한 특징 벡터가 같은 의미를 가질 때 가깝게 위치하도록 학습시킴으로써, 기계가 "사과"라는 단어와 사과의 시각적 형상을 동일한 개념으로 인지하게 만드는 패턴.
|
||||
- **주요 구현 방식:**
|
||||
- **Early Fusion:** 입력 단계에서 데이터를 물리적으로 결합.
|
||||
- **Late Fusion:** 각 모달리티를 개별 모델로 처리한 후 결과 단계에서 통합.
|
||||
@@ -24,5 +24,5 @@ last_reinforced: 2026-04-26
|
||||
- **정책 변화:** Antigravity 프로젝트는 에이전트가 코드 설명뿐만 아니라 아키텍처 다이어그램(Image)과 사용자의 음성 지시(Audio)를 동시에 해석할 수 있도록 멀티모달 추론 레이어를 확장 중임.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Transformer-Architecture]]-Foundations, [[Computer-Vision]]-Foundations, NLP-Foundations, [[Generative-Adversarial-Networks]]-GAN
|
||||
- [[Transformer-Architecture|Transformer-Architecture]]-Foundations, [[Computer-Vision|Computer-Vision]]-Foundations, NLP-Foundations, [[Generative-Adversarial-Networks|Generative-Adversarial-Networks]]-GAN
|
||||
- **Raw Source:** 10_Wiki/Topics/AI/Multi-Modal-Learning.md
|
||||
|
||||
Reference in New Issue
Block a user