32 lines
2.1 KiB
Markdown
32 lines
2.1 KiB
Markdown
---
|
|
id: P-REINFORCE-AUTO-DIMO-001
|
|
category: "[[10_Wiki/💡 Topics/AI]]"
|
|
confidence_score: 0.98
|
|
tags: [auto-reinforced, diffusion-models, generative-ai, computer-vision, image-generation, denoiser]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# [[Diffusion-Models]]
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "파괴에서 창조를 얻다: 선명한 이미지에 노이즈를 섞어 형체를 없애는 과정(Forward)을 거꾸로 학습하여, 아무 의미 없는 노이즈로부터 환상적인 고해상도 이미지를 조각해내는 현대 이미지 생성 AI의 핵심 엔진."
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
확산 모델(Diffusion-Models)은 데이터를 노이즈로 변환한 후, 이 과정을 역전시켜 데이터를 생성하는 확률론적 생성 모델입니다.
|
|
|
|
1. **핵심 프로세스**:
|
|
* **Forward Diffusion**: 고양이 이미지에 가우시안 노이즈를 단계적으로 추가하여 완전한 노이즈로 만듦.
|
|
* **Reverse Diffusion (Denosing)**: 노이즈에서 원래 이미지를 복구하는 신경망(U-Net 등)을 학습.
|
|
* **Conditioning**: 텍스트 프롬프트를 입력하면 그 의미에 맞는 방향으로 노이즈를 제거하여 원하는 결과 도출.
|
|
2. **장점**:
|
|
* GAN(Generative Adversarial Networks)보다 학습이 안정적이고, 훨씬 더 세밀하고 다양한 결과물을 생성함.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌**: 과거 이미지 생성 정책은 수만 장의 사진을 단순히 모사하는 정책이었으나, 확산 모델 정책은 데이터의 '확률 분포 밀도 정책'을 학습하여 세상에 없는 완벽한 구상을 만들어냄(RL Update).
|
|
- **정책 변화(RL Update)**: 이미지 생성 정책을 넘어 비디오(Sora), 3D 모델링, 단백질 구조 설계 정책 등 모든 물리적 데이터 생성 정책의 표준으로 확산 중임.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- [[Gen-AI]], [[Computer Vision]], [[CV_Synthesis]], [[Computational Creativity]], [[Statistics & Data Analysis]]
|
|
- **Modern Tech/Tools**: Stable Diffusion, Midjourney, DALL-E 3, ControlNet.
|
|
---
|