3.0 KiB
3.0 KiB
확산 모델 (Diffusion Models)
📌 Brief Summary
확산 모델(Diffusion Models)은 텍스트 프롬프트를 바탕으로 무작위 노이즈에서 시작해 점진적으로 노이즈를 제거(Denoising)해 나가며 최종 이미지를 생성하는 생성형 AI 아키텍처입니다 [1, 2]. 훈련 과정에서 원본 데이터에 가우시안 노이즈를 추가하는 '순방향 확산'과 이를 다시 복원하는 '역방향 확산' 과정을 거쳐 데이터 생성 방법을 학습합니다 [2, 3]. Midjourney, DALL-E, Stable Diffusion 등 현대의 주요 AI 이미지 생성 도구들의 핵심 기반 기술입니다 [4, 5].
📖 Core Content
-
핵심 작동 메커니즘
- 순방향 확산 (Forward Diffusion): 원본 데이터에 가우시안 노이즈(Gaussian Noise)를 여러 단계에 걸쳐 점진적으로 추가하여 데이터가 순수 노이즈 상태로 저하되는 과정을 모델이 학습합니다 [1, 2].
- 역방향 확산 (Reverse Diffusion): 노이즈가 추가된 과정을 역으로 거슬러 올라가며, 노이즈를 체계적으로 제거하여 원래의 입력을 재구성하는 방법을 학습합니다 [2, 3].
- 이미지 생성 (Generation): 실제 생성 시에는 무작위 노이즈에서 출발하여 학습된 디노이징 단계를 반복적으로 적용, 텍스트 프롬프트의 지시에 부합하는 일관된 시각적 결과물로 변환합니다 [2, 4].
-
프롬프트와의 상호작용 (조건부 생성) 텍스트 프롬프트는 노이즈가 최종 이미지로 형태를 갖춰가는 과정 전반에 지침(Guidance)을 제공합니다 [1]. 최신 모델들은 텍스트 인코더와 잠재 공간(Latent Space)을 긴밀하게 정렬하여 프롬프트의 미세한 뉘앙스까지 픽셀 단위로 구현합니다 [4, 6]. 모델은 긍정적/부정적 조건을 함께 인코딩하며, 샘플러(Sampler)가 생성 중에 이 둘 사이의 균형을 맞추고 CFG 스케일을 통해 지침의 강도를 조절합니다 [6, 7].
⚖️ Trade-offs & Caveats
- 장점: GAN(생성적 적대 신경망)에 비해 학습이 안정적이며, 고품질의 세밀하고 다양한 결과물을 출력할 수 있습니다. 또한 점진적 생성 과정을 거치므로 다양한 단계에서 세밀한 제어(Fine-Grained Control)가 가능합니다 [2].
- 단점: 반복적인 노이즈 제거 과정으로 인해 연산 자원 소모(Computational Intensity)가 심하며, GAN 모델에 비해 생성 속도가 상대적으로 느립니다 [5, 9]. 또한 로컬 환경 설정 시 상당한 전문 지식이 요구되는 구조적 복잡성이 존재합니다 [5, 9].
🔗 Knowledge Connections
- Related Topics: 프롬프트 엔지니어링, 잠재 공간(Latent Space), CFG Scale, 노이즈 제거(Denoising, 부정 프롬프트 (Negative Prompt)
- Projects/Contexts: Midjourney, Stable Diffusion, DALL-E
Last updated: 2026-04-30