4.3 KiB
4.3 KiB
확산 모델 (Diffusion Models)
📌 Brief Summary
확산 모델(Diffusion Models)은 점진적으로 노이즈를 추가하고 이를 다시 제거하는 과정을 학습하여 무작위 노이즈로부터 고품질의 새로운 데이터를 생성하는 생성형 AI 아키텍처이다 [1, 2]. 텍스트 프롬프트를 데이터로 변환한 후, 완전한 무작위 노이즈 상태에서 시작하여 점차적으로 형태를 다듬어 최종 이미지를 구현하는 방식을 사용한다 [3, 4]. 이러한 메커니즘을 통해 정밀한 제어와 안정적인 학습이 가능하여 Midjourney나 Stable Diffusion과 같은 주요 AI 이미지 생성기의 핵심 기반 기술로 활용되고 있다 [1, 3].
📖 Core Content
-
핵심 작동 원리
- 순방향 확산 (Forward Diffusion): 원본 데이터에 가우시안 노이즈(Gaussian noise)를 여러 단계에 걸쳐 점진적으로 추가하여, 데이터가 순수 노이즈 상태로 저하되는 과정을 모델이 학습한다 [1].
- 역방향 확산 (Reverse Diffusion): 노이즈가 추가된 과정을 역으로 거슬러 올라가며, 노이즈를 체계적으로 제거(Denoising)하여 원래의 입력을 재구성하는 방법을 학습한다 [2].
- 생성 단계 (Generation): 실제 이미지 생성 시에는 무작위 노이즈에서 출발하여, 학습된 디노이징 단계를 반복적으로 적용해 노이즈를 텍스트 프롬프트의 지시에 부합하는 일관된 시각적 결과물로 변환한다 [2, 3].
-
확산 모델의 장점과 단점
- 장점: GAN(생성적 적대 신경망) 모델에 비해 학습 메커니즘이 안정적이며, 고품질의 세밀하고 다양한 결과물을 출력할 수 있다 [2]. 또한, 반복적인 생성(디노이징) 과정을 거치기 때문에 다양한 단계에서 최종 결과물을 미세하게 조율하고 통제하는 정밀한 제어(Fine-Grained Control)에 유리하다 [2].
- 단점: 반복적인 노이즈 제거 과정을 거쳐야 하므로 연산 자원 소모가 심하며, GAN 모델에 비해 생성 속도가 느리다 [5]. 더불어, 초보자가 로컬 환경 등에 모델을 직접 설정하고 구성하기에는 상당한 전문 지식이 요구되는 복잡성이 존재한다 [5].
-
이미지 프롬프트 작성과의 연관성
- 초기의 확산 모델은 무작위 노이즈에서 패턴을 찾는 기초 수준이었으나, 최신 확산 모델들은 텍스트 인코더와 잠재 공간(Latent Space)을 긴밀하게 정렬하여 프롬프트 단어의 미세한 뉘앙스까지 픽셀 단위로 구현해 낸다 [4].
- 확산 모델은 긍정 프롬프트(도달해야 할 목표)와 부정 프롬프트(피해야 할 영역)를 함께 인코딩하며, 샘플러(Sampler)가 생성 중에 이 둘 사이의 균형을 맞춘다 [6]. 사용자는 CFG 스케일(CFG Scale) 수치를 통해 확산 과정이 텍스트 조건(프롬프트)을 얼마나 강력하게 따를지 그 지침의 강도를 조절할 수 있다 [6].
- 확산 과정의 특성상 부정 프롬프트의 주된 영향력은 초기 단계보다는 노이즈 제거가 어느 정도 진행된 '스텝 10' 이후에 본격적으로 나타나기도 하므로, 과도한 부정 프롬프트의 사용은 오히려 구조를 왜곡할 수 있어 확산 메커니즘을 고려한 전략적 키워드 배치가 필요하다 [7].
🔗 Knowledge Connections
- Related Topics: 프롬프트 엔지니어링 (Prompt Engineering), 부정 프롬프트 (Negative Prompt), CFG 스케일 (CFG Scale), 잠재 공간 (Latent Space)
- Projects/Contexts: Stable Diffusion, Midjourney, DALL-E
- Contradictions/Notes: 확산 모델은 생성물의 품질이 우수하고 프롬프트를 통한 미세 조정이 뛰어나지만, GAN(Generative Adversarial Networks) 아키텍처와 비교했을 때 연산 집약적(Computational Intensity)이어서 이미지 생성 속도가 상대적으로 느리다는 분명한 기술적 한계가 존재한다 [2, 5, 8].
Last updated: 2026-04-30