확산 모델 (Diffusion Model)

📌 Brief Summary

확산 모델(Diffusion Model)은 텍스트 프롬프트를 바탕으로 무작위 노이즈에서 시작해 점진적으로 노이즈를 제거해 나가며 최종 이미지를 생성하는 머신러닝 아키텍처이다 [1, 2]. 훈련 과정에서 원본 데이터에 가우시안 노이즈를 추가하는 '순방향 확산'과 이를 다시 복원하는 '역방향 확산' 과정을 거쳐 이미지 생성 방법을 학습한다 [2, 3]. Midjourney, DALL-E, Stable Diffusion 등 현대의 주요 AI 이미지 생성 도구들이 이 모델을 기반으로 구동되며, 사용자의 텍스트 지시를 구체적인 시각적 데이터로 변환하는 핵심 역할을 담당한다 [4, 5].

📖 Core Content

작동 메커니즘: 확산 모델은 본래 무작위 노이즈(random noise)로 가득 찬 상태에서 출발하여 점진적으로 노이즈를 제거(denoising)하는 반복적인 과정을 통해 이미지를 생성한다 [1, 2]. 이 학습 과정은 원본 데이터에 가우시안 노이즈를 여러 단계에 걸쳐 점차적으로 추가하여 데이터를 훼손시키는 '순방향 확산(Forward Diffusion)' 과정과, 노이즈가 추가된 상태에서 원본 데이터로 복원하는 법을 학습하는 '역방향 확산(Reverse Diffusion)' 과정으로 구성된다 [2, 3].
프롬프트와의 상호작용 (조건부 생성): 사용자가 입력한 텍스트 프롬프트는 데이터로 변환되어 노이즈가 최종 이미지로 형태를 갖춰가는 과정 전반에 지침(guidance)을 제공한다 [1]. 2026년의 최신 모델들은 텍스트 인코더와 잠재 공간(Latent Space)을 긴밀하게 정렬함으로써, 단어 하나가 지닌 미세한 뉘앙스까지 픽셀 단위로 정확하게 구현해 낼 수 있게 되었다 [6]. 생성 과정에서는 긍정적(Positive) 및 부정적(Negative) 조건이 함께 인코딩되며, 샘플러(Sampler)가 이 두 지침을 균형 있게 조율하여 이미지를 완성한다 [7].
주요 강점: 확산 모델은 매우 고품질의 다양하고 디테일한 출력물을 생성할 수 있으며 훈련 과정이 비교적 안정적이다 [2]. 또한 생성 과정이 반복적이고 점진적이기 때문에 사용자가 각 단계에서 세밀한 제어(Fine-Grained Control)를 가할 수 있다 [2]. 이를 활용해 특정 시점(--stop 매개변수 등)에서 렌더링을 멈추면 불완전하면서도 색다른 예술적 결과물을 만들어낼 수도 있다 [8].
한계점: 노이즈를 제거하는 지속적인 반복 연산 과정으로 인해 컴퓨터 리소스 소모가 크고, GAN과 같은 다른 생성 모델에 비해 결과물 도출 속도가 상대적으로 느리다 [9]. 또한 초보자가 전문적인 지식 없이 로컬 환경에 직접 모델을 배포하고 설정하기에는 다소 구조적인 복잡성이 존재한다 [9].

🔗 Knowledge Connections

Related Topics: 프롬프트 엔지니어링, 잠재 공간(Latent Space), CFG Scale, 노이즈 제거(Denoising), 부정 프롬프트(Negative Prompt)
Projects/Contexts: AI 이미지 생성 (AI Image Generation), Midjourney, Stable Diffusion, DALL-E
Contradictions/Notes: 확산 모델은 세밀한 제어가 가능하고 압도적으로 높은 품질의 결과물을 얻을 수 있다는 장점이 있으나, 그 이면에는 반복적인 노이즈 제거 과정 때문에 GAN 모델에 비해 컴퓨팅 자원 소모가 크고 생성 시간이 길어진다는 구조적 상충 관계(Trade-off)가 존재한다 [2, 9].

Last updated: 2026-04-30

3.9 KiB Raw Blame History

확산 모델 (Diffusion Model)

📌 Brief Summary

📖 Core Content

🔗 Knowledge Connections

3.9 KiB

Raw Blame History