# [[ํ™•์‚ฐ ๋ชจ๋ธ (Diffusion Model)]] ## ๐Ÿ“Œ Brief Summary ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion Model)์€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ฌด์ž‘์œ„ ๋…ธ์ด์ฆˆ์—์„œ ์‹œ์ž‘ํ•ด ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•ด ๋‚˜๊ฐ€๋ฉฐ ์ตœ์ข… ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ์•„ํ‚คํ…์ฒ˜์ด๋‹ค [1, 2]. ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ์›๋ณธ ๋ฐ์ดํ„ฐ์— ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” '์ˆœ๋ฐฉํ–ฅ ํ™•์‚ฐ'๊ณผ ์ด๋ฅผ ๋‹ค์‹œ ๋ณต์›ํ•˜๋Š” '์—ญ๋ฐฉํ–ฅ ํ™•์‚ฐ' ๊ณผ์ •์„ ๊ฑฐ์ณ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•œ๋‹ค [2, 3]. Midjourney, DALL-E, Stable Diffusion ๋“ฑ ํ˜„๋Œ€์˜ ์ฃผ์š” AI ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋„๊ตฌ๋“ค์ด ์ด ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ๋™๋˜๋ฉฐ, ์‚ฌ์šฉ์ž์˜ ํ…์ŠคํŠธ ์ง€์‹œ๋ฅผ ๊ตฌ์ฒด์ ์ธ ์‹œ๊ฐ์  ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ•ต์‹ฌ ์—ญํ• ์„ ๋‹ด๋‹นํ•œ๋‹ค [4, 5]. ## ๐Ÿ“– Core Content * **์ž‘๋™ ๋ฉ”์ปค๋‹ˆ์ฆ˜**: ํ™•์‚ฐ ๋ชจ๋ธ์€ ๋ณธ๋ž˜ ๋ฌด์ž‘์œ„ ๋…ธ์ด์ฆˆ(random noise)๋กœ ๊ฐ€๋“ ์ฐฌ ์ƒํƒœ์—์„œ ์ถœ๋ฐœํ•˜์—ฌ ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐ(denoising)ํ•˜๋Š” ๋ฐ˜๋ณต์ ์ธ ๊ณผ์ •์„ ํ†ตํ•ด ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•œ๋‹ค [1, 2]. ์ด ํ•™์Šต ๊ณผ์ •์€ ์›๋ณธ ๋ฐ์ดํ„ฐ์— ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๋ฅผ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์— ๊ฑธ์ณ ์ ์ฐจ์ ์œผ๋กœ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ›ผ์†์‹œํ‚ค๋Š” '์ˆœ๋ฐฉํ–ฅ ํ™•์‚ฐ(Forward Diffusion)' ๊ณผ์ •๊ณผ, ๋…ธ์ด์ฆˆ๊ฐ€ ์ถ”๊ฐ€๋œ ์ƒํƒœ์—์„œ ์›๋ณธ ๋ฐ์ดํ„ฐ๋กœ ๋ณต์›ํ•˜๋Š” ๋ฒ•์„ ํ•™์Šตํ•˜๋Š” '์—ญ๋ฐฉํ–ฅ ํ™•์‚ฐ(Reverse Diffusion)' ๊ณผ์ •์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค [2, 3]. * **ํ”„๋กฌํ”„ํŠธ์™€์˜ ์ƒํ˜ธ์ž‘์šฉ (์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ)**: ์‚ฌ์šฉ์ž๊ฐ€ ์ž…๋ ฅํ•œ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋Š” ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜๋˜์–ด ๋…ธ์ด์ฆˆ๊ฐ€ ์ตœ์ข… ์ด๋ฏธ์ง€๋กœ ํ˜•ํƒœ๋ฅผ ๊ฐ–์ถฐ๊ฐ€๋Š” ๊ณผ์ • ์ „๋ฐ˜์— ์ง€์นจ(guidance)์„ ์ œ๊ณตํ•œ๋‹ค [1]. 2026๋…„์˜ ์ตœ์‹  ๋ชจ๋ธ๋“ค์€ ํ…์ŠคํŠธ ์ธ์ฝ”๋”์™€ ์ž ์žฌ ๊ณต๊ฐ„(Latent Space)์„ ๊ธด๋ฐ€ํ•˜๊ฒŒ ์ •๋ ฌํ•จ์œผ๋กœ์จ, ๋‹จ์–ด ํ•˜๋‚˜๊ฐ€ ์ง€๋‹Œ ๋ฏธ์„ธํ•œ ๋‰˜์•™์Šค๊นŒ์ง€ ํ”ฝ์…€ ๋‹จ์œ„๋กœ ์ •ํ™•ํ•˜๊ฒŒ ๊ตฌํ˜„ํ•ด ๋‚ผ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค [6]. ์ƒ์„ฑ ๊ณผ์ •์—์„œ๋Š” ๊ธ์ •์ (Positive) ๋ฐ ๋ถ€์ •์ (Negative) ์กฐ๊ฑด์ด ํ•จ๊ป˜ ์ธ์ฝ”๋”ฉ๋˜๋ฉฐ, ์ƒ˜ํ”Œ๋Ÿฌ(Sampler)๊ฐ€ ์ด ๋‘ ์ง€์นจ์„ ๊ท ํ˜• ์žˆ๊ฒŒ ์กฐ์œจํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ์™„์„ฑํ•œ๋‹ค [7]. * **์ฃผ์š” ๊ฐ•์ **: ํ™•์‚ฐ ๋ชจ๋ธ์€ ๋งค์šฐ ๊ณ ํ’ˆ์งˆ์˜ ๋‹ค์–‘ํ•˜๊ณ  ๋””ํ…Œ์ผํ•œ ์ถœ๋ ฅ๋ฌผ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ํ›ˆ๋ จ ๊ณผ์ •์ด ๋น„๊ต์  ์•ˆ์ •์ ์ด๋‹ค [2]. ๋˜ํ•œ ์ƒ์„ฑ ๊ณผ์ •์ด ๋ฐ˜๋ณต์ ์ด๊ณ  ์ ์ง„์ ์ด๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์šฉ์ž๊ฐ€ ๊ฐ ๋‹จ๊ณ„์—์„œ ์„ธ๋ฐ€ํ•œ ์ œ์–ด(Fine-Grained Control)๋ฅผ ๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค [2]. ์ด๋ฅผ ํ™œ์šฉํ•ด ํŠน์ • ์‹œ์ (`--stop` ๋งค๊ฐœ๋ณ€์ˆ˜ ๋“ฑ)์—์„œ ๋ Œ๋”๋ง์„ ๋ฉˆ์ถ”๋ฉด ๋ถˆ์™„์ „ํ•˜๋ฉด์„œ๋„ ์ƒ‰๋‹ค๋ฅธ ์˜ˆ์ˆ ์  ๊ฒฐ๊ณผ๋ฌผ์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜๋„ ์žˆ๋‹ค [8]. * **ํ•œ๊ณ„์ **: ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ์ง€์†์ ์ธ ๋ฐ˜๋ณต ์—ฐ์‚ฐ ๊ณผ์ •์œผ๋กœ ์ธํ•ด ์ปดํ“จํ„ฐ ๋ฆฌ์†Œ์Šค ์†Œ๋ชจ๊ฐ€ ํฌ๊ณ , GAN๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ์ƒ์„ฑ ๋ชจ๋ธ์— ๋น„ํ•ด ๊ฒฐ๊ณผ๋ฌผ ๋„์ถœ ์†๋„๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๋А๋ฆฌ๋‹ค [9]. ๋˜ํ•œ ์ดˆ๋ณด์ž๊ฐ€ ์ „๋ฌธ์ ์ธ ์ง€์‹ ์—†์ด ๋กœ์ปฌ ํ™˜๊ฒฝ์— ์ง์ ‘ ๋ชจ๋ธ์„ ๋ฐฐํฌํ•˜๊ณ  ์„ค์ •ํ•˜๊ธฐ์—๋Š” ๋‹ค์†Œ ๊ตฌ์กฐ์ ์ธ ๋ณต์žก์„ฑ์ด ์กด์žฌํ•œ๋‹ค [9]. ## ๐Ÿ”— Knowledge Connections - **Related Topics:** [[ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง]], [[์ž ์žฌ ๊ณต๊ฐ„(Latent Space)]], [[CFG Scale]], [[๋…ธ์ด์ฆˆ ์ œ๊ฑฐ(Denoising)]], [[๋ถ€์ • ํ”„๋กฌํ”„ํŠธ(Negative Prompt)]] - **Projects/Contexts:** [[AI ์ด๋ฏธ์ง€ ์ƒ์„ฑ(AI Image Generation)]], [[Midjourney]], [[Stable Diffusion]], [[DALL-E]] - **Contradictions/Notes:** ํ™•์‚ฐ ๋ชจ๋ธ์€ ์„ธ๋ฐ€ํ•œ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•˜๊ณ  ์••๋„์ ์œผ๋กœ ๋†’์€ ํ’ˆ์งˆ์˜ ๊ฒฐ๊ณผ๋ฌผ์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์œผ๋‚˜, ๊ทธ ์ด๋ฉด์—๋Š” ๋ฐ˜๋ณต์ ์ธ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ • ๋•Œ๋ฌธ์— GAN ๋ชจ๋ธ์— ๋น„ํ•ด ์ปดํ“จํŒ… ์ž์› ์†Œ๋ชจ๊ฐ€ ํฌ๊ณ  ์ƒ์„ฑ ์‹œ๊ฐ„์ด ๊ธธ์–ด์ง„๋‹ค๋Š” ๊ตฌ์กฐ์  ์ƒ์ถฉ ๊ด€๊ณ„(Trade-off)๊ฐ€ ์กด์žฌํ•œ๋‹ค [2, 9]. --- *Last updated: 2026-04-30*