Files
2nd/10_Wiki/Topics/AI 이미지 생성 파이프라인.md
T

25 lines
4.4 KiB
Markdown

# [[AI 이미지 생성 파이프라인|AI 이미지 생성 파이프라인]]
## 📌 Brief Summary
AI 이미지 생성 파이프라인은 사용자가 입력한 텍스트 프롬프트나 기존 이미지를 기계가 해석 가능한 데이터로 변환하여 시각적 결과물을 만들어내는 과정이다 [1, 2]. 이 과정의 핵심은 추상적인 텍스트 기호를 잠재 공간(Latent Space)의 구체적 좌표로 매핑하여 픽셀 단위로 구현하는 것이다 [2]. 주로 확산 모델(Diffusion Models), 생성적 적대 신경망(GANs), 변분 자동인코더(VAEs) 등의 기계 학습 아키텍처를 기반으로 작동하며, 특히 확산 모델은 무작위 노이즈에서 시작해 점진적으로 노이즈를 제거하며 사용자의 의도에 맞는 이미지를 형성한다 [3-6].
## 📖 Core Content
* **기술적 기반 및 주요 모델 구조**
AI 이미지 생성 파이프라인을 구성하는 핵심 아키텍처로는 GANs, VAEs, 그리고 확산 모델(Diffusion Models)이 있다 [3-5]. 최근 텍스트-이미지 생성에 가장 널리 쓰이는 확산 모델의 파이프라인은 텍스트 프롬프트를 데이터로 변환한 뒤, 무작위 노이즈 상태에서 출발하여 점진적으로 노이즈를 제거(Reverse Diffusion)해 나가는 방식으로 최종 이미지를 도출한다 [1, 6]. 2026년의 최신 모델들은 텍스트 인코더와 잠재 공간을 밀접하게 정렬시켜 프롬프트의 미세한 뉘앙스까지 픽셀 단위로 정확하게 구현하는 수준에 도달하였다 [2].
* **텍스트 프롬프트와 파이프라인의 상호작용**
이미지 생성 파이프라인에서 프롬프트는 단순한 단어의 나열이 아니라, 인공지능의 신경망 구조에 부합하는 계층적 지시어 역할을 한다 [2]. 긍정 프롬프트(Positive Prompt)가 생성 과정의 타겟(Target) 역할을 수행한다면, 부정 프롬프트(Negative Prompt)는 회피 지도(Avoidance Map)로 작동하여 파이프라인이 원치 않는 실패 패턴으로 편향되는 것을 막아준다 [7, 8].
* **반복적 정교화와 파이프라인 확장**
효과적인 생성 파이프라인은 단일 입력으로 끝나는 것이 아니라, 베이스 이미지(Base Image)를 생성한 후 점진적으로 수정해 나가는 반복적 정교화(Iterative Process)를 포함한다 [9]. 초기 결과물을 바탕으로 인페인팅(Inpainting), 아웃페인팅(Outpainting), 영역별 변주(Vary Region) 등의 파이프라인 단계를 거쳐 원본의 맥락을 유지하면서 세부 요소를 변경하거나 캔버스를 확장할 수 있다 [9, 10]. 또한, 기존 이미지를 기반으로 스타일을 변환하는 이미지 간 변환(Image-to-Image) 파이프라인을 통해 완전히 새로운 결과물을 만들어낼 수도 있다 [11, 12].
* **에이전틱 크리에이티브 및 연속적 워크플로우 (2026 트렌드)**
최신 AI 이미지 생성 파이프라인은 단발성 생성에서 '연속적 창작 워크플로우'로 진화했다 [13]. 미드저니 V7의 드래프트 모드(Draft Mode)처럼 저비용·초고속으로 대량의 시안을 생성한 뒤 최적의 결과물을 고화질로 승격시키는 설계가 도입되었다 [13-15]. 더 나아가 생성된 정적 이미지를 비디오로 변환하는 단계까지 파이프라인이 매끄럽게 연결되며, 스타일 참조(--sref) 및 객체 참조(--oref) 기능을 통해 파이프라인 전반에 걸쳐 미학적 일관성을 유지할 수 있게 되었다 [13, 14, 16, 17].
## 🔗 Knowledge Connections
- **Related Topics:** [[Diffusion Models|Diffusion Models]], Latent Space, [[Prompt Engineering|Prompt Engineering]], [[Negative Prompt|Negative Prompt]]
- **Projects/Contexts:** Midjourney V7/V8 Alpha, [[DALL-E 3|DALL-E 3]], [[Stable Diffusion|Stable Diffusion]]
- **Contradictions/Notes:** 소스 39와 17에서는 미드저니(Midjourney) 파이프라인이 매개변수(Parameter)를 통한 수치 제어 및 고유의 예술적 개입에 의존한다고 설명하는 반면, 소스 20 및 21에서는 DALL-E 3의 파이프라인이 매개변수 대신 자연어에 크게 의존하며 GPT-4가 사용자의 프롬프트를 자동으로 상세하게 확장(Expansion)하여 이미지를 생성한다고 분석하여 플랫폼 간의 프롬프트 처리 파이프라인 설계에 차이가 있음을 보여준다 [18-20].
---
*Last updated: 2026-04-30*