# [[이미지 생성 및 제어 파이프라인|이미지 생성 및 제어 파이프라인]]

## 📌 Brief Summary
이미지 생성 및 제어 파이프라인은 텍스트 프롬프트나 참조 이미지를 입력받아 생성형 AI 모델을 통해 시각적 결과물로 변환하고, 이를 반복적으로 정교화하는 일련의 체계적인 작업 흐름을 의미합니다. 이 파이프라인은 확산 모델(Diffusion Models) 등 핵심 신경망 아키텍처를 기반으로 하며, 주체와 스타일을 정의하는 초기 프롬프트 작성부터 시작됩니다. 이후 매개변수 제어, 부정 프롬프트(Negative Prompt) 적용, 가중치 조절을 거쳐 인페인팅(Inpainting)과 같은 사후 편집 기술을 통해 사용자의 미학적 의도를 픽셀 단위로 통제하고 완성도를 높이는 데 그 목적이 있습니다.

## 📖 Core Content
* **기반 모델의 메커니즘 (Foundational Model Mechanisms)**
  이미지 생성 파이프라인은 주로 세 가지 모델 아키텍처에 의해 구동됩니다. GANs(생성적 적대 신경망)는 생성자와 판별자의 경쟁을 통해 이미지를 생성하고, VAEs(변분 오토인코더)는 데이터를 잠재 공간(Latent Space)으로 인코딩한 뒤 디코딩하여 재구성합니다 [1, 2]. 현재 가장 주류를 이루는 확산 모델(Diffusion Models)은 원본 데이터에 점진적으로 노이즈를 추가하는 순방향 과정과, 노이즈를 제거하여 데이터를 복원하는 역방향 디노이징(Denoising) 과정을 반복하여 고품질의 이미지를 합성합니다 [3, 4]. 2026년의 모델들은 텍스트 인코더와 잠재 공간의 밀접한 정렬을 통해 단어의 미세한 뉘앙스까지 픽셀로 구현할 수 있게 되었습니다 [5].

* **프롬프트 기반 생성 구조 (Prompt-based Generation Structure)**
  효과적인 생성 파이프라인은 인공지능이 해석하기 쉬운 계층적 구조로 텍스트 기호를 구성해야 합니다. 일반적으로 '주체(Subject) -> 매체 및 스타일(Medium/Style) -> 환경(Environment) -> 조명(Lighting) -> 기술적 매개변수(Parameters)'의 순서로 프롬프트를 구성합니다 [5-7]. 단순한 단어의 나열보다는 구체적인 맥락과 묘사를 제공해야 하며, 처음에는 단순한 프롬프트로 시작하여 점진적으로 부정 프롬프트와 세부 묘사를 더해가는 반복적(Iterative) 접근이 필수적입니다 [7-10].

* **세부 제어 및 가중치 조정 (Fine-Grained Control & Weighting)**
  각 플랫폼은 사용자가 생성 과정을 통제할 수 있는 다양한 제어 방식을 제공합니다. 스테이블 디퓨전(Stable Diffusion)에서는 `(keyword:factor)`와 같은 문법이나 `+`, `-` 기호를 사용해 특정 단어가 이미지에 미치는 가중치를 세밀하게 조절합니다 [11-13]. 또한 명시적인 부정 프롬프트(Negative Prompt)를 통해 워터마크나 왜곡된 신체 등 생성 과정에서 발생하기 쉬운 오류를 초기부터 차단합니다 [13-15]. 미드저니(Midjourney)에서는 `--stylize`, `--chaos` 등의 기술적 매개변수를 활용해 AI의 예술적 개입 강도와 무작위성을 제어합니다 [16-19]. 

* **참조 기반 제어 및 일관성 유지 (Reference-based Control & Consistency)**
  일관성 있는 비주얼이나 캐릭터를 유지하는 것은 파이프라인의 중요한 과제입니다. 스테이블 디퓨전의 컨트롤넷(ControlNet)은 단순 텍스트를 넘어 이미지의 뼈대(Pose)나 윤곽선 정보를 강제로 주입하여 피사체의 배치를 픽셀 단위로 통제합니다 [13]. 미드저니 V6 및 V7 파이프라인에서는 스타일 참조(`--sref`), 캐릭터 참조(`--cref`), 옴니 참조(`--oref`) 파라미터를 활용해 특정 이미지의 질감, 색감, 형태적 정체성을 복제하여 연속적인 작업물에서 시각적 일관성을 확보합니다 [18-22].

* **사후 편집 및 반복적 정교화 워크플로우 (Post-Editing & Iterative Workflow)**
  생성된 첫 이미지는 완성본이 아니라 수정을 위한 베이스 이미지로 활용됩니다 [23]. 생성 후 미드저니의 Vary Region(인페인팅) 기능이나 스테이블 디퓨전의 인페인팅을 사용하면 기존 맥락을 유지한 채 특정 선택 영역만 재구성할 수 있습니다 [23-26]. 반대로 Zoom Out이나 Pan(아웃페인팅) 기능을 통해 캔버스 밖의 풍경을 논리적으로 확장합니다 [23, 24, 27]. 특히 최신 워크플로우에서는 드래프트 모드(`--draft`)를 통해 값싸고 빠르게 대량의 시안을 탐색한 뒤, 최적의 방향성을 선택하여 고화질로 승격(Upscale)시키는 단계적이고 효율적인 검토 파이프라인을 채택하고 있습니다 [28-30].

## 🔗 Knowledge Connections
- **Related Topics:** [[Diffusion Models|Diffusion Models]], [[프롬프트 구조 (Prompt Structure)|프롬프트 구조(Prompt Structure)]], [[부정 프롬프트(Negative Prompt)|부정 프롬프트(Negative Prompt)]], 매개변수 제어(Parameter Control), [[인페인팅 및 아웃페인팅 (Inpainting and Outpainting)|인페인팅 및 아웃페인팅(Inpainting and Outpainting)]]
- **Projects/Contexts:** 미드저니(Midjourney) V7 워크플로우, 스테이블 디퓨전(Stable Diffusion) 미세 조정, DALL-E 3 상호작용적 생성
- **Contradictions/Notes:** 이미지 내 텍스트 렌더링이나 복잡한 다중 객체 배치에 있어서는 DALL-E 3가 압도적인 성능을 보여주지만, 예술적 미학의 세밀한 통제나 하드웨어 수준의 제어 측면에서는 미드저니와 스테이블 디퓨전이 훨씬 뛰어납니다 [13, 19, 31, 32]. 또한 DALL-E 3는 "사용하지 말 것"과 같은 부정 지시어를 잘 이해하지 못하여 긍정형 문장으로 유도해야 하는 반면, 스테이블 디퓨전에서는 부정 프롬프트를 명시적으로 사용하는 것이 필수적이라는 차이가 존재합니다 [13, 32].

---
*Last updated: 2026-04-30*