Wikify: Auto-consolidate redundant/similar knowledge base files

This commit is contained in:
Antigravity Agent
2026-05-02 23:59:27 +09:00
parent 9981d83a4d
commit 303b01b228
1369 changed files with 33533 additions and 33429 deletions
@@ -0,0 +1,62 @@
---
category: Unified
tags: [auto-consolidated, technical-documentation]
title: [[AI Image Generation Workflow|AI Image Generation Workflow]]
last_updated: 2026-05-02
---
# [[AI Image Generation Workflow|AI Image Generation Workflow]]
## 📌 Brief Summary
AI 이미지 생성 워크플로우는 사용자의 텍스트 기반 프롬프트를 해석하여 시각적 기호 및 데이터로 변환하는 일련의 과정이다 [1, 2]. 초기 아이디어를 구체적인 주체, 매체, 스타일, 조명 등의 층위로 구조화하여 프롬프트를 작성하는 것에서 출발한다 [2, 3]. 이후 모델별 특성에 맞춰 초기 이미지를 생성하고, 네거티브 프롬프트, 인페인팅(Inpainting), 아웃페인팅(Outpainting) 등을 통해 결과물을 반복적으로 정교화하여 최종 이미지를 완성한다 [4-6].
---
AI 이미지 생성 워크플로우는 창작자가 텍스트 프롬프트를 입력하여 초기 이미지를 생성한 후, 반복적인 수정과 세부 조정을 통해 최종 결과물을 완성하는 일련의 과정이다 [1-3]. 이 과정은 명확한 피사체(Subject), 스타일, 조명 등의 뼈대를 잡는 단순한 프롬프트로 시작하여, 결과물을 평가한 뒤 점진적으로 부정 프롬프트(Negative Prompt)와 세부 매개변수를 추가하며 발전시킨다 [4-6]. 최근에는 단일 이미지 생성을 넘어 시안(Draft)을 빠르게 대량 생산하고 최적의 구도를 선택하거나, 일관된 스타일 참조 기능을 활용하는 등 전문가 수준의 파이프라인으로 진화하고 있다 [7, 8].
## 📖 Core Content
* **프롬프트 구조화 (Prompt Structuring)**
성공적인 이미지 생성을 위해서는 단순한 단어의 나열이 아닌, 주체(Subject), 매체(Medium), 환경(Environment), 조명(Lighting), 스타일(Style) 및 기술적 매개변수로 이루어진 명확한 계층적 구조가 필요하다 [2, 3, 7, 8]. 피사체에 대한 구체적인 묘사와 함께 렌즈(예: 85mm), 조명(예: 골든 아워, 림 라이팅) 등의 촬영 및 예술적 전문 용어를 사용하면 AI 모델의 제어력을 극대화할 수 있다 [9-11].
* **플랫폼 특화 워크플로우 (Platform-specific Workflows)**
* *미드저니(Midjourney):* 2026년 기준 V7 모델에서는 '드래프트 모드(--draft)'를 활용해 저비용으로 빠르게 다수의 시안을 대량 생성한 뒤, 최적의 구도를 선택하여 고화질(HD)로 업스케일링하는 작업 방식이 효율적이다 [6, 12, 13]. 또한, 일관된 스타일과 서사를 위해 스타일 참조(--sref) 및 옴니 참조(--oref) 매개변수를 적극 활용한다 [14-16].
* *DALL-E 3:* 텍스트 지시의 정확한 이행에 강점이 있으며, 사용자가 짧은 프롬프트를 입력해도 ChatGPT가 내부적으로 상세한 합성 캡션(Synthetic Captions)으로 확장하여 이미지를 정교하게 생성한다 [17-20].
* *스테이블 디퓨전(Stable Diffusion):* 프롬프트 가중치 조절(예: `(keyword:1.5)`) 기능을 통해 특정 단어의 중요도를 세밀하게 조정하며, 컨트롤넷(ControlNet) 등을 통해 하드웨어 수준의 정밀한 통제력을 발휘하는 것이 특징이다 [21-23].
* **반복적 정교화 및 후처리 (Iterative Refinement)**
이미지 생성 워크플로우는 첫 번째 생성에서 끝나지 않고 모델과의 반복적인 협업 과정으로 이어진다 [4, 5, 24].
* **네거티브 프롬프트 (Negative Prompts):** 원치 않는 요소나 시각적 결함(예: 일그러진 손가락, 워터마크)이 발생하면 이를 네거티브 프롬프트에 명시적으로 추가하여 제거한다 [23, 25-27].
* **부분 수정 및 시야 확장:** 미드저니의 'Vary (Region)'과 같은 인페인팅 기능을 사용해 이미지의 전체적인 맥락을 유지한 채 특정 영역(예: 인물의 모자)만 수정하거나, 'Zoom Out(아웃페인팅)'을 통해 캔버스 밖의 배경을 자연스럽게 확장한다 [5, 28-30].
---
* **반복적 프롬프트 정교화 (Iterative Prompting):**
AI 이미지 생성은 단 한 번의 완벽한 프롬프트로 끝나는 것이 아니라, 넓고 모호한 지시에서 시작해 구체적이고 좁은 지시로 나아가는 고도의 반복적 과정이다 [1-3]. 단순하고 명확한 아이디어로 시작해 생성된 이미지를 바탕으로 예술적 요소, 조명, 환경 등의 세부 사항을 덧붙이는 방식이 권장된다 [4, 9]. 일반적으로 첫 프롬프트로 80%의 틀을 완성하고, 3~5번의 변형과 후속 프롬프트를 통해 세부 사항을 다듬어 나간다 [10].
* **모델별 맞춤형 워크플로우 전략:**
* **Midjourney:** V7 모델의 '드래프트 모드(Draft Mode)'를 활용해 저렴하고 빠른 속도로 여러 시안을 생성한 뒤, 가장 나은 구도를 고화질(HD)로 승격시키는 파이프라인이 비용과 시간 측면에서 효과적이다 [7, 11]. 이후 `--sref`(스타일 참조)나 `--oref`(옴니 참조) 파라미터를 사용하여 일관된 시각적 방향성을 재사용하며 편집을 진행한다 [8, 12, 13].
* **DALL-E 3:** 사용자의 짧은 프롬프트를 ChatGPT의 언어 모델이 자동으로 상세하게 확장(Augment)해 주는 특징이 있다 [14-16]. 텍스트 렌더링 능력이 뛰어나 로고나 포스터 제작에 적합하지만, 사용자의 의도를 그대로 반영하려면 "프롬프트를 변경하지 말고 그대로 사용할 것"이라는 명시적인 지시가 필요할 수 있다 [16-18].
* **Stable Diffusion:** 프롬프트 가중치(Prompt Weights)와 부정 프롬프트(Negative Prompt)를 핵심 통제 수단으로 사용한다 [19-21]. 결과물의 결함을 진단한 뒤, 5-10개의 구체적인 단어를 부정 프롬프트에 명시하여 원치 않는 요소를 제거해 나가는 방식이 필수적이다 [6, 22-24].
* **사후 편집 및 이미지 확장:**
원하는 결과물의 분위기에 근접했을 경우, 프롬프트 전체를 갈아엎기보다는 사후 편집 도구를 사용하는 것이 효율적이다 [1, 25]. 인페인팅(Inpainting, 미드저니의 Vary Region 등) 기능을 사용하면 원본 이미지의 맥락을 유지한 채 특정 부분(예: 인물의 모자 등)만 선택해 수정하거나 새로운 요소를 추가할 수 있다 [26-30]. 또한 아웃페인팅(Zoom Out, Pan)을 통해 원본 이미지의 바깥쪽 공간을 확장하여 캔버스를 넓히고 구도를 재설정할 수 있다 [30-32].
* **프롬프트의 계층적 구성 요소:**
성공적인 워크플로우를 위한 프롬프트는 논리적인 계층 구조를 가진다. 일반적으로 주체(Subject), 맥락/환경(Context/Environment), 스타일/매체(Style/Medium), 기술적 세부사항(Technical Details: 구도 및 조명)의 순서나 결합으로 구성하여 AI가 우선순위를 쉽게 파악할 수 있도록 돕는다 [5, 33, 34].
## ⚖️ Trade-offs & Caveats
No trade-offs available.
## 🔗 Knowledge Connections
- **Related Topics:** [[Prompt Engineering|Prompt Engineering]], [[Negative Prompts|Negative Prompts]], [[Image Parameters|Image Parameters]], [[Inpainting & Outpainting|Inpainting & Outpainting]]
- **Projects/Contexts:** [[Midjourney V7 Draft Mode|Midjourney V7 Draft Mode]], [[DALL-E 3 Synthetic Captioning|DALL-E 3 Synthetic Captioning]]
- **Contradictions/Notes:** DALL-E 3는 "no", "without"과 같은 부정형 지시어를 잘 이해하지 못해 오히려 해당 객체를 생성할 위험이 있으므로 모든 지시를 긍정형 문장으로 우회해야 하는 반면 [20, 31], 스테이블 디퓨전은 구조화된 네거티브 프롬프트 섹션을 통해 워터마크나 신체 왜곡 등의 결함을 적극적으로 차단해야 한다는 점에서 플랫폼별 대응 방식에 뚜렷한 차이가 존재한다 [23, 26, 32].
---
*Last updated: 2026-04-30*
---
- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)|프롬프트 엔지니어링 (Prompt Engineering)]], [[부정 프롬프트 (Negative Prompt)|부정 프롬프트 (Negative Prompt)]], [[인페인팅 및 아웃페인팅 (Inpainting and Outpainting)|인페인팅 및 아웃페인팅 (Inpainting and Outpainting)]], [[프롬프트 가중치 (Prompt Weights)|프롬프트 가중치 (Prompt Weights)]]
- **Projects/Contexts:** 미드저니 V7 드래프트 모드 (Midjourney V7 Draft Mode), DALL-E 3와 ChatGPT 통합 워크플로우
- **Contradictions/Notes:** 부정 프롬프트 사용과 관련하여, Stable Diffusion에서는 원치 않는 요소를 배제하고 이미지 품질을 높이기 위한 필수적이고 강력한 도구로 활용되지만 [21, 24, 35], DALL-E 3 모델은 "No", "Without"과 같은 부정 지시어를 잘 처리하지 못하고 오히려 해당 요소를 생성해버리는 경향이 있어 긍정형 문장 위주로 프롬프트를 구성해야 한다는 기술적 차이점이 있다 [16, 36, 37].
---
*Last updated: 2026-04-30*