feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]
This commit is contained in:
@@ -1,9 +1,26 @@
|
||||
---
|
||||
id: wiki-2026-0508-이미지-생성-및-제어-파이프라인
|
||||
title: 이미지 생성 및 제어 파이프라인
|
||||
category: 10_Wiki/Topics
|
||||
status: needs_review
|
||||
canonical_id: self
|
||||
aliases: []
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.92
|
||||
tags: [uncategorized]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-05-08
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
---
|
||||
|
||||
# [[이미지 생성 및 제어 파이프라인|이미지 생성 및 제어 파이프라인]]
|
||||
|
||||
## 📌 Brief Summary
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
이미지 생성 및 제어 파이프라인은 텍스트 프롬프트나 참조 이미지를 입력받아 생성형 AI 모델을 통해 시각적 결과물로 변환하고, 이를 반복적으로 정교화하는 일련의 체계적인 작업 흐름을 의미합니다. 이 파이프라인은 확산 모델(Diffusion Models) 등 핵심 신경망 아키텍처를 기반으로 하며, 주체와 스타일을 정의하는 초기 프롬프트 작성부터 시작됩니다. 이후 매개변수 제어, 부정 프롬프트(Negative Prompt) 적용, 가중치 조절을 거쳐 인페인팅(Inpainting)과 같은 사후 편집 기술을 통해 사용자의 미학적 의도를 픽셀 단위로 통제하고 완성도를 높이는 데 그 목적이 있습니다.
|
||||
|
||||
## 📖 Core Content
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
* **기반 모델의 메커니즘 (Foundational Model Mechanisms)**
|
||||
이미지 생성 파이프라인은 주로 세 가지 모델 아키텍처에 의해 구동됩니다. GANs(생성적 적대 신경망)는 생성자와 판별자의 경쟁을 통해 이미지를 생성하고, VAEs(변분 오토인코더)는 데이터를 잠재 공간(Latent Space)으로 인코딩한 뒤 디코딩하여 재구성합니다 [1, 2]. 현재 가장 주류를 이루는 확산 모델(Diffusion Models)은 원본 데이터에 점진적으로 노이즈를 추가하는 순방향 과정과, 노이즈를 제거하여 데이터를 복원하는 역방향 디노이징(Denoising) 과정을 반복하여 고품질의 이미지를 합성합니다 [3, 4]. 2026년의 모델들은 텍스트 인코더와 잠재 공간의 밀접한 정렬을 통해 단어의 미세한 뉘앙스까지 픽셀로 구현할 수 있게 되었습니다 [5].
|
||||
|
||||
@@ -19,10 +36,41 @@
|
||||
* **사후 편집 및 반복적 정교화 워크플로우 (Post-Editing & Iterative Workflow)**
|
||||
생성된 첫 이미지는 완성본이 아니라 수정을 위한 베이스 이미지로 활용됩니다 [23]. 생성 후 미드저니의 Vary Region(인페인팅) 기능이나 스테이블 디퓨전의 인페인팅을 사용하면 기존 맥락을 유지한 채 특정 선택 영역만 재구성할 수 있습니다 [23-26]. 반대로 Zoom Out이나 Pan(아웃페인팅) 기능을 통해 캔버스 밖의 풍경을 논리적으로 확장합니다 [23, 24, 27]. 특히 최신 워크플로우에서는 드래프트 모드(`--draft`)를 통해 값싸고 빠르게 대량의 시안을 탐색한 뒤, 최적의 방향성을 선택하여 고화질로 승격(Upscale)시키는 단계적이고 효율적인 검토 파이프라인을 채택하고 있습니다 [28-30].
|
||||
|
||||
## 🔗 Knowledge Connections
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- **Related Topics:** [[Diffusion Models|Diffusion Models]], [[프롬프트 구조 (Prompt Structure)|프롬프트 구조(Prompt Structure)]], [[부정 프롬프트(Negative Prompt)|부정 프롬프트(Negative Prompt)]], 매개변수 제어(Parameter Control), [[인페인팅 및 아웃페인팅 (Inpainting and Outpainting)|인페인팅 및 아웃페인팅(Inpainting and Outpainting)]]
|
||||
- **Projects/Contexts:** 미드저니(Midjourney) V7 워크플로우, 스테이블 디퓨전(Stable Diffusion) 미세 조정, DALL-E 3 상호작용적 생성
|
||||
- **Contradictions/Notes:** 이미지 내 텍스트 렌더링이나 복잡한 다중 객체 배치에 있어서는 DALL-E 3가 압도적인 성능을 보여주지만, 예술적 미학의 세밀한 통제나 하드웨어 수준의 제어 측면에서는 미드저니와 스테이블 디퓨전이 훨씬 뛰어납니다 [13, 19, 31, 32]. 또한 DALL-E 3는 "사용하지 말 것"과 같은 부정 지시어를 잘 이해하지 못하여 긍정형 문장으로 유도해야 하는 반면, 스테이블 디퓨전에서는 부정 프롬프트를 명시적으로 사용하는 것이 필수적이라는 차이가 존재합니다 [13, 32].
|
||||
|
||||
---
|
||||
*Last updated: 2026-04-30*
|
||||
*Last updated: 2026-04-30*
|
||||
|
||||
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
|
||||
|
||||
**언제 이 지식을 쓰는가:**
|
||||
- *(TODO)*
|
||||
|
||||
**언제 쓰면 안 되는가:**
|
||||
- *(TODO)*
|
||||
|
||||
## 🧪 검증 상태 (Validation)
|
||||
|
||||
- **정보 상태:** needs_review
|
||||
- **출처 신뢰도:** A
|
||||
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
|
||||
|
||||
## 🧬 중복 검사 (Duplicate Check)
|
||||
|
||||
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
|
||||
- **처리 방식:** UPDATE (자동 정규화)
|
||||
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
|
||||
|
||||
- **과거 데이터와의 충돌:** 없음
|
||||
- **정책 변화:** 없음
|
||||
|
||||
## 🕓 변경 이력 (Changelog)
|
||||
|
||||
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|
||||
|------|-----------|-----------|--------|
|
||||
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
|
||||
Reference in New Issue
Block a user