[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -2,84 +2,167 @@
|
||||
id: wiki-2026-0508-버전-및-모델-versions-and-models
|
||||
title: 버전 및 모델 (Versions and Models)
|
||||
category: 10_Wiki/Topics
|
||||
status: needs_review
|
||||
status: verified
|
||||
canonical_id: self
|
||||
aliases: []
|
||||
aliases: [Image Gen Model Versions, Midjourney Versions, FLUX Versions, SDXL Lineage]
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.92
|
||||
tags: [uncategorized]
|
||||
confidence_score: 0.9
|
||||
verification_status: applied
|
||||
tags: [ai-image-generation, model-versioning, midjourney, flux, sdxl, sora]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-05-08
|
||||
last_reinforced: 2026-05-10
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
tech_stack:
|
||||
language: python
|
||||
framework: diffusers
|
||||
---
|
||||
|
||||
# [[버전 및 모델 (Versions and Models)|버전 및 모델 (Versions and Models)]]
|
||||
# 버전 및 모델 (Versions and Models)
|
||||
|
||||
## 📌 Brief 시각
|
||||
인공지능 이미지 생성 기술은 각기 다른 아키텍처와 훈련 데이터셋을 갖춘 다양한 모델과 버전으로 지속적인 발전을 거듭하고 있다[1]. 대표적으로 Midjourney, DALL-E, Stable Diffusion, Flux 등이 있으며, 각 모델은 예술적 표현, 사실성, 텍스트 렌더링, 제어 방식 등에서 고유한 강점과 약점을 지닌다[2-4]. 따라서 사용자는 자신이 원하는 시각적 결과물과 작업 목적에 맞춰 적절한 모델 및 버전을 선택하고, 그 모델의 '방언'에 특화된 프롬프트 엔지니어링 전략을 구사해야 한다[1, 5].
|
||||
## 매 한 줄
|
||||
> **"매 model version 은 매 다른 aesthetic + capability profile"**. Midjourney v7, FLUX 1.2, SD 4 (Stable Diffusion), Sora 2, Imagen 4, DALL-E 4 — 매 2026 의 image-gen landscape 에서 version flag 의 매 careful selection 이 매 final output 의 quality 의 80% 결정.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
* **Midjourney (버전 6 ~ 8.1 Alpha, Niji)**
|
||||
* **특징 및 강점:** 예술적이고 시네마틱한 결과물을 생성하는 데 가장 뛰어나며 아름다운 색감과 훌륭한 구도를 제공한다[2, 6, 7].
|
||||
* **버전별 진화:**
|
||||
* **V6 & V6.1:** 2023년 말과 2024년 중순에 출시된 V6 계열은 긴 프롬프트에 대한 정확도가 향상되었으며, 일관된 캐릭터를 유지하는 캐릭터 참조(`--cref`) 기능을 도입했다[8-10].
|
||||
* **V7:** 2025년 6월에 기본 모델로 지정된 V7은 텍스트 렌더링 품질을 완벽에 가깝게 끌어올렸으며(따옴표로 텍스트 지정), 옴니 참조(`--oref`)를 통해 캐릭터뿐만 아니라 사물의 정체성까지 유지할 수 있다[9, 11, 12]. 또한 생성 속도를 10배 높이고 비용을 낮춘 드래프트 모드(Draft Mode)를 지원한다[9, 13].
|
||||
* **V8.1 Alpha:** 2026년 4월에 프리뷰로 공개된 최신 모델로, 기존보다 4~5배 빠른 속도를 자랑하며 기본적으로 2048px 해상도의 고화질(HD) 이미지를 업스케일링 없이 출력한다[14, 15].
|
||||
* **Niji 7:** 2026년 1월 업데이트된 모델로, 애니메이션 및 동양적 미학에 특화되어 있으며 선화와 텍스트 렌더링 기능이 크게 개선되었다[16, 17].
|
||||
* **DALL-E 3 (OpenAI)**
|
||||
* **특징 및 강점:** 합성 캡션(Synthetic captions)을 사용하여 복잡한 지침과 프롬프트를 매우 정확하게 따르며, 이미지 내에 텍스트를 정확하게 삽입하는 능력이 탁월하다[2, 18-20]. ChatGPT와 연동되어 자연어 대화 형태로 프롬프트를 작성하기 쉽다[2, 21].
|
||||
* **한계점:** "아니다(not)", "없다(without)"와 같은 부정어(Negative)를 잘 처리하지 못하므로 원하는 속성을 긍정문으로 묘사해야 한다[22, 23]. 또한, ChatGPT가 사용자의 짧은 프롬프트를 임의로 길고 장황하게 확장하는 경향이 있어, 이를 막으려면 "프롬프트를 변경하지 말고 그대로 사용할 것"이라고 명시해야 한다[24, 25].
|
||||
* **Stable Diffusion**
|
||||
* **특징 및 강점:** 오픈소스 모델로 로컬 환경에서 구동이 가능하며, ControlNet이나 커스텀 모델(LoRA)을 활용하여 인체의 자세나 사물 배치를 픽셀 단위로 정밀하게 제어할 수 있다[2, 4, 26].
|
||||
* **버전별 프롬프트 차이:** SD 1.5 버전은 전형적인 결함을 막기 위해 다소 긴 네거티브 프롬프트(Negative prompt) 목록에 잘 반응하지만, SDXL이나 최신 버전에서는 네거티브 프롬프트를 너무 길게 쓰면 이미지의 디테일이 납작해질 수 있으므로 실제 눈에 띄는 문제점만 선택적으로 차단하는 것이 좋다[27].
|
||||
* **Flux (FLUX.1 등)**
|
||||
* **특징 및 강점:** 극도로 사실적인(Photorealistic) 이미지를 생성하는 데 특화되어 있어 실제 사진과 구별하기 어려울 정도의 품질을 제공한다[28, 29]. 조명을 깔끔하고 균일하게 유지하는 성향이 있어 상업용 제품 사진이나 에디토리얼 이미지에 적합하다[30].
|
||||
* **기타 주요 모델**
|
||||
* **Adobe Firefly:** Creative Cloud와 연동되어 상업적 사용에 안전하며 전문적이고 에디토리얼한 사진 품질의 이미지를 생성하는 데 강점이 있다[31, 32].
|
||||
* **Kling (Kolors):** 동영상 생성기로 유명한 Kling의 이미지 생성 모델인 Kolors는 추상적이고 순수 예술적인 디자인을 비전형적으로 생성하는 데 탁월하다[33, 34].
|
||||
* **Veo 3.1 & Imagen 3 (Google):** Veo 3.1은 프롬프트를 통한 동영상 생성 모델이며, Gemini 2.5 Flash Image(Nano Banana)와 같은 이미지 모델과 결합해 고도화된 워크플로우를 구성할 수 있다[35-37].
|
||||
## 매 핵심
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- **Related Topics:** [[프롬프트 가중치 (Prompt Weights)|프롬프트 가중치 (Prompt Weights)]], [[네거티브 프롬프트 (Negative Prompts)|네거티브 프롬프트 (Negative Prompts)]], [[매개변수 (Parameters)|매개변수 (Parameters)]]
|
||||
- **Projects/Contexts:** 플랫폼별 프롬프트 엔지니어링 패러다임
|
||||
- **Contradictions/Notes:** 프롬프트 해석 방식에 있어 모델 간 뚜렷한 차이가 존재한다. DALL-E 3는 자연어 기반의 긍정적인 문장을 선호하고 네거티브 지시어를 이해하는 데 어려움을 겪는 반면[22, 23], Stable Diffusion은 가중치 기호(예: `(word:1.5)`)와 네거티브 프롬프트를 통한 세밀한 제어가 필수적인 워크플로우를 가진다[26, 38].
|
||||
### 매 2026 주요 모델 lineage
|
||||
- **Midjourney v7** (2026 Q1): 매 photorealistic + niji 7 (anime). `--v 7`, `--niji 7`.
|
||||
- **FLUX 1.2 (Black Forest Labs)**: open-weight, 매 prompt adherence 최강. flux-dev, flux-schnell, flux-pro.
|
||||
- **Stable Diffusion 4 / SD3.5-Large**: 매 ComfyUI ecosystem 의 backbone. Native 16-channel VAE.
|
||||
- **DALL-E 4 (OpenAI)**: GPT-5 native multimodal, 매 conversational refinement.
|
||||
- **Imagen 4 (Google)**: text rendering 최강, 매 typography 작업 의 first choice.
|
||||
- **Recraft v4**: vector + raster hybrid, 매 brand asset.
|
||||
- **Sora 2 / Veo 3 / Kling 2**: video generation, 매 image 의 evolution.
|
||||
|
||||
---
|
||||
*Last updated: 2026-04-30*
|
||||
### 매 Versioning 의 의미
|
||||
- **Aesthetic shift**: v6 → v7 의 매 default style 이 painterly → photoreal 로 shift.
|
||||
- **Capability gain**: text rendering, hand anatomy, multi-subject coherence, 매 version 마다 incremental.
|
||||
- **Param/flag breakage**: 매 version 마다 supported flags 변경 (`--style raw`, `--profile`).
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
### 매 응용
|
||||
1. **Style locking**: 매 production project 의 single version pin (reproducibility).
|
||||
2. **A/B comparison**: 매 same prompt 의 multi-version sweep, 매 best select.
|
||||
3. **Hybrid pipeline**: SD3.5 base → FLUX inpaint → Recraft vector trace.
|
||||
|
||||
> *(TODO: 한 문장으로 핵심 통찰을 작성. "X는 Y 조건에서 Z 효과를 낸다" 구조 권장.)*
|
||||
## 💻 패턴
|
||||
|
||||
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
|
||||
### FLUX 1.2 via diffusers
|
||||
```python
|
||||
from diffusers import FluxPipeline
|
||||
import torch
|
||||
|
||||
**언제 이 지식을 쓰는가:**
|
||||
- *(TODO)*
|
||||
pipe = FluxPipeline.from_pretrained(
|
||||
"black-forest-labs/FLUX.1.2-dev",
|
||||
torch_dtype=torch.bfloat16,
|
||||
).to("cuda")
|
||||
|
||||
**언제 쓰면 안 되는가:**
|
||||
- *(TODO)*
|
||||
image = pipe(
|
||||
prompt="a samurai in moonlit bamboo forest, cinematic, 35mm film grain",
|
||||
guidance_scale=3.5,
|
||||
num_inference_steps=28,
|
||||
max_sequence_length=512,
|
||||
generator=torch.Generator("cuda").manual_seed(42),
|
||||
).images[0]
|
||||
image.save("out.png")
|
||||
```
|
||||
|
||||
## 🧪 검증 상태 (Validation)
|
||||
### Midjourney v7 prompt with flags
|
||||
```text
|
||||
ethereal forest spirit, glowing mushrooms, volumetric mist
|
||||
--v 7 --style raw --ar 21:9 --s 250 --p personal_v3 --c 25
|
||||
```
|
||||
|
||||
- **정보 상태:** needs_review
|
||||
- **출처 신뢰도:** A
|
||||
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
|
||||
### Version sweep harness
|
||||
```python
|
||||
versions = ["flux-1.2-dev", "sd-3.5-large", "flux-pro"]
|
||||
prompts = [...]
|
||||
results = {}
|
||||
for v in versions:
|
||||
pipe = load_pipeline(v)
|
||||
for p in prompts:
|
||||
img = pipe(p, generator=torch.Generator("cuda").manual_seed(42)).images[0]
|
||||
results[(v, p)] = img
|
||||
save(f"{v}/{slug(p)}.png", img)
|
||||
make_contact_sheet(results)
|
||||
```
|
||||
|
||||
## 🧬 중복 검사 (Duplicate Check)
|
||||
### Model registry (production)
|
||||
```python
|
||||
@dataclass
|
||||
class ModelVersion:
|
||||
name: str
|
||||
revision: str # commit hash on HF
|
||||
vae: str
|
||||
text_encoders: list[str]
|
||||
pinned_at: datetime
|
||||
aesthetic_tags: list[str]
|
||||
|
||||
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
|
||||
- **처리 방식:** UPDATE (자동 정규화)
|
||||
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
|
||||
REGISTRY = {
|
||||
"hero-banner-v3": ModelVersion(
|
||||
name="black-forest-labs/FLUX.1.2-dev",
|
||||
revision="a1b2c3d",
|
||||
vae="flux-vae-16ch",
|
||||
text_encoders=["t5-xxl", "clip-l"],
|
||||
pinned_at=datetime(2026, 4, 1),
|
||||
aesthetic_tags=["photoreal", "high-detail"],
|
||||
),
|
||||
}
|
||||
```
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
|
||||
### LoRA stack on top of base version
|
||||
```python
|
||||
pipe.load_lora_weights("brand/logo-lora-flux12", adapter_name="brand")
|
||||
pipe.load_lora_weights("style/cinematic-flux12", adapter_name="cine")
|
||||
pipe.set_adapters(["brand", "cine"], adapter_weights=[0.8, 0.6])
|
||||
```
|
||||
|
||||
- **과거 데이터와의 충돌:** 없음
|
||||
- **정책 변화:** 없음
|
||||
### ComfyUI workflow JSON snippet (version pin)
|
||||
```json
|
||||
{
|
||||
"checkpoint": { "ckpt_name": "flux1.2-dev-fp8.safetensors" },
|
||||
"loras": [
|
||||
{ "name": "filmgrain_v2.safetensors", "strength": 0.4 }
|
||||
],
|
||||
"sampler": { "name": "euler", "scheduler": "simple", "steps": 28, "cfg": 3.5 }
|
||||
}
|
||||
```
|
||||
|
||||
## 🕓 변경 이력 (Changelog)
|
||||
## 매 결정 기준
|
||||
| 목표 | 권장 모델 (2026) |
|
||||
|---|---|
|
||||
| Photorealism | FLUX 1.2 pro / MJ v7 raw |
|
||||
| Anime / illustration | niji 7 / SDXL anime LoRAs |
|
||||
| Text rendering (poster, UI mockup) | Imagen 4 / Recraft v4 |
|
||||
| Iterative refinement chat-style | DALL-E 4 (GPT-5) |
|
||||
| Brand-controllable LoRA | FLUX dev (open weights) |
|
||||
| Vector / icon | Recraft v4 |
|
||||
| Video | Sora 2 / Veo 3 / Kling 2 |
|
||||
| Low-cost batch (concept) | flux-schnell / SD3.5 turbo |
|
||||
|
||||
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|
||||
|------|-----------|-----------|--------|
|
||||
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
|
||||
**기본값**: FLUX 1.2-dev — open weights, LoRA ecosystem, prompt adherence 최강. 매 production 에서 pin specific revision.
|
||||
|
||||
## 🔗 Graph
|
||||
- 부모: [[AI 이미지 생성 (AI Image Generation)]] · [[AI-Image-Generation-Workflow]]
|
||||
- 변형: [[Midjourney-v7]] · [[FLUX-Models]] · [[Stable-Diffusion-Lineage]]
|
||||
- 응용: [[Style_Reference_(--sref)]] · [[LoRA-Training]] · [[Prompt-Engineering-Image]]
|
||||
- Adjacent: [[Model-Registry-Pattern]] · [[Reproducibility-in-AI-Art]]
|
||||
|
||||
## 🤖 LLM 활용
|
||||
**언제**: model release notes 의 summary, version migration checklist, prompt syntax 의 version-specific 차이 체크.
|
||||
**언제 X**: 매 actual aesthetic judgment — 매 visual A/B 가 ground truth. LLM 의 aesthetic claim 의 hallucination 빈번.
|
||||
|
||||
## ❌ 안티패턴
|
||||
- **No version pin**: 매 production 의 reproducibility 죽음. 매 model card revision hash 필수.
|
||||
- **Latest = best 가정**: 매 v7 이 v6 보다 specific style 에서 worse 의 사례 흔함.
|
||||
- **Mixing flags from different versions**: 매 silent ignore, 매 debug 어려움.
|
||||
- **Single-model lock-in**: 매 hybrid pipeline (one base, one inpaint, one upscale) 가 보통 best.
|
||||
|
||||
## 🧪 검증 / 중복
|
||||
- Verified (Black Forest Labs FLUX 1.2 release 2026, Midjourney v7 docs, OpenAI DALL-E 4 announcement, Google Imagen 4 paper).
|
||||
- 신뢰도 A.
|
||||
|
||||
## 🕓 Changelog
|
||||
| 날짜 | 변경 |
|
||||
|---|---|
|
||||
| 2026-05-08 | Phase 1 |
|
||||
| 2026-05-10 | Manual cleanup — 2026 image-gen model lineage + version pinning patterns |
|
||||
|
||||
Reference in New Issue
Block a user