Files
2nd/10_Wiki/Topics/AI_and_ML/스테이블 디퓨전의 가중치 및 제어 시스템.md
T
Antigravity Agent f8b21af4be Wiki cleanup: error-doc removal, dedup merge, link normalization
10_Wiki/Topics 대규모 정리:
- 오류 캡처/미완성 stub 문서 227개 제거
- 교차폴더 중복 43클러스터 병합 (63파일 → redirect)
- 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건
- 카테고리 MOC 6개 신규 생성
- Graph 섹션 미해결 related-keyword 링크 10,058건 제거

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-20 23:52:15 +09:00

7.1 KiB
Raw Blame History

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, verification_status, tags, raw_sources, last_reinforced, github_commit, tech_stack
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score verification_status tags raw_sources last_reinforced github_commit tech_stack
wiki-2026-0508-스테이블-디퓨전의-가중치-및-제어-시스템 스테이블 디퓨전의 가중치 및 제어 시스템 10_Wiki/Topics verified self
SD Weight Control
Stable Diffusion Weights
Prompt Weighting
ControlNet
none A 0.9 applied
stable-diffusion
weights
controlnet
image-generation
prompt-engineering
2026-05-10 pending
language framework
Python Diffusers/ComfyUI

스테이블 디퓨전의 가중치 및 제어 시스템

매 한 줄

"매 prompt weight + LoRA + ControlNet + IP-Adapter 의 의 4-layer 의 의 의 의 의 의 fine control 의 의.". Stable Diffusion 의 raw prompt-only 의 의 (2022) 의 의 modern (SD3.5, FLUX.1, SDXL Lightning) 의 의 multi-modal conditioning stack 의 의. 매 2026 의 의 ComfyUI graph + FLUX dev + LoRA stacking + IP-Adapter (face/style) + ControlNet (pose/depth/canny) 의 production pipeline.

매 핵심

매 control 의 layer

  • Prompt weight: (token:1.3) — attention multiplier on text token.
  • CFG scale: 1-15 — text conditioning strength (FLUX 의 의 distilled CFG).
  • LoRA: rank-decomposed weight delta — <lora:name:0.8> 의 의 strength.
  • ControlNet: structural conditioning (pose, depth, canny, scribble).
  • IP-Adapter: image prompt — face / style 의 의 image 의 의 의.
  • Regional prompting: spatial mask 의 의 prompt 의 의 의.

매 LoRA 의 의

  • Rank (r): 4-128 — capacity (의 의 의 detail, 의 의 overfit).
  • Alpha (α): scaling — effective_weight = alpha/rank × ΔW.
  • Stacking: multiple LoRA — weight 의 sum 의 의 의 의 saturation.
  • DoRA / LoHa: LoRA variants — better quality at low rank.

매 응용

  1. Character consistency — IP-Adapter face + LoRA.
  2. Style transfer — style LoRA + style reference IP-Adapter.
  3. Pose control — OpenPose ControlNet.
  4. Inpainting / outpainting — mask + ControlNet.

💻 패턴

Prompt weighting (compel / A1111 syntax)

# 매 increase weight
(beautiful:1.3) sunset, (highly detailed:1.5)

# 매 decrease weight
[blurry:0.7] background

# 매 nested
((cinematic lighting):1.2) photo of a [(crowd):0.8]

Diffusers + LoRA + ControlNet (2026)

from diffusers import FluxPipeline, FluxControlNetModel
from diffusers.utils import load_image
import torch

# 매 FLUX.1-dev + ControlNet
controlnet = FluxControlNetModel.from_pretrained(
    "InstantX/FLUX.1-dev-Controlnet-Union",
    torch_dtype=torch.bfloat16,
)
pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev",
    controlnet=controlnet,
    torch_dtype=torch.bfloat16,
).to("cuda")

# 매 LoRA stacking
pipe.load_lora_weights("./loras/anime_style.safetensors", adapter_name="style")
pipe.load_lora_weights("./loras/character.safetensors", adapter_name="char")
pipe.set_adapters(["style", "char"], adapter_weights=[0.7, 0.9])

control_image = load_image("./pose.png")
image = pipe(
    prompt="a knight in shining armor, cinematic lighting",
    control_image=control_image,
    controlnet_conditioning_scale=0.6,
    guidance_scale=3.5,
    num_inference_steps=28,
).images[0]

IP-Adapter for face consistency

from diffusers import StableDiffusionXLPipeline
from transformers import CLIPVisionModelWithProjection

pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
).to("cuda")

pipe.load_ip_adapter(
    "h94/IP-Adapter",
    subfolder="sdxl_models",
    weight_name="ip-adapter-plus-face_sdxl_vit-h.safetensors",
)
pipe.set_ip_adapter_scale(0.7)  # 매 face strength

face_image = load_image("./reference_face.jpg")
result = pipe(
    prompt="cyberpunk warrior in neon city",
    ip_adapter_image=face_image,
    num_inference_steps=30,
).images[0]

LoRA training (PEFT, rank-16)

from peft import LoraConfig
from diffusers import StableDiffusionXLPipeline

lora_config = LoraConfig(
    r=16,
    lora_alpha=16,
    target_modules=["to_q", "to_k", "to_v", "to_out.0"],
    init_lora_weights="gaussian",
)
pipe.unet.add_adapter(lora_config)
# 매 의 train — 매 1000-3000 step 의 의 sufficient for character LoRA

ComfyUI workflow (JSON)

{
  "nodes": [
    {"id": 1, "type": "CheckpointLoader", "model": "flux1-dev.safetensors"},
    {"id": 2, "type": "LoraLoader", "lora": "char.safetensors", "strength": 0.9, "input": 1},
    {"id": 3, "type": "ControlNetLoader", "model": "flux-controlnet-union.safetensors"},
    {"id": 4, "type": "OpenPosePreprocessor", "image": "pose.png"},
    {"id": 5, "type": "KSampler", "steps": 28, "cfg": 3.5, "sampler": "euler"}
  ]
}

Regional prompting (mask-based)

# 매 left half: portrait, right half: landscape
from diffusers_regional import RegionalPipeline

pipe = RegionalPipeline.from_pretrained("stabilityai/sdxl")
masks = [
    {"mask": left_mask,  "prompt": "portrait of a woman, oil painting"},
    {"mask": right_mask, "prompt": "mountain landscape, sunset"},
]
image = pipe(masks=masks, base_prompt="cinematic, detailed").images[0]

CFG scale tuning

# 매 FLUX dev: 의 distilled — guidance_scale 3-5 의 의
# 매 SDXL: 6-9 의 의
# 매 too high → oversaturated, baked-in
# 매 too low → ignores prompt
for cfg in [2.0, 3.5, 5.0, 7.5, 10.0]:
    img = pipe(prompt=p, guidance_scale=cfg).images[0]
    img.save(f"cfg_{cfg}.png")

매 결정 기준

상황 Approach
Character consistency IP-Adapter face + character LoRA
Pose / composition control ControlNet (OpenPose, Depth, Canny)
Style transfer Style LoRA OR IP-Adapter style
Fine detail emphasis Prompt weight (token:1.3)
Production pipeline ComfyUI graph (versionable, reproducible)
Quick iteration Diffusers Python API

기본값: FLUX.1-dev + ControlNet Union + LoRA (style+char) + IP-Adapter face — 의 ComfyUI workflow 의 의.

🔗 Graph

🤖 LLM 활용

언제: prompt scaffolding, ComfyUI node 의 의 explanation, LoRA training script generation. 언제 X: 의 visual quality judgement (의 human eval 의 의), 의 specific LoRA recommendation (의 CivitAI 의 의 평가 의).

안티패턴

  • Over-weighted token ((x:2.0)): 매 attention collapse — artifact 의.
  • Too many LoRA stacked: 매 weight saturation, 의 ugly mess (4+ 의 의).
  • High CFG on FLUX: distilled model 의 의 의 — 의 SDXL recipe 의 의.
  • ControlNet at 1.0: 의 strict — 의 0.4-0.7 의 의.
  • Negative prompt on FLUX dev: 의 의 의 — 의 distilled 의 의.

🧪 검증 / 중복

  • Verified (Diffusers docs, ComfyUI repo, Black Forest Labs FLUX paper, Stability AI release notes).
  • 신뢰도 A.

🕓 Changelog

날짜 변경
2026-05-08 Phase 1
2026-05-10 Manual cleanup — SD weight + control system 의 의