4.7 KiB
4.7 KiB
스테이블 디퓨전 (Stable Diffusion)
📌 Brief Summary
스테이블 디퓨전(Stable Diffusion)은 Stability AI가 개발한 텍스트-이미지 생성 인공지능으로, 확산 모델(Diffusion Model) 기반의 오픈소스 아키텍처이다[1, 2]. 클라우드 환경뿐만 아니라 로컬 머신에서도 구동이 가능하며, 사용자가 직접 모델을 미세 조정(Fine-tuning)하고 고도로 커스터마이징할 수 있는 압도적인 유연성을 제공한다[3, 4]. 프롬프트 엔지니어링 측면에서는 프롬프트 가중치(Prompt Weighting), 부정 프롬프트(Negative Prompt), 컨트롤넷(ControlNet) 등을 활용하여 출력물의 형태와 스타일을 픽셀 단위로 정밀하게 제어할 수 있는 것이 가장 큰 특징이다[3, 5].
📖 Core Content
-
모델 아키텍처와 작동 원리:
- 스테이블 디퓨전은 데이터에 점진적으로 가우시안 노이즈를 추가하는 전방 확산(Forward Diffusion) 과정을 거친 후, 다시 노이즈를 제거해 나가며(Denoising) 원본 데이터를 재구성하는 역방향 확산(Reverse Diffusion) 과정을 통해 이미지를 생성한다[6, 7].
- 오픈소스로 개방되어 있어 로컬 프라이버시를 유지하면서 구동할 수 있으며, 방대한 커뮤니티 지원과 도메인 특화 모델 훈련(예: LoRA 등)을 적용할 수 있다[3, 5, 8].
-
프롬프트 작성 문법 (Syntax):
- 완전한 문장 형태보다는 쉼표로 구분된 태그(키워드) 형식을 사용하는 것이 더 효과적이며, 이미지에 가장 중요한 요소일수록 프롬프트의 맨 앞에 배치해야 한다[9, 10].
- 원하는 스타일과 디테일을 위해 'masterpiece', 'best quality', '8k', 'sharp focus' 와 같은 화질 및 품질 관련 키워드를 부착하는 것이 권장된다[9, 11].
-
프롬프트 가중치 제어 (Prompt Weighting):
- 사용자가 프롬프트 내 특정 단어의 중요도를 세밀하게 조정할 수 있는 강력한 무기이다[5].
- 일반적으로
(keyword:factor)문법을 사용하여(detailed face:1.2)처럼 1.2배 가중치를 부여할 수 있다[10]. 괄호()를 사용하면 기본 1.1배 강조 효과가 있고, 대괄호[]를 사용하면 0.9배로 영향력을 감소시킨다[5]. 특정 UI에서는 단어 뒤에+나-기호를 반복해서 붙여서 직관적으로 강도를 조절할 수도 있다[12, 13].
-
부정 프롬프트 (Negative Prompt)의 고도화된 활용:
- 긍정 프롬프트가 목적지를 설정한다면 부정 프롬프트는 피해야 할 경계를 설정하는 역할을 하며, 이미지에 등장하지 말아야 할 요소(예: blurry, extra fingers, text, watermark 등)를 명시적으로 차단한다[10, 14, 15].
- 성공적인 생성을 위해서는 무의미하게 길고 포괄적인 부정 프롬프트를 복사하여 붙여넣기보다는, 초기 생성 후 발생하는 구체적인 시각적 결함을 파악하여 5~10개의 타겟팅된 단어만 가중치를 두어 적용할 때 이미지 충실도가 크게 향상된다[16-18].
-
고급 파라미터 및 하드웨어적 제어:
- CFG Scale(일반적으로 7-15 범위)과 샘플링 스텝(Sampling Steps)을 조정함으로써 모델이 사용자의 텍스트 지시를 얼마나 엄격하게 준수할지, 혹은 얼마나 다양성을 허용할지를 통제할 수 있다[10, 19].
- 컨트롤넷(ControlNet)을 활용하면 단순한 텍스트 묘사를 넘어서, 원본 이미지의 뼈대(Pose)나 윤곽선(Canny Edge) 정보를 강제 주입하여 인체의 복잡한 자세나 사물의 구조적 배치를 픽셀 수준에서 완벽하게 제어할 수 있다[5].
🔗 Knowledge Connections
- Related Topics: 프롬프트 가중치 (Prompt Weighting), 부정 프롬프트 (Negative Prompt), 컨트롤넷 (ControlNet), CFG 스케일 (CFG Scale), 확산 모델 (Diffusion Model)
- Projects/Contexts: 오픈소스 기반 맞춤형 AI 이미지 생성 및 하드웨어 수준의 정밀 통제 워크플로우
- Contradictions/Notes: 부정 프롬프트를 사용할 때 모델 버전에 따라 반응하는 방식에 차이가 있다. SD 1.5 모델은 고질적인 아티팩트가 잦아 다소 긴 형태의 부정 프롬프트 리스트에도 유용하게 반응하지만, SDXL이나 Flux 같은 최신 모델의 경우 불필요하게 방대한 부정 프롬프트를 주입하면 오히려 디테일이 평면화되거나 구성이 뻣뻣해지는 부작용이 발생하므로 정확한 문제에 맞춘 짧은 리스트를 사용하는 것이 권장된다[18, 20].
Last updated: 2026-04-30