Files
2nd/10_Wiki/Topics_Art/스테이블 디퓨전 (Stable Diffusion).md
T

5.2 KiB

스테이블 디퓨전 (Stable Diffusion)

📌 Brief Summary

스테이블 디퓨전(Stable Diffusion)은 Stability AI가 개발한 텍스트-이미지 생성 인공지능으로, 확산 모델(Diffusion Model) 기반의 오픈소스 아키텍처이다[1, 2]. 클라우드 환경뿐만 아니라 로컬 머신에서도 구동이 가능하며, 사용자가 직접 모델을 미세 조정(Fine-tuning)하고 고도로 커스터마이징할 수 있는 압도적인 유연성을 제공한다[3, 4]. 프롬프트 엔지니어링 측면에서는 프롬프트 가중치(Prompt Weighting), 부정 프롬프트(Negative Prompt), 컨트롤넷(ControlNet) 등을 활용하여 출력물의 형태와 스타일을 픽셀 단위로 정밀하게 제어할 수 있는 것이 가장 큰 특징이다[3, 5].

📖 Core Content

  • 모델 아키텍처와 작동 원리:

    • 스테이블 디퓨전은 데이터에 점진적으로 가우시안 노이즈를 추가하는 전방 확산(Forward Diffusion) 과정을 거친 후, 다시 노이즈를 제거해 나가며(Denoising) 원본 데이터를 재구성하는 역방향 확산(Reverse Diffusion) 과정을 통해 이미지를 생성한다[6, 7].
    • 오픈소스로 개방되어 있어 로컬 프라이버시를 유지하면서 구동할 수 있으며, 방대한 커뮤니티 지원과 도메인 특화 모델 훈련(예: LoRA 등)을 적용할 수 있다[3, 5, 8].
  • 프롬프트 작성 문법 (Syntax):

    • 완전한 문장 형태보다는 쉼표로 구분된 태그(키워드) 형식을 사용하는 것이 더 효과적이며, 이미지에 가장 중요한 요소일수록 프롬프트의 맨 앞에 배치해야 한다[9, 10].
    • 원하는 스타일과 디테일을 위해 'masterpiece', 'best quality', '8k', 'sharp focus' 와 같은 화질 및 품질 관련 키워드를 부착하는 것이 권장된다[9, 11].
  • 프롬프트 가중치 제어 (Prompt Weighting):

    • 사용자가 프롬프트 내 특정 단어의 중요도를 세밀하게 조정할 수 있는 강력한 무기이다[5].
    • 일반적으로 (keyword:factor) 문법을 사용하여 (detailed face:1.2)처럼 1.2배 가중치를 부여할 수 있다[10]. 괄호 ()를 사용하면 기본 1.1배 강조 효과가 있고, 대괄호 []를 사용하면 0.9배로 영향력을 감소시킨다[5]. 특정 UI에서는 단어 뒤에 +- 기호를 반복해서 붙여서 직관적으로 강도를 조절할 수도 있다[12, 13].
  • 부정 프롬프트 (Negative Prompt)의 고도화된 활용:

    • 긍정 프롬프트가 목적지를 설정한다면 부정 프롬프트는 피해야 할 경계를 설정하는 역할을 하며, 이미지에 등장하지 말아야 할 요소(예: blurry, extra fingers, text, watermark 등)를 명시적으로 차단한다[10, 14, 15].
    • 성공적인 생성을 위해서는 무의미하게 길고 포괄적인 부정 프롬프트를 복사하여 붙여넣기보다는, 초기 생성 후 발생하는 구체적인 시각적 결함을 파악하여 5~10개의 타겟팅된 단어만 가중치를 두어 적용할 때 이미지 충실도가 크게 향상된다[16-18].
  • 고급 파라미터 및 하드웨어적 제어:

    • CFG Scale(일반적으로 7-15 범위)과 샘플링 스텝(Sampling Steps)을 조정함으로써 모델이 사용자의 텍스트 지시를 얼마나 엄격하게 준수할지, 혹은 얼마나 다양성을 허용할지를 통제할 수 있다[10, 19].
    • 컨트롤넷(ControlNet)을 활용하면 단순한 텍스트 묘사를 넘어서, 원본 이미지의 뼈대(Pose)나 윤곽선(Canny Edge) 정보를 강제 주입하여 인체의 복잡한 자세나 사물의 구조적 배치를 픽셀 수준에서 완벽하게 제어할 수 있다[5].

🔗 Knowledge Connections


Last updated: 2026-04-30