Files
2nd/10_Wiki/Topics/AI_and_ML/버전 및 모델 (Versions and Models).md
T

5.4 KiB

버전 및 모델 (Versions and Models)

📌 Brief 시각

인공지능 이미지 생성 기술은 각기 다른 아키텍처와 훈련 데이터셋을 갖춘 다양한 모델과 버전으로 지속적인 발전을 거듭하고 있다[1]. 대표적으로 Midjourney, DALL-E, Stable Diffusion, Flux 등이 있으며, 각 모델은 예술적 표현, 사실성, 텍스트 렌더링, 제어 방식 등에서 고유한 강점과 약점을 지닌다[2-4]. 따라서 사용자는 자신이 원하는 시각적 결과물과 작업 목적에 맞춰 적절한 모델 및 버전을 선택하고, 그 모델의 '방언'에 특화된 프롬프트 엔지니어링 전략을 구사해야 한다[1, 5].

📖 Core Content

  • Midjourney (버전 6 ~ 8.1 Alpha, Niji)
    • 특징 및 강점: 예술적이고 시네마틱한 결과물을 생성하는 데 가장 뛰어나며 아름다운 색감과 훌륭한 구도를 제공한다[2, 6, 7].
    • 버전별 진화:
      • V6 & V6.1: 2023년 말과 2024년 중순에 출시된 V6 계열은 긴 프롬프트에 대한 정확도가 향상되었으며, 일관된 캐릭터를 유지하는 캐릭터 참조(--cref) 기능을 도입했다[8-10].
      • V7: 2025년 6월에 기본 모델로 지정된 V7은 텍스트 렌더링 품질을 완벽에 가깝게 끌어올렸으며(따옴표로 텍스트 지정), 옴니 참조(--oref)를 통해 캐릭터뿐만 아니라 사물의 정체성까지 유지할 수 있다[9, 11, 12]. 또한 생성 속도를 10배 높이고 비용을 낮춘 드래프트 모드(Draft Mode)를 지원한다[9, 13].
      • V8.1 Alpha: 2026년 4월에 프리뷰로 공개된 최신 모델로, 기존보다 4~5배 빠른 속도를 자랑하며 기본적으로 2048px 해상도의 고화질(HD) 이미지를 업스케일링 없이 출력한다[14, 15].
      • Niji 7: 2026년 1월 업데이트된 모델로, 애니메이션 및 동양적 미학에 특화되어 있으며 선화와 텍스트 렌더링 기능이 크게 개선되었다[16, 17].
  • DALL-E 3 (OpenAI)
    • 특징 및 강점: 합성 캡션(Synthetic captions)을 사용하여 복잡한 지침과 프롬프트를 매우 정확하게 따르며, 이미지 내에 텍스트를 정확하게 삽입하는 능력이 탁월하다[2, 18-20]. ChatGPT와 연동되어 자연어 대화 형태로 프롬프트를 작성하기 쉽다[2, 21].
    • 한계점: "아니다(not)", "없다(without)"와 같은 부정어(Negative)를 잘 처리하지 못하므로 원하는 속성을 긍정문으로 묘사해야 한다[22, 23]. 또한, ChatGPT가 사용자의 짧은 프롬프트를 임의로 길고 장황하게 확장하는 경향이 있어, 이를 막으려면 "프롬프트를 변경하지 말고 그대로 사용할 것"이라고 명시해야 한다[24, 25].
  • Stable Diffusion
    • 특징 및 강점: 오픈소스 모델로 로컬 환경에서 구동이 가능하며, ControlNet이나 커스텀 모델(LoRA)을 활용하여 인체의 자세나 사물 배치를 픽셀 단위로 정밀하게 제어할 수 있다[2, 4, 26].
    • 버전별 프롬프트 차이: SD 1.5 버전은 전형적인 결함을 막기 위해 다소 긴 네거티브 프롬프트(Negative prompt) 목록에 잘 반응하지만, SDXL이나 최신 버전에서는 네거티브 프롬프트를 너무 길게 쓰면 이미지의 디테일이 납작해질 수 있으므로 실제 눈에 띄는 문제점만 선택적으로 차단하는 것이 좋다[27].
  • Flux (FLUX.1 등)
    • 특징 및 강점: 극도로 사실적인(Photorealistic) 이미지를 생성하는 데 특화되어 있어 실제 사진과 구별하기 어려울 정도의 품질을 제공한다[28, 29]. 조명을 깔끔하고 균일하게 유지하는 성향이 있어 상업용 제품 사진이나 에디토리얼 이미지에 적합하다[30].
  • 기타 주요 모델
    • Adobe Firefly: Creative Cloud와 연동되어 상업적 사용에 안전하며 전문적이고 에디토리얼한 사진 품질의 이미지를 생성하는 데 강점이 있다[31, 32].
    • Kling (Kolors): 동영상 생성기로 유명한 Kling의 이미지 생성 모델인 Kolors는 추상적이고 순수 예술적인 디자인을 비전형적으로 생성하는 데 탁월하다[33, 34].
    • Veo 3.1 & Imagen 3 (Google): Veo 3.1은 프롬프트를 통한 동영상 생성 모델이며, Gemini 2.5 Flash Image(Nano Banana)와 같은 이미지 모델과 결합해 고도화된 워크플로우를 구성할 수 있다[35-37].

🔗 Knowledge Connections


Last updated: 2026-04-30