Files
2nd/10_Wiki/Topics/AI_and_ML/버전 및 모델 (Versions and Models).md
T

6.9 KiB

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, tags, raw_sources, last_reinforced, github_commit, inferred_by
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score tags raw_sources last_reinforced github_commit inferred_by
wiki-2026-0508-버전-및-모델-versions-and-models 버전 및 모델 (Versions and Models) 10_Wiki/Topics needs_review self
none A 0.92
uncategorized
2026-05-08 pending Claude Opus 4.7 (auto-normalize 2026-05-08)

버전 및 모델 (Versions and Models)

📌 Brief 시각

인공지능 이미지 생성 기술은 각기 다른 아키텍처와 훈련 데이터셋을 갖춘 다양한 모델과 버전으로 지속적인 발전을 거듭하고 있다[1]. 대표적으로 Midjourney, DALL-E, Stable Diffusion, Flux 등이 있으며, 각 모델은 예술적 표현, 사실성, 텍스트 렌더링, 제어 방식 등에서 고유한 강점과 약점을 지닌다[2-4]. 따라서 사용자는 자신이 원하는 시각적 결과물과 작업 목적에 맞춰 적절한 모델 및 버전을 선택하고, 그 모델의 '방언'에 특화된 프롬프트 엔지니어링 전략을 구사해야 한다[1, 5].

📖 구조화된 지식 (Synthesized Content)

  • Midjourney (버전 6 ~ 8.1 Alpha, Niji)
    • 특징 및 강점: 예술적이고 시네마틱한 결과물을 생성하는 데 가장 뛰어나며 아름다운 색감과 훌륭한 구도를 제공한다[2, 6, 7].
    • 버전별 진화:
      • V6 & V6.1: 2023년 말과 2024년 중순에 출시된 V6 계열은 긴 프롬프트에 대한 정확도가 향상되었으며, 일관된 캐릭터를 유지하는 캐릭터 참조(--cref) 기능을 도입했다[8-10].
      • V7: 2025년 6월에 기본 모델로 지정된 V7은 텍스트 렌더링 품질을 완벽에 가깝게 끌어올렸으며(따옴표로 텍스트 지정), 옴니 참조(--oref)를 통해 캐릭터뿐만 아니라 사물의 정체성까지 유지할 수 있다[9, 11, 12]. 또한 생성 속도를 10배 높이고 비용을 낮춘 드래프트 모드(Draft Mode)를 지원한다[9, 13].
      • V8.1 Alpha: 2026년 4월에 프리뷰로 공개된 최신 모델로, 기존보다 4~5배 빠른 속도를 자랑하며 기본적으로 2048px 해상도의 고화질(HD) 이미지를 업스케일링 없이 출력한다[14, 15].
      • Niji 7: 2026년 1월 업데이트된 모델로, 애니메이션 및 동양적 미학에 특화되어 있으며 선화와 텍스트 렌더링 기능이 크게 개선되었다[16, 17].
  • DALL-E 3 (OpenAI)
    • 특징 및 강점: 합성 캡션(Synthetic captions)을 사용하여 복잡한 지침과 프롬프트를 매우 정확하게 따르며, 이미지 내에 텍스트를 정확하게 삽입하는 능력이 탁월하다[2, 18-20]. ChatGPT와 연동되어 자연어 대화 형태로 프롬프트를 작성하기 쉽다[2, 21].
    • 한계점: "아니다(not)", "없다(without)"와 같은 부정어(Negative)를 잘 처리하지 못하므로 원하는 속성을 긍정문으로 묘사해야 한다[22, 23]. 또한, ChatGPT가 사용자의 짧은 프롬프트를 임의로 길고 장황하게 확장하는 경향이 있어, 이를 막으려면 "프롬프트를 변경하지 말고 그대로 사용할 것"이라고 명시해야 한다[24, 25].
  • Stable Diffusion
    • 특징 및 강점: 오픈소스 모델로 로컬 환경에서 구동이 가능하며, ControlNet이나 커스텀 모델(LoRA)을 활용하여 인체의 자세나 사물 배치를 픽셀 단위로 정밀하게 제어할 수 있다[2, 4, 26].
    • 버전별 프롬프트 차이: SD 1.5 버전은 전형적인 결함을 막기 위해 다소 긴 네거티브 프롬프트(Negative prompt) 목록에 잘 반응하지만, SDXL이나 최신 버전에서는 네거티브 프롬프트를 너무 길게 쓰면 이미지의 디테일이 납작해질 수 있으므로 실제 눈에 띄는 문제점만 선택적으로 차단하는 것이 좋다[27].
  • Flux (FLUX.1 등)
    • 특징 및 강점: 극도로 사실적인(Photorealistic) 이미지를 생성하는 데 특화되어 있어 실제 사진과 구별하기 어려울 정도의 품질을 제공한다[28, 29]. 조명을 깔끔하고 균일하게 유지하는 성향이 있어 상업용 제품 사진이나 에디토리얼 이미지에 적합하다[30].
  • 기타 주요 모델
    • Adobe Firefly: Creative Cloud와 연동되어 상업적 사용에 안전하며 전문적이고 에디토리얼한 사진 품질의 이미지를 생성하는 데 강점이 있다[31, 32].
    • Kling (Kolors): 동영상 생성기로 유명한 Kling의 이미지 생성 모델인 Kolors는 추상적이고 순수 예술적인 디자인을 비전형적으로 생성하는 데 탁월하다[33, 34].
    • Veo 3.1 & Imagen 3 (Google): Veo 3.1은 프롬프트를 통한 동영상 생성 모델이며, Gemini 2.5 Flash Image(Nano Banana)와 같은 이미지 모델과 결합해 고도화된 워크플로우를 구성할 수 있다[35-37].

🔗 지식 연결 (Graph)


Last updated: 2026-04-30

📌 한 줄 통찰 (The Karpathy Summary)

(TODO: 한 문장으로 핵심 통찰을 작성. "X는 Y 조건에서 Z 효과를 낸다" 구조 권장.)

🤖 LLM 활용 힌트 (How to Use This Knowledge)

언제 이 지식을 쓰는가:

  • (TODO)

언제 쓰면 안 되는가:

  • (TODO)

🧪 검증 상태 (Validation)

  • 정보 상태: needs_review
  • 출처 신뢰도: A
  • 검토 이유: (P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)

🧬 중복 검사 (Duplicate Check)

  • 기존 유사 문서: (TODO: 인덱서 클러스터 리포트 참조)
  • 처리 방식: UPDATE (자동 정규화)
  • 처리 이유: Phase 1 정규화 — 옛 템플릿/누락 필드 보강.

⚠️ 모순 및 업데이트 (Contradictions & Updates)

  • 과거 데이터와의 충돌: 없음
  • 정책 변화: 없음

🕓 변경 이력 (Changelog)

날짜 변경 내용 처리 방식 신뢰도
2026-05-08 P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) UPDATE A