From 3fdebf98beb934a92b232fb8f8c3e42826813a72 Mon Sep 17 00:00:00 2001 From: g1nation Date: Thu, 30 Apr 2026 13:55:29 +0900 Subject: [PATCH] =?UTF-8?q?feat(p-reinforce):=2000=5FRaw=20AI=20=EC=9D=B4?= =?UTF-8?q?=EB=AF=B8=EC=A7=80=20=EC=83=9D=EC=84=B1=20=EC=9C=84=ED=82=A4=20?= =?UTF-8?q?68=EA=B0=9C=20Topics=5FArt=20=EB=B6=84=EB=A5=98?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - AI 이미지 생성, 프롬프트 엔지니어링 계열 68개 문서 Topics_Art 등록 - Midjourney V7, DALL-E 3, Stable Diffusion, LoRA 관련 전체 포함 - 프롬프트 가중치, CFG Scale, 네거티브/포지티브 프롬프트 포함 - 스타일/캐릭터/옴니 참조, 인페인팅, 아웃페인팅 포함 - Agentic Creative (에이전틱 크리에이티브) 포함 - 1개 파일 중복 스킵 (Agentic Creative.md 기존 존재) --- .../AI Image Generation Workflow.md | 26 ++++++++++++ ...델 사후 편집 도구 (Post-editing Tools).md | 24 +++++++++++ .../AI 이미지 생성 (AI Image Generation).md | 35 ++++++++++++++++ .../AI 이미지 생성 도구 및 매개변수.md | 28 +++++++++++++ ...플로우 (AI Image Generation & Editing Workflow).md | 19 +++++++++ .../Topics_Art/AI 이미지 생성 파이프라인.md | 25 +++++++++++ 10_Wiki/Topics_Art/Agentic Creative.md | 25 +++++++++++ 10_Wiki/Topics_Art/CFG Scale.md | 17 ++++++++ 10_Wiki/Topics_Art/CFG 스케일 (CFG Scale).md | 25 +++++++++++ ... 스케일(Classifier-Free Guidance Scale).md | 20 +++++++++ .../ChatGPT 통합 (ChatGPT Integration).md | 26 ++++++++++++ .../DALL-E 3 대화형 프롬프트 생성.md | 22 ++++++++++ 10_Wiki/Topics_Art/DALL-E 3.md | 35 ++++++++++++++++ 10_Wiki/Topics_Art/Diffusion Models.md | 20 +++++++++ 10_Wiki/Topics_Art/Lighting & Composition.md | 5 +++ 10_Wiki/Topics_Art/LoRA.md | 18 ++++++++ 10_Wiki/Topics_Art/Midjourney.md | 35 ++++++++++++++++ 10_Wiki/Topics_Art/Model Parameters.md | 28 +++++++++++++ 10_Wiki/Topics_Art/Negative Prompt.md | 17 ++++++++ 10_Wiki/Topics_Art/Negative Prompts.md | 31 ++++++++++++++ 10_Wiki/Topics_Art/Positive Prompt.md | 25 +++++++++++ 10_Wiki/Topics_Art/Prompt Engineering.md | 24 +++++++++++ 10_Wiki/Topics_Art/Prompt Weight.md | 18 ++++++++ 10_Wiki/Topics_Art/Prompt Weighting.md | 23 +++++++++++ 10_Wiki/Topics_Art/Prompt Weights.md | 25 +++++++++++ 10_Wiki/Topics_Art/Stable Diffusion.md | 31 ++++++++++++++ 10_Wiki/Topics_Art/Style Reference.md | 26 ++++++++++++ 10_Wiki/Topics_Art/image prompt 작성 방법.md | 32 +++++++++++++++ .../가중치 부여(Prompt Weighting).md | 21 ++++++++++ .../가중치 조절 (Prompt Weights).md | 24 +++++++++++ .../긍정 프롬프트 (Positive Prompt).md | 18 ++++++++ .../네거티브 프롬프트 (Negative Prompt).md | 27 ++++++++++++ 10_Wiki/Topics_Art/매개변수 (Parameters).md | 30 ++++++++++++++ ... 매개변수 제어 (Model Parameter Control).md | 28 +++++++++++++ 10_Wiki/Topics_Art/미드저니 (Midjourney).md | 33 +++++++++++++++ .../Topics_Art/미드저니 V7 (Midjourney V7).md | 25 +++++++++++ ...브랜드 이미지 및 텍스트 포함 콘텐츠 제작 워크플로우.md | 26 ++++++++++++ ...드저니 V7 업데이트 및 시각적 워크플로우.md | 31 ++++++++++++++ ...드저니 매개변수 (Midjourney Parameters).md | 41 +++++++++++++++++++ ...개변수 제어 및 스타일 참조(Style Reference).md | 25 +++++++++++ ...화 (Midjourney Prompt Structuring and Optimization).md | 31 ++++++++++++++ ...저니(Midjourney) V7 초안 기반 워크플로우.md | 26 ++++++++++++ .../반복적 정교화 (Iterative Refinement).md | 19 +++++++++ ... 워크플로우(Iterative Prompt Engineering Workflow).md | 25 +++++++++++ .../부정 프롬프트 (Negative Prompt).md | 28 +++++++++++++ .../부정 프롬프트 (Negative Prompts).md | 24 +++++++++++ .../부정 프롬프트(Negative Prompt).md | 24 +++++++++++ ... AI 이미지 품질 관리 및 워크플로우 최적화.md | 29 +++++++++++++ .../Topics_Art/생성형 AI (Generative AI).md | 29 +++++++++++++ .../스타일 참조 (Style Reference).md | 19 +++++++++ .../스테이블 디퓨전 (Stable Diffusion).md | 33 +++++++++++++++ ... 디퓨전 아티팩트 디버깅(Artifact Debugging).md | 28 +++++++++++++ ...디퓨전(Stable Diffusion) 이미지 생성 최적화.md | 30 ++++++++++++++ ...기반 정밀 이미지 합성 및 해부학적 오류 수정 파이프라인.md | 27 ++++++++++++ .../Topics_Art/옴니 참조 (Omni Reference).md | 18 ++++++++ .../이미지 생성 및 제어 파이프라인.md | 28 +++++++++++++ ...성 최적화 (Image Generation Optimization).md | 24 +++++++++++ ...각 언어 생성 (AI Visual Language Generation).md | 32 +++++++++++++++ ... 및 아웃페인팅 (Inpainting & Outpainting).md | 30 ++++++++++++++ .../일관된 캐릭터 및 스타일 구축.md | 26 ++++++++++++ ...연어 프롬프트 (Natural Language Prompt).md | 22 ++++++++++ .../캐릭터 참조(Character Reference).md | 24 +++++++++++ .../프롬프트 가중치 (Prompt Weights).md | 26 ++++++++++++ ... 프롬프트 (Prompt Weights and Negative Prompts).md | 28 +++++++++++++ ...롬프트 엔지니어링 (Prompt Engineering).md | 28 +++++++++++++ .../프롬프트 엔지니어링 미세 조정.md | 19 +++++++++ ...프롬프트 엔지니어링(Prompt Engineering).md | 30 ++++++++++++++ ...트 자동 확장 (Automatic Prompt Expansion).md | 17 ++++++++ ... 최적화 (Platform-Specific Prompt Optimization).md | 33 +++++++++++++++ 69 files changed, 1771 insertions(+) create mode 100644 10_Wiki/Topics_Art/AI Image Generation Workflow.md create mode 100644 10_Wiki/Topics_Art/AI 모델 사후 편집 도구 (Post-editing Tools).md create mode 100644 10_Wiki/Topics_Art/AI 이미지 생성 (AI Image Generation).md create mode 100644 10_Wiki/Topics_Art/AI 이미지 생성 도구 및 매개변수.md create mode 100644 10_Wiki/Topics_Art/AI 이미지 생성 및 편집 워크플로우 (AI Image Generation & Editing Workflow).md create mode 100644 10_Wiki/Topics_Art/AI 이미지 생성 파이프라인.md create mode 100644 10_Wiki/Topics_Art/Agentic Creative.md create mode 100644 10_Wiki/Topics_Art/CFG Scale.md create mode 100644 10_Wiki/Topics_Art/CFG 스케일 (CFG Scale).md create mode 100644 10_Wiki/Topics_Art/CFG 스케일(Classifier-Free Guidance Scale).md create mode 100644 10_Wiki/Topics_Art/ChatGPT 통합 (ChatGPT Integration).md create mode 100644 10_Wiki/Topics_Art/DALL-E 3 대화형 프롬프트 생성.md create mode 100644 10_Wiki/Topics_Art/DALL-E 3.md create mode 100644 10_Wiki/Topics_Art/Diffusion Models.md create mode 100644 10_Wiki/Topics_Art/Lighting & Composition.md create mode 100644 10_Wiki/Topics_Art/LoRA.md create mode 100644 10_Wiki/Topics_Art/Midjourney.md create mode 100644 10_Wiki/Topics_Art/Model Parameters.md create mode 100644 10_Wiki/Topics_Art/Negative Prompt.md create mode 100644 10_Wiki/Topics_Art/Negative Prompts.md create mode 100644 10_Wiki/Topics_Art/Positive Prompt.md create mode 100644 10_Wiki/Topics_Art/Prompt Engineering.md create mode 100644 10_Wiki/Topics_Art/Prompt Weight.md create mode 100644 10_Wiki/Topics_Art/Prompt Weighting.md create mode 100644 10_Wiki/Topics_Art/Prompt Weights.md create mode 100644 10_Wiki/Topics_Art/Stable Diffusion.md create mode 100644 10_Wiki/Topics_Art/Style Reference.md create mode 100644 10_Wiki/Topics_Art/image prompt 작성 방법.md create mode 100644 10_Wiki/Topics_Art/가중치 부여(Prompt Weighting).md create mode 100644 10_Wiki/Topics_Art/가중치 조절 (Prompt Weights).md create mode 100644 10_Wiki/Topics_Art/긍정 프롬프트 (Positive Prompt).md create mode 100644 10_Wiki/Topics_Art/네거티브 프롬프트 (Negative Prompt).md create mode 100644 10_Wiki/Topics_Art/매개변수 (Parameters).md create mode 100644 10_Wiki/Topics_Art/모델 매개변수 제어 (Model Parameter Control).md create mode 100644 10_Wiki/Topics_Art/미드저니 (Midjourney).md create mode 100644 10_Wiki/Topics_Art/미드저니 V7 (Midjourney V7).md create mode 100644 10_Wiki/Topics_Art/미드저니 V7 및 DALL-E 3를 활용한 맞춤형 브랜드 이미지 및 텍스트 포함 콘텐츠 제작 워크플로우.md create mode 100644 10_Wiki/Topics_Art/미드저니 V7 업데이트 및 시각적 워크플로우.md create mode 100644 10_Wiki/Topics_Art/미드저니 매개변수 (Midjourney Parameters).md create mode 100644 10_Wiki/Topics_Art/미드저니 매개변수 제어 및 스타일 참조(Style Reference).md create mode 100644 10_Wiki/Topics_Art/미드저니 프롬프트 구조화 및 최적화 (Midjourney Prompt Structuring and Optimization).md create mode 100644 10_Wiki/Topics_Art/미드저니(Midjourney) V7 초안 기반 워크플로우.md create mode 100644 10_Wiki/Topics_Art/반복적 정교화 (Iterative Refinement).md create mode 100644 10_Wiki/Topics_Art/반복적 프롬프트 엔지니어링 워크플로우(Iterative Prompt Engineering Workflow).md create mode 100644 10_Wiki/Topics_Art/부정 프롬프트 (Negative Prompt).md create mode 100644 10_Wiki/Topics_Art/부정 프롬프트 (Negative Prompts).md create mode 100644 10_Wiki/Topics_Art/부정 프롬프트(Negative Prompt).md create mode 100644 10_Wiki/Topics_Art/상업용 AI 이미지 품질 관리 및 워크플로우 최적화.md create mode 100644 10_Wiki/Topics_Art/생성형 AI (Generative AI).md create mode 100644 10_Wiki/Topics_Art/스타일 참조 (Style Reference).md create mode 100644 10_Wiki/Topics_Art/스테이블 디퓨전 (Stable Diffusion).md create mode 100644 10_Wiki/Topics_Art/스테이블 디퓨전 아티팩트 디버깅(Artifact Debugging).md create mode 100644 10_Wiki/Topics_Art/스테이블 디퓨전(Stable Diffusion) 이미지 생성 최적화.md create mode 100644 10_Wiki/Topics_Art/스테이블 디퓨전을 이용한 오픈소스 기반 정밀 이미지 합성 및 해부학적 오류 수정 파이프라인.md create mode 100644 10_Wiki/Topics_Art/옴니 참조 (Omni Reference).md create mode 100644 10_Wiki/Topics_Art/이미지 생성 및 제어 파이프라인.md create mode 100644 10_Wiki/Topics_Art/이미지 생성 최적화 (Image Generation Optimization).md create mode 100644 10_Wiki/Topics_Art/인공지능 시각 언어 생성 (AI Visual Language Generation).md create mode 100644 10_Wiki/Topics_Art/인페인팅 및 아웃페인팅 (Inpainting & Outpainting).md create mode 100644 10_Wiki/Topics_Art/일관된 캐릭터 및 스타일 구축.md create mode 100644 10_Wiki/Topics_Art/자연어 프롬프트 (Natural Language Prompt).md create mode 100644 10_Wiki/Topics_Art/캐릭터 참조(Character Reference).md create mode 100644 10_Wiki/Topics_Art/프롬프트 가중치 (Prompt Weights).md create mode 100644 10_Wiki/Topics_Art/프롬프트 가중치 및 부정 프롬프트 (Prompt Weights and Negative Prompts).md create mode 100644 10_Wiki/Topics_Art/프롬프트 엔지니어링 (Prompt Engineering).md create mode 100644 10_Wiki/Topics_Art/프롬프트 엔지니어링 미세 조정.md create mode 100644 10_Wiki/Topics_Art/프롬프트 엔지니어링(Prompt Engineering).md create mode 100644 10_Wiki/Topics_Art/프롬프트 자동 확장 (Automatic Prompt Expansion).md create mode 100644 10_Wiki/Topics_Art/플랫폼별 프롬프트 최적화 (Platform-Specific Prompt Optimization).md diff --git a/10_Wiki/Topics_Art/AI Image Generation Workflow.md b/10_Wiki/Topics_Art/AI Image Generation Workflow.md new file mode 100644 index 00000000..93be127b --- /dev/null +++ b/10_Wiki/Topics_Art/AI Image Generation Workflow.md @@ -0,0 +1,26 @@ +# [[AI Image Generation Workflow]] + +## 📌 Brief Summary +AI 이미지 생성 워크플로우는 사용자의 텍스트 기반 프롬프트를 해석하여 시각적 기호 및 데이터로 변환하는 일련의 과정이다 [1, 2]. 초기 아이디어를 구체적인 주체, 매체, 스타일, 조명 등의 층위로 구조화하여 프롬프트를 작성하는 것에서 출발한다 [2, 3]. 이후 모델별 특성에 맞춰 초기 이미지를 생성하고, 네거티브 프롬프트, 인페인팅(Inpainting), 아웃페인팅(Outpainting) 등을 통해 결과물을 반복적으로 정교화하여 최종 이미지를 완성한다 [4-6]. + +## 📖 Core Content +* **프롬프트 구조화 (Prompt Structuring)** + 성공적인 이미지 생성을 위해서는 단순한 단어의 나열이 아닌, 주체(Subject), 매체(Medium), 환경(Environment), 조명(Lighting), 스타일(Style) 및 기술적 매개변수로 이루어진 명확한 계층적 구조가 필요하다 [2, 3, 7, 8]. 피사체에 대한 구체적인 묘사와 함께 렌즈(예: 85mm), 조명(예: 골든 아워, 림 라이팅) 등의 촬영 및 예술적 전문 용어를 사용하면 AI 모델의 제어력을 극대화할 수 있다 [9-11]. + +* **플랫폼 특화 워크플로우 (Platform-specific Workflows)** + * *미드저니(Midjourney):* 2026년 기준 V7 모델에서는 '드래프트 모드(--draft)'를 활용해 저비용으로 빠르게 다수의 시안을 대량 생성한 뒤, 최적의 구도를 선택하여 고화질(HD)로 업스케일링하는 작업 방식이 효율적이다 [6, 12, 13]. 또한, 일관된 스타일과 서사를 위해 스타일 참조(--sref) 및 옴니 참조(--oref) 매개변수를 적극 활용한다 [14-16]. + * *DALL-E 3:* 텍스트 지시의 정확한 이행에 강점이 있으며, 사용자가 짧은 프롬프트를 입력해도 ChatGPT가 내부적으로 상세한 합성 캡션(Synthetic Captions)으로 확장하여 이미지를 정교하게 생성한다 [17-20]. + * *스테이블 디퓨전(Stable Diffusion):* 프롬프트 가중치 조절(예: `(keyword:1.5)`) 기능을 통해 특정 단어의 중요도를 세밀하게 조정하며, 컨트롤넷(ControlNet) 등을 통해 하드웨어 수준의 정밀한 통제력을 발휘하는 것이 특징이다 [21-23]. + +* **반복적 정교화 및 후처리 (Iterative Refinement)** + 이미지 생성 워크플로우는 첫 번째 생성에서 끝나지 않고 모델과의 반복적인 협업 과정으로 이어진다 [4, 5, 24]. + * **네거티브 프롬프트 (Negative Prompts):** 원치 않는 요소나 시각적 결함(예: 일그러진 손가락, 워터마크)이 발생하면 이를 네거티브 프롬프트에 명시적으로 추가하여 제거한다 [23, 25-27]. + * **부분 수정 및 시야 확장:** 미드저니의 'Vary (Region)'과 같은 인페인팅 기능을 사용해 이미지의 전체적인 맥락을 유지한 채 특정 영역(예: 인물의 모자)만 수정하거나, 'Zoom Out(아웃페인팅)'을 통해 캔버스 밖의 배경을 자연스럽게 확장한다 [5, 28-30]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Prompt Engineering]], [[Negative Prompts]], [[Image Parameters]], [[Inpainting & Outpainting]] +- **Projects/Contexts:** [[Midjourney V7 Draft Mode]], [[DALL-E 3 Synthetic Captioning]] +- **Contradictions/Notes:** DALL-E 3는 "no", "without"과 같은 부정형 지시어를 잘 이해하지 못해 오히려 해당 객체를 생성할 위험이 있으므로 모든 지시를 긍정형 문장으로 우회해야 하는 반면 [20, 31], 스테이블 디퓨전은 구조화된 네거티브 프롬프트 섹션을 통해 워터마크나 신체 왜곡 등의 결함을 적극적으로 차단해야 한다는 점에서 플랫폼별 대응 방식에 뚜렷한 차이가 존재한다 [23, 26, 32]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/AI 모델 사후 편집 도구 (Post-editing Tools).md b/10_Wiki/Topics_Art/AI 모델 사후 편집 도구 (Post-editing Tools).md new file mode 100644 index 00000000..9a03fc77 --- /dev/null +++ b/10_Wiki/Topics_Art/AI 모델 사후 편집 도구 (Post-editing Tools).md @@ -0,0 +1,24 @@ +# [[AI 모델 사후 편집 도구 (Post-editing Tools)]] + +## 📌 Brief Summary +AI 모델 사후 편집 도구는 인공지능을 통해 처음 생성된 이미지의 전체적인 맥락과 화풍을 유지하면서 특정 영역을 수정, 정교화 또는 확장할 수 있게 해주는 기능들입니다 [1, 2]. 대표적으로 인페인팅(Vary Region), 아웃페인팅(Zoom Out, Pan), 리믹스(Remix), 업스케일링(Upscale) 등이 포함됩니다 [3-5]. 이러한 도구들은 단발성 프롬프트 입력의 한계를 극복하고, 첫 결과물을 베이스 이미지로 삼아 점진적으로 창작자의 시각적 의도에 맞게 다듬어가는 프롬프트 엔지니어링의 핵심 과정으로 활용됩니다 [2, 5]. + +## 📖 Core Content +* **인페인팅 및 영역별 변주 (Inpainting / Vary Region)** + 생성된 이미지의 특정 부분을 선택하여 해당 영역만 새로운 텍스트 프롬프트를 적용해 재생성하는 기능입니다 [1, 6, 7]. 미드저니(Midjourney)의 'Vary (Region)' 기능이나 스테이블 디퓨전(Stable Diffusion), DALL-E의 인페인팅 기능이 이에 해당합니다 [1, 5, 8]. 기존 이미지의 나머지 부분은 손상시키지 않고 작은 오류를 수정하거나 새로운 요소(예: 모자를 왕관으로 변경, 새를 추가 등)를 합성할 때 매우 유용합니다 [1, 2, 9]. +* **아웃페인팅 및 시야 확장 (Outpainting / Zoom Out & Pan)** + 초기 이미지가 너무 근접하게 촬영되었거나 구도 확장이 필요할 때 캔버스 밖의 영역을 논리적으로 생성해 내는 도구입니다 [2, 10, 11]. 'Zoom Out(줌 아웃)'은 원본 이미지의 네 면 밖으로 문맥과 요소를 추가하여 시야를 넓히며, 'Pan(팬)'은 특정 방향으로 캔버스를 확장합니다 [4, 9]. 이 과정에서 AI는 기존 화풍과 조명을 유지하면서 새로운 서사적 요소나 배경을 자연스럽게 배치합니다 [2, 9]. +* **리믹스 모드 (Remix Mode)** + 이미지의 변형(Variation)을 만들 때 기존 프롬프트 텍스트나 매개변수(Parameter)를 수정할 수 있게 해주는 강력한 기능입니다 [4, 12]. 특히 'Vary Region' 기능과 결합하면 선택된 영역을 어떻게 재생성할지 새로운 프롬프트로 정밀하게 지시할 수 있어 부분 편집의 통제력을 극대화합니다 [2, 13]. +* **업스케일링 (Upscaling)** + 초기 생성된 이미지의 해상도 치수를 확대하는 기능입니다 [5, 14]. 모델에 따라 단순히 크기만 키우는 것(Subtle Upscale)뿐만 아니라, 미세한 디테일과 질감을 추가하여 최종 결과물을 전문가 수준으로 다듬는 'Creative Upscale'과 같은 세부 조정 기능을 제공합니다 [9, 14]. +* **기술적 노하우 및 반복적 정교화 전략 (Iterative Refinement)** + 프롬프트 작성은 한 번에 끝나는 것이 아니라 AI와의 반복적인 협업 과정입니다 [2, 15, 16]. 첫 이미지를 베이스로 삼고 사후 편집 도구들을 활용해 점진적으로 수정해 나가는 것이 중요합니다 [2, 5]. 영역을 선택해 편집할 때는 수정하려는 대상뿐만 아니라 주변의 여백을 충분히 포함하여 선택해야 AI가 주변과의 연결성 및 맥락을 파악하여 자연스러운 합성을 수행할 수 있습니다 [2, 17]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[반복적 정교화 (Iterative Refinement)]], [[인페인팅 및 아웃페인팅 (Inpainting and Outpainting)]], [[프롬프트 파라미터 제어 (Prompt Parameter Control)]] +- **Projects/Contexts:** [[생성적 AI 이미징의 반복적 작업 프로세스 (Iterative Workflow of Generative AI Imaging)]], [[미드저니 및 스테이블 디퓨전의 부분 편집 기법]] +- **Contradictions/Notes:** 편집하고자 하는 영역을 선택할 때, 선택 영역이 너무 작을 경우 AI가 주변 맥락을 파악하기 어려워 결과물이 부자연스러울 수 있으므로 충분한 맥락(Context)을 제공할 수 있을 만큼의 크기로 영역을 지정해야 한다는 실무적인 주의사항이 존재합니다 [2, 17]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/AI 이미지 생성 (AI Image Generation).md b/10_Wiki/Topics_Art/AI 이미지 생성 (AI Image Generation).md new file mode 100644 index 00000000..aadabe9a --- /dev/null +++ b/10_Wiki/Topics_Art/AI 이미지 생성 (AI Image Generation).md @@ -0,0 +1,35 @@ +# [[AI 이미지 생성 (AI Image Generation)]] + +## 📌 Brief Summary +AI 이미지 생성은 텍스트 형태의 프롬프트나 기존 이미지를 기계가 해석 가능한 구체적 좌표로 변환하여 새로운 시각적 결과물을 만들어내는 기술이다 [1, 2]. 효과적인 이미지를 얻기 위해서는 모호한 지시를 피하고 주체, 스타일, 조명, 구도 등을 명확히 규정하는 계층적 구조의 프롬프트를 작성해야 한다 [2-4]. 또한 각 AI 모델(Midjourney, DALL-E 3, Stable Diffusion 등)이 가진 고유한 매개변수 문법과 부정 프롬프트 활용법을 이해하여 결과물을 세밀하게 통제하는 고도화된 프롬프트 엔지니어링 능력이 필수적이다 [5, 6]. + +## 📖 Core Content + +**1. 프롬프트의 기본 구조와 핵심 요소** +고품질의 이미지를 생성하는 프롬프트는 일반적으로 주체(Subject), 매체 및 스타일(Medium/Style), 환경 및 구도(Environment/Composition), 조명(Lighting), 기술적 매개변수(Parameters)의 층위로 구성된다 [2, 3, 6]. +* **주체 및 환경:** 단순한 명사보다는 구체적인 물리적 특징, 의상, 표정 등 서사적 맥락과 결합된 묘사를 사용할 때 인공지능이 더 명확한 시각적 특징을 추출한다 [7-9]. +* **조명 및 카메라 연출:** '골든 아워', '볼륨메트릭 라이팅(Volumetric Lighting)', '림 라이팅(Rim Lighting)'과 같은 조명 키워드나 '85mm 렌즈', '로우 앵글' 등 카메라 앵글을 구체적으로 명시하면 결과물의 사실감, 심도, 극적 분위기를 크게 향상할 수 있다 [10-13]. + +**2. 플랫폼별 특화된 프롬프트 작성 패러다임** +AI 모델은 저마다 다른 아키텍처와 훈련 데이터를 가지므로 각 모델의 특성에 맞춘 접근이 필요하다 [5, 6]. +* **Midjourney:** 시네마틱한 완성도와 예술적 미학에 강점이 있다 [14, 15]. 프롬프트 끝에 `--ar`(종횡비), `--v`(버전), `--stylize`(예술적 해석 강도) 등의 매개변수를 추가해 세밀한 제어가 가능하다 [15-17]. 최신 V7에서는 스타일 참조(`--sref`), 캐릭터 참조(`--cref`), 옴니 참조(`--oref`) 기능을 통해 복잡한 단어 나열 없이도 피사체나 화풍의 일관성을 완벽히 유지할 수 있다 [15, 18-21]. +* **DALL-E 3:** 자연어 이해도가 매우 높으며, 짧게 입력한 의도도 GPT-4가 풍부한 시각적 묘사로 자동 확장하여 지시를 정확히 이행한다 [14, 22]. 복잡한 객체 배치나 텍스트 렌더링에 탁월하지만, '사용하지 말 것(without, no)'과 같은 부정 지시어를 잘 이해하지 못하고 오히려 해당 요소를 생성해버리는 경향이 있어 지시문은 항상 긍정형으로 작성해야 한다 [22-24]. +* **Stable Diffusion:** 사용자가 직접 모델을 훈련하고 하드웨어 수준에서 통제할 수 있는 유연성을 제공한다 [25-27]. 쉼표로 구분된 태그 기반 구문을 주로 사용하며, `(keyword:1.2)` 형태의 괄호와 수치를 이용해 특정 단어의 가중치(Weight)를 정밀하게 조절하는 문법이 핵심이다 [27-30]. + +**3. 부정 프롬프트(Negative Prompt)의 전략적 활용** +부정 프롬프트는 이미지에 나타나지 말아야 할 요소를 명시하여 모델의 흔한 생성 오류를 제어하는 강력한 도구다 [27, 31-33]. +* 완성도를 높이기 위해 단순히 "bad"나 "ugly" 같은 모호한 단어를 쓰기보다는 "extra fingers(여분의 손가락)", "blurry(흐릿함)", "watermark(워터마크)" 등 발생한 결함을 구체적이고 물리적인 명사로 짚어내는 것이 훨씬 효과적이다 [34, 35]. +* 가중치 문법과 결합하여(예: `(blurry:1.3)`) 배제하려는 요소의 강도를 조절함으로써, 의도한 예술적 스타일이 망가지지 않는 선에서 부작용만 최소화할 수 있다 [36, 37]. + +**4. 반복적 정교화와 사후 편집 (Iterative Refinement)** +프롬프트 작성은 한 번에 완벽한 결과물을 내는 것이 아니라 반복을 통해 다듬어가는 과정이다 [38-41]. +* 초기에는 단순하고 포괄적인 프롬프트로 시작하여 뼈대를 잡은 후, 결과물을 보아가며 조명, 구도, 스타일 키워드를 추가하여 점진적으로 발전시키는 것이 좋다 [38-40]. +* Midjourney의 인페인팅 기능인 'Vary (Region)'을 활용하면 전체 화풍과 맥락을 유지하면서 잘못된 손가락을 고치거나 특정 객체를 추가하는 등 부분적인 수정이 가능하며 [41-44], 'Zoom Out' (아웃페인팅) 기능을 통해 캔버스 밖의 환경을 논리적으로 확장할 수 있다 [41, 43, 45]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[매개변수 및 가중치 (Parameters and Weights)]], [[부정 프롬프트 (Negative Prompt)]], [[디퓨전 모델 (Diffusion Models)]] +- **Projects/Contexts:** [[생성형 AI를 활용한 상업적/예술적 콘텐츠 시각화 (Commercial/Artistic Visual Content Creation via Gen AI)]], [[플랫폼별(Midjourney, DALL-E 3, Stable Diffusion) 이미지 생성 워크플로우 최적화]] +- **Contradictions/Notes:** DALL-E 3는 부정어(예: not, no, without)를 처리하는 능력이 매우 취약하여 오히려 원치 않는 대상을 이미지에 포함시킬 가능성이 크므로 모든 지시를 긍정적인 속성으로 묘사해야 한다 [22, 24]. 반면, Stable Diffusion은 명시적인 부정 프롬프트(Negative prompt) 입력 시스템을 통해 기형적이거나 원치 않는 요소를 효과적이고 필수적으로 차단한다는 차이점이 있다 [27, 31, 33]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/AI 이미지 생성 도구 및 매개변수.md b/10_Wiki/Topics_Art/AI 이미지 생성 도구 및 매개변수.md new file mode 100644 index 00000000..60f55f87 --- /dev/null +++ b/10_Wiki/Topics_Art/AI 이미지 생성 도구 및 매개변수.md @@ -0,0 +1,28 @@ +# [[AI 이미지 생성 도구 및 매개변수]] + +## 📌 Brief Summary +AI 이미지 생성 도구는 사용자의 텍스트 프롬프트를 해석하여 시각적 결과물로 변환하는 플랫폼으로, 대표적으로 Midjourney, DALL-E 3, Stable Diffusion 등이 있습니다[1, 2]. 매개변수(Parameters)는 프롬프트에 추가되어 이미지의 종횡비, 예술적 스타일의 강도, 무작위성 등을 정밀하게 제어하는 명령어 및 가중치 시스템입니다[3-5]. 각 생성 도구는 고유한 알고리즘과 명령어 문법을 가지므로, 이를 적절히 활용하는 것이 성공적인 프롬프트 작성의 핵심입니다[6, 7]. + +## 📖 Core Content + +**1. 주요 AI 이미지 생성 도구의 특성** +* **Midjourney**: 시네마틱한 완성도와 독보적인 예술적 감각을 제공하여 전문가 집단에서 널리 선호됩니다[1, 8]. 2026년 기준 기본 모델인 V7은 드래프트 모드(Draft Mode)를 통해 빠르고 저렴하게 시안을 대량 생산할 수 있으며, 자연어 처리 능력이 향상되었습니다[9-11]. +* **DALL-E 3 (OpenAI)**: 자연어에 대한 이해도가 매우 높아 복잡한 프롬프트의 지시를 정확히 따르며, 이미지 내에 텍스트(글자)를 렌더링하는 능력이 탁월합니다[1, 12-14]. 복잡한 기술적 매개변수보다는 대화형 자연어 묘사에 가장 잘 반응합니다[12, 15]. +* **Stable Diffusion**: 오픈 소스 기반으로 높은 유연성과 맞춤 설정(Fine-tuning) 기능을 제공합니다[1, 2, 5, 16]. 하드웨어 수준에서 제어가 가능하며, 복잡한 프롬프트 가중치 조절과 강력한 부정 프롬프트 제어를 통해 정밀한 결과물을 얻을 수 있습니다[5, 17, 18]. +* **Adobe Firefly**: Adobe Creative Cloud와 원활하게 통합되어 전문가의 워크플로우를 보완하며, 저작권 측면에서 상업적으로 안전하게 사용할 수 있는 고품질 이미지를 생성하는 데 특화되어 있습니다[2, 19, 20]. + +**2. 핵심 매개변수 (Parameters) 및 활용법** +매개변수는 주로 프롬프트 텍스트의 마지막에 덧붙여서 이미지 생성 방식을 직접적으로 미세 조정합니다[3, 4]. +* **종횡비 조절 (Aspect Ratio)**: `--ar` 매개변수(예: `--ar 16:9`)를 사용하여 이미지의 가로세로 비율을 지정합니다[21, 22]. +* **스타일라이즈 (Stylize)**: `--stylize` 또는 `--s` (예: `--s 100-1000`)를 통해 AI의 예술적 개입 강도를 조절합니다. 값이 높을수록 미학적이고 예술적인 결과가 나오며, 낮을수록 사용자의 텍스트 지시에 더 문자 그대로 충실해집니다[8, 21, 23, 24]. +* **무작위성 (Chaos)**: `--chaos` 또는 `--c` (예: `--c 0-100`)는 생성되는 초기 이미지 4장 간의 다양성과 무작위성을 부여합니다. 값이 클수록 서로 매우 다른 결과물이 도출됩니다[21, 25]. +* **참조 기능 (References)**: Midjourney에서는 특정 이미지의 URL을 활용하여 스타일을 복제하는 **스타일 참조(`--sref`)**와 캐릭터의 일관성을 유지하는 **캐릭터 참조(`--cref`)**를 지원합니다[8, 26-28]. V7에서 추가된 **옴니 참조(`--oref`)**는 사물의 고유한 형태와 정체성까지 일관되게 유지해줍니다[8, 9, 29]. +* **가중치 제어 (Weights)**: Stable Diffusion의 경우 `(keyword:factor)` 형태(예: `(dog:1.1)`) 또는 괄호를 중첩하여 특정 단어의 중요도와 강도를 숫자로 세밀하게 조정합니다[5, 17, 30, 31]. Midjourney에서는 다중 프롬프트를 분리할 때 `::` 기호를 써서 개별 요소의 가중치를 설정할 수 있습니다[32, 33]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 구조 및 문법]], [[부정 프롬프트(Negative Prompt)]], [[스타일 및 캐릭터 참조(References)]] +- **Projects/Contexts:** 사용자가 각기 다른 아키텍처를 지닌 AI 플랫폼(Midjourney, DALL-E, Stable Diffusion 등)의 특성을 파악하고, 각 모델의 '방언'에 해당하는 매개변수와 가중치를 조절하여 본인이 의도한 미학적, 상업적 이미지를 완벽하게 구현하려는 맥락 +- **Contradictions/Notes:** DALL-E 3는 사용자의 자연어 묘사나 복잡한 지시를 따르는 데는 탁월하지만 "not", "no", "without"과 같은 부정 지시어를 잘 처리하지 못하고 오히려 해당 객체를 생성하는 경향이 있습니다[14, 34, 35]. 반면 Midjourney나 Stable Diffusion은 `--no` 매개변수 또는 전용 '부정 프롬프트' 섹션을 활용하여 원치 않는 요소(예: 손가락 기형, 워터마크 등)를 매우 효과적으로 제거할 수 있습니다[5, 18, 25]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/AI 이미지 생성 및 편집 워크플로우 (AI Image Generation & Editing Workflow).md b/10_Wiki/Topics_Art/AI 이미지 생성 및 편집 워크플로우 (AI Image Generation & Editing Workflow).md new file mode 100644 index 00000000..e5b7e5af --- /dev/null +++ b/10_Wiki/Topics_Art/AI 이미지 생성 및 편집 워크플로우 (AI Image Generation & Editing Workflow).md @@ -0,0 +1,19 @@ +# [[AI 이미지 생성 및 편집 워크플로우 (AI Image Generation & Editing Workflow)]] + +## 📌 Brief Summary +AI 이미지 생성 및 편집 워크플로우는 텍스트 아이디어를 시각적 결과물로 변환한 후, 사후 편집 도구와 반복적인 프롬프트 수정을 통해 결과물을 정교화하는 일련의 과정이다 [1, 2]. 단 한 번의 완벽한 프롬프트로 결과물을 얻기보다는, 초기 베이스 이미지(Base Image)를 생성하고 점진적으로 수정해 나가는 협업적 접근 방식을 취한다 [2, 3]. 이 과정에는 인페인팅(Vary Region), 아웃페인팅(Zoom Out/Pan), 업스케일링(Upscale), 리믹스(Remix) 등의 기술적 제어 도구가 필수적으로 활용된다 [4, 5]. + +## 📖 Core Content +* **반복적 정교화(Iterative Refinement) 전략:** 성공적인 AI 이미지 생성은 단발성 행위가 아니라 모델과의 반복적인 대화와 탐색 과정이다 [2, 6]. 창작자들은 단순하고 명확한 프롬프트로 시작하여 다양한 결과물을 확인한 후, 조명, 구도, 네거티브 프롬프트 등을 추가하여 결과물을 세밀하게 조정해 나간다 [7, 8]. +* **초안 모드(Draft Mode)를 활용한 파이프라인:** 미드저니 V7 등 최신 모델에서는 '드래프트 모드(Draft Mode)'를 활용해 낮은 비용과 매우 빠른 속도로 다수의 시안을 탐색할 수 있다 [9, 10]. 사용자는 이 중 유망한 구도의 결과물을 선택(Shortlist)하고 고화질 렌더링으로 승격시키는 단계적인 디자인 리뷰 루프(Design review loop)를 통해 작업의 효율성을 극대화한다 [10, 11]. +* **인페인팅을 통한 영역별 변주 (Vary Region / Inpainting):** 이미지가 전반적으로 마음에 들지만 특정 부분에 수정이 필요할 때 사용되는 핵심 편집 기능이다 [5, 12]. 전체 이미지의 맥락과 화풍을 완벽하게 유지하면서 선택한 특정 영역(예: 모자를 왕관으로 변경, 불필요한 객체 삭제)에 대해서만 새로운 프롬프트를 적용해 자연스러운 합성과 수정을 진행할 수 있다 [2, 4, 13]. +* **아웃페인팅과 캔버스 확장 (Zoom Out & Pan):** 생성된 이미지의 구도가 너무 답답하거나 피사체가 과도하게 꽉 차게 잡혔을 때 시야를 넓히는 데 사용된다 [2, 4]. 'Zoom Out'은 이미지의 네 면을 모두 확장하여 배경 맥락을 더해주며, 'Pan'은 특정 방향으로 캔버스를 확장해 종횡비를 변경하면서도 기존의 환경과 조명을 논리적으로 유지해 준다 [4, 5]. +* **업스케일링 및 리믹스 (Upscale & Remix):** '업스케일(Upscale)'은 이미지의 크기를 키우고 미세한 디테일(피부 모공, 천의 질감 등)을 추가하여 최종적인 완성도를 높이는 작업이다 [4, 14]. '리믹스(Remix)' 기능은 기존 이미지의 생성 기반을 유지하면서 프롬프트 텍스트나 매개변수 설정을 변경하여 창의적인 방향성을 새롭게 유도할 때 활용된다 [15, 16]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[인페인팅 및 아웃페인팅 (Inpainting & Outpainting)]], [[반복적 정교화 (Iterative Refinement)]], [[네거티브 프롬프트 (Negative Prompt)]] +- **Projects/Contexts:** [[미드저니(Midjourney) V7 초안 기반 워크플로우]], [[AI 모델 사후 편집 도구 (Post-editing Tools)]] +- **Contradictions/Notes:** 초보자들은 하나의 길고 복잡한 프롬프트로 완벽한 이미지를 한 번에 생성하려 하지만, 소스는 숙련된 워크플로우일수록 단순한 프롬프트로 시작해 모델의 결과를 확인한 후, 인페인팅이나 리믹스 등 사후 편집 기능과 점진적 수정을 활용하는 '반복적인 과정'임을 일관되게 강조하고 있습니다 [3, 6, 8]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/AI 이미지 생성 파이프라인.md b/10_Wiki/Topics_Art/AI 이미지 생성 파이프라인.md new file mode 100644 index 00000000..29bcdd0d --- /dev/null +++ b/10_Wiki/Topics_Art/AI 이미지 생성 파이프라인.md @@ -0,0 +1,25 @@ +# [[AI 이미지 생성 파이프라인]] + +## 📌 Brief Summary +AI 이미지 생성 파이프라인은 사용자가 입력한 텍스트 프롬프트나 기존 이미지를 기계가 해석 가능한 데이터로 변환하여 시각적 결과물을 만들어내는 과정이다 [1, 2]. 이 과정의 핵심은 추상적인 텍스트 기호를 잠재 공간(Latent Space)의 구체적 좌표로 매핑하여 픽셀 단위로 구현하는 것이다 [2]. 주로 확산 모델(Diffusion Models), 생성적 적대 신경망(GANs), 변분 자동인코더(VAEs) 등의 기계 학습 아키텍처를 기반으로 작동하며, 특히 확산 모델은 무작위 노이즈에서 시작해 점진적으로 노이즈를 제거하며 사용자의 의도에 맞는 이미지를 형성한다 [3-6]. + +## 📖 Core Content +* **기술적 기반 및 주요 모델 구조** + AI 이미지 생성 파이프라인을 구성하는 핵심 아키텍처로는 GANs, VAEs, 그리고 확산 모델(Diffusion Models)이 있다 [3-5]. 최근 텍스트-이미지 생성에 가장 널리 쓰이는 확산 모델의 파이프라인은 텍스트 프롬프트를 데이터로 변환한 뒤, 무작위 노이즈 상태에서 출발하여 점진적으로 노이즈를 제거(Reverse Diffusion)해 나가는 방식으로 최종 이미지를 도출한다 [1, 6]. 2026년의 최신 모델들은 텍스트 인코더와 잠재 공간을 밀접하게 정렬시켜 프롬프트의 미세한 뉘앙스까지 픽셀 단위로 정확하게 구현하는 수준에 도달하였다 [2]. + +* **텍스트 프롬프트와 파이프라인의 상호작용** + 이미지 생성 파이프라인에서 프롬프트는 단순한 단어의 나열이 아니라, 인공지능의 신경망 구조에 부합하는 계층적 지시어 역할을 한다 [2]. 긍정 프롬프트(Positive Prompt)가 생성 과정의 타겟(Target) 역할을 수행한다면, 부정 프롬프트(Negative Prompt)는 회피 지도(Avoidance Map)로 작동하여 파이프라인이 원치 않는 실패 패턴으로 편향되는 것을 막아준다 [7, 8]. + +* **반복적 정교화와 파이프라인 확장** + 효과적인 생성 파이프라인은 단일 입력으로 끝나는 것이 아니라, 베이스 이미지(Base Image)를 생성한 후 점진적으로 수정해 나가는 반복적 정교화(Iterative Process)를 포함한다 [9]. 초기 결과물을 바탕으로 인페인팅(Inpainting), 아웃페인팅(Outpainting), 영역별 변주(Vary Region) 등의 파이프라인 단계를 거쳐 원본의 맥락을 유지하면서 세부 요소를 변경하거나 캔버스를 확장할 수 있다 [9, 10]. 또한, 기존 이미지를 기반으로 스타일을 변환하는 이미지 간 변환(Image-to-Image) 파이프라인을 통해 완전히 새로운 결과물을 만들어낼 수도 있다 [11, 12]. + +* **에이전틱 크리에이티브 및 연속적 워크플로우 (2026 트렌드)** + 최신 AI 이미지 생성 파이프라인은 단발성 생성에서 '연속적 창작 워크플로우'로 진화했다 [13]. 미드저니 V7의 드래프트 모드(Draft Mode)처럼 저비용·초고속으로 대량의 시안을 생성한 뒤 최적의 결과물을 고화질로 승격시키는 설계가 도입되었다 [13-15]. 더 나아가 생성된 정적 이미지를 비디오로 변환하는 단계까지 파이프라인이 매끄럽게 연결되며, 스타일 참조(--sref) 및 객체 참조(--oref) 기능을 통해 파이프라인 전반에 걸쳐 미학적 일관성을 유지할 수 있게 되었다 [13, 14, 16, 17]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Diffusion Models]], [[Latent Space]], [[Prompt Engineering]], [[Negative Prompt]] +- **Projects/Contexts:** [[Midjourney V7/V8 Alpha]], [[DALL-E 3]], [[Stable Diffusion]] +- **Contradictions/Notes:** 소스 39와 17에서는 미드저니(Midjourney) 파이프라인이 매개변수(Parameter)를 통한 수치 제어 및 고유의 예술적 개입에 의존한다고 설명하는 반면, 소스 20 및 21에서는 DALL-E 3의 파이프라인이 매개변수 대신 자연어에 크게 의존하며 GPT-4가 사용자의 프롬프트를 자동으로 상세하게 확장(Expansion)하여 이미지를 생성한다고 분석하여 플랫폼 간의 프롬프트 처리 파이프라인 설계에 차이가 있음을 보여준다 [18-20]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Agentic Creative.md b/10_Wiki/Topics_Art/Agentic Creative.md new file mode 100644 index 00000000..d219b10f --- /dev/null +++ b/10_Wiki/Topics_Art/Agentic Creative.md @@ -0,0 +1,25 @@ +# [[Agentic Creative]] + +## 📌 Brief Summary +에이전틱 크리에이티브(Agentic Creative)는 창작자가 대략적인 비전만 제시하면 AI 에이전트가 이를 최적의 기술적 언어(프롬프트)로 번역하여 대량의 시안을 자동으로 생성해내는 새로운 창작 및 프롬프트 엔지니어링 패러다임입니다 [1]. 인간이 이미지 생성을 위해 모든 구체적인 문장과 매개변수를 직접 작성해야 했던 기존의 단일 생성 방식에서 벗어나, AI가 실질적인 디지털 협력자로서 워크플로우를 주도하는 형태를 의미합니다 [1, 2]. 이 시대의 창작자는 세세한 프롬프트 텍스트 작성보다는 자신만의 고유한 스타일 코드를 구축하고 AI와의 협업 루틴을 고도화하는 데 집중하게 됩니다 [1]. + +## 📖 Core Content +* **프롬프트 작성 패러다임의 진화:** + 과거의 이미지 생성은 사용자가 모델의 구조에 맞춰 주체, 스타일, 구도, 조명, 기술적 매개변수 등 세밀한 키워드를 일일이 나열해야 하는 '단일 생성' 작업이었습니다 [3]. 하지만 2026년을 기점으로 인공지능 시각 언어 생성 기술은 인간이 텍스트 프롬프트를 모두 직접 작성하지 않아도 되는 '에이전틱 크리에이티브' 시대로 전환되고 있습니다 [1]. + +* **AI 에이전트의 역할과 번역 메커니즘:** + 에이전틱 AI는 단순한 도구를 넘어 콘텐츠 생성 및 개인화 작업을 자율적으로 담당하는 '디지털 동료'의 역할을 수행합니다 [2, 4]. 창작자가 추상적이고 대략적인 아이디어나 비전을 제시하면, AI 에이전트는 이를 각 이미지 생성 모델(예: Midjourney, DALL-E 3, Stable Diffusion)이 가장 잘 이해할 수 있는 정밀한 기술적 언어와 매개변수로 스스로 번역하여 대량의 최적화된 시안을 생성해 냅니다 [1]. + +* **창작자의 새로운 역할과 스타일 코드 구축:** + 에이전틱 크리에이티브 환경에서 인간 창작자의 역할은 개별 단어를 조합하는 것에서 벗어나, 방향성을 통제하고 미학적 결정을 내리는 쪽으로 이동합니다 [1]. 창작자는 전 세계 창작자들의 미적 코드를 활용해 자신만의 고유한 '스타일 코드'를 구축하고, AI와의 반복적인 협업 루틴을 정교화하는 데 더 많은 에너지를 집중해야 합니다 [1, 5]. + +* **콘텐츠 워크플로우의 확장:** + 이러한 에이전틱 AI의 도입은 개인이나 소규모 팀도 며칠 만에 대규모 프로젝트나 글로벌 캠페인을 기획하고 실행할 수 있도록 인간의 역량을 크게 확장시킵니다 [2]. 나아가 기업 수준에서는 선형적이고 리소스 집약적인 기존의 콘텐츠 제작 프로세스에서 벗어나, 에이전틱 AI를 통해 대규모 개인화를 지원하는 역동적인 콘텐츠 공급망 워크플로를 구축할 수 있게 됩니다 [6, 7]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링]], [[에이전틱 AI (Agentic AI)]], [[스타일 코드]] +- **Projects/Contexts:** [[2026년 인공지능 시각 언어 생성 패러다임 전환 및 연속적 창작 워크플로우]] +- **Contradictions/Notes:** 소스 내에서 상충되는 의견은 없으나, 에이전트가 프롬프트 작성을 상당 부분 자동화함에도 불구하고 높은 수준의 결과물을 얻기 위해서는 창작자 본인의 인문학적, 미학적 소양(사진학, 미술사, 조명학 등)과 고유한 스타일 구축이 역설적으로 더욱 중요해진다는 점이 강조됩니다 [1]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/CFG Scale.md b/10_Wiki/Topics_Art/CFG Scale.md new file mode 100644 index 00000000..359335bd --- /dev/null +++ b/10_Wiki/Topics_Art/CFG Scale.md @@ -0,0 +1,17 @@ +# [[CFG Scale]] + +## 📌 Brief Summary +CFG Scale(Classifier-Free Guidance Scale)은 Stable Diffusion과 같은 AI 이미지 생성 모델에서 결과물이 사용자의 텍스트 프롬프트를 얼마나 강하게 따를지를 제어하는 매개변수이다 [1, 2]. CFG Scale 값을 조절함으로써 이미지의 가변성(variability)을 부여하거나 사실성을 미세 조정할 수 있다 [2, 3]. 이 수치가 높아지면 모델이 프롬프트를 더 엄격하게 준수하지만, 동시에 부정 프롬프트(Negative prompt)의 영향력도 함께 커지게 된다 [1, 4]. + +## 📖 Core Content +* **프롬프트 지시의 강도 조절**: CFG Scale은 긍정 프롬프트(목표)와 부정 프롬프트(회피 맵)의 조건화를 모델이 얼마나 적극적으로 따를지(intensity of guidance)를 결정하는 역할을 한다 [4]. 일반적으로 7에서 15 사이의 수치가 사용되며, 이 값이 높을수록 생성된 이미지가 사용자의 프롬프트 지시를 더 엄격하게 따른다 [1]. +* **결과물의 다양성 및 사실성 제어**: 사용자는 샘플링 단계(sampling steps)와 함께 CFG Scale을 조절하여 AI 생성 결과물에 다양성(variability)을 도입할 수 있다 [2]. 또한, 이 매개변수를 적절히 미세 조정(fine-tuning)하는 것은 AI 생성 예술의 사실성을 향상시키는 필수적인 과정 중 하나이다 [3]. +* **부정 프롬프트(Negative Prompt)와의 상호작용**: CFG Scale은 부정 프롬프트가 이미지에 미치는 중요도를 변화시킨다 [4]. 이미지 생성 과정 중 샘플러(sampler)가 긍정 조건과 부정 조건을 균형 있게 맞추게 되는데, CFG Scale이 높아지면 이 두 조건 모두에 대한 준수 성향이 강해진다 [4]. 따라서 용어 선택이 부적절한 약한 부정 프롬프트를 사용한 상태에서 단순히 CFG Scale 수치만 높인다고 결과가 똑똑해지는 것은 아니며, 오히려 모델이 잘못된 지시를 더 강한 확신을 가지고 따르게 만들 수 있다 [4]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Stable Diffusion]], [[Negative Prompt]], [[Sampling Steps]], [[Parameter]] +- **Projects/Contexts:** [[스테이블 디퓨전(Stable Diffusion) 기반의 이미지 다양성 및 사실성 제어 워크플로우]] +- **Contradictions/Notes:** CFG Scale 수치를 높이는 것이 무조건적인 이미지 품질 향상을 보장하지 않는다. 부정 프롬프트가 부실하게 작성된 경우, CFG Scale을 높이면 오히려 잘못된 지시사항을 모델이 더 강하게 확신하고 따르게 되어 결과물이 훼손될 수 있다 [4]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/CFG 스케일 (CFG Scale).md b/10_Wiki/Topics_Art/CFG 스케일 (CFG Scale).md new file mode 100644 index 00000000..15840e8b --- /dev/null +++ b/10_Wiki/Topics_Art/CFG 스케일 (CFG Scale).md @@ -0,0 +1,25 @@ +# [[CFG 스케일 (CFG Scale)]] + +## 📌 Brief Summary +CFG 스케일(Classifier-Free Guidance Scale)은 Stable Diffusion과 같은 AI 이미지 생성 모델에서 결과물이 사용자의 텍스트 프롬프트 지시를 얼마나 강하게 따를지 결정하는 매개변수이다 [1, 2]. 긍정 프롬프트를 생성의 목표로, 부정 프롬프트를 회피 영역으로 삼을 때, CFG 스케일은 이 조건부여(conditioning)에 대한 가이드의 강도(intensity)를 제어하는 역할을 한다 [1, 3]. 적절한 샘플링 스텝(Sampling steps)과 함께 CFG 스케일을 조정함으로써 생성 결과물의 사실성을 높이거나 결과물에 다양성을 부여할 수 있다 [2, 4]. + +## 📖 Core Content +* **개념 및 작동 메커니즘**: + CFG 스케일은 Stable Diffusion에서 긍정적 프롬프트와 부정적 프롬프트의 조건 부여(conditioning)가 샘플러(sampler)를 통해 균형을 맞출 때 적용되는 값이다 [1]. 이 수치는 모델이 사용자의 텍스트 입력 조건에 얼마나 적극적으로(aggressively) 맞춰서 이미지를 생성할지 그 반영 정도를 결정한다 [1]. 사용자는 이 값을 조절함으로써 출력물에 변동성(variability)을 도입할 수 있다 [2]. + +* **개념적 멘탈 모델 (Mental Model)**: + 성공적인 이미지 생성 구조에서 긍정 프롬프트를 '목표(Target)'로, 부정 프롬프트를 '회피 지도(Avoidance map)'로 비유할 수 있으며, 이 체계 안에서 CFG 스케일은 모델을 이끄는 '가이드의 강도(Intensity of guidance)'로 기능한다 [3]. + +* **사실성 및 품질 최적화**: + AI가 생성한 아트의 사실성(realism)을 높이고 고품질 결과를 얻으려면 CFG 스케일과 샘플링 스텝(sampling steps)과 같은 매개변수를 적절히 미세 조정(fine-tuning)해야 한다 [4]. + +* **설정 시 주의사항 및 한계**: + 단순히 CFG 스케일 값을 높인다고 해서 이미지 품질이 지능적으로 향상되는 것은 아니다. 만약 잘못된 단어 선택으로 구성된 빈약한 부정 프롬프트를 작성한 상태에서 CFG 스케일만 높일 경우, 모델이 그 잘못된 지시사항을 더 강한 확신을 갖고(more confidently) 따르게 되는 역효과가 발생할 수 있다 [1]. + +## 🔗 Knowledge Connections +- **Related Topics:** `[[긍정 프롬프트 (Positive Prompt)]]`, `[[부정 프롬프트 (Negative Prompt)]]`, `[[샘플링 스텝 (Sampling Steps)]]`, `[[Stable Diffusion]]` +- **Projects/Contexts:** `[[AI 이미지 생성 (AI Image Generation)]]` +- **Contradictions/Notes:** 소스는 CFG 스케일을 높이는 것이 프롬프트의 질적 부족함을 보완해주지 않는다고 경고한다. 프롬프트의 용어 선택이 좋지 않은 상태에서 CFG 수치만 올리면, 모델이 나쁜 지침을 더 강하게 따르게 되어 결과가 훼손될 수 있다 [1]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/CFG 스케일(Classifier-Free Guidance Scale).md b/10_Wiki/Topics_Art/CFG 스케일(Classifier-Free Guidance Scale).md new file mode 100644 index 00000000..4656ed91 --- /dev/null +++ b/10_Wiki/Topics_Art/CFG 스케일(Classifier-Free Guidance Scale).md @@ -0,0 +1,20 @@ +# [[CFG 스케일(Classifier-Free Guidance Scale)]] + +## 📌 Brief Summary +CFG 스케일(Classifier-Free Guidance Scale)은 스테이블 디퓨전(Stable Diffusion)과 같은 AI 이미지 생성 모델에서 결과물이 사용자의 텍스트 프롬프트를 얼마나 엄격하게 따를지 제어하는 매개변수입니다 [1, 2]. 이는 생성 과정에서 긍정 프롬프트와 부정 프롬프트의 반영 강도(가이던스 강도)를 결정하는 역할을 합니다 [3]. CFG 스케일과 샘플링 스텝(sampling steps)을 세밀하게 조정함으로써 출력물에 다양성을 도입하고 생성된 이미지의 사실감을 높일 수 있습니다 [2, 4]. + +## 📖 Core Content +* **가이던스 강도와 프롬프트의 관계:** 긍정 프롬프트가 '목표(target)'이고 부정 프롬프트가 '회피 지도(avoidance map)'라면, CFG 스케일은 생성 과정의 '가이던스 강도(intensity of guidance)'로 작용합니다 [3]. 이는 모델이 프롬프트의 조건화(conditioning)를 얼마나 적극적으로 따를지를 결정합니다 [5]. +* **수치 설정에 따른 출력 변화:** + * **높은 CFG 값 (예: 7~15):** 모델이 입력된 프롬프트를 더욱 엄격하게 따르도록 만듭니다 [1]. + * **낮은 CFG 값 (예: 3.5 미만):** CFG 값을 너무 낮게 설정할 경우 끔찍하거나 거의 백지에 가까운(blank) 무의미한 결과물이 생성될 수 있습니다 [6]. +* **프롬프트 품질과의 상관관계:** CFG 스케일은 부정 프롬프트가 얼마나 강하게 영향을 미치는지도 변화시킵니다 [5]. 그러나 단어 선택이 잘못된 불완전한 부정 프롬프트를 작성했을 때, 단순히 CFG 스케일을 높인다고 해서 결과물이 똑똑하게 개선되지는 않습니다 [5]. 오히려 모델이 잘못된 지시사항을 더 강한 확신을 가지고 따르게 만드는 결과를 초래할 수 있습니다 [5]. +* **사실감 향상 및 미세 조정:** 스테이블 디퓨전 환경에서 AI 생성 아트의 사실감(realism)을 개선하고 결과물의 변동성을 조절하려면 샘플링 스텝과 함께 CFG 스케일을 최적화하여 세밀하게 조정(fine-tuning)해야 합니다 [2, 4]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[스테이블 디퓨전(Stable Diffusion)]], [[부정 프롬프트(Negative Prompt)]], [[매개변수(Parameters)]] +- **Projects/Contexts:** [[스테이블 디퓨전 모델의 미세 조정(Fine-tuning) 및 이미지 제어]] +- **Contradictions/Notes:** CFG 스케일을 높이면 모델이 프롬프트에 더 강하게 집중하지만, 프롬프트의 용어 선택 자체가 나쁘다면 CFG를 높이는 것만으로는 이미지가 개선되지 않으며 오히려 부실한 지시를 맹목적으로 따르는 역효과를 냅니다 [5]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/ChatGPT 통합 (ChatGPT Integration).md b/10_Wiki/Topics_Art/ChatGPT 통합 (ChatGPT Integration).md new file mode 100644 index 00000000..9d07b206 --- /dev/null +++ b/10_Wiki/Topics_Art/ChatGPT 통합 (ChatGPT Integration).md @@ -0,0 +1,26 @@ +# [[ChatGPT 통합 (ChatGPT Integration)]] + +## 📌 Brief Summary +ChatGPT 통합은 DALL-E 3와 같은 이미지 생성 모델이 ChatGPT 내부에 기본적으로 탑재되어 상호작용하는 방식을 의미합니다 [1]. 이 통합 환경에서 ChatGPT의 언어 모델은 사용자가 입력한 단순한 초기 프롬프트를 해석하고, 시각적 디테일이 추가된 훨씬 더 상세한 프롬프트로 자동 확장하여 이미지 결과물을 도출합니다 [1, 2]. 자연어를 통한 대화형 반복 작업이 가능해져 사용자 편의성이 크게 향상되었으나, 언어 모델의 자동화된 텍스트 확장이 이미지 생성 모델의 정밀한 통제를 방해하는 원인이 되기도 합니다 [3-5]. + +## 📖 Core Content + +* **프롬프트 자동 확장(Prompt Augmentation)과 편의성** + ChatGPT와의 통합이 가진 가장 큰 차별점은 프롬프트 작성의 진입 장벽을 대폭 낮춰준다는 것입니다 [1]. 사용자가 "미래의 AI 로봇 이미지를 만들어줘"처럼 단순한 문장을 입력하면, ChatGPT가 알아서 로봇의 형태, 질감, 배경, 분위기 등을 구체적으로 묘사하는 길고 상세한 프롬프트로 변환하여 DALL-E에 전달합니다 [2, 6]. 이를 통해 사용자는 복잡한 기술적 매개변수 없이 자연어 대화만으로도 이미지의 결과물을 반복적으로 수정하고 다듬을 수 있습니다 [3, 4]. + +* **언어 모델과 이미지 생성 모델 간의 구조적 충돌** + 하지만 ChatGPT(언어 모델)와 DALL-E(이미지 생성 모델)의 작동 방식 차이로 인해 비효율이 발생하기도 합니다 [5]. DALL-E는 짧고 명확하며 시각적인 묘사 중심의 정밀한 프롬프트를 선호하는 반면, ChatGPT는 불필요한 수식어를 덧붙이거나 문장을 시적으로 화려하게 장식(embellish)하려는 경향이 있습니다 [5, 7]. 또한 ChatGPT는 부정어(negations)나 가정법 형태를 제대로 처리하지 못하는 DALL-E의 기술적 한계나 약점을 내재적으로 인지하지 못하므로, 종종 DALL-E가 오해할 만한 프롬프트를 생성해 수동적인 수정이 필요해집니다 [5, 8]. + +* **거짓 시각적 피드백(False Visual Feedback)의 한계** + ChatGPT는 자신이 생성 명령을 내린 이미지의 실제 시각적 결과물을 눈으로 볼 수 없다는 한계가 있습니다 [5, 8]. 이로 인해 사용자가 "이미지에 텍스트를 넣지 마"라고 지시할 경우, 부정어를 잘 이해하지 못하는 이미지 모델 특성상 여전히 텍스트가 포함된 이미지가 생성될 수 있음에도, ChatGPT는 오류가 수정되었다고 주장하는 '가스라이팅' 혹은 거짓 시각적 피드백을 제공할 수 있습니다 [5, 8]. + +* **효과적인 제어 및 우회 프롬프팅 전략** + ChatGPT의 임의적인 프롬프트 확장을 방지하고 정밀한 제어를 유지하려면 특별한 프롬프트 전략이 필요합니다. 사용자들은 **"입력한 프롬프트를 전혀 변경하지 말고 그대로 사용할 것(Use the prompt unchanged as entered)"**이라고 명시적으로 지시하여 ChatGPT의 자동 확장을 막을 수 있습니다 [5, 7, 9]. 또한, 의도치 않은 충돌을 파악하고 디버깅하기 위해 ChatGPT에게 실제로 DALL-E로 전송한 정확한 원본 텍스트를 보여달라고 요구하는 것도 좋은 전략입니다 [10, 11]. + +## 🔗 Knowledge Connections +- **Related Topics:** `[[DALL-E 3]]`, `[[프롬프트 확장 (Prompt Expansion)]]`, `[[자연어 프롬프팅 (Natural Language Prompting)]]`, `[[거짓 시각적 피드백 (False Visual Feedback)]]` +- **Projects/Contexts:** `[[OpenAI 대화형 이미지 생성 워크플로우]]` +- **Contradictions/Notes:** 소스 1과 3은 ChatGPT의 자연어 처리와 프롬프트 자동 확장이 사용자의 수고를 덜어주고 결과물을 개선하는 긍정적인 '강점'이라고 강조하지만 [1, 2, 4], 소스 10과 11은 이러한 화려한 문장 확장이 오히려 DALL-E의 직관적이고 정확한 이미지 생성을 방해하며 프롬프트 제어력을 상실하게 만드는 '버그 및 문제점'으로 지적하며 상충된 시각을 보여줍니다 [5, 7, 8]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/DALL-E 3 대화형 프롬프트 생성.md b/10_Wiki/Topics_Art/DALL-E 3 대화형 프롬프트 생성.md new file mode 100644 index 00000000..36727baa --- /dev/null +++ b/10_Wiki/Topics_Art/DALL-E 3 대화형 프롬프트 생성.md @@ -0,0 +1,22 @@ +# [[DALL-E 3 대화형 프롬프트 생성]] + +## 📌 Brief Summary +DALL-E 3는 ChatGPT와 통합되어 있어 사용자가 대화형 상호작용을 통해 자연어로 이미지를 생성할 수 있는 AI 모델입니다 [1, 2]. 가장 큰 특징은 사용자의 간단한 입력을 언어 모델이 분석하여 풍부하고 상세한 프롬프트로 자동 확장(Augment)해 준다는 점입니다 [3, 4]. 하지만 이러한 챗봇의 자동 확장이 모델의 정밀한 제어를 방해할 수 있어, 사용자가 대화 과정에서 프롬프트 변경을 통제하는 명시적 지시를 내리는 전략이 중요합니다 [4, 5]. + +## 📖 Core Content +* **ChatGPT 통합과 자동 확장 메커니즘** + DALL-E 3는 ChatGPT 환경 내에서 매끄럽게 작동하며, 사용자가 자연어 문장으로 대화하듯 이미지를 요청할 수 있습니다 [2, 6, 7]. 사용자가 짧고 단순한 아이디어만 입력해도 ChatGPT의 언어 모델이 개입하여 이를 훨씬 더 상세하고 풍부한 시각적 묘사로 자동 확장(Expansion)한 후 최종 결과물을 생성합니다 [1, 3, 4, 8]. + +* **대화형 생성의 장점과 한계** + 대화형 방식을 통해 사용자는 반복적으로 프롬프트를 다듬을(Iterative refinement) 수 있으며, 모델이 안전성을 위해 자동으로 프롬프트를 수정하기도 합니다 [7]. 하지만 ChatGPT는 텍스트를 시적으로 윤색하거나 길게 꾸미려는 경향이 있는 반면, DALL-E 3 모델 자체는 명확하고 짧으며 정밀한 그래픽 중심의 지시를 가장 잘 처리합니다 [5, 9, 10]. 이로 인해 챗봇이 DALL-E가 처리하기 어려워하는 부정어나 조건부 형태를 임의로 추가할 수 있어, 생성된 프롬프트에 수동 교정이 필요한 경우가 빈번합니다 [11]. + +* **제어력 극대화를 위한 대화형 프롬프트 통제 전략** + ChatGPT의 불필요한 윤색과 과도한 프롬프트 확장을 방지하고 사용자의 원래 의도를 정확히 반영하기 위해서는 명시적인 통제가 필요합니다 [10]. 제어력을 높이려면 대화창에 "프롬프트를 변경하지 말고 그대로 사용할 것(Use the prompt unchanged as entered)"과 같은 명확한 지시어를 포함해야 합니다 [4, 9, 12]. 또한, 프롬프트를 절대 임의로 변경하지 않도록 사전에 설정된 커스텀 'My GPTs'를 활용하는 것도 좋은 해결책이 될 수 있습니다 [10]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[자연어 프롬프트 (Natural Language Prompt)]], [[프롬프트 자동 확장 (Automatic Prompt Expansion)]] +- **Projects/Contexts:** [[ChatGPT 통합 (ChatGPT Integration)]] +- **Contradictions/Notes:** 소스 [9], [5], [10]은 ChatGPT가 사용자의 짧은 프롬프트를 화려하고 길게 확장하려 하는 특성이 있는 반면, DALL-E 3 자체는 짧고 명확한 지시를 가장 효과적으로 처리하기 때문에 두 시스템의 특성 간에 충돌이 발생할 수 있다고 지적합니다. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/DALL-E 3.md b/10_Wiki/Topics_Art/DALL-E 3.md new file mode 100644 index 00000000..954d993f --- /dev/null +++ b/10_Wiki/Topics_Art/DALL-E 3.md @@ -0,0 +1,35 @@ +# [[DALL-E 3]] + +## 📌 Brief Summary +DALL-E 3는 OpenAI가 개발한 최신 텍스트 투 이미지(Text-to-Image) 생성 모델로, ChatGPT에 기본적으로 통합되어 사용자의 프롬프트를 상세하게 자동 확장(Expansion)하여 이미지를 생성하는 특징을 지닙니다 [1-5]. 이전 모델들과 달리 복잡한 자연어 문장을 깊이 있게 이해하며, 피사체 간의 관계, 배경 요소, 텍스트 렌더링에 있어 뛰어난 정확성을 자랑합니다 [3, 5-7]. 이미지 프롬프트 작성 시 키워드 나열보다는 구체적이고 명확한 자연어 묘사를 사용할 때 가장 효과적인 결과를 얻을 수 있는 플랫폼입니다 [8-10]. + +## 📖 Core 소스 Content + +* **자연어 기반의 프롬프트 구조** + * DALL-E 3는 쉼표로 구분된 키워드나 복잡한 매개변수를 나열하는 방식보다 자연어 형태의 완전한 문장으로 묘사할 때 가장 잘 작동합니다 [8, 9]. + * 가장 효과적인 프롬프트는 시적이거나 지나치게 장황한 언어보다는 명확하고 간결하며 그래픽 지향적인 언어(clear, precise, short, and graphic-oriented language)를 사용하는 것입니다 [10, 11]. + * 프롬프트의 순서가 결과물에 영향을 미치므로, 가장 중요한 피사체를 먼저 묘사하고 세부 사항, 분위기, 기술적 지시(예: 이미지 비율 등)의 순서로 작성하는 것이 유리합니다 [10, 11]. + +* **부정 지시어(Negative Prompt)의 한계와 긍정적 묘사** + * DALL-E 3는 "not", "no", "don't", "without" 등과 같은 부정형 지시어를 제대로 처리하지 못하며, 오히려 포함하지 말아야 할 요소를 이미지에 생성해 버리는 경향이 있습니다 [5, 12, 13]. + * 따라서 이미지에서 제외하고 싶은 요소가 있다면, 이를 부정하는 대신 원하는 속성을 긍정형 문장으로 명확히 묘사하여 AI의 방향을 유도해야 합니다 [5, 12, 13]. + +* **지시어 해석 오류 방지 기술** + * 프롬프트 작성 시 "이미지를 생성하라(create an image)"나 "장면(a scene)"과 같은 표현은 피해야 합니다 [12, 13]. DALL-E 3는 이를 문자 그대로 해석하여 캔버스에 그림을 그리는 손, 붓, 혹은 연극 무대 세트를 이미지 내에 임의로 추가할 수 있습니다 [12, 13]. + * 대신 이미지 자체의 시각적 요소만을 직접적으로 묘사해야 하며, 전체적인 분위기를 지시할 때는 "All is..."와 같은 표현을 사용하는 것이 안전합니다 [12, 13]. + +* **인-이미지 텍스트(In-Image Text) 생성** + * DALL-E 3는 이미지 안에 특정 문자, 로고, 간판 등을 정확하게 렌더링하는 데 탁월한 능력을 갖추고 있습니다 [3, 8, 14]. + * 원하는 텍스트가 있다면 프롬프트에 따옴표(" ")로 묶어 명시하면 높은 확률로 오타 없이 텍스트가 포함된 이미지를 생성할 수 있습니다 [5, 9, 15]. 창의적 한계를 넘었을 때 무의미한 텍스트가 임의로 삽입되는 오류가 발생할 수 있는데, 이때는 "문자를 읽지 못하는 관객을 위한 것(For unlettered viewers only)"과 같은 문구를 추가하여 억제할 수 있습니다 [16, 17]. + +* **프롬프트 확장(Prompt Expansion) 제어** + * ChatGPT에 내장된 DALL-E 3는 사용자의 짧은 텍스트를 더 흥미롭고 상세한 시각적 묘사로 자동 확장 및 윤색하는 기능이 있습니다 [1, 3, 5, 11]. + * 창작자가 의도한 정확한 구도와 제한적인 예술적 통제를 원할 경우, 프롬프트 끝에 "프롬프트를 변경하지 말고 입력한 그대로 사용할 것(Use the prompt unchanged as entered)"이라는 명시적 지시를 추가하여 모델의 개입을 차단해야 합니다 [5, 10, 11]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[자연어 프롬프트(Natural Language Prompt)]], [[부정 프롬프트(Negative Prompt)]], [[프롬프트 확장(Prompt Expansion)]], [[인-이미지 텍스트(In-Image Text)]] +- **Projects/Contexts:** [[ChatGPT 통합 기반 텍스트 투 이미지(Text-to-Image) 생성]], [[상호작용적 프롬프트 엔지니어링]] +- **Contradictions/Notes:** ChatGPT에 의한 프롬프트 자동 확장은 초기 아이디어를 구체화하는 데 유용하지만, 정확한 예술적 통제와 스타일 실험을 원하는 전문가에게는 오히려 방해 요소로 작용할 수 있습니다. 따라서 필요에 따라 "입력한 프롬프트 수정 금지"라는 지시를 통해 모델의 과도한 개입을 억제해야 한다는 점이 강조됩니다 [5, 10, 11]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Diffusion Models.md b/10_Wiki/Topics_Art/Diffusion Models.md new file mode 100644 index 00000000..d15f8aa0 --- /dev/null +++ b/10_Wiki/Topics_Art/Diffusion Models.md @@ -0,0 +1,20 @@ +# [[Diffusion Models]] + +## 📌 Brief Summary +디퓨전 모델(Diffusion Models)은 무작위 노이즈에서 시작하여 점진적으로 노이즈를 제거(denoising)함으로써 사용자가 입력한 텍스트 프롬프트에 부합하는 고품질의 새로운 이미지를 생성하는 생성형 AI 아키텍처이다 [1, 2]. 모델은 데이터에 가우시안 노이즈를 추가하는 순방향 과정과 이를 역으로 복원하는 역방향 과정을 학습하여 작동한다 [2, 3]. 이 반복적인 생성 메커니즘 덕분에 프롬프트 엔지니어는 매개변수를 활용하여 생성의 여러 단계에서 결과물을 세밀하게 제어할 수 있다 [2]. + +## 📖 Core Content +* **작동 원리 (순방향 및 역방향 확산):** 디퓨전 모델은 훈련 시 원본 데이터에 점진적으로 가우시안 노이즈를 다단계로 추가하여 순수 노이즈 상태로 저하시키는 '순방향 확산 과정(Forward Diffusion Process)'을 거친다 [3]. 이후 모델은 노이즈 추가 과정을 체계적으로 역전시켜 원본 입력을 재구성하는 '역방향 확산(Reverse Diffusion)'을 학습한다 [2]. 실제 이미지를 생성할 때는 텍스트 프롬프트를 데이터로 변환한 뒤, 무작위 노이즈에서 출발해 학습된 노이즈 제거 단계를 반복적으로 적용하며 텍스트 지시와 일치하는 최종 이미지를 점진적으로 형성한다 [1, 2]. +* **장점 및 한계:** 디퓨전 모델은 다양하고 정교한 고품질 이미지 샘플을 생성하는 데 탁월하며, 적대적 신경망(GAN)에 비해 훈련 과정이 매우 안정적이다 [2]. 특히 반복적인 생성 과정은 작업자가 최종 출력물을 픽셀 단위로 세밀하게 제어(Fine-Grained Control)할 수 있게 해준다 [2]. 그러나 이러한 노이즈 제거 과정으로 인해 계산 집약적이며 생성 속도가 상대적으로 느리고, 초보자가 하드웨어 수준에서 직접 로컬에 배포하고 구성하기 복잡하다는 단점이 있다 [4]. +* **이미지 프롬프트 작성과의 직접적 연관성:** + * 미드저니(Midjourney)나 스테이블 디퓨전(Stable Diffusion)과 같은 오늘날의 선도적인 텍스트-투-이미지(Text-to-Image) 도구들은 모두 디퓨전 모델을 기반으로 작동한다 [1, 3, 5]. + * 프롬프트 작성 시 이러한 디퓨전 메커니즘을 이해하면 결과물을 더 효과적으로 제어할 수 있다. 예를 들어, 미드저니에서는 `--stop` 매개변수를 사용해 이미지 렌더링 과정을 중간에 멈출 수 있는데, 이를 통해 디퓨전 프로세스의 흐름을 파악하거나 의도적으로 불완전하고 흐릿한 예술적 결과를 얻을 수 있다 [1, 6]. + * 스테이블 디퓨전에서 네거티브 프롬프트(Negative Prompt)는 단순히 완성된 이미지를 필터링하는 것이 아니라, 생성 중 노이즈 제거 경로(denoising path)에 영향을 주어 원치 않는 개념으로부터 디퓨전 프로세스를 멀어지게 하는 필수적인 가이드 시스템으로 작동한다 [7, 8]. 연구에 따르면 네거티브 프롬프트의 영향력은 초기보다는 특정 디퓨전 단계(예: step 10) 이후에 주로 나타나므로, 프롬프트 입력과 가중치 조절 시 이 프로세스적 특징을 고려해야 한다 [9]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Negative Prompts]], [[Stable Diffusion]], [[Midjourney]] +- **Projects/Contexts:** [[AI Image Generation Workflow]], [[Parameter Control]] +- **Contradictions/Notes:** 소스 문헌에 따르면 디퓨전 모델은 고품질의 세밀한 제어가 가능하고 훈련이 안정적이라는 훌륭한 강점이 있으나, 생성 속도가 빠른 GAN 등 다른 생성 모델 아키텍처에 비해 컴퓨팅 자원 소모가 크고 반복적인 노이즈 제거(denoising) 과정 때문에 생성 시간이 더 오래 걸린다는 근본적인 트레이드오프(trade-off)가 존재한다 [2, 4]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Lighting & Composition.md b/10_Wiki/Topics_Art/Lighting & Composition.md new file mode 100644 index 00000000..1dc79857 --- /dev/null +++ b/10_Wiki/Topics_Art/Lighting & Composition.md @@ -0,0 +1,5 @@ +**Exploring Composition Techniques** + +I am now delving into diverse compositional techniques like bird's eye and worm's eye views, low and high angles, and Dutch angles, along with over-the-shoulder perspectives. I'm also examining how lens choices (85mm, 50mm, 35mm, macro, tilt-shift, fisheye) influence the final image. I'm noting the impact of shallow depth of field, emphasizing visual focus, along with elements like symmetry, negative space, the rule of thirds, and centered compositions. I am considering these in the Korean report. + + diff --git a/10_Wiki/Topics_Art/LoRA.md b/10_Wiki/Topics_Art/LoRA.md new file mode 100644 index 00000000..87d08419 --- /dev/null +++ b/10_Wiki/Topics_Art/LoRA.md @@ -0,0 +1,18 @@ +# [[LoRA]] + +## 📌 Brief Summary +LoRA는 AI 이미지 생성, 특히 Stable Diffusion 환경에서 특정 스타일이나 피사체(subject)를 구현하기 위해 사용되는 맞춤형 훈련 모델(custom trained models)이다 [1]. 프롬프트 가중치(Weights)와 결합하여 사용되며, 기본 모델(base model)과 함께 적용하여 고유한 시각적 구성을 만들 수 있다 [2]. 안정적인 이미지 생성을 위해 일반적으로 0.7 정도의 가중치를 설정하는 것이 가장 안전한 방법으로 권장된다 [2]. + +## 📖 Core Content +- **특정 스타일과 피사체 적용**: 프롬프트 엔지니어링 과정에서 LoRA는 특정 스타일이나 주제를 정밀하게 표현하기 위해 맞춤형으로 훈련된 모델로 활용된다 [1]. +- **안전한 가중치(Weight) 설정 전략**: LoRA를 사용할 때 가장 안전한 시작점으로 여겨지는 가중치는 0.7이다 [2]. 이 수치는 기본 모델이 전반적인 아트 스타일을 설정할 수 있는 여지를 주면서도, LoRA가 제 역할을 할 수 있도록 균형을 맞춰준다 [2]. 매우 강렬한 효과를 원하는 것이 아니라면 가중치를 1 이상으로 설정하는 것은 권장되지 않는다 [2, 3]. 또한, LoRA에 음수 가중치(negative weights)를 사용하는 것은 예측할 수 없는 결과를 초래할 수 있어 위험하다 [4]. +- **다중 LoRA 결합 및 충돌 방지**: 한 번의 렌더링에 2~3개의 LoRA를 낮은 가중치로 안전하게 추가할 수 있으나, 시각적 개념이 어떻게 겹칠지 주의해야 한다 [5]. 예를 들어, '좀비' LoRA와 '기사의 투구' LoRA를 동시에 적용하면 두 모델이 얼굴 영역에 서로 영향을 주려고 충돌하여 이미지에 파란색 아티팩트(blue artifacts)가 발생할 수 있다 [5]. +- **오류 해결 및 디버깅**: LoRA 충돌이나 메모리 부족으로 인해 이미지가 렌더링 되지 않거나 피사체가 없는 단순한 다채로운 사각형(colorful square)으로 출력될 수 있다 [5, 6]. 이러한 문제가 발생하면 적용한 LoRA의 가중치를 낮추거나 겹치지 않는 다른 시각적 개념을 선택하여 천천히 아이디어를 발전시켜야 한다 [5, 6]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Stable Diffusion]], [[Prompt Weights]] +- **Projects/Contexts:** [[Custom Trained Models]] +- **Contradictions/Notes:** 여러 개의 LoRA를 겹쳐 사용할 수 있지만, 과도하게 겹칠 경우 시각적 개념 간의 충돌로 인해 아티팩트가 생기거나 서버 메모리 초과로 생성이 중단될 수 있으므로 낮은 가중치로 단순하게 시작하는 것이 유리하다 [5]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Midjourney.md b/10_Wiki/Topics_Art/Midjourney.md new file mode 100644 index 00000000..03ed789f --- /dev/null +++ b/10_Wiki/Topics_Art/Midjourney.md @@ -0,0 +1,35 @@ +# [[Midjourney]] + +## 📌 Brief Summary +Midjourney는 텍스트 프롬프트를 상세한 이미지, 일러스트레이션 및 예술 작품으로 변환해 주는 강력한 AI 기반 이미지 생성 도구이다 [1]. 주로 디스코드(Discord)의 `/imagine` 명령어 또는 전용 웹 인터페이스를 통해 사용되며, 최신 모델인 V6 및 V7을 바탕으로 영화 같은 조명과 예술적 미학이 돋보이는 고품질 결과물을 제공한다 [1-3]. 사용자는 텍스트뿐만 아니라 고유의 매개변수(Parameters)와 이미지 참조(Reference) 기능을 활용하여 결과물의 스타일, 구도, 일관성을 정교하게 제어할 수 있다 [4-6]. + +## 📖 Core Content +* **프롬프트 기본 구조 및 작성 팁** + * Midjourney의 효과적인 프롬프트는 일반적으로 `[주제(Subject)] + [행동/배경(Action/Setting)] + [스타일/아티스트(Style/Artist)] + [세부사항(Details/Modifiers)] + [--매개변수(Parameters)]`의 구조를 따른다 [6, 7]. + * 공식 문서에 따르면 짧고 명확한 프롬프트가 종종 최상의 결과를 내며, 불필요하게 긴 지시문이나 모호한 단어보다는 구체적인 동의어와 정확한 수량(예: "cats" 대신 "three cats")을 명시하는 것이 유리하다 [8, 9]. + * 원하지 않는 요소를 배제할 때는 "without" 같은 부정어보다 `--no` 매개변수(Negative Prompt)를 사용하는 것이 훨씬 효과적이다 [9, 10]. + +* **핵심 제어 매개변수 (Parameters)** + * **`--ar` (Aspect Ratio):** 이미지의 종횡비를 설정한다 (예: `--ar 16:9`, `--ar 3:2`) [4, 5, 11, 12]. + * **`--stylize` 또는 `--s`:** 모델의 기본 예술적 스타일을 얼마나 강하게 적용할지(0~1000) 결정한다. 값이 높을수록 미학적으로 과장되며, 낮을수록 입력한 텍스트에 문자 그대로 충실해진다 [4, 11-14]. + * **`--style raw`:** Midjourney 특유의 기본 미학(beautification)을 줄이고 보다 사진(photographic)에 가깝고 사실적인 결과물을 원할 때 추가한다 [11, 12, 15]. + * **`--chaos` 또는 `--c`:** 초기 생성되는 4장의 이미지 간의 다양성과 무작위성을 높인다(0~100) [11, 12, 16]. + +* **참조(Reference) 기능을 통한 일관성 유지** + * **캐릭터 참조 (`--cref`, `--cw`):** 특정 이미지 URL을 참조하여 캐릭터의 얼굴이나 의상 등 시각적 정체성을 여러 프롬프트에 걸쳐 일관되게 유지한다 [12, 14, 17-19]. + * **스타일 참조 (`--sref`, `--sw`):** 특정 이미지의 색상 팔레트, 무드보드, 예술적 스타일을 복제하여 새로운 프롬프트에 적용한다 [12, 17, 19-21]. + * **옴니 참조 (`--oref`):** V7 모델에서 도입된 기능으로, 캐릭터뿐만 아니라 사물의 고유한 형태적 정체성까지 기억해 다른 환경에서도 동일한 피사체를 재현할 수 있다 [19, 20, 22-24]. + +* **수정 및 최신 워크플로우 (V7 기준)** + * **드래프트 모드 (`--draft`):** V7에 추가된 기능으로, 표준 생성보다 10배 빠르고 훨씬 적은 GPU 비용으로 시안을 대량 생성한다. 먼저 저비용으로 여러 프롬프트와 구도를 테스트한 뒤, 마음에 드는 시안을 고화질로 승격시키는 효율적인 작업 방식이 권장된다 [20, 25-28]. + * **Vary Region (인페인팅):** 생성된 이미지의 전체적인 틀은 유지한 채, 선택한 특정 영역(예: 모자를 왕관으로 변경)에 대해서만 새로운 프롬프트를 적용하여 부분 수정할 수 있다 [29-37]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Negative Prompt]], [[Style Reference]], [[Parameter]], [[Prompt Structure]] +- **Projects/Contexts:** [[V7 Draft Mode Workflow]], [[Image Inpainting (Vary Region)]], [[Character Consistency]] +- **Contradictions/Notes:** + * Midjourney는 예술적이고 영화적인 시각화에는 압도적인 성능을 보이지만, 정확한 타이포그래피(텍스트 삽입)나 엄격한 레이아웃 제어에서는 DALL-E 3에 비해 약점이 있다는 평가가 존재한다 [38-40]. (다만, 최근 V7에서는 따옴표 안의 텍스트를 99% 정확하게 렌더링하는 기능이 크게 향상되었다 [22]). + * 공식 문서에서는 "짧고 단순한 프롬프트"가 기본 미학을 살리는 데 좋다고 권장하지만 [8, 41], 동시에 상업적이고 통제된 결과물을 얻기 위해서는 주제, 환경, 조명, 스타일 등을 계층적으로 조합하는 구체적인 프롬프트 구조가 필수적이라는 조언이 공존한다 [6, 7, 25, 42]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Model Parameters.md b/10_Wiki/Topics_Art/Model Parameters.md new file mode 100644 index 00000000..3105b49d --- /dev/null +++ b/10_Wiki/Topics_Art/Model Parameters.md @@ -0,0 +1,28 @@ +# [[Model Parameters]] + +## 📌 Brief Summary +모델 매개변수(Model Parameters)는 AI 이미지 생성 시 최종 결과물의 형태, 해상도, 스타일, 무작위성 등을 미세 조정하기 위해 프롬프트 끝에 추가하는 명령어 또는 제어 수치입니다 [1-3]. 미드저니(Midjourney)에서는 프롬프트 텍스트 뒤에 하이픈 두 개(`--`)를 붙이는 방식으로 종횡비나 참조 모델 버전을 설정하며, 스테이블 디퓨전(Stable Diffusion)에서는 CFG 스케일 및 샘플링 스텝 등을 조정해 변화를 줍니다 [2, 4]. 이를 통해 사용자는 단순한 텍스트 묘사를 넘어 AI의 렌더링 방식과 예술적 개입 강도를 정밀하게 제어할 수 있습니다 [2, 5, 6]. + +## 📖 Core Content + +* **매개변수의 역할 및 기본 문법:** 매개변수는 프롬프트 텍스트 뒤에 위치하여 이미지의 생성 방식을 제어하는 특수 명령어입니다 [2, 3]. 미드저니의 경우, 텍스트 입력을 마치고 띄어쓰기를 한 뒤 하이픈 두 개(`--`)로 시작하는 형태(예: `--ar 16:9`)로 작성해야 합니다 [7]. 매개변수에는 구두점(콤마 등)을 사용하지 않아야 모델이 정상적으로 인식합니다 [7]. +* **이미지 규격 및 렌더링 품질 제어:** + * `--aspect` 또는 `--ar`: 이미지의 가로세로 비율(예: 1:1, 16:9, 9:16)을 결정합니다 [5, 8]. + * `--quality` 또는 `--q` (예: 0.25, 0.5, 1): 렌더링에 소요되는 GPU 시간과 디테일 수준을 설정합니다 [5, 9]. + * `--stop` (10-100): 렌더링을 중간 단계에서 멈춰 흐릿하거나 미완성된 효과를 낼 수 있습니다 [5, 9]. +* **스타일 및 창의성(무작위성) 조절:** + * `--stylize` 또는 `--s` (0-1000): 모델 고유의 예술적 개입 강도를 조절합니다. 값이 높을수록 미학적이고, 낮을수록 텍스트 지시에 더 충실한 결과를 냅니다 [5, 10, 11]. + * `--chaos` 또는 `--c` (0-100): 초기 결과물 간의 무작위성과 다양성을 높여 서로 전혀 다른 느낌의 이미지를 얻을 때 사용합니다 [5, 12]. + * `--weird` 또는 `--w` (0-3000): 기발하고 예상치 못한 엉뚱한 시각적 요소를 도입합니다 [5]. + * `--style raw`: 미드저니 특유의 미학적 기본값을 줄이고 보다 사진에 가까운 형태(사실주의)를 얻기 위해 사용합니다 [5, 13]. +* **모델 버전 및 생성 모드 지정:** `--version` 또는 `--v` (예: `--v 6.0`, `--v 7`)를 사용해 특정 AI 모델 버전을 지정하거나, `--niji`를 통해 애니메이션 미학에 특화된 모델을 호출할 수 있습니다 [5, 14]. 특히 미드저니 V7에 도입된 `--draft` 매개변수는 GPU 비용을 절반으로 줄이고 10배 빠르게 시안을 생성하여 초기 아이디어 탐색(Ideation) 작업에 매우 유용합니다 [8, 15]. +* **참조 및 시각적 일관성 제어:** 특정 이미지의 톤이나 캐릭터를 유지하기 위해 `--sref`(스타일 참조), `--cref`(캐릭터 참조), `--oref`(옴니 참조) 매개변수 뒤에 기존 이미지 URL을 첨부하여 사용합니다 [10, 11, 16, 17]. 이와 함께 `--sw`(스타일 가중치), `--cw`(캐릭터 가중치)를 설정해 해당 참조 이미지가 결과물에 미치는 영향력을 0~1000 수치로 세밀하게 제어할 수 있습니다 [5, 11, 16]. +* **스테이블 디퓨전의 제어 매개변수:** 스테이블 디퓨전에서는 텍스트 접미사 형태의 매개변수 외에도 샘플링 스텝(Sampling steps)과 CFG 스케일(Classifier-Free Guidance Scale)이라는 제어 수치를 활용해 프롬프트 준수 강도를 조정합니다 [4, 18]. 또한 `(word:1.5)`나 `[word]`와 같이 괄호와 수치를 활용한 프롬프트 가중치(Prompt Weights) 문법을 통해 프롬프트 내 세부 요소들의 비중을 직접 매개변수화합니다 [19-21]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Midjourney]], [[Stable Diffusion]], [[Prompt Weight]], [[Negative Prompt]], [[CFG Scale]] +- **Projects/Contexts:** [[AI 이미지 생성 파이프라인]], [[일관된 캐릭터 및 스타일 구축]] +- **Contradictions/Notes:** 미드저니와 스테이블 디퓨전은 매개변수와 특수 기호(가중치)를 통해 렌더링을 정밀하게 통제하지만, DALL-E 3는 이러한 기술적 매개변수(예: `--ar 16:9`나 `--v 7`)보다는 자연어 대화형 서술("가로 형태의 이미지")에 더 잘 반응합니다. DALL-E 3에 인위적인 매개변수나 복잡한 문법을 삽입할 경우 모델이 이를 불필요한 텍스트로 오인하여 결과 이미지 안에 글자로 렌더링 해버릴 수 있습니다 [22, 23]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Negative Prompt.md b/10_Wiki/Topics_Art/Negative Prompt.md new file mode 100644 index 00000000..60256cac --- /dev/null +++ b/10_Wiki/Topics_Art/Negative Prompt.md @@ -0,0 +1,17 @@ +# [[Negative Prompt]] + +## 📌 Brief 부문 +부정 프롬프트(Negative Prompt)는 AI 이미지 생성 모델에게 결과물에 나타나지 말아야 할 요소들을 지시하는 제어 도구이다 [1]. 이는 단순히 이미지가 생성된 후 필터링을 하는 것이 아니라, 디퓨전(Diffusion) 과정 자체에서 원치 않는 개념(예: 흐릿함, 왜곡된 인체 구조, 워터마크 등)으로부터 멀어지도록 가이던스를 제공한다 [1, 2]. 긍정 프롬프트(Positive prompt)가 이미지가 도달할 '목적지'를 정의한다면, 부정 프롬프트는 피해야 할 '경계'를 설정하여 고품질의 결과물을 안정적으로 얻기 위해 필수적으로 활용된다 [3, 4]. + +## 📖 Core Content +- **기능과 원리:** 부정 프롬프트는 주로 모델이 가진 편향성이나 반복되는 결함을 방지하는 데 사용된다 [5]. 긍정 프롬프트를 통해 원하는 형태를 묘사하더라도 발생할 수 있는 잉여 사지(extra limbs), 흐릿한 화질(blurry), 워터마크(watermark) 등 시각적 실패 요소를 명시적으로 차단함으로써, 불필요한 이미지 렌더링 횟수(rerolls)를 줄이고 품질을 최적화한다 [1, 2, 6, 7]. +- **작성 방법 및 가중치 활용:** 효과적인 부정 프롬프트를 작성하려면 포괄적이고 모호한 단어(예: "bad", "ugly")보다는 명확한 명사나 시각적 결함(예: "extra fingers", "misaligned eyes")을 구체적으로 지목해야 한다 [8, 9]. 또한 괄호나 대괄호를 이용한 문법(예: `(blurry:1.5)`, `[dog]`)을 통해 특정 단어를 회피하려는 강도(가중치)를 조절할 수 있다 [9, 10]. 단, 과도한 가중치나 불필요하게 긴 부정 프롬프트는 이미지의 의도된 스타일이나 인체 구조를 오히려 망칠 수 있으므로, 반복되는 오류를 진단한 후 최소한의 타겟팅된 단어만 사용하는 것이 권장된다 [9, 11-13]. +- **플랫폼 및 모델별 특성:** 스테이블 디퓨전(Stable Diffusion) 생태계에서는 부정 프롬프트가 필수적인 최적화 도구로 자리 잡고 있다 [2, 14]. 모델 버전에 따라서도 반응이 다른데, SD 1.5는 긴 부정 프롬프트 목록에도 잘 반응하지만, SDXL이나 Flux 같은 최신 모델일수록 길고 방대한 목록보다는 직면한 문제에 맞춘 간결하고 선별적인 부정 프롬프트에 더 잘 반응한다 [15, 16]. 반면 DALL-E 3 모델은 "not", "no", "without"과 같은 부정 지시어를 논리적으로 잘 처리하지 못해, 명시된 단어를 오히려 이미지에 생성해버리는 경향이 있으므로 부정 프롬프트 대신 긍정적인 특성을 직접 묘사하는 방식으로 접근해야 한다 [17-19]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Positive Prompt]], [[Stable Diffusion]], [[CFG Scale]], [[Prompt Weighting]] +- **Projects/Contexts:** [[AI 이미지 생성 (AI Image Generation)]], [[프롬프트 엔지니어링 (Prompt Engineering)]] +- **Contradictions/Notes:** 스테이블 디퓨전과 같은 모델에서는 부정 프롬프트를 통한 결함 통제가 고품질 이미지 생성에 매우 효과적이고 필수적이지만 [2, 14], DALL-E 3와 같은 텍스트 의존도가 높은 대화형 AI 모델에서는 부정 지시어("not", "without" 등)를 오인하여 원치 않는 요소를 도리어 생성하는 한계가 존재하므로 플랫폼별로 접근 방식을 달리해야 한다 [17-19]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Negative Prompts.md b/10_Wiki/Topics_Art/Negative Prompts.md new file mode 100644 index 00000000..96e15609 --- /dev/null +++ b/10_Wiki/Topics_Art/Negative Prompts.md @@ -0,0 +1,31 @@ +# [[Negative Prompts]] + +## 📌 Brief Summary +네거티브 프롬프트(Negative Prompts)는 AI 이미지 생성 모델에게 최종 결과물에 나타나지 말아야 할 요소들을 명시적으로 지시하는 텍스트 명령어입니다[1]. 이는 단순히 이미지를 다듬는 사후 필터가 아니라, 이미지 생성 과정(디퓨전) 중 원치 않는 개념이나 모델의 편향으로부터 방향을 틀도록 안내하는 핵심 제어 시스템 역할을 합니다[1, 2]. 긍정 프롬프트가 도달해야 할 목표를 정의한다면, 네거티브 프롬프트는 피해야 할 경계를 설정하여 고품질의 일관된 이미지를 도출하고 재작업의 낭비를 줄이는 데 필수적인 기법입니다[3-5]. + +## 📖 Core Content +* **작동 원리 및 중요성:** + * 네거티브 프롬프트는 긍정 프롬프트(목표)와 함께 작동하여 피해야 할 지도(Avoidance map)를 모델에 제공합니다[3, 4]. + * Stable Diffusion 2.0 이상의 모델에서는 네거티브 프롬프트를 통해 원하는 시각적 결과물에 도달하기 위한 반복 작업(Reroll)을 최대 80%까지 줄일 수 있습니다[5]. + * 특히 모델이 학습 데이터로부터 자연스럽게 가지게 된 편향(예: 복잡한 자세에서의 여분의 팔다리, 원치 않는 텍스트, 플라스틱 같은 피부 질감 등)을 억제하고 일관된 품질을 얻는 데 효과적입니다[2, 6]. + +* **작성 전략 및 구체성:** + * 광범위하고 모호한 단어(예: "bad", "ugly")보다는 발생하는 문제에 대한 구체적인 시각적 결함(예: "extra fingers", "misaligned eyes", "watermark")을 명시하는 것이 70% 이상의 실패를 줄이고 정밀도를 두 배로 높이는 핵심입니다[7, 8]. + * 문제가 있는 이미지를 먼저 진단한 뒤에, 반복적으로 발생하는 결함을 해결하기 위한 최소한의 명확한 단어만을 사용하는 것이 좋습니다[8-10]. + +* **가중치 활용과 한계:** + * 원치 않는 요소가 계속 나타날 때는 `(blurry:1.3)`과 같이 괄호와 숫자를 사용해 가중치를 주어 모델이 해당 개념을 회피하도록 강하게 유도할 수 있습니다[11]. + * 하지만 길고 방대한 양의 부정적 단어를 붙여넣기보다는, 5~10개의 타겟화되고 가중치가 부여된 용어만을 전략적으로 사용하는 것이 이미지 충실도를 25% 향상시키고 개념의 혼란을 막는 데 유리합니다[7, 12]. + +* **플랫폼 및 모델별 접근법:** + * **Stable Diffusion:** 별도의 네거티브 프롬프트 입력란을 활용하여 원치 않는 요소(예: deformed hands, low quality)를 차단하는 것이 표준 워크플로우입니다[13, 14]. + * **Midjourney:** `--no` 파라미터를 사용하여 프롬프트 끝에 원치 않는 요소를 배제합니다(예: 나무를 빼고 싶다면 `--no trees` 입력)[15, 16]. + * **DALL-E 3:** "not", "no", "without"과 같은 부정어 지시를 잘 이해하지 못하고, 오히려 프롬프트에 포함된 해당 요소를 이미지에 생성해 버리는 취약점이 있습니다. 따라서 피하고 싶은 것을 직접 언급하기보다는, 원하는 상태를 긍정적인 언어로 묘사하여 우회해야 합니다[17-19]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Positive Prompts]], [[CFG Scale]], [[Prompt Weights]] +- **Projects/Contexts:** [[Stable Diffusion Image Optimization]], [[DALL-E 3 Negation Handling]] +- **Contradictions/Notes:** Stable Diffusion과 Midjourney(파라미터 `--no` 활용)는 원치 않는 요소를 텍스트로 명시하여 완벽하게 배제하는 네거티브 프롬프팅이 잘 작동하지만, DALL-E 3는 "no", "without" 등의 부정어 처리에 취약하여 배제하려는 요소가 오히려 이미지에 포함될 확률이 높으므로 플랫폼 간 프롬프트 전략에 상반된 접근이 필요합니다[9, 16-19]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Positive Prompt.md b/10_Wiki/Topics_Art/Positive Prompt.md new file mode 100644 index 00000000..cc7d42ae --- /dev/null +++ b/10_Wiki/Topics_Art/Positive Prompt.md @@ -0,0 +1,25 @@ +# [[Positive Prompt]] + +## 📌 Brief Summary +긍정 프롬프트(Positive Prompt)는 AI 이미지 생성 시 이미지에 포함되기를 원하는 모든 세부 사항(주체, 매체, 스타일, 조명 등)을 명시하는 명령어입니다 [1]. 흔히 단순히 '프롬프트(Prompt)'라고 불리며, AI 모델이 생성해야 할 시각적 목표와 목적지를 정의하는 역할을 합니다 [1, 2]. 프롬프트 내에 원하지 않는 요소를 부정어와 함께 적을 경우 오히려 해당 요소가 생성되는 역효과가 날 수 있으므로, 오직 원하는 속성만을 긍정적인 언어로 묘사하는 것이 중요합니다 [3, 4]. + +## 📖 Core Content +* **긍정 프롬프트의 역할** + 긍정 프롬프트는 AI가 도달해야 할 '목표(target)' 및 '도착지(destination)'를 설정하는 역할을 합니다 [2, 5]. 반면 네거티브 프롬프트는 피해야 할 '경계(boundaries)'를 정의하므로 두 프롬프트는 서로 명확히 구분되는 역할을 수행합니다 [2]. 실질적으로 사용자는 긍정 프롬프트를 통해 보고 싶은 것을 묘사하고, 네거티브 프롬프트를 통해 그것을 망치는 요소들을 차단하게 됩니다 [2]. + +* **핵심 구성 요소** + 긍정 프롬프트는 일반적으로 주체(Subject), 매체(Medium), 스타일(Style), 구도(Composition), 색상 및 조명(Color & Lighting) 등의 세부 정보로 구성됩니다 [1]. 하지만 모든 요소가 반드시 포함되어야 하는 것은 아니며, 사용자의 의도에 따라 주체와 매체만 존재하거나 혹은 주체가 생략된 프롬프트를 작성할 수도 있습니다 [1]. + +* **구조화된 작성법 (Syntax & Structure)** + 긍정 프롬프트를 작성할 때는 구조를 갖추고 관련된 토큰(Token)들을 그룹화하여 배치하는 것이 권장됩니다 [6]. 관련 키워드들이 프롬프트의 처음과 끝으로 멀리 떨어져 있으면 AI가 이를 누락할 수 있기 때문입니다 [6]. 효율적인 구문의 예시로는 첫 번째 섹션에 주체와 배경(Subject & Setting)을, 두 번째 섹션에 색상·스타일·조명을, 세 번째 섹션에 구도 및 추가 수식어를 묶어서 배치하는 방식이 있습니다 [7, 8]. + +* **부정어 사용의 한계와 주의점** + 긍정 프롬프트 내에 "원하지 않는 것(예: not, no, without)"을 서술하면 오히려 그 요소가 이미지에 나타나는 역효과가 발생할 수 있습니다 [3, 4]. 특히 DALL-E 3와 같은 시스템은 부정어를 잘 처리하지 못하므로, 피하고 싶은 요소를 적기보다는 원하는 긍정적 속성을 직접적이고 명확하게 묘사하여 AI를 유도해야 합니다 [4, 9]. Stable Diffusion과 같은 모델에서는 이러한 역효과를 방지하기 위해 긍정 프롬프트 대신 전용 네거티브 프롬프트(Negative Prompt) 입력란을 사용합니다 [3]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Negative Prompt]], [[Prompt Structure]], [[Token]] +- **Projects/Contexts:** [[Stable Diffusion]], [[DALL-E 3]], [[Civitai]] +- **Contradictions/Notes:** 소스에 따르면, 긍정 프롬프트 내에서 특정 요소를 배제하기 위해 부정적 지시어("~없는", "no" 등)를 사용하면 AI가 이를 오인하여 오히려 해당 요소를 결과물에 추가하는 모순적 결과가 발생합니다 [3, 4, 9]. 이를 해결하기 위해 긍정 프롬프트에는 철저히 원하는 바만 서술하고, 배제할 요소는 네거티브 프롬프트를 활용하는 것이 필수적입니다 [3, 4]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Prompt Engineering.md b/10_Wiki/Topics_Art/Prompt Engineering.md new file mode 100644 index 00000000..48797f1b --- /dev/null +++ b/10_Wiki/Topics_Art/Prompt Engineering.md @@ -0,0 +1,24 @@ +# [[Prompt Engineering]] + +## 📌 Brief Summary +프롬프트 엔지니어링은 인간의 추상적인 의도와 아이디어를 인공지능이 이해할 수 있는 구체적인 시각적 기호로 번역하는 정교한 작업이다 [1, 2]. 단순한 단어의 나열을 넘어 주체, 매체, 스타일, 조명, 기술적 매개변수 등을 전략적으로 조합하여 AI 모델(Midjourney, DALL-E 3, Stable Diffusion 등)을 제어하는 청사진 역할을 한다 [3, 4]. 훌륭한 프롬프트는 AI 시스템의 고유한 '방언'과 아키텍처를 이해하고 이를 바탕으로 원하는 시각적 결과물을 정확하게 도출해 내는 과정이다 [5, 6]. + +## 📖 Core Content +* **프롬프트의 핵심 구성 요소:** 고품질의 이미지를 생성하는 프롬프트는 일반적으로 4~5가지 계층 구조를 갖는다 [2, 7]. 먼저 명확한 초점이 되는 '주체(Subject)'를 설정하고, 주체가 존재하는 '환경/맥락(Context/Environment)'을 부여한다 [4, 8, 9]. 이후 '스타일 및 매체(Style & Medium)'를 통해 유화, 3D 렌더링, 사진 등 예술적 형식을 결정하며, 마지막으로 피사체를 비추는 '조명(Lighting)'과 '카메라 앵글(Camera Perspectives)' 등 기술적 디테일을 추가하여 완성도를 높인다 [4, 9, 10]. + +* **주요 AI 모델별 프롬프트 메커니즘:** + * **Midjourney (미드저니):** 시네마틱한 완성도와 예술적 미학이 강점이며 [11, 12], `/imagine` 명령어 뒤에 텍스트를 입력하고 `--ar`(종횡비), `--v`(버전), `--stylize`(예술적 강도)와 같은 고유의 기술 매개변수(Parameters)를 덧붙여 제어한다 [13-16]. 최신 버전(V6, V7)에서는 `--sref`(스타일 참조), `--cref`(캐릭터 참조), `--oref`(옴니 참조) 등을 통해 이미지의 일관성과 정체성을 완벽하게 유지할 수 있다 [12, 17-20]. + * **DALL-E 3:** ChatGPT의 언어 모델(LLM)과 통합되어 대화형 자연어 지시를 매우 잘 이해한다 [21-23]. 사용자의 짧은 프롬프트를 자동으로 확장하여 배경과 피사체 간의 관계를 상세히 묘사하므로, 이미지 내 텍스트 렌더링이나 복잡한 맥락 구현에 탁월하다 [11, 23, 24]. + * **Stable Diffusion (스테이블 디퓨전):** 쉼표로 구분된 태그(키워드) 방식의 문법을 사용하며, 특정 단어의 중요도를 괄호와 숫자(예: `(keyword:1.2)`)로 조절하는 가중치(Prompt Weights) 제어가 필수적이다 [25-27]. 특히, 이미지 생성 과정에서 배제할 요소를 지정하는 부정 프롬프트(Negative Prompt)를 통해 해부학적 오류(예: 일그러진 손가락)나 원치 않는 스타일을 방지하는 것이 핵심 기술이다 [28-30]. + +* **프롬프트 작성의 최적 실무 (Best Practices):** + * **구체적이고 명확한 언어 사용:** 모호한 형용사나 상충되는 지시어(예: "사실적인 애니메이션")를 피하고, "85mm 렌즈", "골든 아워", "치아로스쿠로(Chiaroscuro)" 등 전문적인 시각/조명 용어를 사용해야 모델이 정확한 픽셀 패턴을 도출할 수 있다 [31-34]. + * **반복적 정교화 (Iterative Refinement):** 한 번에 완벽한 결과를 기대하기보다는, 간단한 뼈대 프롬프트로 시작하여 결과를 분석한 뒤 필요한 디테일을 추가하거나 수정해 나가는 점진적 개선 과정이 중요하다 [35-38]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Midjourney Parameter]], [[Stable Diffusion Weights]], [[Negative Prompt]], [[DALL-E 3 Natural Language]], [[Lighting and Composition]] +- **Projects/Contexts:** [[AI Image Generation Workflow]], [[Agentic Creative Era]] +- **Contradictions/Notes:** DALL-E 3 모델은 "no"나 "without" 같은 부정 지시어(Negations)를 잘 처리하지 못해 원치 않는 요소를 오히려 생성할 수 있으므로 긍정형 문장 묘사가 필수적이다 [23, 39, 40]. 반면, Stable Diffusion은 별도의 부정 프롬프트(Negative Prompt) 기능을 사용하여 불필요한 요소(예: 손가락 변형, 워터마크)를 명시적으로 차단하는 것이 이미지 품질을 좌우하는 필수적인 제어 시스템으로 작동한다 [27, 29, 30]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Prompt Weight.md b/10_Wiki/Topics_Art/Prompt Weight.md new file mode 100644 index 00000000..ec19f6dc --- /dev/null +++ b/10_Wiki/Topics_Art/Prompt Weight.md @@ -0,0 +1,18 @@ +# [[Prompt Weight]] + +## 📌 Brief Summary +Prompt Weight(프롬프트 가중치)는 AI 이미지 생성 시 텍스트 프롬프트 내 특정 단어나 구문의 반영 강도를 조절하는 기법이다 [1]. 기본값은 1이며, 수치를 높이거나 낮추어 이미지 내 특정 요소의 비중을 세밀하게 제어할 수 있다 [1, 2]. 스테이블 디퓨전(Stable Diffusion)의 괄호 및 숫자 표기법과 미드저니(Midjourney)의 `::` 매개변수 등 AI 모델마다 서로 다른 문법 체계를 지니고 있다 [3, 4]. + +## 📖 Core Content +* **가중치의 개념 및 기본 원리:** 가중치(Weight)는 프롬프트에서 특정 요소에 대한 모델의 주목도를 상대적으로 지정하는 수단이다 [2, 5]. 기본값은 1이며, 1보다 큰 값을 주면 요소가 강조되고 0에서 0.9 사이의 값을 주면 비중이 축소된다 [1, 6]. 그러나 가중치를 너무 높게 설정(예: 2.0 이상)하면 이미지 품질이 저하되거나 렌더링에 오류가 발생할 위험이 있으므로 주의가 필요하다 [1, 2, 7]. 일반적으로 가장 안전하게 시작할 수 있는 가중치는 0.7 수준이며, 이는 기본 모델의 화풍을 해치지 않으면서 특정 요소를 반영하는 데 효과적이다 [6]. +* **스테이블 디퓨전(Stable Diffusion)의 가중치 문법:** 일반적으로 `(단어:수치)` 형태를 사용하여 가중치를 명시한다(예: `(dog:1.1)`) [8]. 괄호 없이 `dog:1.6`과 같이 입력하면 파서(Parser)가 이를 제대로 인식하지 못한다 [8, 9]. 또한 `+`나 `-` 기호를 통해 강도를 조절하는 문법도 널리 사용되는데, `+`는 1.1배, `++`는 1.1의 제곱, `-`는 0.9배의 가중치를 의미한다 [10]. 부정 프롬프트(Negative Prompt)에서는 `[단어]` 형태를 사용하여 생성 확률을 낮추거나 `[(bad:1.2)]`와 같이 가중치를 함께 부여할 수 있다 [7, 8]. +* **미드저니(Midjourney)의 가중치 매개변수:** 미드저니는 텍스트 뒤에 `::` 기호와 숫자를 입력하여 단어 간의 상대적 가중치를 부여하는 다중 프롬프트(Multi-prompt) 방식을 사용한다(예: `red car::2 blue car::1`) [4, 11]. 이 외에도 텍스트 대비 참조 이미지의 비중을 결정하는 `--iw`(Image Weight), 캐릭터 참조의 일관성 비중을 조절하는 `--cw`(Character Weight, 0~100), 스타일 참조의 영향력을 정하는 `--sw`(Style Weight, 0~1000) 등 다양한 전용 매개변수(Parameter)를 제공하여 정교한 제어를 가능하게 한다 [12-14]. +* **가중치 사용의 한계 및 주의사항:** 가중치가 강력한 도구이긴 하지만, 프롬프트 내 단어의 배치 순서(Word Order)가 가중치 이상으로 결과물에 더 큰 영향을 미칠 수 있다 [5]. 또한, 결함을 수정하기 위해 부정 프롬프트에 너무 공격적인 가중치를 부여하면(예: `(blurry:1.5)`), 오히려 이미지의 전체적인 구조를 왜곡시키는 등 새로운 문제를 야기할 수 있으므로 가벼운 수치부터 점진적으로 조절하는 것이 권장된다 [15, 16]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Stable Diffusion]], [[Midjourney]], [[Negative Prompt]], [[Parameter]] +- **Projects/Contexts:** [[이미지 생성의 미세 제어(Fine-grained Control)]], [[멀티 프롬프트(Multi-prompting)]] +- **Contradictions/Notes:** 스테이블 디퓨전의 프롬프트 가중치 문법은 사용 중인 인터페이스나 파서(Parser)에 따라 차이가 있다. 일부 오픈소스 인터페이스에서는 `()`를 가중치 증가로, `[]`를 가중치 감소로 사용하는 구문을 표준으로 쓰지만, 특정 툴(예: getimg.ai)에서는 `+/-` 및 숫자 기반 구문만 지원하며 과도한 괄호 중첩은 처리를 지연시킬 수 있다고 경고한다 [17]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Prompt Weighting.md b/10_Wiki/Topics_Art/Prompt Weighting.md new file mode 100644 index 00000000..a99fee64 --- /dev/null +++ b/10_Wiki/Topics_Art/Prompt Weighting.md @@ -0,0 +1,23 @@ +# [[Prompt Weighting]] + +## 📌 Brief Summary +Prompt Weighting(프롬프트 가중치)은 AI 이미지 생성 시 프롬프트 내 특정 단어나 구문에 부여되는 중요도를 조절하여 결과물을 제어하는 기법이다 [1, 2]. 가중치를 높이면 특정 요소가 강조되고, 낮추면 해당 요소의 영향력이 줄어든다 [1]. 기본 가중치는 1로 설정되며, 모델과 인터페이스에 따라 괄호, 기호(`+/-`), 콜론(`::`) 등 다양한 문법이 사용된다 [1-3]. 이 기법은 상대적인 시각적 개념을 혼합하거나 세밀한 디테일을 조정하는 데 필수적이다 [4]. + +## 📖 Core Content +* **가중치의 기본 원리:** +가중치는 프롬프트의 특정 부분이 이미지에 미치는 영향을 수치로 제어한다 [1]. **기본 가중치 값은 1**이며, 1보다 큰 숫자(예: 1.1~2)를 입력하면 해당 요소가 강조되고, 0에서 0.9 사이의 숫자를 입력하면 그 영향력이 약화된다 [1]. 0보다 작은 음수 가중치는 일반적으로 권장되지 않으며, 의도치 않은 기괴한 결과를 초래할 수 있다 [5]. 또한 특정 단어에 **지나치게 높은 가중치를 부여하면 오히려 이미지가 깨지거나 품질이 저하될 위험**이 있다 [1, 6]. + +* **플랫폼 및 모델별 문법:** + * **Stable Diffusion:** 주로 `(keyword:factor)` 형태를 사용하여 단어의 중요도를 숫자로 지정한다 [2]. `()` 괄호 기호 자체로 1.1배 강조를, `[]` 기호로 0.9배 약화를 표현하기도 한다 [2]. 특정 인터페이스(예: getimg.ai)에서는 단어 뒤에 `+`나 `-`를 붙이거나 숫자를 직접 입력하여(예: `beer+++`, `(a beer)1.1`) 강도를 조절한다 [7]. + * **Midjourney:** 텍스트 가중치를 조절할 때는 **단어 뒤에 `::`와 숫자를 붙인다**(예: `foggy forest::2 goblin bear::1`) [3, 8]. 또한, 참조 이미지와 텍스트 프롬프트 사이의 비중을 조절하기 위해 `--iw`(Image Weight) 매개변수를 사용하며, 값이 클수록 이미지의 스타일이 더 강하게 반영된다 [9, 10]. + +* **가중치 활용 팁 및 부정 프롬프트(Negative Prompt):** +가중치는 두 가지 이상의 시각적 개념(예: 개와 고양이의 특성 혼합)을 상대적인 비율로 섞을 때 유용하다 [4]. 복잡한 프롬프트에서 개념들이 충돌하는 것을 방지하기 위해 **가중치를 0.5에서 0.7 사이의 안전한 범위로 설정**하는 것이 좋다 [11]. 한편, 원치 않는 요소를 제거하는 부정 프롬프트(Negative Prompt)에도 가중치를 부여하여 차단 효과를 더욱 강하게 만들 수 있다 [12]. 프롬프트 내 **단어의 순서 역시 가중치 못지않게 결과에 큰 영향**을 미치므로, 단어 배치와 가중치를 함께 고려해야 한다 [4]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Negative Prompts]], [[Stable Diffusion]], [[Midjourney]] +- **Projects/Contexts:** [[AI Image Generation Output Control]] +- **Contradictions/Notes:** 플랫폼 및 텍스트 파서(Text Parser)마다 가중치 적용 문법에 차이가 있다 [12, 13]. 예를 들어, 일부 오픈소스 Stable Diffusion UI는 `()`와 `[]`를 혼합하는 문법을 사용하지만, 특정 플랫폼(getimg.ai)에서는 이를 지원하지 않으며 `+/-`나 숫자 표기법 사용을 권장한다 [12, 14]. 또한 Graydient AI의 시스템에서는 부정 프롬프트에 가중치를 적용할 때 괄호가 누락되면 가중치가 무시되므로 `[(keyword:factor)]` 형태를 엄격하게 지켜야 하는 등 구문 해석의 차이가 존재한다 [13, 15]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Prompt Weights.md b/10_Wiki/Topics_Art/Prompt Weights.md new file mode 100644 index 00000000..bb218c16 --- /dev/null +++ b/10_Wiki/Topics_Art/Prompt Weights.md @@ -0,0 +1,25 @@ +# [[Prompt Weights]] + +## 📌 Brief Summary +프롬프트 가중치(Prompt Weights)는 텍스트 프롬프트 내 특정 단어나 구문의 중요도(강조 또는 축소)를 조절하여 생성되는 이미지에 미치는 영향을 제어하는 기법이다 [1]. 모델에 따라 괄호, 숫자, 특수 기호 등을 사용하여 가중치를 부여하며, 이를 통해 여러 시각적 개념을 섬세하게 혼합하거나 통제할 수 있다 [2, 3]. 기본 가중치는 통상적으로 1이며, 가중치가 지나치게 높으면 이미지 품질이 저하되거나 렌더링에 실패할 위험이 있다 [1, 2, 4]. + +## 📖 Core Content +* **가중치의 기본 원리와 역할:** + 가중치는 프롬프트 내에서 상대적인 아이디어의 비중을 표현하는 데 사용된다 [2]. 기본값은 1로 설정되며, 1보다 크면 강조(Positive), 1보다 작으면 축소(Negative)의 의미를 가진다 [1, 2, 5]. 이를 통해 개와 고양이의 특성을 섞는 것처럼 여러 개념의 균형을 맞출 수 있으나, 단어의 입력 순서(Word order)가 가중치보다 최종 이미지에 더 큰 영향을 미칠 수도 있다는 점을 유의해야 한다 [6, 7]. + +* **스테이블 디퓨전(Stable Diffusion)의 가중치 문법:** + 일반적인 스테이블 디퓨전 환경에서는 `(keyword:factor)` 형태의 문법을 통해 단어의 중요도를 숫자로 지정하며, 괄호 `()`를 사용하여 1.1배 강조하거나 대괄호 `[]`를 사용하여 비중을 줄일 수 있다 [8-11]. 소수점을 사용할 경우 소수점 첫째, 둘째 자리 정도의 정밀도만으로도 충분하며 그 이상 세밀한 숫자는 큰 차이를 만들지 않는다 [12]. 반면 getimg.ai와 같은 특정 플랫폼에서는 단어 끝에 `+`나 `-` 기호 또는 숫자를 더해 조절하며, 기호가 늘어날수록 1.1 또는 0.9의 거듭제곱으로 가중치가 연산된다 [1, 13]. + +* **미드저니(Midjourney)의 다중 프롬프트 가중치:** + 미드저니에서는 텍스트에 가중치를 부여할 때 `::` 기호 뒤에 숫자를 붙여 사용한다 [3]. 예를 들어 `red car::2 blue car::1`로 입력하면 빨간 차의 비중이 파란 차보다 두 배 더 중요하게 처리된다 [3]. + +* **부정 프롬프트(Negative Prompt) 및 LoRA 적용:** + 가중치는 부정 프롬프트에도 적용되어 이미지에 원치 않는 요소가 생성되는 것을 강력하게 억제할 수 있다 [4, 14]. 한편, LoRA와 같은 추가 모델을 사용할 때는 기본 모델이 고유의 예술 스타일을 유지할 수 있도록 가중치를 0.7 수준으로 설정하여 시작하는 것이 가장 안전하다 [5]. 여러 시각적 개념이나 LoRA를 결합할 때 가중치가 너무 높으면(예: 2.0 이상) 색상 아티팩트가 발생하거나 이미지 구성을 망칠 수 있으므로 주의해야 한다 [4, 15, 16]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Stable Diffusion]], [[Midjourney]], [[Negative Prompts]], [[LoRA]] +- **Projects/Contexts:** [[이미지 생성 및 제어 파이프라인]], [[프롬프트 엔지니어링 미세 조정]] +- **Contradictions/Notes:** 일반적인 오픈소스 스테이블 디퓨전 도구들은 `()`, `[]` 기반의 괄호 가중치 문법을 사용하는 반면, getimg.ai와 같은 일부 서비스 플랫폼에서는 이 문법을 지원하지 않고 독자적인 `+`, `-` 문법을 사용해야 한다고 명시하는 등 환경에 따라 문법 차이가 존재한다 [14]. 또한, 가중치 값의 조절이 중요하지만 실제 생성 결과에서는 가중치보다 단어의 배치 순서가 더 강한 영향력을 행사할 수 있다는 점을 고려해야 한다 [7]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Stable Diffusion.md b/10_Wiki/Topics_Art/Stable Diffusion.md new file mode 100644 index 00000000..31bdfd5a --- /dev/null +++ b/10_Wiki/Topics_Art/Stable Diffusion.md @@ -0,0 +1,31 @@ +# [[Stable Diffusion]] + +## 📌 Brief 시 Summary +스테이블 디퓨전(Stable Diffusion)은 Stability AI가 개발한 대표적인 오픈소스 확산(Diffusion) 기반 텍스트-이미지 생성 인공지능 모델입니다[1]. 사용자가 직접 모델을 호스팅하고 특정 도메인에 맞게 미세 조정(Fine-tuning)을 할 수 있어 완벽한 제어 권한을 제공하는 것이 특징입니다[2, 3]. 프롬프트 작성 시 자연어 문장보다는 쉼표로 구분된 태그(Tags)와 가중치 문법을 사용하며, 부정 프롬프트(Negative Prompt)를 통해 생성 결과를 픽셀 단위까지 매우 정교하게 통제할 수 있습니다[4-6]. + +## 📖 Core Content +* **작동 메커니즘 (Diffusion Process)** + 스테이블 디퓨전은 데이터에 점진적으로 가우시안 노이즈를 추가하는 순방향 확산(Forward Diffusion) 과정을 학습한 뒤, 무작위 노이즈 상태에서 이를 반복적으로 제거(Denoising)하며 원본 데이터와 일치하는 일관된 시각적 결과물을 재구성하는 역방향 확산(Reverse Diffusion) 방식을 사용합니다[7, 8]. 사용자가 입력한 프롬프트 텍스트는 토크나이저(Tokenizer)를 통해 인공지능이 이해할 수 있는 수치적 토큰(Tokens)으로 분할되어 이미지 생성 과정을 유도합니다[9]. + +* **프롬프트 구조 및 문법 (Syntax)** + 완전한 형태의 문장을 선호하는 다른 모델들과 달리, 스테이블 디퓨전은 쉼표로 구분된 태그(Tags) 형식을 사용하는 것이 가장 효과적입니다[4]. 가장 중요한 시각적 요소일수록 프롬프트의 맨 앞에 배치해야 하며, 괄호를 사용해 특정 단어의 가중치(Weights)를 조절할 수 있습니다[4, 6]. + * 예를 들어 `(word:1.5)`와 같이 입력하면 해당 단어의 중요도를 1.5배로 강화하고, 반대로 `[word]` 또는 `(word:0.9)`로 입력하면 그 비중을 약화시킬 수 있습니다[6, 10, 11]. + * `+`나 `-` 기호를 이용해 `(word)+++` 형태로 가중치를 누적 적용할 수도 있습니다[12, 13]. + +* **부정 프롬프트 (Negative Prompt)** + 부정 프롬프트는 이미지에 나타나지 말아야 할 요소(예: deformed hands, extra fingers, watermark, blurry 등)를 명시하여 확산 과정이 잘못된 방향으로 흐르는 것을 차단하는 핵심 통제 시스템입니다[5, 6, 14]. + * 이는 단순히 이미지를 다듬는 것을 넘어 불필요한 반복 생성(Reroll)을 줄이고 원하는 결과물에 도달하는 데 필수적입니다[15, 16]. + * 모호하게 "bad"라고 적는 것보다 "extra fingers", "watermark"처럼 구체적인 결함을 지적할 때 정확도가 훨씬 높아집니다[17, 18]. + * CFG 척도(CFG Scale)와 결합하여 모델이 프롬프트와 부정 프롬프트의 조건(Conditioning)을 얼마나 강하게 따를지 조절할 수 있습니다[19, 20]. + +* **버전별 특성과 고급 제어** + SD 1.5, SDXL, Flux 등 스테이블 디퓨전의 세부 모델마다 부정 프롬프트를 수용하는 성향이 다릅니다[21]. SD 1.5는 긴 형태의 부정 프롬프트를 잘 수용하지만, SDXL이나 최신 모델은 너무 길고 포괄적인 부정 프롬프트를 입력하면 오히려 이미지의 디테일이나 구도를 망칠 수 있으므로 문제점만 짚어낸 간결한 목록을 사용하는 것이 권장됩니다[21, 22]. + 또한 고급 기술인 컨트롤넷(ControlNet)을 결합하면 텍스트 프롬프트뿐만 아니라 피사체의 뼈대(Pose)나 윤곽선(Canny Edge) 정보를 모델에 강제로 주입하여 피사체의 배치와 자세를 픽셀 단위로 완벽하게 통제할 수 있습니다[6]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Diffusion Models]], [[Prompt Weights]], [[Negative Prompt]], [[CFG Scale]], [[ControlNet]] +- **Projects/Contexts:** [[오픈소스 기반 맞춤형 이미지 생성 워크플로우 구축]], [[부정 프롬프트와 가중치를 활용한 시각적 아티팩트(Artifact) 디버깅 및 제어]] +- **Contradictions/Notes:** 자연어 기반의 상세한 문장 묘사를 선호하는 DALL-E 3와 달리, 스테이블 디퓨전은 쉼표로 분리된 태그와 가중치 문법을 사용하는 것이 더 높은 품질을 보장합니다[4, 23]. 또한, 무조건 길고 일반적인 부정 프롬프트 복사-붙여넣기를 반복하는 것은 최신 모델(SDXL, Flux 등)에서 오히려 부작용을 낳을 수 있으므로 시각적으로 나타난 구체적인 결함만 타겟팅하여 배제하는 것이 효과적입니다[18, 22, 24]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/Style Reference.md b/10_Wiki/Topics_Art/Style Reference.md new file mode 100644 index 00000000..5d1c3793 --- /dev/null +++ b/10_Wiki/Topics_Art/Style Reference.md @@ -0,0 +1,26 @@ +# [[Style Reference]] + +## 📌 Brief Summary +Style Reference(스타일 참조)는 미드저니(Midjourney)와 같은 AI 이미지 생성 모델에서 특정 이미지의 시각적 분위기, 색상 팔레트, 질감 등을 새로운 생성 결과물에 그대로 적용하는 파라미터 기능이다 [1, 2]. 사용자는 복잡한 텍스트 묘사를 길게 나열할 필요 없이 이미지 URL이나 스타일 코드를 입력하여 원하는 미적 테마를 완벽하게 복제할 수 있다 [3, 4]. 이 기능은 브랜드의 시각적 일관성을 유지하거나 무드보드(Moodboard)를 제작하는 등 다양한 창작 및 상업적 목적에서 필수적인 도구로 활용된다 [4, 5]. + +## 📖 Core Content +* **개념 및 작동 방식:** + 미드저니(Midjourney) 프롬프트 작성 시 `--sref` 파라미터 뒤에 참조할 이미지의 URL을 추가하여 작동한다 [1, 2, 6]. 이를 통해 기존 이미지의 전반적인 외양, 느낌, 미적 분위기를 가져와 새로운 창작물에 씌울 수 있으며, 시각적 일관성을 유지하는 데 큰 역할을 한다 [3, 6, 7]. + +* **다중 참조 및 시그니처 스타일(Signature Style) 구축:** + 사용자는 두 개 이상의 이미지 URL을 띄어쓰기로 구분하여 입력함으로써 여러 스타일의 조합을 시도할 수 있다 [8]. 또한 서로 다른 두세 개의 '스타일 코드'를 섞어서 프롬프트를 구성하면, 다른 사람들과 차별화되는 자신만의 독창적인 '시그니처 스타일'을 완성할 수도 있다 [3]. + +* **스타일 가중치 조절(Style Weight):** + `--sw` (Style Weight) 파라미터를 활용하면 프롬프트 내에서 스타일 참조 이미지가 미치는 시각적 영향력의 강도를 제어할 수 있다 [1, 6, 7]. 가중치 값은 0에서 1000 사이로 설정되며, 값을 높일수록 참조한 이미지의 미적 특성이 결과물에 더 강하게 반영된다 [1, 6]. + +* **버전별 특징 및 활용 최적화:** + * **V7 모델:** 스타일 참조 기능이 향상되어 무드보드나 미적 테마를 여러 프롬프트에 걸쳐 더욱 정확하게 적용할 수 있다 [5, 8]. `--sref`를 `--ar`(종횡비), `--v 7` 및 짧은 텍스트 프롬프트와 함께 조합하면 여러 컨셉에 걸쳐 깔끔하고 일관된 이미지 세트를 얻을 수 있다 [8, 9]. + * **V8 Alpha 모델:** 이전 버전의 스타일 참조 버전을 선택하는 파라미터인 `--sv`(Style Reference Versions)를 지원한다 [7]. 단, V8 Alpha 환경에서 `--sv 6`를 무드보드 등과 함께 사용하면 GPU 시간이 4배 더 소모되며 고해상도 옵션(`--hd` 등)과 호환되지 않는 제약이 있다 [10]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Character Reference]], [[Omni Reference]], [[Midjourney Parameters]], [[Prompt Weighting]] +- **Projects/Contexts:** [[Brand Consistency Maintenance]], [[Moodboard Creation]], [[Signature Style Design]] +- **Contradictions/Notes:** 전통적인 텍스트 프롬프팅 방식에서는 원하는 예술적 스타일을 얻기 위해 수많은 형용사와 예술 사조 키워드를 나열해야 하지만, 스타일 참조(`--sref`)를 활용할 경우 텍스트의 스타일 묘사를 최소화하는 것이 오히려 참조 이미지 본연의 분위기를 살리는 데 유리하다 [1, 4]. 또한 최신 버전인 V8 Alpha에서는 구버전의 스타일 참조(`--sv 6`)를 강제할 경우 GPU 비용이 크게 증가하는 등 자원 소모 측면에서의 기술적 제약이 발생한다 [10]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/image prompt 작성 방법.md b/10_Wiki/Topics_Art/image prompt 작성 방법.md new file mode 100644 index 00000000..466be5fc --- /dev/null +++ b/10_Wiki/Topics_Art/image prompt 작성 방법.md @@ -0,0 +1,32 @@ +# [[image prompt 작성 방법]] + +## 📌 Brief 시 Summary +이미지 프롬프트(Image Prompt)는 Midjourney, DALL-E, Stable Diffusion과 같은 AI 이미지 생성 모델에게 어떤 이미지를 생성할지 지시하는 텍스트 설명입니다 [1, 2]. 효과적인 프롬프트는 단순히 피사체를 명시하는 것을 넘어 조명, 스타일, 구도, 카메라 앵글 등을 구체적으로 정의하여 인간의 상상력을 기계가 이해할 수 있는 시각적 기호로 번역하는 청사진 역할을 합니다 [1-3]. 각 AI 모델의 특성(아키텍처, 매개변수, 자연어 처리 능력)에 맞춘 프롬프트 구조화와 반복적인 수정 작업이 고품질 AI 아트를 생성하는 핵심입니다 [4-6]. + +## 📖 Core Content + +**프롬프트의 기본 구조 (Basic Prompt Structure)** +성공적인 이미지 프롬프트는 모델이 혼동하지 않도록 보통 15~50단어 내외의 논리적이고 명확한 계층 구조를 따릅니다 [6-8]. +* **주체(Subject):** 이미지의 중심이 되는 인물, 사물, 또는 장면입니다. 단순한 명사("고양이")보다는 구체적인 묘사("창가에서 오후의 햇살을 받으며 졸고 있는 은색 털의 고양이")를 사용해야 모델이 더 선명한 특징을 추출합니다 [9-11]. +* **환경 및 맥락(Context/Environment):** 주체가 존재하는 장소나 분위기를 설정하여 서사적 깊이와 톤을 결정합니다(예: 안개 낀 숲, 골든 아워의 도쿄 거리) [9, 12, 13]. +* **매체 및 스타일(Medium & Style):** '유화', '수채화', '35mm 필름 사진', '디지털 아트' 등의 시각적 형식이나 '사이버펑크', 특정 예술가의 화풍을 명시하여 이미지의 미학적 방향과 질감을 통제합니다 [9, 11, 14]. +* **조명 및 카메라 구도(Lighting & Camera):** '골든 아워', '스튜디오 조명', '볼륨메트릭 라이팅(Volumetric Lighting)' 등의 조명 지시어와 '85mm 렌즈', '로우 앵글', '얕은 피사계 심도' 같은 카메라 설정은 입체감과 감정적 분위기를 좌우합니다 [15-20]. + +**주요 AI 모델별 프롬프트 전략 (Model-Specific Strategies)** +각 플랫폼은 작동 방식과 이해하는 '방언'이 다르므로 맞춤형 전략이 필요합니다 [13, 21]. +* **미드저니(Midjourney):** 미학적이고 시네마틱한 결과물에 강하며 매개변수(Parameter)를 통한 제어가 필수적입니다 [22, 23]. 명령어 끝에 종횡비(`--ar`), 양식화 강도(`--stylize`), 모델 버전(`--v`)을 붙이며, 스타일 참조(`--sref`), 캐릭터 참조(`--cref`), 옴니 참조(`--oref`) 기능으로 일관된 이미지를 생성할 수 있습니다 [22-26]. +* **DALL-E 3:** 자연어 이해도가 탁월하여 키워드 나열보다는 대화형의 완전한 문장으로 지시하는 것이 유리합니다 [27-30]. 텍스트 렌더링에 강점이 있지만, 부정어("~없이")를 잘 이해하지 못하므로 피하고 싶은 요소 대신 '원하는 것'을 긍정형으로 묘사해야 합니다 [30-33]. +* **스테이블 디퓨전(Stable Diffusion):** 쉼표로 구분된 태그(Tag) 형태를 선호하며, 괄호와 숫자(`(keyword:1.2)`)를 이용한 단어별 가중치(Weight) 조절이 핵심 기술입니다 [34-37]. 모델의 편향이나 형태적 결함(예: 기형적인 손, 워터마크)을 막기 위해 긍정 프롬프트 못지않게 '부정 프롬프트(Negative Prompt)'를 적극적으로 활용해야 합니다 [34, 37-39]. + +**프롬프트 엔지니어링 모범 사례 (Best Practices)** +* **반복적 정교화(Iterative Refinement):** 완벽한 프롬프트를 한 번에 쓰려 하지 말고, 단순한 기본 프롬프트로 시작한 뒤 생성된 결과를 바탕으로 조명, 구도, 세부 묘사를 추가하며 점진적으로 수정(Vary Region, Inpainting 등 활용)합니다 [8, 40-43]. +* **구체성 확보 및 모순 방지:** 50개가 넘는 세부 사항으로 모델을 과부하 시키거나 "사실적이면서 추상적인"과 같은 모순된 지시어를 사용하는 것을 피해야 합니다 [44, 45]. +* **명확한 수치와 형용사 사용:** "새들"보다는 "새 3마리"나 "새 떼"가 좋으며, 단순한 묘사보다 구체적인 형용사를 포함해야 AI가 작업할 힌트를 얻습니다 [46-48]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[부정 프롬프트 (Negative Prompt)]], [[가중치 조절 (Prompt Weights)]], [[미드저니 매개변수 (Midjourney Parameters)]], [[생성형 AI (Generative AI)]] +- **Projects/Contexts:** [[AI 이미지 생성 및 편집 워크플로우 (AI Image Generation & Editing Workflow)]], [[플랫폼별 프롬프트 최적화 (Platform-Specific Prompt Optimization)]] +- **Contradictions/Notes:** DALL-E 3는 "아무것도 없는", "~가 아닌" 등의 부정 지시어를 처리하는 데 취약하여 원치 않는 객체가 도리어 생성될 수 있으므로 모든 지시를 긍정형으로 작성해야 합니다[30, 32, 33]. 반면 Stable Diffusion은 원치 않는 요소(예: 손가락 변형, 저화질, 워터마크 등)를 명시적으로 차단하기 위해 '부정 프롬프트(Negative Prompt)' 섹션을 활용하는 것이 필수적이며 이미지 품질 향상에 직결됩니다[37, 39, 49, 50]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/가중치 부여(Prompt Weighting).md b/10_Wiki/Topics_Art/가중치 부여(Prompt Weighting).md new file mode 100644 index 00000000..5e83b7dc --- /dev/null +++ b/10_Wiki/Topics_Art/가중치 부여(Prompt Weighting).md @@ -0,0 +1,21 @@ +# [[가중치 부여(Prompt Weighting)]] + +## 📌 Brief Summary +프롬프트 가중치 부여(Prompt Weighting)는 AI 이미지 생성 시 특정 단어나 구문의 중요도를 수치나 기호로 조절하여 결과물에 미치는 영향력을 미세하게 통제하는 기법이다 [1-3]. 기본값은 주로 1로 설정되며, 값을 높이면 해당 요소가 결과물에 강하게 반영되고 낮추면 약해지지만, 과도한 가중치는 오히려 이미지의 품질을 훼손할 수 있다 [1, 4]. 이 기법은 단일 프롬프트 내에서 여러 시각적 개념의 상대적인 혼합 비율을 조절하거나, 네거티브 프롬프트와 결합해 특정 결함을 효과적으로 억제하는 데 필수적으로 활용된다 [2, 5]. + +## 📖 Core Content +- **가중치 부여의 기본 원리 및 효과:** + 가중치는 모델이 프롬프트 내 각 요소에 주의를 기울이는 정도를 재조정한다. 서로 다른 두 가지 개념(예: 개와 고양이)을 섞어 표현하는 등 상대적인 아이디어를 구성할 때 유용하다 [2]. 가중치는 네거티브 프롬프트(Negative Prompt)에도 적용할 수 있으며, 이미지에 계속 반복되는 결함이나 아티팩트(예: `(blurry:1.3)`)를 억제하고자 할 때 단순히 관련 단어를 여러 개 나열하는 것보다 특정 단어의 가중치를 높이는 것이 훨씬 효과적일 수 있다 [5, 6]. +- **사용 시 주의사항:** + 가중치를 높일수록 텍스트의 의도를 강하게 강제할 수 있지만, 지나치게 공격적인 가중치(예: 2.0 이상)를 적용하면 새로운 아티팩트가 생성되거나 전체적인 이미지 구조가 무너지는 등 품질이 저하될 위험이 커진다 [1, 4, 5, 7]. 따라서 적절한 범위(예: 0.5~0.7 혹은 1.1~1.5) 내에서 점진적으로 조정하는 것이 권장되며, 프롬프트 내 단어의 배치 순서(Order) 또한 가중치 못지않게 결과에 큰 영향을 미치므로 이를 함께 고려해야 한다 [2, 7, 8]. +- **플랫폼별 가중치 문법 (Syntax):** + - **스테이블 디퓨전 (Stable Diffusion):** `(keyword:factor)` 형태를 사용하여 가중치를 숫자로 직접 할당한다(예: `(dog:1.1)`). 괄호가 누락되면 시스템이 가중치 수치로 인식하지 않으므로 주의해야 한다 [3, 9, 10]. 기호를 활용하여 `()`나 `+`는 1.1배 강조로, `[]`나 `-`는 0.9배 약화로 사용할 수 있으며, `(holding a beer+)++`처럼 중첩하여 효과를 배가시킬 수 있다 [3, 11]. 기호를 쓸 때는 띄어쓰기 없이 단어 뒤에 바로 붙여야 한다 [12]. + - **미드저니 (Midjourney):** 다중 프롬프트(Multi-prompt) 기능의 일환으로 `::` 기호 뒤에 숫자를 입력하여 가중치를 부여한다. 예를 들어 `red car::2 blue car::1` 또는 `foggy forest::2 goblin bear::1`과 같이 작성하여 특정 대상이나 분위기에 더 많은 비중을 둘 수 있다 [13, 14]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[네거티브 프롬프트(Negative Prompt)]], [[스테이블 디퓨전(Stable Diffusion)]], [[미드저니(Midjourney)]] +- **Projects/Contexts:** 상반된 개념을 혼합하여 새로운 창조물(예: 용의 뿔을 가진 고양이)을 디자인할 때 각 요소의 비율을 맞추는 작업이나, 이미지에서 집요하게 발생하는 워터마크, 흐릿함, 일그러진 손과 같은 시각적 오류를 제거하기 위해 네거티브 프롬프트의 가중치를 미세 조정하며 디버깅하는 워크플로우에 직접적으로 적용된다 [5, 7, 15-17]. +- **Contradictions/Notes:** 스테이블 디퓨전의 UI나 파서(Parser) 버전에 따라 괄호(`()`, `[]`)나 기호(`+`, `-`)를 처리하는 문법이 다를 수 있으며, 호환되지 않는 문법을 무리하게 사용하면 구문 분석 오류가 발생하거나 가중치 명령 자체가 무시될 수 있다 [6, 10, 16]. 또한, 구성이 무너질 때 무작정 가중치를 더하기보다는, 기본 프롬프트의 명확성을 점검하고 불필요한 단어를 덜어내는 것이 우선시되어야 한다 [18, 19]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/가중치 조절 (Prompt Weights).md b/10_Wiki/Topics_Art/가중치 조절 (Prompt Weights).md new file mode 100644 index 00000000..ab19f027 --- /dev/null +++ b/10_Wiki/Topics_Art/가중치 조절 (Prompt Weights).md @@ -0,0 +1,24 @@ +# [[가중치 조절 (Prompt Weights)]] + +## 📌 Brief Summary +가중치 조절(Prompt Weights)은 AI 이미지 생성 시 프롬프트 내 특정 단어나 구문의 중요도를 높이거나 낮추어 출력물에 미치는 영향을 제어하는 기법이다 [1, 2]. 기본값은 보통 1로 설정되며, 사용자가 수치를 조절하여 모델이 특정 요소에 얼마나 주의를 기울일지 지시할 수 있다 [1, 3]. 이 기법은 상충하는 개념을 혼합하거나 미세한 디테일을 다듬고, 불필요한 요소의 생성을 억제하는 등 이미지의 전반적인 구성을 통제하는 데 핵심적인 역할을 한다 [4-6]. + +## 📖 Core Content +**작동 원리 및 수치 범위** +가중치는 일반적으로 **1을 기본값(Neutral)**으로 기준 삼아 작동한다 [1, 3]. 1보다 큰 수치(예: 1.1~2.0)를 입력하면 해당 요소가 강조되고, 0과 0.9 사이의 소수를 입력하면 비중이 감소한다 [1, 3]. 하지만 가중치를 과도하게 높게 설정(예: 2.0 이상)할 경우 이미지 품질이 저하되거나 픽셀 깨짐, 아티팩트(예: 파란색 노이즈)가 발생할 위험이 커지므로, **0.5에서 0.7 혹은 1.3 내외의 적절한 범위를 사용하는 것이 권장**된다 [1, 7-9]. + +**플랫폼별 가중치 조절 문법** +* **스테이블 디퓨전(Stable Diffusion):** 주로 괄호 `()`와 콜론을 사용하여 `(keyword:factor)` 형태로 가중치를 부여한다 [10, 11]. 예를 들어 `(detailed face:1.2)`는 중요도를 높이고, 대괄호 `[background]`를 사용하거나 1 이하의 숫자를 쓰면 비중을 낮춘다 [12, 13]. 일부 인터페이스에서는 `+`나 `-` 기호를 단어 뒤에 붙여(예: `apple+++` 또는 `beer-`) 가중치를 조절하는 문법도 지원한다 [4, 13, 14]. +* **미드저니(Midjourney):** 이중 콜론 `::` 뒤에 숫자를 붙여 다중 텍스트 프롬프트 간의 상대적 가중치를 조절한다 [15, 16]. 예를 들어 `red car::2 blue car::1`이라고 작성하면 빨간 차의 시각적 비중이 파란 차보다 두 배 더 높게 반영된다 [16]. 또한 텍스트 프롬프트와 참조 이미지 간의 비중은 `--iw`(Image Weight) 매개변수를 통해 별도로 제어할 수 있다 [17, 18]. + +**활용 전략 및 효과** +* **부정 프롬프트와의 결합:** 가중치 조절은 부정 프롬프트(Negative Prompt) 영역에서도 동일하게 적용된다 [19]. 예를 들어 `(blurry:1.3)`이나 `(deformed hands:1.2)`와 같이 특정 결함 요소에 가중치를 부여하면, 해당 요소가 생성되는 것을 더 강력하고 선택적으로 억제할 수 있다 [6]. +* **상대적 개념의 정밀 혼합:** 전혀 다른 두 특성(예: 고양이와 개의 특징)을 혼합할 때 각 키워드의 가중치를 조절하여 특정 대상의 지배력을 정교하게 조율할 수 있다 [5, 20]. 이 기법은 단어의 배치 순서(Prompt Order)와 함께 사용할 때 결과물의 제어력이 더욱 향상된다 [5]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[부정 프롬프트 (Negative Prompts)]], [[매개변수 (Parameters)]], [[스테이블 디퓨전 (Stable Diffusion)]], [[미드저니 (Midjourney)]] +- **Projects/Contexts:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[이미지 생성 최적화 (Image Generation Optimization)]] +- **Contradictions/Notes:** 모델과 구동 인터페이스에 따라 지원하는 가중치 문법이 다르다. 미드저니는 `::`를 사용하여 텍스트 가중치를 조절하지만 [16], 스테이블 디퓨전 계열은 주로 괄호 `()`와 `[]`, 혹은 `+`, `-` 기호를 사용한다 [13, 19]. 또한, 가중치에 음수(Negative number)를 사용하는 것은 단순히 요소를 제거하는 것이 아니라 기괴하거나 섬뜩한 결과(Negative Guidance)를 초래할 수 있으므로, 대상을 제거하고 싶을 때는 음수 가중치 대신 부정 프롬프트 문법을 사용하는 것이 안전하다 [7, 21]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/긍정 프롬프트 (Positive Prompt).md b/10_Wiki/Topics_Art/긍정 프롬프트 (Positive Prompt).md new file mode 100644 index 00000000..352973f5 --- /dev/null +++ b/10_Wiki/Topics_Art/긍정 프롬프트 (Positive Prompt).md @@ -0,0 +1,18 @@ +# [[긍정 프롬프트 (Positive Prompt)]] + +## 📌 Brief Summary +긍정 프롬프트(종종 단순히 '프롬프트'로 불림)는 사용자가 AI 이미지 생성 모델에게 최종 결과물에서 보고 싶은 구체적인 요소들을 명시적으로 지시하는 텍스트입니다 [1, 2]. 이는 생성될 이미지의 목표(Destination 또는 Target)를 설정하는 역할을 하며, 주체, 매체, 스타일, 구도, 조명 등의 상세한 세부 정보를 포함합니다 [1, 3, 4]. 인공지능 모델이 지시를 오해하여 원치 않는 요소를 생성하는 것을 방지하기 위해, 부정적인 단어보다는 원하는 속성만을 긍정적인 언어로 묘사하는 것이 필수적입니다 [5, 6]. + +## 📖 Core Content +* **긍정 프롬프트의 역할과 구성 요소:** 긍정 프롬프트는 이미지가 도달해야 할 방향과 목표 지점을 정의합니다 [3, 4]. 효과적인 긍정 프롬프트는 이미지의 중심이 되는 주체(Subject), 매체(Medium), 스타일(Style), 구도(Composition), 그리고 색상 및 조명(Color & Lighting)과 같은 필수적인 세부 정보를 명확하게 포함하여 작성됩니다 [1, 7]. +* **효율적인 구문 및 논리적 구조화:** 긍정 프롬프트를 작성할 때는 관련된 토큰(단어)들을 논리적인 덩어리로 그룹화하여 배치하는 것이 좋습니다 [8]. 예를 들어, 첫 번째 섹션에서는 주체와 배경(Setting)을 묘사하고, 두 번째 섹션에서는 색상, 스타일, 조명을 정의하며, 마지막 세 번째 섹션에서는 구도와 추가적인 수정자(Modifiers)를 두는 방식으로 프롬프트 구조를 짜면 결과물의 일관성을 높일 수 있습니다 [9, 10]. +* **부정 프롬프트와의 관계:** 긍정 프롬프트가 '보고 싶은 것'을 묘사한다면, 부정 프롬프트는 '피해야 할 경계(Boundaries)'를 정의하는 역할을 수행합니다 [2, 3]. 만약 긍정 프롬프트 안에 원치 않는 요소를 적으며 "제외하라"고 지시하게 되면 오히려 해당 요소가 이미지에 나타나는 역효과를 낳을 수 있으므로, 원치 않는 요소는 전용 부정 프롬프트(Negative Prompt) 섹션으로 분리해야 합니다 [11]. +* **모델별 특성 (DALL-E 3 주의사항):** DALL-E 3와 같은 특정 모델은 "not", "no", "don't", "without"과 같은 부정어(Negations)를 처리하는 데 매우 취약합니다 [5]. "사용하지 말 것"이라는 부정 지시어를 긍정 프롬프트 내에 입력하면 모델이 오히려 해당 단어의 피사체를 생성해버리는 경향이 있으므로, DALL-E 3를 사용할 때는 모든 지시를 긍정형 문장으로 구성하여 원하는 속성만을 묘사해야 합니다 [5, 6]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[부정 프롬프트 (Negative Prompt)]], [[프롬프트 구조 (Prompt Structure)]], [[DALL-E 3]], [[프롬프트 엔지니어링 (Prompt Engineering)]] +- **Projects/Contexts:** [[AI 이미지 생성 워크플로우 및 최적화]] +- **Contradictions/Notes:** 긍정 프롬프트 내에 부정적인 단어(예: "no", "without")를 사용하여 특정 요소를 배제하려 하면 모델이 오히려 해당 요소를 이미지에 추가하는 역효과가 발생하므로, 부정적인 지시는 반드시 긍정 프롬프트에서 제외해야 합니다 [5, 6, 11]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/네거티브 프롬프트 (Negative Prompt).md b/10_Wiki/Topics_Art/네거티브 프롬프트 (Negative Prompt).md new file mode 100644 index 00000000..a1f9c867 --- /dev/null +++ b/10_Wiki/Topics_Art/네거티브 프롬프트 (Negative Prompt).md @@ -0,0 +1,27 @@ +# [[네거티브 프롬프트 (Negative Prompt)]] + +## 📌 Brief Summary +네거티브 프롬프트(Negative Prompt)는 사용자가 인공지능이 생성하는 이미지에 포함되기를 원하지 않는 요소, 대상, 또는 시각적 품질 등을 구체적으로 나열하는 명령어이다 [1]. 긍정 프롬프트에 원치 않는 요소를 직접 "없음(without)" 등으로 묘사할 경우 오히려 모델이 해당 객체를 생성하는 역효과가 발생할 수 있어, 모델을 원치 않는 개념으로부터 멀어지게 하는 경계(Boundary) 설정 도구로 활용된다 [2-4]. 생성된 이미지의 시각적 결함을 수정하고 불필요한 반복 생성을 줄이는 데 필수적이지만, AI 플랫폼의 아키텍처에 따라 인식 능력과 적용 방식에 확연한 차이를 보인다 [5-7]. + +## 📖 Core Content +**네거티브 프롬프트의 역할과 중요성** +* **경계의 설정:** 긍정 프롬프트가 이미지의 목적지(Destination)를 정의한다면, 네거티브 프롬프트는 피해야 할 경계선(Boundaries)을 설정한다 [4]. 이는 생성 과정에서 발생하는 모델의 편향(예: 기업용 초상화에서 지나치게 번들거리는 피부 등)을 차단하고 원치 않는 방향으로 흘러가는 것을 방지한다 [8]. +* **작업 효율성 증대:** 네거티브 프롬프트는 단순히 불량한 프롬프트를 땜질하는 도구가 아니라, 실패한 결과물을 버리고 다시 생성(Reroll)하는 시간과 비용을 크게 절약해 주는 핵심 구성 요소이다 [6, 9]. + +**효과적인 네거티브 프롬프트 작성 전략** +* **구체적이고 정확한 진단:** 이미지를 확인한 후 "나쁘다(bad)"나 "어색하다"와 같은 포괄적인 단어 대신, "여섯 개의 손가락(extra fingers)", "워터마크(watermark)", "밀랍 같은 피부(waxy skin)" 등 명확하고 구체적인 시각적 결함 요소를 파악하여 네거티브 프롬프트에 적용해야 한다 [10]. +* **스타일의 보호:** 네거티브 프롬프트는 의도한 예술적 스타일을 보호하는 데에도 유용하다. 사실적인 초상화를 원한다면 "애니메이션, 3D 렌더링, 만화(anime, render, cartoon)" 등을 네거티브로 설정하고, 반대로 일러스트레이션을 원한다면 "사진, 사실적인(photograph, realistic)" 등을 배제하여 스타일의 혼입을 막아야 한다 [11, 12]. +* **타겟화와 가중치 사용:** 무조건 길고 뚱뚱한 네거티브 목록을 붙여넣기보다는 5~10개 내외의 타겟화된 키워드를 사용하는 것이 이미지의 왜곡(Concept confusion)을 줄이고 품질을 높이는 데 효과적이다 [13, 14]. 필요한 경우 특정 단어에 가중치(예: `(blurry:1.5)`)를 부여하여 강도를 조절할 수 있다 [15]. + +**플랫폼별 적용 메커니즘의 차이** +* **스테이블 디퓨전 (Stable Diffusion):** 네거티브 프롬프트 입력을 위한 전용 섹션이 존재하며 고품질 이미지 생성을 위해 핵심적으로 사용된다 [2, 7]. 너무 이른 단계에서 공격적인 네거티브가 들어가면 구조를 훼손할 수 있으므로 주의가 필요하며, CFG(Classifier-Free Guidance) 스케일에 따라 네거티브 프롬프트의 통제력이 달라진다 [14, 16]. +* **미드저니 (Midjourney):** `--no` 매개변수(Parameter)를 텍스트 프롬프트 끝에 추가하여 원하지 않는 요소를 차단할 수 있다(예: 나무를 제외하려면 `--no trees` 입력) [17, 18]. +* **DALL-E 3:** 스테이블 디퓨전이나 미드저니와 달리 "아님(not)", "없음(no, without)"과 같은 부정 지시어를 제대로 처리하지 못한다 [5, 19]. 네거티브를 시도할 경우 오히려 해당 요소를 이미지에 삽입하는 경향이 있으므로, 배제하고 싶은 요소가 있다면 반대로 원하는 긍정적 특징을 자세하게 묘사하는 방식으로 회피해야 한다 [5, 20]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 가중치 (Prompt Weights)]], [[매개변수 (Parameters)]] +- **Projects/Contexts:** [[안정적 디퓨전 이미지 최적화 (Stable Diffusion Image Optimization)]], [[초상화 및 애니메이션 스타일 제어]] +- **Contradictions/Notes:** 미드저니(`--no`) 및 스테이블 디퓨전(전용 입력란)은 네거티브 프롬프트를 통해 요소 차단이 매우 원활하게 이루어진다고 권장되는 반면 [7, 17], DALL-E 3 모델은 부정적 지시어를 이해하지 못하고 프롬프트 텍스트 자체를 구현하여 오류를 일으킬 수 있으므로 긍정형 지시어만 사용해야 한다는 상반된 구조적 한계를 보입니다 [5, 19, 20]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/매개변수 (Parameters).md b/10_Wiki/Topics_Art/매개변수 (Parameters).md new file mode 100644 index 00000000..54dc7c37 --- /dev/null +++ b/10_Wiki/Topics_Art/매개변수 (Parameters).md @@ -0,0 +1,30 @@ +# [[매개변수 (Parameters)]] + +## 📌 Brief Summary +매개변수(Parameters)는 AI 이미지 생성 모델에서 결과물의 화면 비율, 해상도, 스타일 강도, 무작위성 등을 미세 조정(fine-tune)하기 위해 텍스트 프롬프트에 추가하는 특별한 명령어 또는 수치 체계입니다. 단순한 자연어 묘사만으로는 통제하기 어려운 기술적, 시각적 요소들을 명확하게 제어할 수 있게 해주며, 무작위적인 생성 결과를 예측 가능하고 일관성 있는 전문가급 결과물로 다듬는 데 핵심적인 역할을 합니다. + +## 📖 Core Content + +* **미드저니(Midjourney)의 매개변수 문법과 규칙** + 미드저니에서 매개변수는 항상 텍스트 프롬프트 묘사가 모두 끝난 뒤 맨 마지막에 이중 하이픈(`--`)이나 엠대시(`—`)를 붙여 사용합니다 [1-4]. 프롬프트 텍스트와 매개변수 사이에는 반드시 띄어쓰기가 있어야 하며, 매개변수 내부에는 쉼표나 마침표 등의 문장 부호가 포함되어서는 안 됩니다 [5]. +* **미드저니의 주요 이미지 제어 매개변수** + * **형태 및 렌더링 제어:** 이미지의 가로세로 비율을 결정하는 `--ar` (예: `--ar 16:9` 또는 `--ar 3:2`), 품질과 렌더링 시간을 조정하는 `--quality` 또는 `--q` (예: .25, .5, 1)가 기본적으로 사용됩니다 [1, 2, 4, 6, 7]. + * **스타일 및 무작위성 제어:** 미드저니 고유의 예술적 개입 강도를 조절하는 `--stylize` 또는 `--s` (0~1000 범위, 값이 높을수록 예술적 해석 강화), 초기 결과물에 다양성과 무작위성을 부여하는 `--chaos` 또는 `--c`, 기이하고 예상치 못한 요소를 도입하는 `--weird` 등이 있습니다 [4, 8-10]. +* **일관성 유지 및 참조를 위한 고급 매개변수** + * **캐릭터 및 스타일 참조 (V6/V7):** 캐릭터의 일관성을 유지하는 `--cref` (캐릭터 참조 URL) 및 `--cw` (캐릭터 가중치, 0~100), 특정 이미지의 시각적 분위기를 복제하는 `--sref` (스타일 참조)와 `--sw` (스타일 가중치)를 활용하여 브랜드나 서사의 일관성을 제어합니다 [4, 9-12]. + * **옴니 참조 (V7):** 사물의 고유한 형태적 정체성까지 폭넓게 기억하여 다른 환경에서도 동일한 대상을 일관되게 재현하는 `--oref` 매개변수와 제어 강도를 조절하는 `--ow`가 있습니다 [10, 13, 14]. + * **드래프트 모드 (V7):** 빠른 아이디어 시각화를 위해 GPU 비용을 줄이고 생성 속도를 약 10배 높이는 `--draft` 매개변수는 대량의 시안을 테스트할 때 효과적입니다 [6, 15-17]. +* **스테이블 디퓨전(Stable Diffusion)의 매개변수 및 가중치 제어** + * 스테이블 디퓨전에서는 명령어 형태의 매개변수 외에도 프롬프트 텍스트 자체에 가중치(Prompt Weights)를 부여하는 문법을 사용합니다. 특정 단어나 구문의 중요도를 조절하기 위해 `(keyword:factor)` 형식(예: `(dog:1.1)`)을 사용하거나, `+`, `-` 기호를 붙여(예: `penguin holding a (beer)+`) 강도를 높이거나 낮출 수 있습니다 [18-22]. + * 가중치가 지나치게 높을 경우(예: 2.0 이상) 아티팩트(artifact)가 발생하거나 이미지가 붕괴될 수 있으므로 주의해야 합니다 [18, 21, 23]. + * 또한 프롬프트를 얼마나 강하게 따를지 결정하는 **CFG Scale**과 생성 과정의 노이즈 제거 단계를 결정하는 **샘플링 스텝(Sampling Steps)** 등의 수치 제어를 통해 결과물의 정밀도를 조정합니다 [24, 25]. +* **부정적 제어(Negative Parameters)** + 원하지 않는 요소를 이미지에서 배제하기 위해 미드저니에서는 프롬프트 끝에 `--no` 매개변수(예: `--no trees`)를 명시적으로 사용합니다 [8, 26]. 스테이블 디퓨전에서는 전용 '네거티브 프롬프트(Negative Prompt)' 영역에 단어를 기입하며, 반복되는 결함(예: `(blurry:1.3)`)에 가중치를 부여해 생성 과정을 통제합니다 [22, 27-29]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 구조 (Prompt Structure)]], [[네거티브 프롬프트 (Negative Prompt)]], [[가중치 (Prompt Weights)]], [[스타일 참조 (Style Reference)]] +- **Projects/Contexts:** [[미드저니 V7 드래프트 모드 및 옴니 참조 워크플로우]], [[스테이블 디퓨전 CFG Scale 및 가중치 제어]] +- **Contradictions/Notes:** 플랫폼마다 매개변수를 적용하는 문법과 철학이 다릅니다. 미드저니는 이중 하이픈(`--`) 기반의 명령어로 작동하며 프롬프트 말미에 일괄 배치하는 반면, 스테이블 디퓨전은 괄호와 수치를 텍스트 구문 안에 직접 삽입하는 방식(`(word:weight)`)을 사용하여 제어합니다. 또한, 스테이블 디퓨전이라 하더라도 사용하는 인터페이스나 버전에 따라 가중치를 높이고 낮추는 기호(`()` vs `[]`)의 구문 해석이 다를 수 있으므로 문법 지원 여부를 확인해야 합니다 [4, 30, 31]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/모델 매개변수 제어 (Model Parameter Control).md b/10_Wiki/Topics_Art/모델 매개변수 제어 (Model Parameter Control).md new file mode 100644 index 00000000..74874923 --- /dev/null +++ b/10_Wiki/Topics_Art/모델 매개변수 제어 (Model Parameter Control).md @@ -0,0 +1,28 @@ +# [[모델 매개변수 제어 (Model Parameter Control)]] + +## 📌 Brief Summary +모델 매개변수 제어란 인공지능 이미지 생성 시 결과물의 가로세로 비율, 스타일화 정도, 다양성, 품질 등을 세밀하게 조정하기 위해 프롬프트에 추가하는 특수한 명령어 및 가중치 제어 기법을 의미합니다 [1-3]. Midjourney와 같은 플랫폼에서는 주로 하이픈 두 개(`--`)로 시작하는 명령어를 프롬프트 끝에 배치하여 사용하며, Stable Diffusion에서는 괄호와 숫자를 활용해 특정 단어의 가중치를 제어합니다 [2, 4, 5]. 이러한 매개변수들은 단순한 텍스트 묘사를 넘어, **사용자가 AI 모델의 기술적, 미학적 개입 강도를 직접 통제할 수 있게 해주는 핵심 프롬프트 작성 방법**입니다 [1, 2, 6]. + +## 📖 Core Content +**Midjourney의 주요 매개변수 (Parameters) 및 명령어 규칙** +* **명령어 구조:** Midjourney의 매개변수는 항상 텍스트 프롬프트의 가장 마지막에 위치해야 하며, 쉼표 등 구두점 없이 하이픈 두 개(`--`) 뒤에 공백을 두고 작성해야 합니다 (예: `--ar 16:9`) [2, 7]. +* **화면 비율 및 모델 버전 제어:** `--ar` (Aspect Ratio) 매개변수는 결과물의 가로세로 비율(예: `--ar 3:2`, `--ar 16:9`)을 지정하며, `--v` (Version) 매개변수는 생성에 사용할 특정 모델 버전(예: `--v 7`, `--v 6`)을 결정합니다 [4, 8-10]. +* **미학적 개입 및 무작위성 조절:** `--stylize` 또는 `--s` (0~1000)는 모델 고유의 미학적 개입 강도를 조절하여, 값이 높을수록 더 예술적이고 창의적인 결과를 낳습니다 [3, 11, 12]. 반면 `--chaos` (0~100)는 처음 생성되는 네 가지 이미지 간의 변형과 무작위성을 증가시킵니다 [8, 10, 13]. +* **일관성(Consistency) 제어:** `--cref` (캐릭터 참조) 및 `--cw` (캐릭터 가중치)를 통해 피사체의 외모를 일정하게 유지할 수 있으며, `--sref` (스타일 참조)와 `--sw` (스타일 가중치)를 통해 특정 분위기나 미학을 여러 프롬프트에 걸쳐 일관되게 적용할 수 있습니다 [3, 10, 12, 14, 15]. 특히 V7에서 추가된 `--oref` (옴니 참조)를 사용하면 개체의 고유한 형태적 정체성 전체를 기억해 일관성을 유지할 수 있습니다 [3, 10, 16, 17]. +* **제외 및 기타 제어:** `--no` 매개변수는 이미지에 포함되지 않기를 바라는 요소를 명시할 때 사용합니다 [10, 13]. V7 모델부터 지원되는 `--draft` 모드를 사용하면, 비용(GPU)과 시간을 절약하기 위해 더 낮은 품질로 빠르게 다양한 시안을 탐색할 수 있습니다 [9, 10, 18]. + +**Stable Diffusion의 가중치 제어 (Prompt Weights)** +* **가중치 문법 (Syntax):** Stable Diffusion에서는 프롬프트 내 특정 단어나 구문의 중요도를 숫자로 지정하여 모델의 가중치를 제어합니다 [5, 19]. 보통 기본 가중치는 1이며, 숫자가 클수록 해당 단어가 강조되고 1보다 작으면 약화됩니다 [20, 21]. +* **괄호 및 기호 사용:** `(keyword:factor)` 형태의 문법을 주로 사용합니다 (예: `(dog:1.1)`). 괄호 `()`를 겹쳐 쓰거나 기호 `+`, `-`를 덧붙이는 방식(예: `(dog)+` 또는 `(dog)-`)도 지원되어 대상에 대한 중요도를 더 직관적이고 세밀하게 조절할 수 있습니다 [5, 20, 22, 23]. +* **CFG Scale 설정:** 프롬프트 가중치와 함께 모델이 주어진 긍정/부정 프롬프트를 얼마나 강하게 따를지 결정하는 'CFG Scale (Classifier-Free Guidance)' 매개변수를 조정하여, 생성물의 지시 이행 강도를 조절합니다 [24, 25]. + +**DALL-E 3의 매개변수 제어 특징** +* DALL-E 3는 자연어 처리에 매우 강하게 의존하므로, Midjourney와 같은 복잡한 기호나 기술적 매개변수(`--seed`, `--chaos` 등)가 정상적으로 작동하지 않거나 다르게 해석될 수 있습니다 [26, 27]. 따라서 복잡한 매개변수를 쓰기보다는 **명확하고 서술적인 일상 언어를 사용하여 맥락과 구도를 지시하는 것**이 훨씬 효과적입니다 [27-29]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[부정 프롬프트 (Negative Prompts)]], [[스타일 및 캐릭터 참조 (Style and Character References)]], [[버전 및 모델 (Versions and Models)]] +- **Projects/Contexts:** [[Midjourney V7 및 V6 워크플로우]], [[Stable Diffusion 오픈소스 제어]] +- **Contradictions/Notes:** Midjourney나 Stable Diffusion은 특수 기호나 숫자, 하이픈(`--`) 등을 통해 세밀한 매개변수와 가중치를 제어할 수 있지만, DALL-E 3는 이러한 명령어 옵션(예: `--chaos`, `--seed` 등)을 구조적으로 지원하지 않으며 기술적 매개변수보다 완결된 자연어 문장 지시를 훨씬 더 잘 따릅니다 [26, 27, 30]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/미드저니 (Midjourney).md b/10_Wiki/Topics_Art/미드저니 (Midjourney).md new file mode 100644 index 00000000..716f4741 --- /dev/null +++ b/10_Wiki/Topics_Art/미드저니 (Midjourney).md @@ -0,0 +1,33 @@ +# [[미드저니 (Midjourney)]] + +## 📌 Brief Summary +미드저니(Midjourney)는 텍스트 프롬프트를 해석하여 상세한 이미지, 일러스트레이션 및 아트워크를 생성하는 강력한 AI 기반 이미지 생성 도구이다 [1]. 디스코드(Discord) 봇 또는 웹 기반 인터페이스를 통해 접근할 수 있으며, 사용자는 `/imagine`과 같은 명령어를 입력하여 시각적 결과물을 얻는다 [1-3]. 다른 AI 생성 모델과 비교해 시네마틱한 조명, 복잡한 디테일, 미학적이고 예술적인 렌더링에 강점이 있어 전문가 집단에서 선호된다 [4-7]. 최신 모델인 V7 및 V8 알파 버전에서는 드래프트 모드(Draft Mode), 옴니 참조(Omni Reference) 등의 기능을 통해 작업 속도와 프롬프트 제어력이 크게 향상되었다 [8-10]. + +## 📖 Core Content +**프롬프트 기본 구조 (Basic Structure)** +미드저니 프롬프트는 `/imagine` 명령어, 이미지 URL(선택 사항), 텍스트 프롬프트, 그리고 매개변수(Parameters)의 네 가지 요소로 구성된다 [2]. 성공적인 텍스트 프롬프트를 작성하려면 모호하거나 지나치게 긴 설명보다는 주제(Subject), 매체(Medium), 환경(Environment), 조명(Lighting), 색상(Color), 분위기(Mood), 구도(Composition) 등을 간결하고 명확하게 명시하는 것이 좋다 [11-13]. + +**주요 매개변수 (Key Parameters)** +프롬프트의 끝에 이중 대시(`--`)를 사용하여 추가하는 매개변수는 결과물을 세밀하게 제어하는 역할을 한다 [14-16]. +* `--ar` (Aspect Ratio): 최종 이미지의 종횡비를 설정한다 [14, 16]. +* `--stylize` (또는 `--s`): 미드저니 고유의 미학적 개입 강도를 0~1000 사이로 조절하며, 값이 높을수록 예술적이고 낮을수록 텍스트 지시에 더 충실해진다 [7, 17]. +* `--chaos` (또는 `--c`): 초기 생성되는 이미지 그리드 간의 무작위성과 결과물의 다양성을 증가시킨다 [16, 18]. +* `--no`: 부정 프롬프트로, 이미지에서 생성되지 않기를 바라는 요소를 명시적으로 제외한다 [18, 19]. +* `--v`: 특정 모델 버전을 지정할 때 사용한다 (예: `--v 7`) [14, 16, 20]. + +**참조 기능 및 일관성 제어 (References & Consistency)** +* **스타일 참조 (`--sref`)**: 특정 이미지의 URL을 입력하여 해당 이미지의 시각적 스타일, 분위기, 색상 팔레트를 새로운 생성물에 일관되게 적용한다 [7, 21, 22]. +* **캐릭터 참조 (`--cref`)**: 동일한 주체(얼굴, 머리카락 등)를 여러 이미지에서 동일하게 유지하기 위해 사용하며, `--cw`를 통해 참조의 강도를 조절할 수 있다 [7, 17, 21, 23]. +* **옴니 참조 (`--oref`)**: V7에서 새롭게 도입된 기능으로, 캐릭터뿐만 아니라 사물의 구체적인 형태적 정체성까지 기억하여 다른 환경에서도 일관되게 재현할 수 있다 [7, 24, 25]. + +**작업 효율성 및 확장 편집 도구 (Efficiency & Editing Tools)** +* **드래프트 모드 (`--draft`)**: V7의 핵심 기능으로, 적은 GPU 비용과 표준 생성 대비 약 10배 빠른 속도로 초기 시안을 대량 생산할 수 있게 해준다 [26-29]. 여러 시안 중 원하는 구도를 선택한 후 고화질로 승격시키는 워크플로우에 최적화되어 있다 [27, 29]. +* **부분 수정 및 확장 (Vary Region, Pan, Zoom Out)**: 'Vary Region(인페인팅)' 기능을 사용하면 이미지 전체를 변경하지 않고 선택한 특정 영역만 새로운 프롬프트를 적용하여 수정할 수 있다 [30-33]. 'Pan'과 'Zoom Out(아웃페인팅)' 기능을 활용하면 기존 이미지의 화풍을 유지하면서 캔버스를 확장하여 새로운 배경과 맥락을 자연스럽게 추가할 수 있다 [33-35]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[매개변수 (Parameters)]], [[디퓨전 모델 (Diffusion Models)]], [[스타일 참조 (Style Reference)]], [[옴니 참조 (Omni Reference)]] +- **Projects/Contexts:** [[미드저니 V7 및 V8 알파 (Midjourney V7 & V8.1 Alpha)]], [[생성형 AI 워크플로우 (Generative AI Workflow)]] +- **Contradictions/Notes:** 미드저니는 예술적 표현과 시네마틱한 렌더링 측면에서 타 모델 대비 압도적인 강점을 보이지만, 정확한 타이포그래피(텍스트) 렌더링, 엄격한 레이아웃의 재현, 결정론적인 이미지 편집이 필요한 작업에는 상대적으로 적합하지 않을 수 있다 [8, 36]. 정확한 지시 이행과 이미지 내 텍스트 삽입 등의 작업에서는 DALL-E 3가 더 유리한 선택이 될 수 있다 [4, 37]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/미드저니 V7 (Midjourney V7).md b/10_Wiki/Topics_Art/미드저니 V7 (Midjourney V7).md new file mode 100644 index 00000000..5bc51b2c --- /dev/null +++ b/10_Wiki/Topics_Art/미드저니 V7 (Midjourney V7).md @@ -0,0 +1,25 @@ +# [[미드저니 V7 (Midjourney V7)]] + +## 📌 Brief Summary +미드저니 V7(Midjourney V7)은 2025년 4월에 출시된 후 기본 모델로 채택된 고성능 AI 이미지 생성 모델입니다 [1-3]. 이전 버전에 비해 프롬프트 정밀도, 텍스처의 풍부함, 디테일의 일관성 및 텍스트 렌더링 능력이 비약적으로 향상되었습니다 [2-4]. 특히 드래프트 모드(Draft Mode)와 옴니 참조(Omni Reference) 등의 새로운 핵심 기능을 통해, 사용자들은 적은 비용으로 신속하게 아이디어를 시각화하고 일관된 피사체를 유지하는 전문적인 프롬프트 워크플로우를 구축할 수 있습니다 [5-7]. + +## 📖 Core Content +* **향상된 프롬프트 정밀도 및 텍스트 렌더링:** + 미드저니 V7은 텍스트 및 이미지 프롬프트를 이해하는 정밀도가 눈에 띄게 향상되어 인체, 손, 사물 등의 세부 묘사와 텍스처를 훨씬 더 사실적이고 일관성 있게 구현합니다 [3, 8]. 특히 구버전의 취약점이었던 텍스트 렌더링 능력이 개선되어, 따옴표(예: "Coffee Shop") 안에 원하는 단어를 입력하면 표지판, 로고, 포스터 등에 해당 텍스트를 정확도 높게 배치할 수 있습니다 [4]. + +* **드래프트 모드(Draft Mode)를 통한 워크플로우 혁신:** + V7에서 가장 실무적으로 가치 있는 기능 중 하나인 `--draft` 매개변수는 표준 생성 방식보다 약 10배 빠른 속도와 절반 수준의 GPU 비용으로 초안 이미지를 생성합니다 [5, 7, 8]. 이는 단일 프롬프트로 완벽한 결과물을 기대하기보다, 여러 프롬프트와 종횡비로 저렴하게 초안을 대량 생산한 뒤 가장 마음에 드는 구도를 선택해 고화질로 승격시키는 형태의 '효율적인 아이디에이션 프롬프트 작성 방법'을 가능하게 합니다 [9, 10]. + +* **옴니 참조(Omni Reference)와 스타일 참조의 진화:** + `--oref` 매개변수를 사용하는 옴니 참조 기능은 단순한 캐릭터 복사를 넘어 맞춤형 자동차, 특정 장신구 등 다양한 피사체와 객체의 형태적 정체성을 여러 프롬프트 환경에서 동일하게 기억하고 유지해 줍니다 [4, 6, 11, 12]. 또한, 스타일 참조(`--sref`) 기능이 개선되어 두 개 이상의 이미지를 무드보드처럼 엮어 미적 테마를 완벽히 융합하여 새로운 결과물에 적용할 수 있으므로 일관된 브랜딩 이미지를 생성할 수 있습니다 [8, 12, 13]. + +* **한계점 및 프롬프트 작성 시 주의사항:** + V7은 창의적인 미학, 시각적 탐색, 무드보드 구성 등에서는 탁월한 성능을 발휘하지만, 정확한 타이포그래피나 고정된 레이아웃 복제 등 결정론적인(deterministic) 이미지 편집을 엄격하게 수행하는 데는 한계가 있습니다 [2, 14, 15]. 따라서 프롬프트를 작성할 때 무조건적인 템플릿 제어를 지시하기보다는, 시각적 의도와 제약 조건을 설정하고 V7이 제시하는 여러 초안 중 적절한 방향을 채택하여 반복 정교화하는 유연한 접근 방식이 필수적입니다 [15, 16]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 정밀도 (Prompt Precision)]], [[드래프트 모드 (Draft Mode)]], [[옴니 참조 (Omni Reference)]], [[스타일 참조 (Style Reference)]] +- **Projects/Contexts:** [[AI 이미지 생성 워크플로우 (AI Image Generation Workflow)]] +- **Contradictions/Notes:** 소스 [1], [2], [3]는 미드저니 V7이 2025년 6월 17일에 기본 모델이 되었다고 명시하지만, 소스 [8]은 2025년 3분기(Q3)부터 기본 모델이라고 다르게 언급하고 있습니다. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/미드저니 V7 및 DALL-E 3를 활용한 맞춤형 브랜드 이미지 및 텍스트 포함 콘텐츠 제작 워크플로우.md b/10_Wiki/Topics_Art/미드저니 V7 및 DALL-E 3를 활용한 맞춤형 브랜드 이미지 및 텍스트 포함 콘텐츠 제작 워크플로우.md new file mode 100644 index 00000000..8747a9e7 --- /dev/null +++ b/10_Wiki/Topics_Art/미드저니 V7 및 DALL-E 3를 활용한 맞춤형 브랜드 이미지 및 텍스트 포함 콘텐츠 제작 워크플로우.md @@ -0,0 +1,26 @@ +# [[미드저니 V7 및 DALL-E 3를 활용한 맞춤형 브랜드 이미지 및 텍스트 포함 콘텐츠 제작 워크플로우]] + +## 📌 Brief Summary +미드저니 V7과 DALL-E 3를 활용한 맞춤형 브랜드 이미지 및 텍스트 콘텐츠 제작은 각 AI 모델의 고유한 강점을 전략적으로 결합하는 워크플로우입니다 [1-3]. 미드저니 V7은 옴니 참조(--oref)와 스타일 참조(--sref)를 통해 브랜드의 시각적 정체성과 객체의 일관성을 유지하며 예술적인 결과물을 도출하는 데 탁월합니다 [4-7]. 반면 DALL-E 3는 자연어 이해도와 텍스트 렌더링 능력이 뛰어나 로고, 인포그래픽, 소셜 미디어 그래픽 등 정확한 문구와 복잡한 지시가 필요한 콘텐츠 제작에 최적화되어 있습니다 [3, 8-11]. + +## 📖 Core Content +**미드저니 V7을 활용한 브랜드 이미지의 시각적 일관성 구축** +* **스타일 및 객체의 일관성 유지:** 미드저니 V7은 `--sref`(스타일 참조) 매개변수를 사용하여 무드보드나 브랜드 고유의 미학적 테마를 여러 프롬프트에 걸쳐 일관되게 적용할 수 있습니다 [5, 7, 12, 13]. 또한, `--oref`(옴니 참조) 기능을 활용하면 사물의 고유한 형태적 정체성을 기억하여 다양한 환경에서도 동일한 제품이나 객체를 일관되게 재현할 수 있습니다 [4, 6, 7]. +* **텍스트 삽입 및 상업용 사진 연출:** V7 모델은 텍스트 렌더링 능력이 크게 향상되어 인용 부호(예: "Coffee Shop")안에 텍스트를 입력하면 99%의 정확도로 간판이나 로고에 단어를 삽입할 수 있습니다 [4]. 상업적 제품 사진의 경우 "premium", "professional advertising style" 등의 키워드를 조합하여 고급스러운 브랜드 이미지를 제작합니다 [14, 15]. +* **드래프트 모드(Draft Mode) 기반의 효율적 작업:** `--draft` 매개변수를 사용하면 표준 생성보다 약 10배 빠른 속도와 절반의 비용으로 시안을 대량 생산할 수 있습니다 [12, 16-18]. 이를 통해 빠르게 초기 콘셉트를 탐색하고 최적의 방향을 선택한 후 고품질(HD) 결과물로 발전시키는 워크플로우가 가능합니다 [16, 18]. + +**DALL-E 3를 활용한 텍스트 중심 그래픽 및 로고 제작** +* **뛰어난 텍스트 렌더링 및 지시 이행력:** DALL-E 3는 책 표지, 인포그래픽, 간판 등 이미지 내에 읽을 수 있는 텍스트를 정확하게 삽입하는 데 뛰어난 성능을 발휘합니다 [3, 8-10]. 인스타그램과 같은 소셜 미디어 포스트 디자인 시 "Your Only Limit Is You"와 같은 긴 텍스트를 대담한 현대적 타이포그래피로 렌더링할 수 있습니다 [11]. +* **브랜드 아이덴티티 및 로고 디자인:** 특정 회사명과 함께 "vector art style", "minimalist" 등의 명확한 프롬프트를 제공하면 확장 가능하고 깔끔한 브랜드 로고를 손쉽게 생성할 수 있습니다 [10, 11]. +* **자연어 묘사 최적화:** DALL-E 3는 기술적인 매개변수보다는 대화형 자연어 문장으로 지시할 때 더 나은 결과를 얻을 수 있으며, ChatGPT와의 통합을 통해 프롬프트를 자동 확장하고 수정하는 상호작용적 생성이 가능합니다 [3, 9, 19]. + +**모델 특성을 고려한 최적화 워크플로우** +* 성공적인 프롬프트 엔지니어링을 위해서는 각 모델의 한계와 강점을 이해하고, 텍스트가 많거나 논리적이고 명확한 그래픽 디자인이 필요한 경우 DALL-E 3를 사용하고, 예술적이고 시네마틱한 연출이나 브랜드 미학의 일관성이 중요한 경우 미드저니를 사용하는 전략적 분배가 필수적입니다 [1-3, 20]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링(Prompt Engineering)]], [[매개변수(Parameters)]], [[스타일 참조(Style Reference, --sref)]], [[옴니 참조(Omni Reference, --oref)]], [[텍스트 렌더링(Text Rendering)]] +- **Projects/Contexts:** [[상업용 제품 사진 및 브랜드 로고 디자인]], [[소셜 미디어 그래픽 및 마케팅 캠페인 제작]] +- **Contradictions/Notes:** 소스 간 DALL-E 3의 텍스트 렌더링 능력에 대한 엇갈린 평가가 존재합니다. 일부 소스에서는 DALL-E 3가 "텍스트를 생성하도록 훈련되지 않았으며, 1~2개 단어 정도로 제한해야 작동한다"고 지적하지만 [21, 22], 다른 다수의 소스에서는 "DALL-E 3는 텍스트 렌더링에 강점이 있으며, 긴 문장이나 교육용 다이어그램, 로고 등의 텍스트 처리에 최적화되어 있다"고 상반되게 서술합니다 [3, 8-11, 23]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/미드저니 V7 업데이트 및 시각적 워크플로우.md b/10_Wiki/Topics_Art/미드저니 V7 업데이트 및 시각적 워크플로우.md new file mode 100644 index 00000000..12249b3a --- /dev/null +++ b/10_Wiki/Topics_Art/미드저니 V7 업데이트 및 시각적 워크플로우.md @@ -0,0 +1,31 @@ +# [[미드저니 V7 업데이트 및 시각적 워크플로우]] + +## 📌 Brief Summary +미드저니 V7은 2025년 4월에 출시되어 중순에 기본 모델로 채택된 이후, 향상된 프롬프트 정밀도와 완벽에 가까운 텍스트 렌더링을 제공하는 주요 업데이트 버전입니다 [1-3]. 특히 '드래프트 모드(Draft Mode)'와 '옴니 참조(Omni Reference)' 기능의 도입은 프롬프트 작성과 이미지 생성 방식을 근본적으로 변화시켰습니다 [2, 4]. 이를 통해 사용자들은 더 저렴하고 빠르게 초기 시안을 탐색한 후, 유망한 결과물을 고품질 자산으로 발전시키고 스타일을 일관되게 재사용하는 체계적인 시각적 워크플로우를 구축할 수 있게 되었습니다 [5, 6]. + +## 📖 Core Content +**미드저니 V7의 주요 개선 사항** +미드저니 V7은 이전 버전에 비해 프롬프트 정밀도와 이미지 프롬프트 처리 능력이 향상되었으며, 인체(손 등)와 객체의 텍스처 및 디테일 일관성이 더욱 풍부해졌습니다 [2, 3]. 특히 텍스트 렌더링 능력이 비약적으로 발전하여, 따옴표(예: "Coffee Shop") 안에 텍스트를 입력하면 간판이나 로고 등에 99%의 정확도로 해당 단어를 구현할 수 있습니다 [4]. + +**드래프트 모드(Draft Mode)와 디자인 검토 루프** +V7에서 시각적 워크플로우를 가장 크게 변화시킨 기능은 `--draft` 매개변수를 사용하는 드래프트 모드입니다 [2, 7]. 이 기능은 표준 생성보다 약 10배 빠르며 GPU 비용은 절반 수준으로 낮춰줍니다 [5, 8]. 이로 인해 한 번의 프롬프트로 최종 결과물을 만들어내는 방식에서 벗어나, 다음과 같은 4단계의 효율적인 '디자인 검토 루프(Design review loop)' 작업이 가능해졌습니다 [6, 9]: +1. 저비용으로 여러 프롬프트와 화면 비율을 테스트하여 초기 시안 대량 생성 [5, 8] +2. 유망한 구도 및 방향성 선택 [6] +3. 선택된 시안을 더 높은 해상도와 품질로 승격(Upscale) [6, 10] +4. 시드(Seed)와 참조(Reference) 방향을 저장하여 후속 편집에 재사용 [6, 11] + +**강화된 참조(Reference) 프롬프트 워크플로우** +V7은 이미지의 일관성을 유지하고 제어하기 위한 강력한 참조 기능을 제공합니다 [12]: +* **옴니 참조 (Omni Reference, `--oref`)**: 기존의 캐릭터 참조 기능을 대체 및 확장한 기능으로, 단순한 스타일을 넘어 특정 인물, 사물, 피사체의 형태적 정체성까지 기억하여 여러 프롬프트에 걸쳐 일관되게 유지합니다 [4, 13, 14]. `--ow` 매개변수로 그 반영 강도를 조절할 수 있습니다 [13]. +* **스타일 참조 (Style Reference, `--sref`)**: 하나 이상의 이미지 URL을 입력하여 해당 이미지의 스타일, 무드, 색상 팔레트를 새로운 생성물에 적용합니다 [14, 15]. V7에서는 여러 스타일을 결합할 때의 해석 정확도가 크게 향상되어 브랜드의 시각적 일관성을 유지하는 데 유용합니다 [13]. + +**웹 UI 중심의 환경 및 프롬프트 공식** +2026년 기준, 디스코드(Discord) 봇 방식보다 직관적인 슬라이더, 스마트 폴더, 그리고 인페인팅/패닝을 지원하는 전체 캔버스 에디터를 갖춘 미드저니 웹 UI가 전문가들의 주요 작업 공간으로 선호되고 있습니다 [16-18]. V7에서 고품질 결과를 얻기 위한 최적의 프롬프트 구조는 **'주제(Subject) + 매체(Medium) + 환경(Environment) + 조명(Lighting) + 분위기(Mood)'**의 공식을 따르는 것이며, 프롬프트의 맨 끝에 `--ar 16:9` 나 `--stylize` 등의 매개변수를 덧붙여 결과물을 미세 조정합니다 [19]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Draft Mode]], [[Omni Reference]], [[Style Reference]], [[Prompt Parameter]], [[Text Rendering]] +- **Projects/Contexts:** [[디자인 검토 루프 (Design Review Loop)]], [[웹 UI (Web UI) 기반 워크플로우]] +- **Contradictions/Notes:** 미드저니 V7은 시각적 범위와 미학적 반복 작업(탐색 및 무드보드 생성 등)에는 매우 뛰어나지만, 여전히 확정적(deterministic)인 이미지 편집이나 완벽한 픽셀 수준의 타이포그래피/레이아웃 재현에는 한계가 있어 엄격한 디자인 시스템 구현을 위해서는 별도의 디자인 및 후반 수작업이 필요합니다 [20-22]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/미드저니 매개변수 (Midjourney Parameters).md b/10_Wiki/Topics_Art/미드저니 매개변수 (Midjourney Parameters).md new file mode 100644 index 00000000..2dfaddcf --- /dev/null +++ b/10_Wiki/Topics_Art/미드저니 매개변수 (Midjourney Parameters).md @@ -0,0 +1,41 @@ +# [[미드저니 매개변수 (Midjourney Parameters)]] + +## 📌 Brief Summary +미드저니 매개변수(Parameters)는 사용자가 텍스트 프롬프트 끝에 추가하여 생성되는 이미지의 형태, 비율, 예술적 스타일 등을 제어하고 맞춤 설정할 수 있도록 돕는 특수 명령어입니다 [1, 2]. 이 매개변수들을 활용하면 해상도 조절부터 무작위성 부여, 특정 피사체나 스타일의 일관성 유지까지 AI 모델의 작동 방식을 세밀하게 조정할 수 있습니다 [1, 3, 4]. 매개변수는 단순히 단어를 나열하는 것을 넘어, 머릿속의 시각적 아이디어를 의도에 맞게 정확히 구현하기 위해 필수적인 프롬프트 작성 요소입니다 [5, 6]. + +## 📖 Core Content +* **매개변수 사용 기본 규칙** + * 매개변수는 항상 텍스트 프롬프트의 지시어와 설명이 끝난 가장 마지막에 위치해야 합니다 [2, 7]. + * 프롬프트 텍스트와 이중 하이픈(`--`) 사이에는 반드시 띄어쓰기(공백)를 포함해야 정상적으로 작동합니다 [7]. + * 매개변수 내에는 쉼표(,)나 마침표(.) 등의 구두점을 사용해서는 안 됩니다 [7]. + +* **형태 및 모델 제어 (Form & Model Control)** + * `--ar` 또는 `--aspect`: 최종 이미지의 가로세로 비율(Aspect ratio)을 조정합니다 (예: `--ar 16:9`, `--ar 3:2`) [2, 3, 5]. + * `--v`: 사용할 미드저니 모델의 버전을 지정합니다 (예: `--v 6.0`, `--v 7`) [2, 5, 8]. + * `--q` 또는 `--quality`: 이미지의 세부 묘사와 렌더링에 사용되는 시간 및 해상도 품질을 제어합니다 (예: 0.25, 0.5, 1) [2, 5, 9, 10]. + * `--draft`: Midjourney V7에서 추가된 기능으로, 표준 생성보다 약 10배 빠른 속도와 절반의 GPU 비용으로 초기 시안용 이미지를 빠르게 테스트하고 생성할 수 있게 해줍니다 [8, 10-12]. + +* **스타일 및 창의성 제어 (Style & Creativity)** + * `--s` 또는 `--stylize`: 미드저니의 기본 예술적 스타일을 얼마나 강하게 적용할지(0~1000)를 결정합니다. 값이 낮을수록 텍스트 지시에 더 충실한 결과를 내며, 값이 높을수록 모델의 예술적 해석과 미학적 개입이 강해집니다 [2, 5, 13]. + * `--c` 또는 `--chaos`: 초기 결과물에 다양성과 무작위성을 부여합니다 (0~100). 값이 높을수록 4장의 그리드 이미지가 서로 예측할 수 없는 다채로운 결과를 보입니다 [2, 5, 14]. + * `--weird` 또는 `--w`: 이미지에 기이하고 독특하며 파격적인 요소를 도입하여 예상치 못한 결과를 이끌어냅니다 [2, 10]. + * `--style raw`: 미드저니 고유의 기본 "미화(beautification)" 효과를 줄이고, 보다 사진 같거나 날것 그대로의 사실적인 결과를 얻고자 할 때 사용합니다 [2, 5, 10]. + +* **참조 및 일관성 제어 (Reference & Consistency)** + * `--cref` (캐릭터 참조) & `--cw` (캐릭터 가중치): 참조 이미지의 URL을 입력하여 특정 캐릭터의 얼굴, 의상 등의 시각적 일관성을 여러 이미지에 걸쳐 유지합니다 [2, 4]. + * `--sref` (스타일 참조) & `--sw` (스타일 가중치): 특정 이미지의 미학, 무드, 색상 팔레트를 새로운 생성물에 복제하여 일관된 톤앤매너를 적용합니다 [2, 15]. + * `--oref` (옴니 참조) & `--ow`: Midjourney V7에서 도입된 기능으로, 인물 캐릭터를 넘어 차량이나 보석 등 사물 및 피사체의 고유한 형태적 정체성까지 완벽하게 기억하여 일관되게 재현합니다 [10, 13, 16, 17]. + * `--seed`: 이미지 생성 시 특정 시드 번호를 지정하여, 실험하고 수정하는 과정에서 유사한 시각적 구도를 일관되게 유지할 수 있도록 돕습니다 [2, 9, 10]. + +* **기타 제어 기능 (Other Controls)** + * `--no`: 부정 프롬프트(Negative Prompt)로 작용하며, 이미지에서 명시적으로 제외하고 싶은 요소를 지정할 때 사용합니다 (예: `--no text`, `--no buildings`) [14, 18]. + * `--stop`: 렌더링 과정을 지정된 퍼센트(10~100) 구간에서 조기 종료시킵니다. 이를 통해 흐릿하거나 미완성된 독특한 효과를 내거나 오타를 가릴 수 있습니다 [2, 9, 19]. + * `--iw`: 텍스트 프롬프트의 지시와 비교하여, 첨부된 이미지 프롬프트가 최종 결과에 미치는 상대적 가중치(영향력)를 제어합니다 [2, 10, 14]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[부정 프롬프트 (Negative Prompts)]], [[미드저니 V7 (Midjourney V7)]], [[스타일 참조 (Style Reference)]], [[옴니 참조 (Omni Reference)]] +- **Projects/Contexts:** [[미드저니 프롬프트 구조화 및 최적화 (Midjourney Prompt Structuring and Optimization)]] +- **Contradictions/Notes:** 이미지 내 캐릭터의 시각적 정체성을 유지하기 위해 V6 버전에서는 캐릭터 참조(`--cref`)가 주로 활용되었으나, 2025년에 기본 모델로 적용된 최신 V7에서는 이를 한층 더 발전시켜 사물과 객체 전반의 일관성까지 통제할 수 있는 옴니 참조(`--oref`)가 도입되어 활용 폭이 확장되었습니다 [4, 17, 20]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/미드저니 매개변수 제어 및 스타일 참조(Style Reference).md b/10_Wiki/Topics_Art/미드저니 매개변수 제어 및 스타일 참조(Style Reference).md new file mode 100644 index 00000000..eff93dd6 --- /dev/null +++ b/10_Wiki/Topics_Art/미드저니 매개변수 제어 및 스타일 참조(Style Reference).md @@ -0,0 +1,25 @@ +# [[미드저니 매개변수 제어 및 스타일 참조(Style Reference)]] + +## 📌 Brief Summary +미드저니의 매개변수(Parameter)는 텍스트 프롬프트의 끝에 추가되어 이미지의 종횡비, 예술적 스타일 강도, 무작위성 등을 세밀하게 제어하는 특수 명령어이다 [1, 2]. 이 중 스타일 참조(Style Reference, `--sref`)는 특정 이미지의 URL을 입력하여 해당 이미지의 시각적 무드나 색상 팔레트를 새로운 생성물에 일관되게 적용하는 강력한 매개변수이다 [3, 4]. 이를 통해 창작자는 단순히 텍스트를 나열하는 것을 넘어, 일관된 브랜드 이미지와 고유한 미적 코드를 효과적으로 구현할 수 있다 [4, 5]. + +## 📖 Core Content +* **매개변수 제어(Parameter Control)의 원칙과 주요 종류** + * 매개변수는 항상 프롬프트 텍스트의 **맨 끝에 이중 하이픈(`--`)과 함께 배치**되어야 하며, 쉼표나 마침표 같은 구두점을 포함해서는 안 된다 [6, 7]. + * **종횡비(`--ar` 또는 `--aspect`):** 이미지의 가로세로 비율(예: `--ar 16:9`, `--ar 3:2`)을 결정하며, V7 모델에서는 최대 14:1의 비율까지 지원한다 [2, 8, 9]. + * **스타일라이즈(`--s` 또는 `--stylize`):** 0에서 1000 사이의 값으로 설정하여 미드저니 고유의 예술적 해석 강도를 제어한다. **값이 높을수록 미학적이고 추상적인 결과**가 나오며, 낮을수록 사용자의 텍스트 지시에 더 충실한 이미지가 생성된다 [4, 10, 11]. + * **카오스(`--c` 또는 `--chaos`):** 0에서 100 사이의 값을 사용하여 생성되는 초기 이미지 간의 다양성과 무작위성을 증가시킨다 [12, 13]. + * **기타 주요 제어:** 원치 않는 요소를 제거하는 부정 프롬프트(`--no`), 렌더링 시간과 이미지 디테일 품질을 조절하는 퀄리티(`--q`), 일관된 노이즈 패턴을 재사용하는 시드(`--seed`), 기이한 요소를 추가하는 위어드(`--weird`), V7에서 저렴하고 빠르게 시안을 생성하는 드래프트(`--draft`) 등이 있다 [12, 14, 15]. + +* **참조 기능(Reference Features)을 통한 일관성 확보** + * **스타일 참조(`--sref`):** 참조하고자 하는 이미지의 URL을 프롬프트에 입력하여, **대상의 분위기, 색상 팔레트, 예술적 스타일을 새로운 작업물에 복제**한다 [3, 4]. 띄어쓰기로 구분하여 두 개 이상의 URL을 혼합함으로써 자신만의 '시그니처 스타일'을 만들 수도 있으며, 스타일 가중치(`--sw`) 파라미터로 그 강도를 조절할 수 있다 [5, 15, 16]. + * **캐릭터 참조(`--cref`):** 동일한 캐릭터(얼굴, 머리 등)의 정체성을 여러 프롬프트에 걸쳐 일관되게 유지한다. 캐릭터 가중치(`--cw`)를 0~100 사이로 설정하여 얼굴만 유사하게 유지할지, 의상과 머리 모양까지 동일하게 유지할지 변화 정도를 지정할 수 있다 [5, 11, 13]. + * **옴니 참조(`--oref`):** V7 버전에 새롭게 도입된 핵심 기능으로, 단순한 스타일이나 인물을 넘어 **특정 사물(커스텀 차량, 특정 보석 등)의 고유한 형태적 정체성까지 기억**하여 다른 장면과 환경에서도 동일한 피사체를 정확히 재현해낸다 [4, 16, 17]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[부정 프롬프트(Negative Prompt)]], [[프롬프트 엔지니어링(Prompt Engineering)]], [[캐릭터 참조(Character Reference)]] +- **Projects/Contexts:** [[미드저니 V7 업데이트 및 시각적 워크플로우]] +- **Contradictions/Notes:** 소스에 따르면 참조(Reference) 기능과 매개변수 제어가 생성물의 방향성 및 일관성을 크게 향상시키지만, 미드저니 시스템을 완벽하게 '결정론적(deterministic)'으로 만들지는 않으므로 완벽하게 일치하는 특정 레이아웃이나 타이포그래피가 필요한 경우에는 한계가 존재합니다 [18, 19]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/미드저니 프롬프트 구조화 및 최적화 (Midjourney Prompt Structuring and Optimization).md b/10_Wiki/Topics_Art/미드저니 프롬프트 구조화 및 최적화 (Midjourney Prompt Structuring and Optimization).md new file mode 100644 index 00000000..708354c6 --- /dev/null +++ b/10_Wiki/Topics_Art/미드저니 프롬프트 구조화 및 최적화 (Midjourney Prompt Structuring and Optimization).md @@ -0,0 +1,31 @@ +# [[미드저니 프롬프트 구조화 및 최적화 (Midjourney Prompt Structuring and Optimization)]] + +## 📌 Brief Summary +미드저니(Midjourney) 프롬프트는 AI 모델이 이미지를 생성하도록 지시하는 명령어, 텍스트 묘사, 이미지 URL, 그리고 매개변수(Parameters)로 구성된 구조화된 입력값이다 [1]. 성공적인 프롬프트는 주제, 매체, 환경, 조명, 분위기 등의 핵심 요소를 명확한 공식에 따라 배열하여 작성된다 [2-4]. 최적화를 위해서는 스타일 및 캐릭터 참조, 드래프트 모드(Draft Mode)와 같은 최신 매개변수를 활용하여 일관성과 비용 효율성을 높이고, 생성 후 인페인팅(Vary Region)이나 줌 아웃(Zoom Out) 도구를 통해 결과물을 정교하게 편집하는 과정이 수반된다 [5-9]. + +## 📖 Core Content +* **프롬프트의 기본 구조 (Basic Prompt Structure)** + * 미드저니 프롬프트는 통상적으로 `/imagine` 명령어로 시작하며, 선택적인 `이미지 URL`, 핵심이 되는 `텍스트 프롬프트`, 그리고 출력물을 미세 조정하는 `매개변수(Parameters)`의 네 가지 요소로 구성된다 [1]. + * 효과적인 텍스트 프롬프트는 기계가 해석하기 쉽도록 `[주제(Subject)] + [행동/배경(Action/Setting)] + [스타일/매체(Style/Medium)] + [세부사항/수식어(Details/Modifiers)] + [--매개변수]`의 논리적 순서를 따르는 것이 권장된다 [2, 4, 10]. + * 너무 길고 모호한 시적 묘사나 부정어("no", "without")의 사용은 피해야 하며, 대신 5~10개의 구체적인 시각적 키워드에 집중하거나 불필요한 요소 제거를 위해 명시적인 `--no` 매개변수를 사용하는 것이 적합하다 [11-14]. + +* **매개변수를 통한 출력 제어 및 최적화 (Control and Optimization via Parameters)** + * 매개변수는 프롬프트의 가장 마지막에 배치해야 하며, 쉼표나 마침표 등의 구두점 없이 띄어쓰기와 이중 하이픈(`--`)으로 작성해야 오류가 발생하지 않는다 [15, 16]. + * 기본 매개변수인 종횡비(`--ar`), 예술적 스타일화 개입 정도(`--stylize`), 결과물의 무작위성(`--chaos`), 이미지 가중치(`--iw`) 등을 조합하여 시각적 구도와 미학적 강도를 제어할 수 있다 [1, 16-19]. + * **참조(Reference) 기능의 고도화:** 스타일 참조(`--sref`), 캐릭터 참조(`--cref`), 그리고 V7에 도입되어 사물의 정체성을 유지하는 옴니 참조(`--oref`)를 사용하면, 복잡한 텍스트 묘사 없이도 일관된 브랜드 이미지와 캐릭터 서사를 구축할 수 있다 [5, 9, 19-21]. 또한 개인화(`--p`) 매개변수를 적용하면 사용자의 과거 선호 스타일을 모델이 학습하여 자동으로 결과물에 반영한다 [22]. + +* **버전별 특징을 활용한 워크플로우 최적화 (Version-specific Workflow Optimization)** + * **텍스트 렌더링 및 해상도:** 미드저니 V7은 따옴표 안에 단어를 입력하여 오타 없이 텍스트를 렌더링하는 능력을 갖췄으며, V8.1 Alpha 버전은 업스케일링 과정 없이 2K 해상도의 고화질(HD) 이미지를 4~5배 빠른 속도로 출력한다 [5, 23, 24]. + * **드래프트 모드(Draft Mode):** V7부터 지원되는 `--draft` 매개변수를 활용하면 GPU 비용을 절반으로 줄이면서 약 10배 빠르게 시안을 생성할 수 있다 [2, 7, 17]. 이는 제품 팀이나 창작자가 저비용으로 여러 아이디어를 신속하게 탐색(Ideation)하고 최적의 방향을 선택한 후 고품질로 렌더링하는 실무적 워크플로우에 핵심적인 역할을 한다 [7, 22, 25]. + +* **생성 후 사후 편집 및 정교화 (Post-generation Editing & Refinement)** + * **영역별 변주(Vary Region / Inpainting):** 이미지가 생성된 후 마음에 들지 않는 부분이나 추가하고 싶은 영역(예: 모자를 왕관으로 변경)만 선택하여 재구성할 수 있다 [6, 26-28]. 리믹스(Remix) 모드와 결합하면 선택한 영역에 대해서만 프롬프트를 수정하여 완벽한 맥락을 유지한 채 합성할 수 있다 [28-30]. + * **시야 및 구도 확장(Pan & Zoom Out):** 생성된 이미지가 너무 근접해 있거나 캔버스를 확장해야 할 때 사용한다. 'Pan'을 통해 특정 방향으로 공간을 늘리거나 'Zoom Out'을 통해 피사체 주변의 환경을 논리적으로 생성하여 완벽한 구도를 구성할 수 있다 [6, 8, 30]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[매개변수 (Parameters)]], [[인페인팅 (Inpainting)]], [[확산 모델 (Diffusion Models)]] +- **Projects/Contexts:** [[미드저니 V7 및 V8.1 Alpha 워크플로우]], [[상업용 브랜드 이미지 및 디자인 시스템 구축]] +- **Contradictions/Notes:** 소스 문헌들에 따르면 미드저니 V7은 2025년 중반에 기본 모델로 설정되었고 V8.1 Alpha는 2026년 4월에 출시되었으나, 모델의 발전 속도가 매우 빠르므로 지속적인 매개변수 문법 확인이 필요하다 [23, 31]. 또한, AI에게 부정적인 지시(예: "no blur")를 하는 것보다는 명시적인 긍정적 묘사(예: "sharp focus")를 사용하거나 전용 `--no` 파라미터를 사용하는 것이 의도치 않은 결과물을 방지하는 데 더 효과적이다 [11, 12, 32]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/미드저니(Midjourney) V7 초안 기반 워크플로우.md b/10_Wiki/Topics_Art/미드저니(Midjourney) V7 초안 기반 워크플로우.md new file mode 100644 index 00000000..60dbf200 --- /dev/null +++ b/10_Wiki/Topics_Art/미드저니(Midjourney) V7 초안 기반 워크플로우.md @@ -0,0 +1,26 @@ +# [[미드저니(Midjourney) V7 초안 기반 워크플로우]] + +## 📌 Brief Summary +미드저니(Midjourney) V7에 도입된 '드래프트 모드(Draft Mode, `--draft`)'를 활용하여 아이디어를 신속하게 탐색하고 최적화하는 단계적 작업 방식이다 [1, 2]. 모든 프롬프트를 즉시 최종 결과물로 렌더링하는 대신, 훨씬 빠르고 저렴하게 생성된 초안(Draft)으로 구도와 방향성을 검토한 후 고품질 이미지로 승격시키는 프로세스를 거친다 [3-5]. 이를 통해 창작자들은 프롬프트 엔지니어링 과정에서 소요되는 비용과 시간을 획기적으로 절감하며 효율적으로 이미지를 제작할 수 있다 [3, 6]. + +## 📖 Core Content +* **드래프트 모드(Draft Mode)의 효율성:** + 미드저니 V7의 `--draft` 매개변수를 사용하면 **표준 생성 대비 약 10배 빠른 속도**로 초기 콘셉트와 빠른 변형을 만들어낼 수 있다 [2, 6]. 또한, **GPU 비용을 절반 수준으로 낮추어** 매월 제공되는 'Fast' 시간을 낭비하지 않으면서 프롬프트를 완벽하게 다듬을 수 있는 기회를 제공한다 [3, 6, 7]. + +* **단계적 시각화 프로세스(Staged Process):** + 성공적인 V7 워크플로우는 이미지 생성을 하나의 디자인 검토 루프(Design review loop)처럼 다루는 것이 핵심이다 [4]. + 1. **저비용 시안 대량 생성:** 여러 프롬프트와 종횡비(Aspect Ratios)를 사용하여 저품질의 초안을 여러 개 생성한다 [1, 3]. + 2. **검토 및 선정:** 생성된 초안 중 가장 유망한 구도나 방향성을 가진 결과물을 선별한다 [1]. 이 과정에서 브랜드 가이드라인에 맞지 않는 출력물을 미리 제거할 수 있다 [5]. + 3. **고품질 승격(Refinement & Promotion):** 선정된 초안 후보를 전체 해상도 매개변수를 적용하여 고화질(HD)의 최종 이미지로 렌더링한다 [1, 5, 6, 8]. + 4. **방향성 재사용:** 성공적인 결과물의 시드(Seed)나 작업 ID, 참조 이미지(Style/Omni Reference) 등의 방향성 데이터를 저장하여 후속 생성에 반복적으로 재사용한다 [1, 5, 9]. + +* **프롬프트 엔지니어링에서의 전략적 이점:** + 이러한 접근법은 단순한 기능 활용을 넘어 비용을 통제하는 근본적인 수단이다 [4]. 전문가들은 수천 개의 아이디어를 즉각적으로 시각화하고 최적의 결과를 얻어내는 **'효율적인 에이전틱 크리에이티브 워크플로우'**를 정착시킬 수 있다 [4-6]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Midjourney Parameters]], [[Iterative Prompting]], [[Style Reference (--sref)]], [[Omni Reference (--oref)]] +- **Projects/Contexts:** [[API-backed Image Generation Workflow]], [[Commercial AI Art Production]] +- **Contradictions/Notes:** 초안 모드는 품질이 다소 낮은 버전을 생성하므로 최종 자산으로 바로 사용하기보다는 프롬프트와 구도를 테스트하는 용도로 적합하다 [3]. 또한, 이 워크플로우는 엄격하고 정확한 템플릿 재생산보다는 미적인 감각과 스타일 변형이 중요한 창의적 작업에 훨씬 효과적이다 [10]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/반복적 정교화 (Iterative Refinement).md b/10_Wiki/Topics_Art/반복적 정교화 (Iterative Refinement).md new file mode 100644 index 00000000..398379fa --- /dev/null +++ b/10_Wiki/Topics_Art/반복적 정교화 (Iterative Refinement).md @@ -0,0 +1,19 @@ +# [[반복적 정교화 (Iterative Refinement)]] + +## 📌 Brief Summary +반복적 정교화는 단 한 번의 완벽한 프롬프트로 최종 이미지를 얻으려 하기보다는, 단순하고 명확한 초기 프롬프트로 시작하여 결과를 평가하고 지속적으로 지시어를 수정해 나가는 AI 이미지 생성의 핵심 과정이다 [1, 2]. 첫 번째 이미지를 베이스로 삼아 조명, 구도, 스타일, 세부 묘사 등을 점진적으로 추가하거나 제거하며, 이 과정은 기계에 대한 일방적인 명령이라기보다 모델과의 반복적인 대화 및 협업 과정으로 정의된다 [1, 3, 4]. + +## 📖 Core 무Content +- **초기 접근법**: 프롬프트 작성 시 처음부터 모든 세부 사항을 담아 완벽하게 만들려고 노력할 필요는 없다 [1]. 대신 개방적이고 단순명료한 지시어로 시작하여 AI에게 창의적 자유를 부여하고 다양한 초기 결과물을 확인하는 것이 권장된다 [1, 2]. +- **결과 평가 및 점진적 수정**: 생성된 첫 번째 이미지를 베이스 이미지(Base Image)로 삼아 부족한 부분이나 개선점을 파악한다 [4, 5]. 이후 프롬프트에 조명, 구도, 색상, 예술적 스타일 등의 묘사를 추가하거나 변경하며 이미지가 사용자의 시각적 의도와 일치할 때까지 반복해서 다듬는다 [1, 3, 5]. +- **부정 프롬프트(Negative Prompt)를 통한 문제 해결**: 수정 과정에서 반복적으로 원치 않는 결함(예: 일그러진 손가락, 워터마크 등)이 나타날 경우, 해당 문제를 정확히 격리하여 표적화된 부정 프롬프트를 추가하고, 불필요한 단어를 제거(Prune)해 나가는 방식으로 결과물을 최적화한다 [6]. +- **부분 사후 편집의 활용**: 전체 프롬프트를 수정하는 것 외에도 미드저니의 인페인팅 기능인 Vary (Region)이나 줌 아웃(Zoom Out) 같은 도구를 활용하여, 기존 이미지의 맥락은 완벽하게 유지한 채 특정 부분만 수정하거나 캔버스를 확장하는 등의 사후 편집을 거치며 이미지를 정교화한다 [3, 4, 7]. +- **전문가의 필수 역량**: 프롬프트 작성은 단발적인 명령 하달이 아니라 모델과의 반복적인 협업 과정이다 [4]. 전문가일수록 첫 번째 결과물에 만족하거나 포기하지 않고, 이러한 피드백 루프를 거치며 추상적인 아이디어를 완성된 시각물로 전환해 낸다 [3, 4]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[네거티브 프롬프트 (Negative Prompt)]], [[사후 편집 (Post-editing)]], [[Vary Region (인페인팅)]] +- **Projects/Contexts:** 미드저니(Midjourney) 및 메타 AI(Meta AI)를 활용한 순차적 프롬프트 개선 및 이미지 합성 워크플로우 [3, 4, 7]. +- **Contradictions/Notes:** 능련된 프롬프트 엔지니어나 마스터 아티스트가 단 한 번의 시도만으로 완벽한 이미지를 만들어낸다는 것은 흔한 오해이며, 실제로는 짧은 시간 내에 압축된 수많은 테스트와 수정의 반복 과정(Iterative process)을 거친다 [8]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/반복적 프롬프트 엔지니어링 워크플로우(Iterative Prompt Engineering Workflow).md b/10_Wiki/Topics_Art/반복적 프롬프트 엔지니어링 워크플로우(Iterative Prompt Engineering Workflow).md new file mode 100644 index 00000000..4f863006 --- /dev/null +++ b/10_Wiki/Topics_Art/반복적 프롬프트 엔지니어링 워크플로우(Iterative Prompt Engineering Workflow).md @@ -0,0 +1,25 @@ +# [[반복적 프롬프트 엔지니어링 워크플로우(Iterative Prompt Engineering Workflow)]] + +## 📌 Brief Summary +반복적 프롬프트 엔지니어링 워크플로우는 AI 이미지 생성 시 한 번의 시도로 완벽한 결과물을 얻으려 하기보다는, 단순하고 명확한 프롬프트로 시작하여 결과를 평가하고 점진적으로 디테일을 추가해 나가는 협업 과정을 의미한다 [1-4]. 이 과정은 프롬프트 작성자와 AI 모델 간의 대화처럼 이루어지며, 러프한 스케치에서 시작해 조명, 스타일, 구도 등을 다듬어 최종적으로 완성도 높은 이미지를 도출하는 데 필수적인 접근법이다 [2, 5, 6]. + +## 📖 Core Content +* **단순한 시작과 뼈대 구축 (Start Simple):** + 처음부터 너무 길고 복잡한 프롬프트를 작성하면 AI가 혼란을 겪거나 창의성을 발휘할 여지가 줄어든다 [7, 8]. 대형 언어 모델(LLM)에 의존해 지나치게 시적이고 장식적인 프롬프트를 만드는 대신, 주제와 환경 같은 기본적인 요소를 담은 간결한 지시어(예: 15~50단어, 2~3문장)로 시작하여 이미지의 뼈대를 잡는 것이 중요하다 [7-9]. +* **점진적 구체화 (Layering Details):** + 생성된 첫 번째 결과물(베이스 이미지)을 확인한 후, 원하는 방향으로 유도하기 위해 디테일을 층층이 덧붙여 나간다(Layering) [1, 4, 9, 10]. 주체에 대한 묘사를 시작으로 조명, 카메라 앵글, 예술적 스타일, 분위기 등을 추가하며 이미지를 정교화한다 [11, 12]. +* **평가 및 수정의 순환 (Evaluate and Adjust):** + 첫 번째 세대(Generation)가 최종 결과물이 되는 경우는 거의 없으며, 일반적으로 원하는 것을 정확히 얻기 위해 3~5회의 변형과 수정 과정이 필요하다 [2, 8]. 조명, 색상, 구도 등 한 번에 하나의 요소만 변경해 보며 모델이 어떻게 반응하는지 파악하고 프롬프트를 수정해 나가는 과정이 권장된다 [1, 8, 13]. +* **네거티브 프롬프트를 활용한 문제 해결 (Targeted Negative Prompting):** + 반복 과정에서 변형된 손가락이나 텍스트 워터마크 등 원치 않는 결함이 반복적으로 나타난다면 네거티브 프롬프트를 활용한다 [14]. 베이스 이미지를 생성한 후 눈에 띄는 오류만 진단하여 가장 작은 단위의 구체적인 네거티브 키워드를 추가하고, 다시 생성하여 비교하는 방식(Generate - Inspect - Isolate - Rerun - Prune)이 효과적인 디버깅 워크플로우이다 [14, 15]. +* **사후 편집 툴을 결합한 워크플로우:** + 최신 도구들은 프롬프트 텍스트만 수정하는 것을 넘어 사후 편집 기능을 제공한다. 미드저니(Midjourney)의 경우 'Vary (Region)'을 사용하여 이미지의 전체적인 분위기는 유지하면서 선택한 특정 부분(예: 인물의 모자 등)만 새로운 프롬프트를 적용해 정교하게 수정하거나, 'Zoom Out', 'Pan' 기능을 통해 생성된 캔버스를 점진적으로 확장하는 식의 반복적 작업이 가능하다 [4, 16-18]. + +## 🔗 Knowledge Connections +- **Related Topics:** `[[프롬프트 구조(Prompt Structure)]]`, `[[네거티브 프롬프트(Negative Prompt)]]`, `[[인페인팅 및 아웃페인팅(Inpainting and Outpainting)]]`, `[[시각적 스타일 및 조명(Visual Style and Lighting)]]` +- **Projects/Contexts:** `[[AI 이미지 생성 프로세스]]`, `[[Midjourney 및 DALL-E 프롬프트 튜토리얼]]` +- **Contradictions/Notes:** + 일부 초보자들은 복잡한 언어 모델(LLM)을 사용해 처음부터 고도로 장식적이고 방대한 프롬프트를 작성하려 하거나, 의미 없는 네거티브 단어를 길게 나열하는 '블랙리스트' 방식을 취하곤 한다 [7, 19, 20]. 그러나 소스들은 이러한 방식이 AI를 혼란스럽게 하거나 이미지의 생동감을 떨어뜨릴 수 있다고 지적하며, 직관적이고 단순하게 시작해 실제 발생한 문제에 맞춰 타겟팅하여 점진적으로 수정하는 것이 훨씬 효과적인 워크플로우라고 강조한다 [7, 14, 15]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/부정 프롬프트 (Negative Prompt).md b/10_Wiki/Topics_Art/부정 프롬프트 (Negative Prompt).md new file mode 100644 index 00000000..0810d06b --- /dev/null +++ b/10_Wiki/Topics_Art/부정 프롬프트 (Negative Prompt).md @@ -0,0 +1,28 @@ +# [[부정 프롬프트 (Negative Prompt)]] + +## 📌 Brief Summary +부정 프롬프트(Negative Prompt)는 이미지 생성 AI 모델에게 결과물에 포함되지 않아야 할 요소를 명시적으로 지시하는 방법이다 [1, 2]. 긍정 프롬프트가 생성할 이미지의 방향성과 목표를 설정한다면, 부정 프롬프트는 허용되지 않는 경계(boundary)를 설정하여 기형적인 해부학적 구조나 원치 않는 스타일 등의 시각적 결함을 방지하는 데 필수적인 역할을 한다 [3-5]. + +## 📖 Core Content +* **개념 및 작동 원리** + * 부정 프롬프트는 생성 과정 중 방향을 잃고 오류를 범하기 쉬운 AI 모델을 올바른 길로 안내하는 제어 시스템이다 [1, 3]. + * 긍정 프롬프트의 텍스트 내에 단순히 "없는(no)", "아닌(without)" 등의 부정어를 혼합해 사용할 경우, DALL-E 3나 미드저니(Midjourney) 등의 모델은 이를 오인하여 오히려 그 단어의 요소를 생성해버리는 역효과를 발생시킨다 [6-9]. 이러한 문제를 피하기 위해 플랫폼에서 자체적으로 제공하는 전용 부정 프롬프트 매개변수나 텍스트 입력 영역을 활용해야 한다 [2, 6]. + * 생성 과정에서 긍정 및 부정 조건화(conditioning)의 반영 강도는 **CFG(Classifier-Free Guidance) 스케일**에 의해 함께 조절된다 [4, 10]. + +* **플랫폼별 적용 방법** + * **스테이블 디퓨전(Stable Diffusion)**: 별도의 전용 부정 프롬프트 입력 영역을 사용한다 [1, 11]. 단순히 "나쁜(bad)"과 같은 모호한 단어를 나열하는 것보다 "여분의 손가락(extra fingers)", "비대칭 눈(asymmetrical eyes)", "워터마크(watermark)" 등 구체적이고 시각적인 결함 명사를 지목하는 것이 훨씬 정밀하게 작동한다 [4, 12-14]. 또한 `(blurry:1.5)`처럼 가중치를 부여하여 특정 결함을 강하게 밀어낼 수 있으나, 과도하게 사용할 경우 전체적인 이미지 구조에 새로운 문제가 생길 수 있다 [15-17]. + * **미드저니(Midjourney)**: 텍스트 프롬프트의 끝에 `--no` 매개변수를 덧붙여 원치 않는 요소를 제거할 수 있다(예: 나무를 없애려면 `--no trees` 입력) [18, 19]. 이는 자연어인 "without"을 사용하는 것보다 명확하고 강력하게 작동한다 [2]. + * **DALL-E 3**: 부정어를 잘 처리하지 못하는 시스템적 약점이 있으므로, "문자가 포함되지 않은"과 같이 부정적인 지시를 내리기보다는 원하는 상태를 긍정적이고 구체적으로 묘사하여 우회하는 것이 효과적이다 [7, 8]. + +* **최적화 전략과 모델별 특성** + * 결함이 발생했을 때, 모든 프롬프트에 무조건 길고 범용적인 부정 프롬프트 세트를 복사해서 붙여넣는 것은 구시대적 방식이다 [5, 11]. **발생한 시각적 문제를 진단한 후 가장 관련성 높은 최소한의 부정 프롬프트만 추가**하여 의도치 않은 이미지 손상(collateral damage)을 줄이는 것이 현명한 워크플로우다 [13, 20, 21]. + * 부정 프롬프트는 의도한 화풍을 보호하는 데에도 쓰인다. 실사 초상화를 원할 때는 `cgi, render, cartoon`을 부정 프롬프트로 지정하여 현실감을 지키고, 반대로 애니메이션 화풍을 원할 때는 `photograph, realistic`을 부정 프롬프트로 차단하여 의도한 스타일이 실사풍으로 오염되는 것을 막는 전략이 필수적이다 [14, 22, 23]. + * 모델 세대별로 수용성에 차이가 있다. SD 1.5 모델은 길게 나열된 부정 프롬프트 목록에도 잘 대응하지만, 최신 모델인 SDXL이나 Flux 모델은 길고 불필요한 부정 프롬프트를 억지로 넣을 경우 오히려 이미지의 디테일이 무너지거나 구도가 뻣뻣해질 수 있으므로 결함에 정확히 초점을 맞춘 간결한 작성이 권장된다 [24, 25]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 가중치 (Prompt Weights)]], [[CFG 스케일 (CFG Scale)]], [[AI 이미지 생성 도구 및 매개변수]] +- **Projects/Contexts:** [[상업용 AI 이미지 품질 관리 및 워크플로우 최적화]] +- **Contradictions/Notes:** 많은 초보자들이 긍정 프롬프트 안에 "없는(no)"이라는 단어를 사용하여 요소를 배제하려 하지만, 제공된 소스들은 이러한 자연어 기반 부정 방식이 AI에게 오히려 역효과(해당 요소를 생성함)를 낳는다고 공통적으로 지적한다 [6, 7, 9]. 또한 긴 부정 프롬프트의 효율성에 있어서도 과거 모델(SD 1.5)과 최신 모델(SDXL, Flux) 간 상이한 반응을 보이므로 맹목적인 긴 부정 프롬프트의 남용은 지양해야 한다고 조언하고 있다 [24, 25]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/부정 프롬프트 (Negative Prompts).md b/10_Wiki/Topics_Art/부정 프롬프트 (Negative Prompts).md new file mode 100644 index 00000000..7bfb64c7 --- /dev/null +++ b/10_Wiki/Topics_Art/부정 프롬프트 (Negative Prompts).md @@ -0,0 +1,24 @@ +# [[부정 프롬프트 (Negative Prompts)]] + +## 📌 Brief Summary +부정 프롬프트(Negative Prompts)는 AI 이미지 생성 모델에게 이미지에 포함되지 않아야 할 요소나 개념을 명시적으로 지시하는 제어 시스템이다 [1, 2]. 긍정 프롬프트가 이미지에 포함할 요소를 지시하여 목표(Target)를 설정한다면, 부정 프롬프트는 생성 과정 중 원치 않는 방향이나 편향을 차단하는 회피 지도(Avoidance map) 역할을 수행한다 [3, 4]. 이를 활용하면 불필요한 형태 왜곡이나 시각적 결함을 사전에 방지하여 재작업(Reroll) 횟수를 줄이고 고품질의 결과물을 얻을 수 있다 [5, 6]. + +## 📖 Core Content +* **개념 및 작동 원리** + 원치 않는 요소를 긍정 프롬프트 영역에서 "무엇이 없는(without)" 형태로 묘사하면 모델이 오히려 그 요소를 이미지에 추가하는 역효과가 발생하기 쉽다 [1, 7]. 따라서 별도로 분리된 부정 프롬프트 섹션이나 전용 파라미터를 통해 지시해야 한다. 부정 프롬프트는 생성 과정(Diffusion process)에서 모델을 원치 않는 개념으로부터 밀어내는 안내자 역할을 하며, CFG(Classifier-Free Guidance) 스케일 수치에 따라 모델이 이 회피 지시를 따르는 강도가 결정된다 [2, 4]. + +* **구체적인 작성법과 가중치 조절** + 포괄적이거나 모호한 단어(예: "bad", "ugly")를 사용하는 것보다, 시각적으로 명확한 결함을 구체적인 명사나 특징(예: "extra fingers", "misaligned eyes", "watermark")으로 묘사하는 것이 훨씬 효과적이다 [8]. 이상적인 작성 순서는 먼저 기본 프롬프트로 이미지를 생성하고, 반복적으로 발생하는 실패 요소를 진단한 뒤에 해당 문제를 해결할 수 있는 최소한의 타겟팅된 부정 프롬프트를 추가하는 것이다 [9, 10]. 필요한 경우 괄호와 숫자(예: `(blurry:1.3)`)를 활용한 가중치 부여로 특정 개념에 대한 회피 강도를 세밀하게 조정할 수 있다 [11]. + +* **주요 플랫폼별 적용 차이점** + * **스테이블 디퓨전 (Stable Diffusion)**: 부정 프롬프트 섹션이 결과물 통제에 가장 강력한 무기로 작동하며, 형태 왜곡, 저화질, 워터마크 등을 명시적으로 차단하는 것이 표준적이다 [12]. 단, SD 1.5, SDXL, Flux 등 모델 버전의 특성에 따라 요구되는 최적화 전략이나 부정 프롬프트의 분량에는 차이가 있다 [13, 14]. + * **미드저니 (Midjourney)**: 텍스트에 부정어를 쓰기보다는 파라미터인 `--no`를 입력하여 요소를 명시적으로 배제해야 한다(예: 나무가 없는 풍경을 원할 경우 `--no trees` 입력) [15]. + * **DALL-E 3**: "not", "no", "don't", "without"과 같은 부정 명령어를 처리하는 데 매우 취약하며, 이러한 단어를 쓰면 오히려 텍스트 내의 요소를 그림에 그려버리는 경향이 있다 [16, 17]. 따라서 부정어를 사용하기보다 원하는 긍정적인 특성을 대체해서 묘사하는 접근이 필요하다 [17]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[가중치 조절 (Prompt Weights)]], [[CFG 스케일 (CFG Scale)]] +- **Projects/Contexts:** [[스테이블 디퓨전 (Stable Diffusion)]], [[미드저니 (Midjourney)]], [[DALL-E 3]] +- **Contradictions/Notes:** 플랫폼 간 부정 지시어 처리 능력에 극명한 차이가 존재한다. 스테이블 디퓨전과 미드저니는 전용 부정 프롬프트 섹션이나 `--no` 파라미터를 통해 원치 않는 요소를 효과적으로 차단하는 반면 [12, 15], DALL-E 3와 같은 일부 모델은 부정적인 언어 표현("no", "without" 등)을 문맥적으로 올바르게 이해하지 못하고 배제하려던 객체를 오히려 결과물에 포함시키는 역효과를 발생시킨다 [7, 17]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/부정 프롬프트(Negative Prompt).md b/10_Wiki/Topics_Art/부정 프롬프트(Negative Prompt).md new file mode 100644 index 00000000..8d8bdbb6 --- /dev/null +++ b/10_Wiki/Topics_Art/부정 프롬프트(Negative Prompt).md @@ -0,0 +1,24 @@ +# [[부정 프롬프트(Negative Prompt)]] + +## 📌 Brief Summary +부정 프롬프트(Negative Prompt)는 AI 이미지 생성 모델에게 결과물에 포함되지 않아야 할 요소나 특징을 명시적으로 지시하는 프롬프트 작성 기법입니다 [1, 2]. 긍정 프롬프트(Positive Prompt)가 생성하고자 하는 목표 이미지를 정의한다면, 부정 프롬프트는 생성 과정의 경계선(Avoidance map)을 설정하여 원하지 않는 개념을 회피하도록 유도합니다 [3, 4]. 이를 통해 이미지 생성 시 흔히 발생하는 인체 구조의 왜곡이나 시각적 결함을 수정하고 모델의 편향을 제어하여 결과물의 품질을 향상시킵니다 [5-7]. + +## 📖 Core 사 Content +* **작동 원리와 필요성** + 부정 프롬프트는 단순히 생성 후의 결함을 가리는 필터가 아니라, 이미지 생성(Diffusion) 과정 중에 모델이 원치 않는 개념으로부터 멀어지도록 유도하는 가이드 역할을 합니다 [2]. 이는 불필요한 이미지 재생성(Reroll) 시간을 절약해주고, 모델이 학습 데이터에서 무의식적으로 가져오는 편향(예: 원치 않는 광택, 과도하게 가공된 피부 등)을 사전에 차단하는 데 필수적입니다 [5, 6, 8]. 특히 인물의 신체 구조(손가락 등), 텍스트, 워터마크 등의 오류를 제어하는 데 빈번하게 사용됩니다 [3, 7]. + +* **효과적인 작성 전략** + 부정 프롬프트를 작성할 때는 단순히 '나쁜(bad)'과 같은 모호하거나 광범위한 단어를 나열하기보다는, 이미지에서 반복적으로 발견되는 실제 결함을 정확한 시각적 명사나 특징으로 번역하여 지정해야 합니다 [9]. 예를 들어, "나쁜 손"보다 "여섯 개의 손가락(extra fingers)", "변형된 손(deformed hands)", "워터마크(watermark)"처럼 구체적으로 지시하는 것이 모델의 이해도를 높입니다 [9]. 또한 괄호나 숫자를 이용해 특정 단어에 가중치(Weights)를 부여할 수 있지만, 너무 많은 단어에 과도한 가중치를 주면 의도한 긍정적 개념이나 이미지의 전반적인 구조마저 훼손될 수 있으므로 주의해야 합니다 [10-13]. + +* **주요 플랫폼별 활용 방식** + * **스테이블 디퓨전(Stable Diffusion):** 전용 부정 프롬프트 입력 섹션을 활용하며, CFG 스케일(Classifier-Free Guidance Scale)과 결합하여 모델이 부정 지시를 따르는 강도를 조절합니다 [7, 14]. 한 연구에 따르면 부정 프롬프트의 강력한 영향은 초기 단계가 아닌 확산(Diffusion) 과정의 10단계 이후부터 주로 발현됩니다 [15]. + * **미드저니(Midjourney):** 텍스트 프롬프트의 끝부분에 `--no` 매개변수(Parameter)를 덧붙여 원하지 않는 요소를 배제합니다. (예: `--no trees`를 입력하면 나무가 없는 풍경을 생성함) [16, 17]. + * **DALL-E 3:** DALL-E 3와 같은 일부 모델은 "not", "no", "without"과 같은 부정형 지시어를 잘 처리하지 못합니다 [18-20]. 사용자가 부정 프롬프트를 텍스트로 적으면 오히려 그 단어에 해당하는 피사체를 이미지에 추가하는 역효과가 발생하기 쉬우므로, DALL-E 3를 사용할 때는 부정어를 쓰지 않고 원하는 긍정적인 속성만으로 프롬프트를 구성해야 합니다 [18-21]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[긍정 프롬프트(Positive Prompt)]], [[프롬프트 가중치(Prompt Weights)]], [[매개변수(Parameters)]], [[CFG 스케일(Classifier-Free Guidance)]] +- **Projects/Contexts:** [[AI 이미지 결함 수정 및 최적화 워크플로우]] +- **Contradictions/Notes:** 스테이블 디퓨전이나 미드저니에서는 부정 프롬프트 및 배제 파라미터(`--no`)가 이미지 품질 관리를 위해 적극적으로 권장되는 강력한 기능입니다 [1, 7, 16, 22]. 하지만 DALL-E 3 모델의 경우 자연어 처리 과정의 한계로 인해 부정적인 표현을 사용할 경우 오히려 원하지 않는 대상을 생성하는 역효과가 나타나며, 모든 지시는 긍정형 문장으로 구성되어야 한다고 상충되는 접근 방식을 요구합니다 [18-21]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/상업용 AI 이미지 품질 관리 및 워크플로우 최적화.md b/10_Wiki/Topics_Art/상업용 AI 이미지 품질 관리 및 워크플로우 최적화.md new file mode 100644 index 00000000..1dfc826d --- /dev/null +++ b/10_Wiki/Topics_Art/상업용 AI 이미지 품질 관리 및 워크플로우 최적화.md @@ -0,0 +1,29 @@ +# [[상업용 AI 이미지 품질 관리 및 워크플로우 최적화]] + +## 📌 Brief 실 Summary +상업용 AI 이미지 생성에서 품질 관리와 워크플로우 최적화는 시각적 일관성을 유지하고 결과물의 결함을 최소화하며 작업 효율과 경제성을 극대화하는 핵심 과정입니다. 이를 위해 창작자는 플랫폼별 특화 기능(예: 드래프트 모드, 스타일/캐릭터 참조)을 활용해 브랜드 미학에 부합하는 시안을 저비용으로 대량 생산한 뒤, 최적의 결과물을 선택하여 다듬는 반복적 루프를 거칩니다. 또한, 생성된 이미지의 구체적인 결함을 진단해 네거티브 프롬프트로 전략적으로 제어하고, 인페인팅 기술로 부분적인 수정을 가함으로써 전문가 수준의 리얼리즘과 상업적 요구 사항을 달성합니다. + +## 📖 Core Content + +* **비용 효율적인 반복 생성 및 검토 워크플로우 (Draft Mode & Iteration)** + 상업용 워크플로우에서는 한 번에 완벽한 이미지를 얻으려 하기보다, 스케치하듯 여러 방향성을 탐색하는 것이 중요합니다 [1, 2]. Midjourney V7의 '드래프트 모드(Draft Mode, `--draft`)'를 활용하면 표준 생성 대비 10배 빠르고 절반의 GPU 비용으로 다양한 구도와 프롬프트 시안을 생성할 수 있습니다 [3-5]. 이를 통해 저비용으로 초기 아이디어를 테스트하고 적합한 구도를 선별한 뒤에만 고화질(HD)로 승격시키는 방식은 비용 통제와 작업 속도 최적화에 탁월합니다 [6-8]. + +* **브랜드 일관성 유지를 위한 스타일 및 정체성 제어 (Style & Character Reference)** + 상업 마케팅 캠페인이나 제품 라인업에서는 시각적 일관성이 필수적입니다. Midjourney의 '스타일 참조(`--sref`)'를 사용하면 브랜드의 특정 색상 팔레트나 무드보드의 미학을 새로운 프롬프트 전반에 강제로 적용할 수 있습니다 [4, 9, 10]. 또한, '옴니 참조(`--oref`)'나 '캐릭터 참조(`--cref`)'를 통해 텍스트만으로는 일관되게 묘사하기 어려운 특정 인물의 얼굴이나 고유한 제품(예: 커스텀 자동차, 주얼리)의 시각적 형태를 여러 생성 이미지 간에 똑같이 유지할 수 있어 매우 유용합니다 [10-14]. + +* **결함 진단과 정밀한 네거티브 프롬프팅 (Targeted Negative Prompts)** + Stable Diffusion 등에서 고품질 이미지를 지속적으로 얻으려면 네거티브 프롬프트가 필수 통제 수단이 됩니다 [15-17]. 아무 의미 없이 "bad, ugly"와 같은 포괄적인 부정어를 길게 나열하기보다는, 베이스 이미지를 먼저 생성한 뒤 반복해서 발생하는 결함을 직접 진단하는 것이 좋습니다 [2, 18, 19]. 예를 들어 융합된 손가락(`fused fingers`), 배경의 워터마크(`watermark`), 밀랍 같은 피부(`waxy skin`) 등 구체적인 시각적 결함만을 타겟팅하여 네거티브 프롬프트에 추가하면, 이미지 본연의 스타일을 망치지 않고 원하는 요소만 깔끔하게 제거할 수 있습니다 [18, 20-22]. + +* **조명 및 카메라 렌즈 제어를 통한 입체감과 리얼리즘 부여** + 프롬프트에 조명에 대한 지시가 없으면, AI는 밋밋하고 평면적인 기본 조명으로 이미지를 채워 '인공지능스러운' 결과물을 만듭니다 [23-25]. 따라서 황금 시간대(Golden hour), 부드러운 소프트박스(Softbox), 림 라이팅(Rim lighting)과 같은 조명 형태를 명시하고 [26, 27], 85mm 렌즈나 얕은 피사계 심도(shallow depth of field) 같은 카메라 사양을 함께 적용해 입체감과 사실감을 불어넣어야 상업적 인물 사진 및 제품 샷을 완성할 수 있습니다 [28-30]. + +* **인페인팅(Inpainting) 및 영역 확장을 활용한 최종 편집** + 완성된 이미지에서 아주 작은 부분(예: 배경의 불필요한 요소, 모델의 모자 등)만 수정해야 할 때 처음부터 다시 생성하는 것은 비효율적입니다. Midjourney의 'Vary (Region)' 혹은 타 플랫폼의 인페인팅 기능을 이용하면 원본의 컨텍스트를 보존한 채 선택한 영역만 새로운 프롬프트로 재구성할 수 있습니다 [31-35]. 또한, 텍스트 타이틀이 들어갈 여백이 필요하다면 줌 아웃(Zoom Out)이나 팬(Pan) 기능을 활용하여 이미지의 질감을 훼손하지 않으면서 상하좌우로 캔버스를 확장할 수 있습니다 [33, 35, 36]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[네거티브 프롬프트(Negative Prompt)]], [[스타일 및 캐릭터 참조(Style and Character Reference)]], [[조명 및 카메라 사양 지시(Lighting and Camera Specification)]], [[인페인팅 및 드래프트 모드(Inpainting and Draft Mode)]] +- **Projects/Contexts:** [[상업용 마케팅 캠페인 및 제품 목업 이미지 제작(Commercial Marketing Campaign and Product Mockup Creation)]] +- **Contradictions/Notes:** 이미지의 리얼리즘을 극대화하려 할 때 모델별로 명령어 해석에 큰 차이가 존재합니다. Stable Diffusion이나 Midjourney에서는 'photorealistic(사진처럼 사실적인)'이라는 키워드가 리얼리즘에 도움이 되지만 [28, 37, 38], DALL-E 3의 경우 이 단어를 사용하면 오히려 '사실적으로 그리려 노력한 에어브러시 그림' 같은 작위적 질감이 도출될 수 있습니다. 따라서 DALL-E 3에서는 단순히 "photo style(사진 스타일)" 혹은 "photo image"라고 적고 기술적인 렌즈 정보를 서술하는 것이 훨씬 사실적인 이미지를 만듭니다 [39, 40]. 또한, 제외하고 싶은 요소를 프롬프트로 적을 때 DALL-E 3는 "no", "without"과 같은 부정형 지시어를 잘 이해하지 못하고 오히려 해당 요소를 그리는 문제(예: "텍스트 넣지 마"라고 하면 텍스트를 더 생성함)가 있으나 [41-43], Stable Diffusion은 별도의 전용 '네거티브 프롬프트' 기능을 통해 완벽하게 요소를 배제할 수 있습니다 [17, 44, 45]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/생성형 AI (Generative AI).md b/10_Wiki/Topics_Art/생성형 AI (Generative AI).md new file mode 100644 index 00000000..c9de14a7 --- /dev/null +++ b/10_Wiki/Topics_Art/생성형 AI (Generative AI).md @@ -0,0 +1,29 @@ +# [[생성형 AI (Generative AI)]] + +## 📌 Brief Summary +생성형 AI는 텍스트 프롬프트나 기존 이미지를 입력받아 새로운 시각적 결과물로 변환하는 인공지능 기술이다 [1], [2]. 대규모 데이터셋을 통해 형태, 색상, 스타일, 맥락 등의 패턴을 학습하며, 적대적 생성 신경망(GAN), 변이형 오토인코더(VAE), 확산 모델(Diffusion Models) 등의 아키텍처를 기반으로 작동한다 [2], [3], [4], [5]. 사용자의 추상적인 언어적 의도를 기계가 이해할 수 있는 구체적인 시각적 기호로 번역하는 '프롬프트 작성(Prompt Engineering)'의 정교함에 따라 결과물의 품질이 결정된다 [6]. + +## 📖 Core Content + +**프롬프트의 계층적 구조** +고품질의 이미지를 생성하는 프롬프트는 무작위 단어의 나열이 아니라, 인공지능의 신경망 구조에 부합하는 계층적 구조를 가진다 [6]. 이상적인 프롬프트는 약 15~50단어(1~2문장) 분량으로 구성되며, 주체(Subject), 환경 및 맥락(Context), 스타일 및 매체(Style/Medium), 조명(Lighting), 카메라 및 기술적 매개변수(Technical Details)의 요소를 순차적으로 포함하는 것이 효과적이다 [7], [8], [9], [6]. + +**주체 묘사와 긍정형 지시** +이미지의 중심이 되는 주체는 모호한 명사보다 상황적 맥락이 포함된 구체적인 형용사로 묘사해야 한다 [10], [11]. 예를 들어 "등대"보다는 "폭풍우가 치는 바위 절벽 위의 풍화된 등대"가 모델이 학습한 특정 데이터 영역을 명확히 자극한다 [12], [11]. 또한 생성형 AI 모델들은 "없는(without)"이나 "아닌(no)"과 같은 부정형 지시어를 잘 이해하지 못하고 오히려 해당 객체를 생성하는 경향이 있으므로, 모든 지시는 긍정형으로 작성하는 것이 필수적이다 [13], [14], [15], [16]. + +**조명 및 카메라 구도의 정밀 제어** +조명과 구도는 이미지의 깊이와 감정을 결정짓는 핵심이다. "골든 아워(Golden hour)", "볼륨메트릭 라이팅(Volumetric lighting)", "림 라이팅(Rim lighting)"과 같은 명확한 조명 키워드를 명시하지 않으면, AI는 평면적이고 밋밋한 기본 조명으로 빈 곳을 채우게 된다 [17], [18], [19], [20], [21]. 더 사실적인 묘사를 위해 "85mm 렌즈", "얕은 피사계 심도", "로우 앵글" 등 카메라의 사양과 구도 용어를 명시하면 피사체가 한층 강조된다 [17], [22], [23]. + +**플랫폼별 특화 프롬프트 엔지니어링 패러다임** +각 AI 모델은 고유의 아키텍처를 가지므로, 그에 맞는 전략적 접근이 필요하다 [24]. +* **미드저니(Midjourney):** `/imagine` 명령어로 시작하며 시네마틱한 미학 제어에 뛰어나다 [25], [26]. 프롬프트 끝에 붙는 매개변수를 활용하여 종횡비(`--ar`), 예술적 강도(`--stylize`), 그리고 시각적 일관성을 유지하는 스타일 참조(`--sref`), 캐릭터 참조(`--cref`), 옴니 참조(`--oref`) 등의 수치적 제어가 필수적이다 [27], [28], [29], [30], [31], [26]. +* **DALL-E 3:** 쉼표로 나열된 키워드보다 자연어 문장을 선호한다 [32]. 사용자의 짧은 프롬프트를 고도로 묘사적인 합성 캡션으로 자동 확장하여 복잡한 객체의 관계와 배경 요소를 정확히 반영하는 데 강점이 있다 [33], [34], [35], [16]. +* **스테이블 디퓨전(Stable Diffusion):** 쉼표로 구분된 태그와 가중치 문법(예: `(word:1.5)`)을 통해 단어별 중요도를 세밀하게 조작할 수 있다 [36], [37], [38], [39]. 특히 원치 않는 기형적인 구조나 저화질 요소를 제거하기 위해 '부정 프롬프트(Negative Prompt)'를 적극 활용하며, 문제를 구체적으로 진단하여 "추가된 손가락", "흐릿함" 등을 명시적으로 차단하는 제어 방식이 핵심이다 [40], [41], [42], [39]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Prompt Engineering]], [[Diffusion Models]], [[Negative Prompts]], [[Style Reference]], [[Midjourney]], [[DALL-E 3]], [[Stable Diffusion]] +- **Projects/Contexts:** [[AI Image Generation Workflow]], [[Agentic Creative]] +- **Contradictions/Notes:** 프롬프트 작성 시, 챗GPT(DALL-E 3)는 시적이고 장황하게 프롬프트를 확장하려는 경향이 있으나, 실제 이미지 생성 시스템은 명확하고 간결한 시각적 지시어(Graphic-oriented language)에 가장 잘 반응하므로 이러한 과도한 수사는 오히려 방해가 될 수 있다는 점이 지적된다 [43], [44]. 또한 스테이블 디퓨전은 강력한 부정 프롬프트(Negative Prompt)를 통해 원치 않는 요소를 훌륭하게 통제하지만, DALL-E는 부정어를 이해하지 못해 긍정문으로만 우회하여 표현해야 하는 등 모델 간의 언어 처리 방식에 극명한 차이가 존재한다 [13], [40], [16]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/스타일 참조 (Style Reference).md b/10_Wiki/Topics_Art/스타일 참조 (Style Reference).md new file mode 100644 index 00000000..59fed753 --- /dev/null +++ b/10_Wiki/Topics_Art/스타일 참조 (Style Reference).md @@ -0,0 +1,19 @@ +# [[스타일 참조 (Style Reference)]] + +## 📌 Brief Summary +스타일 참조(Style Reference)는 사용자가 제공한 참조 이미지의 색감, 질감, 무드 등 미학적 특성을 복제하여 새로운 AI 생성 결과물에 적용하는 프롬프트 기술이다 [1, 2]. 주로 `--sref` 매개변수와 함께 이미지 URL이나 스타일 코드를 입력하여 사용되며, 복잡한 단어 묘사 없이도 시각적 일관성을 유지할 수 있게 돕는다 [2]. 이를 통해 브랜드의 일관된 시각적 정체성을 유지하거나 소셜 미디어 피드를 기획하는 등 통일된 서사와 미학을 구축하는 데 필수적으로 활용된다 [2, 3]. + +## 📖 Core Content +* **기본 문법 및 사용법:** 미드저니(Midjourney)와 같은 이미지 생성 도구에서 프롬프트 작성 시 `--sref [이미지 URL]` 형식으로 사용한다 [1, 4]. 이 기능을 사용할 때는 스타일을 묘사하는 텍스트 단어를 최소화하는 것이 좋으며, 모델이 제공된 이미지의 시각적 분위기(vibe)를 직접 차용하게 된다 [1]. +* **스타일 가중치 제어 (`--sw`):** 참조된 스타일이 최종 결과물에 미치는 영향력의 강도는 `--sw (Style Weight)` 매개변수를 통해 조절할 수 있다 [1, 4]. 가중치 값은 0에서 1000 사이로 설정하며, 수치가 높을수록 생성되는 이미지가 참조 이미지의 스타일에 더 강하게 동화된다 [4]. +* **다중 스타일 결합 (Multi-Style Blending):** 미드저니 V7 등 최신 모델에서는 프롬프트 내에 여러 이미지 URL을 공백으로 구분하여 입력함으로써 두 개 이상의 스타일을 결합할 수 있다 [5]. 두세 개의 서로 다른 스타일 코드를 혼합하여 세상에 없는 자신만의 '시그니처 스타일(Signature Style)'을 만들어내는 것도 가능하다 [3]. +* **상업적 브랜딩과 일관성 유지:** 스타일 참조 기능은 텍스트만으로는 구현하기 힘든 구체적인 색 팔레트와 미학을 일관되게 유지할 수 있도록 한다 [3, 5]. 이 때문에 제품 라인업, 마케팅 캠페인, 무드보드 등에서 시각적으로 응집력 있는 이미지 세트를 제작할 때 핵심적인 역할을 한다 [5, 6]. +* **스타일 관리 도구의 진화:** 2026년에 들어서며 스타일 탐색기(Style Explorer/Finder)와 스타일 생성기(Style Creator) 같은 기능이 강화되어, 사용자는 전 세계 창작자들의 미적 코드를 라이브러리 형태로 공유하고, 색상 제어 등을 더욱 직관적이고 정교하게 다룰 수 있게 되었다 [2, 7]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[매개변수 (Parameters)]], [[캐릭터 참조 (Character Reference)]], [[옴니 참조 (Omni Reference)]] +- **Projects/Contexts:** [[Midjourney 브랜드 캠페인 및 무드보드 제작]], [[Midjourney V6 및 V7 기반의 이미지 생성 워크플로우]] +- **Contradictions/Notes:** 텍스트로 스타일을 길게 묘사하는 일반적인 프롬프트 작성법과 달리, `--sref`를 사용할 경우에는 충돌을 막기 위해 스타일 관련 텍스트 묘사를 최소화하는 것이 권장된다 [1]. 또한, 이미지 전반의 미학적 분위기가 아니라 특정 피사체(인물, 사물 등)의 형태 자체를 유지하고 싶다면 스타일 참조가 아닌 캐릭터 참조(`--cref`)나 옴니 참조(`--oref`)를 사용해야 한다 [1, 2]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/스테이블 디퓨전 (Stable Diffusion).md b/10_Wiki/Topics_Art/스테이블 디퓨전 (Stable Diffusion).md new file mode 100644 index 00000000..4218f1a6 --- /dev/null +++ b/10_Wiki/Topics_Art/스테이블 디퓨전 (Stable Diffusion).md @@ -0,0 +1,33 @@ +# [[스테이블 디퓨전 (Stable Diffusion)]] + +## 📌 Brief Summary +스테이블 디퓨전(Stable Diffusion)은 Stability AI가 개발한 텍스트-이미지 생성 인공지능으로, 확산 모델(Diffusion Model) 기반의 오픈소스 아키텍처이다[1, 2]. 클라우드 환경뿐만 아니라 로컬 머신에서도 구동이 가능하며, 사용자가 직접 모델을 미세 조정(Fine-tuning)하고 고도로 커스터마이징할 수 있는 압도적인 유연성을 제공한다[3, 4]. 프롬프트 엔지니어링 측면에서는 프롬프트 가중치(Prompt Weighting), 부정 프롬프트(Negative Prompt), 컨트롤넷(ControlNet) 등을 활용하여 출력물의 형태와 스타일을 픽셀 단위로 정밀하게 제어할 수 있는 것이 가장 큰 특징이다[3, 5]. + +## 📖 Core Content +* **모델 아키텍처와 작동 원리:** + * 스테이블 디퓨전은 데이터에 점진적으로 가우시안 노이즈를 추가하는 전방 확산(Forward Diffusion) 과정을 거친 후, 다시 노이즈를 제거해 나가며(Denoising) 원본 데이터를 재구성하는 역방향 확산(Reverse Diffusion) 과정을 통해 이미지를 생성한다[6, 7]. + * 오픈소스로 개방되어 있어 로컬 프라이버시를 유지하면서 구동할 수 있으며, 방대한 커뮤니티 지원과 도메인 특화 모델 훈련(예: LoRA 등)을 적용할 수 있다[3, 5, 8]. + +* **프롬프트 작성 문법 (Syntax):** + * 완전한 문장 형태보다는 쉼표로 구분된 태그(키워드) 형식을 사용하는 것이 더 효과적이며, 이미지에 가장 중요한 요소일수록 프롬프트의 맨 앞에 배치해야 한다[9, 10]. + * 원하는 스타일과 디테일을 위해 'masterpiece', 'best quality', '8k', 'sharp focus' 와 같은 화질 및 품질 관련 키워드를 부착하는 것이 권장된다[9, 11]. + +* **프롬프트 가중치 제어 (Prompt Weighting):** + * 사용자가 프롬프트 내 특정 단어의 중요도를 세밀하게 조정할 수 있는 강력한 무기이다[5]. + * 일반적으로 `(keyword:factor)` 문법을 사용하여 `(detailed face:1.2)`처럼 1.2배 가중치를 부여할 수 있다[10]. 괄호 `()`를 사용하면 기본 1.1배 강조 효과가 있고, 대괄호 `[]`를 사용하면 0.9배로 영향력을 감소시킨다[5]. 특정 UI에서는 단어 뒤에 `+`나 `-` 기호를 반복해서 붙여서 직관적으로 강도를 조절할 수도 있다[12, 13]. + +* **부정 프롬프트 (Negative Prompt)의 고도화된 활용:** + * 긍정 프롬프트가 목적지를 설정한다면 부정 프롬프트는 피해야 할 경계를 설정하는 역할을 하며, 이미지에 등장하지 말아야 할 요소(예: blurry, extra fingers, text, watermark 등)를 명시적으로 차단한다[10, 14, 15]. + * 성공적인 생성을 위해서는 무의미하게 길고 포괄적인 부정 프롬프트를 복사하여 붙여넣기보다는, 초기 생성 후 발생하는 구체적인 시각적 결함을 파악하여 5~10개의 타겟팅된 단어만 가중치를 두어 적용할 때 이미지 충실도가 크게 향상된다[16-18]. + +* **고급 파라미터 및 하드웨어적 제어:** + * CFG Scale(일반적으로 7-15 범위)과 샘플링 스텝(Sampling Steps)을 조정함으로써 모델이 사용자의 텍스트 지시를 얼마나 엄격하게 준수할지, 혹은 얼마나 다양성을 허용할지를 통제할 수 있다[10, 19]. + * 컨트롤넷(ControlNet)을 활용하면 단순한 텍스트 묘사를 넘어서, 원본 이미지의 뼈대(Pose)나 윤곽선(Canny Edge) 정보를 강제 주입하여 인체의 복잡한 자세나 사물의 구조적 배치를 픽셀 수준에서 완벽하게 제어할 수 있다[5]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 가중치 (Prompt Weighting)]], [[부정 프롬프트 (Negative Prompt)]], [[컨트롤넷 (ControlNet)]], [[CFG 스케일 (CFG Scale)]], [[확산 모델 (Diffusion Model)]] +- **Projects/Contexts:** [[오픈소스 기반 맞춤형 AI 이미지 생성 및 하드웨어 수준의 정밀 통제 워크플로우]] +- **Contradictions/Notes:** 부정 프롬프트를 사용할 때 모델 버전에 따라 반응하는 방식에 차이가 있다. SD 1.5 모델은 고질적인 아티팩트가 잦아 다소 긴 형태의 부정 프롬프트 리스트에도 유용하게 반응하지만, SDXL이나 Flux 같은 최신 모델의 경우 불필요하게 방대한 부정 프롬프트를 주입하면 오히려 디테일이 평면화되거나 구성이 뻣뻣해지는 부작용이 발생하므로 정확한 문제에 맞춘 짧은 리스트를 사용하는 것이 권장된다[18, 20]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/스테이블 디퓨전 아티팩트 디버깅(Artifact Debugging).md b/10_Wiki/Topics_Art/스테이블 디퓨전 아티팩트 디버깅(Artifact Debugging).md new file mode 100644 index 00000000..0d663f41 --- /dev/null +++ b/10_Wiki/Topics_Art/스테이블 디퓨전 아티팩트 디버깅(Artifact Debugging).md @@ -0,0 +1,28 @@ +# [[스테이블 디퓨전 아티팩트 디버깅(Artifact Debugging)]] + +## 📌 Brief Summary +스테이블 디퓨전 모델이 이미지를 생성할 때 발생하는 시각적 결함(예: 손가락이 6개이거나 왜곡된 눈, 원치 않는 워터마크 등)을 진단하고 수정하는 과정이다 [1]. 주로 부정 프롬프트(Negative Prompt)를 표적화하여 이러한 결함 요소들을 배제하는 방식으로 이루어진다 [2, 3]. 단순하고 포괄적인 부정 단어의 나열보다는 생성된 결과를 확인한 후, 실제 발생하는 문제에 맞춰 최소한의 구체적인 키워드를 적용하고 다듬는 반복적인 프롬프트 최적화가 핵심이다 [4]. + +## 📖 Core 대Content +* **아티팩트의 주요 원인 및 유형:** + 강력한 긍정 프롬프트를 작성하더라도 모델 자체의 편향성이나 훈련 데이터의 특성 때문에 아티팩트가 발생할 수 있다 [5]. 대표적인 결함으로는 손가락이 6개로 나오거나 눈이 정렬되지 않는 해부학적 왜곡, 원치 않는 워터마크나 텍스트, 밀랍처럼 인위적인 피부 질감, 흐릿한 초점 등이 있다 [1, 3, 6]. + +* **표적화된 부정 프롬프트(Negative Prompt) 활용:** + 아티팩트를 디버깅하기 위해서는 결함을 먼저 파악한 뒤, 이에 맞춘 구체적인 부정 프롬프트를 작성해야 한다 [7]. "나쁜(bad)" 혹은 "못생긴 얼굴(ugly face)"과 같은 모호한 단어는 효과가 떨어지며, "여분의 손가락(extra fingers)", "비대칭 눈(asymmetrical eyes)", "워터마크(watermark)"와 같이 실제 나타난 문제를 구체적인 명사나 시각적 특징으로 지칭하는 것이 70% 이상 실패율을 줄이고 두 배의 정밀도를 제공한다 [3, 8]. + +* **디버깅 워크플로우 및 가중치 조절:** + 가장 신뢰할 수 있는 디버깅 방식은 '기본 프롬프트로 생성 -> 반복되는 결함 파악 -> 구체적인 부정 키워드 추가 -> 재실행 및 효과 없는 단어 삭제(Pruning)'의 반복 프로세스이다 [4]. 특정 아티팩트가 지속해서 발생할 경우 `(blurry:1.3)`과 같이 키워드에 가중치를 부여하여 모델이 해당 개념을 회피하도록 강제할 수 있다 [9, 10]. 다만 과도한 가중치는 모델의 구도나 구조에 왜곡 등 새로운 문제를 유발할 수 있으므로 최소한의 가중치를 신중하게 사용해야 한다 [10]. + +* **모델 버전에 따른 디버깅 전략:** + 스테이블 디퓨전 모델 버전에 따라 반응이 다르므로 디버깅 전략도 달라져야 한다. SD 1.5 버전은 전형적인 아티팩트 발생 빈도가 높아 상대적으로 긴 정리용 부정 프롬프트 목록에 잘 반응한다 [11]. 반면 SDXL 및 Flux 모델은 지나치게 긴 부정 프롬프트를 사용할 경우 이미지의 디테일이 납작해지거나 부자연스러워지므로, 문제에 직결된 짧고 선택적인 목록을 사용하는 것이 훨씬 효과적이다 [11, 12]. + +* **고급 디버깅 (단계 인지 및 적용 타이밍):** + 2024년 ECCV 연구에 따르면, SD v2 모델에서 부정 프롬프트의 주된 영향력은 확산(Diffusion)의 초기 단계가 아닌 10단계(step 10) 이후에 지연되어 나타난다 [13]. 이 때문에 초반부터 너무 강력한 부정적 압박을 가하면 결함을 지우기 전에 오히려 구조를 왜곡할 수 있으므로, 5~10개 정도의 표적화되고 가중치가 조절된 용어만을 사용하는 것이 이미지 충실도를 높이고 아티팩트를 효과적으로 제거하는 지름길이다 [13-15]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[부정 프롬프트(Negative Prompt)]], [[가중치 부여(Prompt Weighting)]], [[CFG 스케일(Classifier-Free Guidance Scale)]] +- **Projects/Contexts:** [[스테이블 디퓨전(Stable Diffusion) 이미지 생성 최적화]], [[반복적 프롬프트 엔지니어링 워크플로우(Iterative Prompt Engineering Workflow)]] +- **Contradictions/Notes:** 초보자들은 흔히 인터넷에 떠도는 긴 "나쁜 품질" 단어 목록을 부정 프롬프트에 붙여넣어 해결하려 하지만(junk drawer), SDXL이나 Flux와 같은 최신 모델에서는 이런 방식이 오히려 퀄리티를 저하시킨다. 따라서 발생한 문제(아티팩트)만을 타겟팅하는 짧은 용어 목록을 사용하는 것이 실제 디버깅에 훨씬 효과적이라는 점을 유의해야 한다 [1, 11, 12]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/스테이블 디퓨전(Stable Diffusion) 이미지 생성 최적화.md b/10_Wiki/Topics_Art/스테이블 디퓨전(Stable Diffusion) 이미지 생성 최적화.md new file mode 100644 index 00000000..a8cef800 --- /dev/null +++ b/10_Wiki/Topics_Art/스테이블 디퓨전(Stable Diffusion) 이미지 생성 최적화.md @@ -0,0 +1,30 @@ +# [[스테이블 디퓨전(Stable Diffusion) 이미지 생성 최적화]] + +## 📌 Brief Summary +스테이블 디퓨전(Stable Diffusion)은 사용자가 직접 모델을 훈련시키고 하드웨어 수준에서 세밀하게 제어할 수 있는 강력한 오픈소스 기반의 이미지 생성 AI입니다. 이 모델에서 이미지 생성을 최적화하기 위해서는 쉼표로 구분된 태그 기반의 프롬프트 작성, 괄호와 숫자를 활용한 정밀한 가중치(Weights) 조절, 그리고 결함을 방지하는 네거티브 프롬프트(Negative Prompt)의 전략적 사용이 필수적입니다. 더 나아가 컨트롤넷(ControlNet)과 같은 고급 기능을 결합하면 피사체의 구도와 자세를 픽셀 단위로 통제하여 전문가 수준의 일관된 결과물을 도출할 수 있습니다. [1, 2] + +## 📖 Core Content +* **태그 기반 프롬프트 구조화 및 품질 키워드** + 스테이블 디퓨전은 완전한 문장보다는 쉼표로 구분된 태그(comma-separated tags) 방식의 프롬프트를 사용할 때 가장 잘 작동합니다. 가장 중요한 요소를 프롬프트의 맨 앞에 배치해야 하며, 결과물의 수준을 높이기 위해 `masterpiece`, `best quality`, `8k`, `highly detailed`, `sharp focus`와 같은 품질 향상(Quality) 키워드를 포함하는 것이 좋습니다. [3-5] + +* **프롬프트 가중치(Prompt Weights) 조절** + 단어의 중요도를 세밀하게 조정하는 가중치 제어는 스테이블 디퓨전의 핵심 기능입니다. `(keyword:factor)` 문법을 통해 가중치를 숫자로 직접 지정할 수 있습니다(예: `(dog:1.3)`). + * 일반적인 문법에서 `()`는 단어의 영향력을 강조(1.1배)하고, `[]`는 약화(0.9배)시킵니다. `+`와 `-` 기호를 사용할 수도 있습니다. + * 가중치 중첩(`((dog:1.1))`)도 가능하나 너무 높은 가중치(예: 2.0 이상)는 이미지를 망칠 수 있습니다. + * LoRA 모델 등을 섞어 사용할 때는 충돌을 피하기 위해 0.5~0.7 수준의 안전한 가중치에서 시작하는 것이 권장됩니다. [2, 6-10] + +* **네거티브 프롬프트(Negative Prompt)의 전략적 활용** + 긍정 프롬프트가 목표(Target)를 설정한다면, 네거티브 프롬프트는 회피해야 할 경계(Avoidance map)를 설정합니다. + * **구체성:** 단순히 "bad"라고 적는 것보다 "extra fingers", "watermark", "blurry", "deformed hands"처럼 발생한 시각적 결함을 구체적 명사나 특징으로 지시해야 합니다. + * **모델별 최적화:** 구형 모델인 SD 1.5는 상대적으로 길고 포괄적인 네거티브 프롬프트 목록에 잘 반응하지만, SDXL이나 Flux와 같은 최신 모델에서는 너무 방대한 네거티브 프롬프트를 사용할 경우 오히려 이미지의 디테일이 평면화되거나 경직될 수 있습니다. 따라서 최신 모델에서는 5~10개의 타겟화된 핵심 용어만 사용하는 것이 좋습니다. [11-15] + +* **컨트롤넷(ControlNet)을 통한 픽셀 단위 제어** + 단순한 텍스트 프롬프팅의 한계를 극복하기 위해 컨트롤넷을 활용할 수 있습니다. 이는 이미지의 뼈대(Pose)나 윤곽선(Canny Edge) 정보를 모델에 강제로 주입하여 인체의 자세나 사물의 배치를 정확하게 픽셀 단위로 통제하는 고급 최적화 기술입니다. [2] + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 가중치(Prompt Weights)]], [[네거티브 프롬프트(Negative Prompt)]], [[분류기 없는 가이드 스케일(CFG Scale)]], [[컨트롤넷(ControlNet)]] +- **Projects/Contexts:** [[스테이블 디퓨전 모델별(SD 1.5, SDXL, Flux) 프롬프트 튜닝]], [[오픈소스 이미지 생성 모델 배포 및 제어]] +- **Contradictions/Notes:** 인터페이스나 버전에 따라 가중치 문법(Syntax)의 해석이 다를 수 있습니다. 일부 UI에서는 `()`로 가중치를 올리고 `[]`로 내리지만, 특정 시스템에서는 `[]`가 단순한 네거티브 프롬프트 구문으로만 작동하고 수치적 가중치(예: `[dog:2]`)를 무시할 수 있으므로 사용 중인 툴의 지원 문법을 반드시 확인해야 합니다. [16-18] + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/스테이블 디퓨전을 이용한 오픈소스 기반 정밀 이미지 합성 및 해부학적 오류 수정 파이프라인.md b/10_Wiki/Topics_Art/스테이블 디퓨전을 이용한 오픈소스 기반 정밀 이미지 합성 및 해부학적 오류 수정 파이프라인.md new file mode 100644 index 00000000..e90b6e32 --- /dev/null +++ b/10_Wiki/Topics_Art/스테이블 디퓨전을 이용한 오픈소스 기반 정밀 이미지 합성 및 해부학적 오류 수정 파이프라인.md @@ -0,0 +1,27 @@ +# [[스테이블 디퓨전을 이용한 오픈소스 기반 정밀 이미지 합성 및 해부학적 오류 수정 파이프라인]] + +## 📌 Brief Summary +스테이블 디퓨전(Stable Diffusion)은 사용자가 직접 모델을 훈련시키고 하드웨어 수준에서 제어할 수 있는 유연성을 제공하는 오픈소스 기반 이미지 생성 모델입니다 [1, 2]. 정밀한 이미지 합성을 위해 프롬프트 가중치 조절과 컨트롤넷(ControlNet)을 활용하여 픽셀 단위의 통제를 수행합니다 [2]. 손가락 변형이나 여분의 팔다리와 같은 해부학적 오류를 수정하기 위해서는 타겟화된 네거티브 프롬프트(Negative Prompt)와 전용 임베딩(Embedding)을 결합한 워크플로우를 활용해야 합니다 [2-4]. + +## 📖 Core Content +* **오픈소스 기반의 제어력과 확장성** + 스테이블 디퓨전은 클라우드 및 로컬 환경에 배포할 수 있는 오픈소스 모델로, 사용자에게 프라이버시를 보장하고 특정 도메인에 맞춘 광범위한 커스터마이징(미세 조정) 기능을 제공합니다 [1]. 모델의 무작위성과 생성 결과를 미세하게 통제하기 위해 샘플링 단계(Sampling steps)나 CFG 스케일(Classifier-Free Guidance Scale)과 같은 세부 매개변수를 직접 조정할 수 있습니다 [2, 5]. + +* **가중치 문법을 통한 정밀 합성 통제** + 프롬프트 내 특정 단어의 중요도를 세밀하게 조율하는 가중치 문법은 스테이블 디퓨전의 강력한 제어 수단입니다 [2, 6]. 텍스트 입력 시 `(keyword:factor)` 형식의 숫자 기반 가중치나 `+`, `-`, 괄호 `()` 등을 활용하여 긍정적 혹은 부정적 지시어의 강도를 조절합니다 [2, 7, 8]. + +* **컨트롤넷(ControlNet)을 활용한 픽셀 단위 구조 제어** + 텍스트 프롬프트만으로는 부족한 구도와 자세 제어를 보완하기 위해 고급 기술인 컨트롤넷이 활용됩니다 [2]. 이 기술은 이미지의 뼈대(Pose)나 윤곽선(Canny Edge) 정보를 모델에 강제로 주입함으로써, 인체의 자세나 사물의 배치를 픽셀 단위로 정밀하게 통제합니다 [2]. + +* **해부학적 오류 수정을 위한 네거티브 프롬프트 및 디버깅 파이프라인** + 생성 과정에서 융합된 손가락, 비대칭 눈, 여분의 팔다리 등 해부학적 구조 결함이 발생할 경우, 이를 회피하기 위한 맵(Avoidance map)으로서 네거티브 프롬프트가 필수적으로 사용됩니다 [9-11]. + * **전략적 접근:** 일반적인 "나쁜 품질"과 같은 모호한 단어를 무작정 길게 나열하기보다는, `extra fingers`, `fused fingers`, `deformed hands`, `extra limbs` 등 구체적인 결함 요소를 파악하여 5~10개의 타겟팅된 지시어만 가중치를 부여해 사용하는 것이 구조적 왜곡을 줄이는 데 효과적입니다 [3, 12-14]. + * **심화 워크플로우:** 만약 특정 모델에서 해부학적(특히 손) 오류가 지속적으로 발생한다면, 네거티브 프롬프트 목록을 끝없이 늘리는 대신 손 수정 전용 '임베딩(Embedding)'을 네거티브 영역에 추가하거나 특화된 워크플로우로 전환하는 것이 권장됩니다 [3, 4]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[네거티브 프롬프트(Negative Prompt)]], [[프롬프트 가중치(Prompt Weighting)]], [[컨트롤넷(ControlNet)]] +- **Projects/Contexts:** [[오픈소스 이미지 모델 미세 조정 및 배포]], [[해부학적 오류 디버깅 워크플로우]] +- **Contradictions/Notes:** 소스에 관련 정보가 부족합니다. (제공된 소스에서는 해부학적 오류를 수정하기 위한 '단일화된 자동화 소프트웨어 파이프라인'의 구체적인 아키텍처나 코드는 명시되어 있지 않으며, 네거티브 프롬프트와 임베딩을 활용하는 단계적 디버깅 및 작업 흐름(Workflow) 형태로 오류 수정 과정이 설명되어 있습니다 [4, 12, 14].) 또한, 일부 사용자들은 긴 네거티브 프롬프트가 좋다고 믿지만, 최신 소스 연구에 따르면 오히려 과도한 부정어 나열이 이미지의 구조를 망칠 수 있으므로 5~10개의 정확한 타겟팅이 효율적이라고 상반된 관점을 제시합니다 [12]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/옴니 참조 (Omni Reference).md b/10_Wiki/Topics_Art/옴니 참조 (Omni Reference).md new file mode 100644 index 00000000..8bfd6527 --- /dev/null +++ b/10_Wiki/Topics_Art/옴니 참조 (Omni Reference).md @@ -0,0 +1,18 @@ +# [[옴니 참조 (Omni Reference)]] + +## 📌 Brief Summary +옴니 참조(Omni Reference, `--oref`)는 미드저니(Midjourney) V7 모델에서 새롭게 도입된 파라미터로, 특정 인물의 얼굴뿐만 아니라 맞춤형 자동차나 보석 같은 특정 사물 및 대상의 고유한 형태적 정체성까지 기억하여 여러 이미지에서 동일하게 재현할 수 있도록 돕는 기능이다[1, 2]. 기존의 캐릭터 참조(`--cref`)와 유사하지만 적용 범위가 훨씬 넓고 유연하여, 프롬프트 전반에 걸쳐 피사체나 객체의 시각적 일관성을 유지하는 데 핵심적인 역할을 한다[3]. + +## 📖 Core Content +- **기능적 특징 및 차별점:** 옴니 참조는 단순한 스타일 복사를 넘어 사물의 고유한 형태적 정체성을 AI가 기억하게 만든다[2]. 기존 모델들이 인물의 얼굴을 복사하는 데 그쳤다면, `--oref`는 넓은 범위의 대상(생물, 사물 등)을 앵커링(anchoring)하여, 완전히 다른 배경이나 상황을 묘사하는 프롬프트에서도 동일한 사물을 일관되게 생성할 수 있다[1, 4]. +- **명령어 문법 및 가중치 제어:** 프롬프트 작성 시 `--oref` 파라미터 뒤에 하나 이상의 참조 이미지 URL을 추가하여 사용한다(예: `/imagine prompt futuristic engineer woman --oref https://yourimageurl.com/engineer.jpg`)[3]. 또한 `--ow` 파라미터(Omni Reference Weight)를 결합하여 수치(예: 70, 80)를 지정함으로써, 생성될 이미지가 참조 이미지에 얼마나 강력하게 따를지 그 가중치를 조절할 수 있다[3]. +- **워크플로우에서의 활용 전략:** 피사체나 객체의 연속성(continuity)이 중요한 작업에서 전략적으로 사용된다[5]. 예를 들어 시리즈물을 제작할 때, 캐릭터의 행동을 묘사하는 프롬프트에 캐릭터 참조(`--cref`)와 옴니 참조(`--oref`)를 결합하여 장면이 바뀌더라도 동일한 소품이나 함께 등장하는 크리처의 형태를 완벽하게 유지할 수 있다[4]. +- **버전 호환성:** 옴니 참조 기능은 미드저니 V7에서 처음 도입되었으며, 이후 V8.1 Alpha 버전에서도 계속 지원된다[3, 6]. 미드저니 공식 파라미터 목록에 따르면 V7에서는 옴니 참조가 캐릭터 참조를 대체(replaces Character Reference in V7)하는 역할도 수행한다[7]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[캐릭터 참조 (Character Reference)]], [[스타일 참조 (Style Reference)]], [[미드저니 매개변수 (Midjourney Parameters)]] +- **Projects/Contexts:** [[미드저니 V7 프롬프트 일관성 유지 (Midjourney V7 Consistency)]], [[시리즈물 및 다중 샷 워크플로우 (Series and Multi-shot Workflow)]] +- **Contradictions/Notes:** 미드저니 V6 모델에서는 인물의 정체성을 유지하기 위해 캐릭터 참조(`--cref`) 기능에 주로 의존해야 했지만, V7부터는 옴니 참조(`--oref`)가 도입됨으로써 인물을 넘어 사물과 생물 등 훨씬 더 광범위하고 복합적인 대상의 일관성을 제어할 수 있게 되었다[1, 3]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/이미지 생성 및 제어 파이프라인.md b/10_Wiki/Topics_Art/이미지 생성 및 제어 파이프라인.md new file mode 100644 index 00000000..727da24b --- /dev/null +++ b/10_Wiki/Topics_Art/이미지 생성 및 제어 파이프라인.md @@ -0,0 +1,28 @@ +# [[이미지 생성 및 제어 파이프라인]] + +## 📌 Brief Summary +이미지 생성 및 제어 파이프라인은 텍스트 프롬프트나 참조 이미지를 입력받아 생성형 AI 모델을 통해 시각적 결과물로 변환하고, 이를 반복적으로 정교화하는 일련의 체계적인 작업 흐름을 의미합니다. 이 파이프라인은 확산 모델(Diffusion Models) 등 핵심 신경망 아키텍처를 기반으로 하며, 주체와 스타일을 정의하는 초기 프롬프트 작성부터 시작됩니다. 이후 매개변수 제어, 부정 프롬프트(Negative Prompt) 적용, 가중치 조절을 거쳐 인페인팅(Inpainting)과 같은 사후 편집 기술을 통해 사용자의 미학적 의도를 픽셀 단위로 통제하고 완성도를 높이는 데 그 목적이 있습니다. + +## 📖 Core Content +* **기반 모델의 메커니즘 (Foundational Model Mechanisms)** + 이미지 생성 파이프라인은 주로 세 가지 모델 아키텍처에 의해 구동됩니다. GANs(생성적 적대 신경망)는 생성자와 판별자의 경쟁을 통해 이미지를 생성하고, VAEs(변분 오토인코더)는 데이터를 잠재 공간(Latent Space)으로 인코딩한 뒤 디코딩하여 재구성합니다 [1, 2]. 현재 가장 주류를 이루는 확산 모델(Diffusion Models)은 원본 데이터에 점진적으로 노이즈를 추가하는 순방향 과정과, 노이즈를 제거하여 데이터를 복원하는 역방향 디노이징(Denoising) 과정을 반복하여 고품질의 이미지를 합성합니다 [3, 4]. 2026년의 모델들은 텍스트 인코더와 잠재 공간의 밀접한 정렬을 통해 단어의 미세한 뉘앙스까지 픽셀로 구현할 수 있게 되었습니다 [5]. + +* **프롬프트 기반 생성 구조 (Prompt-based Generation Structure)** + 효과적인 생성 파이프라인은 인공지능이 해석하기 쉬운 계층적 구조로 텍스트 기호를 구성해야 합니다. 일반적으로 '주체(Subject) -> 매체 및 스타일(Medium/Style) -> 환경(Environment) -> 조명(Lighting) -> 기술적 매개변수(Parameters)'의 순서로 프롬프트를 구성합니다 [5-7]. 단순한 단어의 나열보다는 구체적인 맥락과 묘사를 제공해야 하며, 처음에는 단순한 프롬프트로 시작하여 점진적으로 부정 프롬프트와 세부 묘사를 더해가는 반복적(Iterative) 접근이 필수적입니다 [7-10]. + +* **세부 제어 및 가중치 조정 (Fine-Grained Control & Weighting)** + 각 플랫폼은 사용자가 생성 과정을 통제할 수 있는 다양한 제어 방식을 제공합니다. 스테이블 디퓨전(Stable Diffusion)에서는 `(keyword:factor)`와 같은 문법이나 `+`, `-` 기호를 사용해 특정 단어가 이미지에 미치는 가중치를 세밀하게 조절합니다 [11-13]. 또한 명시적인 부정 프롬프트(Negative Prompt)를 통해 워터마크나 왜곡된 신체 등 생성 과정에서 발생하기 쉬운 오류를 초기부터 차단합니다 [13-15]. 미드저니(Midjourney)에서는 `--stylize`, `--chaos` 등의 기술적 매개변수를 활용해 AI의 예술적 개입 강도와 무작위성을 제어합니다 [16-19]. + +* **참조 기반 제어 및 일관성 유지 (Reference-based Control & Consistency)** + 일관성 있는 비주얼이나 캐릭터를 유지하는 것은 파이프라인의 중요한 과제입니다. 스테이블 디퓨전의 컨트롤넷(ControlNet)은 단순 텍스트를 넘어 이미지의 뼈대(Pose)나 윤곽선 정보를 강제로 주입하여 피사체의 배치를 픽셀 단위로 통제합니다 [13]. 미드저니 V6 및 V7 파이프라인에서는 스타일 참조(`--sref`), 캐릭터 참조(`--cref`), 옴니 참조(`--oref`) 파라미터를 활용해 특정 이미지의 질감, 색감, 형태적 정체성을 복제하여 연속적인 작업물에서 시각적 일관성을 확보합니다 [18-22]. + +* **사후 편집 및 반복적 정교화 워크플로우 (Post-Editing & Iterative Workflow)** + 생성된 첫 이미지는 완성본이 아니라 수정을 위한 베이스 이미지로 활용됩니다 [23]. 생성 후 미드저니의 Vary Region(인페인팅) 기능이나 스테이블 디퓨전의 인페인팅을 사용하면 기존 맥락을 유지한 채 특정 선택 영역만 재구성할 수 있습니다 [23-26]. 반대로 Zoom Out이나 Pan(아웃페인팅) 기능을 통해 캔버스 밖의 풍경을 논리적으로 확장합니다 [23, 24, 27]. 특히 최신 워크플로우에서는 드래프트 모드(`--draft`)를 통해 값싸고 빠르게 대량의 시안을 탐색한 뒤, 최적의 방향성을 선택하여 고화질로 승격(Upscale)시키는 단계적이고 효율적인 검토 파이프라인을 채택하고 있습니다 [28-30]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Diffusion Models]], [[프롬프트 구조(Prompt Structure)]], [[부정 프롬프트(Negative Prompt)]], [[매개변수 제어(Parameter Control)]], [[인페인팅 및 아웃페인팅(Inpainting and Outpainting)]] +- **Projects/Contexts:** [[미드저니(Midjourney) V7 워크플로우]], [[스테이블 디퓨전(Stable Diffusion) 미세 조정]], [[DALL-E 3 상호작용적 생성]] +- **Contradictions/Notes:** 이미지 내 텍스트 렌더링이나 복잡한 다중 객체 배치에 있어서는 DALL-E 3가 압도적인 성능을 보여주지만, 예술적 미학의 세밀한 통제나 하드웨어 수준의 제어 측면에서는 미드저니와 스테이블 디퓨전이 훨씬 뛰어납니다 [13, 19, 31, 32]. 또한 DALL-E 3는 "사용하지 말 것"과 같은 부정 지시어를 잘 이해하지 못하여 긍정형 문장으로 유도해야 하는 반면, 스테이블 디퓨전에서는 부정 프롬프트를 명시적으로 사용하는 것이 필수적이라는 차이가 존재합니다 [13, 32]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/이미지 생성 최적화 (Image Generation Optimization).md b/10_Wiki/Topics_Art/이미지 생성 최적화 (Image Generation Optimization).md new file mode 100644 index 00000000..06ee3903 --- /dev/null +++ b/10_Wiki/Topics_Art/이미지 생성 최적화 (Image Generation Optimization).md @@ -0,0 +1,24 @@ +# [[이미지 생성 최적화 (Image Generation Optimization)]] + +## 📌 Brief Summary +이미지 생성 최적화란 초기 프롬프트를 바탕으로 생성된 결과물을 분석하고, 반복적인 수정과 매개변수 조절을 통해 사용자가 의도한 최상의 이미지를 도출하는 과정입니다 [1-3]. 이를 위해 네거티브 프롬프트를 활용하여 불필요한 요소를 제거하거나 가중치를 조절해 특정 요소의 강조도를 변경합니다 [4, 5]. 또한 각 AI 모델(Midjourney, DALL-E 3, Stable Diffusion)의 특성과 문법에 맞춘 튜닝과 인페인팅 같은 사후 편집 기법을 적용하여 시각적 품질과 일관성을 극대화합니다 [6-8]. + +## 📖 Core Content +* **반복적 정교화 (Iterative Refinement):** + 완벽한 프롬프트를 한 번에 작성하기보다는, 단순한 주제와 구도로 시작하여 첫 결과물을 평가한 뒤 점진적으로 수정하는 반복적 접근이 필수적입니다 [1, 2, 9]. 베이스 이미지를 생성한 후, 조명, 스타일, 구도 등 구체적인 세부 사항을 추가하거나 수정하면서 모델과의 협업 과정을 거쳐 결과물을 정교화합니다 [3, 10]. +* **네거티브 프롬프트 (Negative Prompt)의 전략적 활용:** + 단순한 후보정을 넘어 원치 않는 요소(예: 일그러진 손가락, 워터마크, 저화질)를 명시적으로 차단하여 이미지 생성을 제어하는 핵심 수단입니다 [5, 11, 12]. 포괄적으로 "나쁜(bad)"이라는 단어를 쓰기보다, 실제 이미지에서 발생하는 결함을 구체적으로 파악하고 타겟팅된 최소한의 네거티브 용어를 사용하는 것이 가장 효과적입니다 [13-15]. +* **가중치(Weights) 및 매개변수(Parameters) 튜닝:** + * **Stable Diffusion:** `(단어:1.5)`와 같은 괄호 및 숫자 문법을 사용하여 프롬프트 내 특정 단어의 중요도(가중치)를 세밀하게 조절합니다 [12, 16, 17]. 또한 CFG(Classifier-Free Guidance) 스케일과 샘플링 단계를 조절하여 프롬프트 준수 강도와 이미지의 다양성을 통제합니다 [8, 18]. + * **Midjourney:** 프롬프트 끝에 `--ar`(종횡비), `--s`(스타일화), `--c`(다양성), `--v`(버전) 등의 매개변수를 추가하여 결과물을 통제합니다 [6, 19, 20]. 이미지의 일관성을 높이기 위해 `--sref`(스타일 참조)와 `--cref`, `--oref`(캐릭터 및 옴니 참조)를 사용할 수 있으며, V7에서는 비용을 절감하는 `--draft`(초안) 모드로 시안을 빠르게 생성한 후 우수한 결과물만 고화질로 렌더링하는 워크플로우로 최적화가 가능합니다 [21-24]. + * **DALL-E 3:** 시적인 수사나 복잡한 구문보다는 명확하고 간결한 자연어 지시가 중요하며, 가능한 한 직관적인 그래픽 중심의 언어를 사용해야 최적의 결과물을 얻을 수 있습니다 [25]. +* **사후 편집 및 이미지 확장:** + 프롬프트 수정만으로 해결하기 힘든 부분은 인페인팅(Inpainting, Midjourney의 Vary Region)을 통해 특정 영역만을 다시 생성해 수정할 수 있습니다 [7, 10, 26, 27]. 아웃페인팅(Outpainting)이나 줌 아웃(Zoom Out) 기능을 활용하면 캔버스를 확장하여 구도의 답답함을 해소하고 캔버스 밖의 배경을 자연스럽게 묘사해 낼 수 있습니다 [7, 10, 27]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[네거티브 프롬프트 (Negative Prompts)]], [[파라미터 튜닝 (Parameter Tuning)]], [[반복적 정교화 (Iterative Refinement)]] +- **Projects/Contexts:** [[Midjourney V7의 Draft Mode 워크플로우]], [[Stable Diffusion의 가중치 제어 문법]], [[DALL-E 3의 자연어 기반 최적화]] +- **Contradictions/Notes:** Stable Diffusion 모델은 전용 네거티브 프롬프트 필드나 가중치 조절을 통해 원치 않는 요소를 훌륭하게 배제할 수 있는 반면 [5, 28], DALL-E 3 모델은 "not", "without", "no"와 같은 부정어 처리에 취약하여 해당 요소를 오히려 이미지에 포함시킬 수 있습니다. 따라서 DALL-E 3 최적화를 위해서는 원치 않는 것을 적기보다 원하는 특성을 긍정어로 명확히 묘사하는 방식이 권장됩니다 [29-31]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/인공지능 시각 언어 생성 (AI Visual Language Generation).md b/10_Wiki/Topics_Art/인공지능 시각 언어 생성 (AI Visual Language Generation).md new file mode 100644 index 00000000..44e475a6 --- /dev/null +++ b/10_Wiki/Topics_Art/인공지능 시각 언어 생성 (AI Visual Language Generation).md @@ -0,0 +1,32 @@ +# [[인공지능 시각 언어 생성 (AI Visual Language Generation)]] + +## 📌 Brief Summary +인공지능 시각 언어 생성은 인간의 추상적인 언어적 의도를 픽셀 단위의 구체적인 시각적 기호로 번역하는 과정이다 [1]. 이를 효과적으로 구현하기 위해서는 인공지능 신경망 구조에 부합하는 정교한 프롬프트 엔지니어링이 필수적이다 [1]. 성공적인 시각 언어 생성은 주체, 매체, 환경, 조명, 기술 매개변수 등 프롬프트의 층위를 구체적으로 명시하여 모델이 학습한 데이터의 고밀도 영역을 정확히 자극할 때 달성된다 [1, 2]. 최근의 이미지 생성 기술은 단순한 알고리즘을 넘어, 사용자의 의도와 미학을 정밀하게 통제하며 AI와 협업하는 '에이전틱 크리에이티브(Agentic Creative)' 시대로 진화하고 있다 [3]. + +## 📖 Core 소스 +**1. 프롬프트의 계층적 구조와 작성 방법** +고품질의 이미지를 생성하는 프롬프트는 인공지능이 해석하기 쉽도록 5가지 핵심 층위로 구성된다 [1]. +* **주체(Subject):** 이미지의 중심이 되는 초점이나 서사적 주인공으로, 단순한 명사 나열보다는 상황적 맥락이 포함된 구체적 묘사를 사용할 때 더 명확한 시각적 특징이 추출된다 [2, 4, 5]. +* **매체 및 스타일(Medium & Style):** 유화, 3D 렌더링, 특정 렌즈(예: 85mm 사진) 등의 키워드를 지정하여 예술적 도구와 출력물의 질감을 결정한다 [2, 5, 6]. +* **환경(Environment/Context):** 피사체가 존재하는 배경의 시간적, 공간적 맥락을 설정하여 이미지에 깊이와 분위기를 더한다 [4, 5]. +* **조명(Lighting):** 명암 대비와 색 온도를 통해 서사를 형성하는 중요한 요소로, 림 라이팅(Rim Lighting)이나 볼륨메트릭 라이팅(Volumetric Lighting)과 같은 전문 용어가 활용된다 [5, 7]. +* **기술 매개변수(Parameters):** 해상도, 종횡비, 미학적 개입 강도 등 모델 고유의 명령어를 통해 결과물을 세밀하게 제어한다 [4, 5]. 프롬프트의 길이는 지나치게 길 필요가 없으며, 보통 15~50단어 수준의 명확한 문장이 효과적이다 [4, 8]. + +**2. 주요 플랫폼별 시각 언어 생성 메커니즘** +각 AI 모델은 고유한 아키텍처를 가지므로 모델의 특성에 맞춘 프롬프트 접근이 요구된다 [5]. +* **미드저니(Midjourney):** 미학적 완성도가 뛰어나며, 종횡비(`--ar`)나 스타일화(`--stylize`) 같은 매개변수 통제가 핵심이다 [9]. 2026년 V7 모델부터는 '드래프트 모드(Draft Mode)'를 지원하여 적은 비용으로 빠르게 시안을 탐색할 수 있고, '옴니 참조(--oref)' 기능을 통해 여러 프롬프트에 걸쳐 사물이나 캐릭터의 형태적 정체성을 일관되게 유지할 수 있다 [9-12]. +* **DALL-E 3:** 텍스트 이해력이 매우 높아 사용자의 짧은 지시를 GPT-4가 풍부한 묘사로 확장하여 생성한다 [13, 14]. 다중 객체의 논리적 배치와 이미지 내 텍스트 삽입(예: 포스터의 글자)에 압도적인 성능을 보이지만, "프롬프트를 변경하지 말 것"을 명시적으로 지시해야 제어력을 높일 수 있다 [14, 15]. +* **스테이블 디퓨전(Stable Diffusion):** 프롬프트 가중치(`(단어:가중치)` 문법)를 통해 세밀하게 단어의 중요도를 조절할 수 있다 [16, 17]. 오픈소스 기반으로 하드웨어 수준의 정밀한 통제가 가능하며, 이미지의 뼈대 정보를 주입하는 컨트롤넷(ControlNet) 등의 고급 기술을 함께 활용한다 [17]. + +**3. 사후 편집 및 반복적 정교화 전략** +프롬프트 작성은 단발성 명령이 아니라 AI와의 지속적인 협업 과정이다 [18]. +* 이미지의 특정 부분에 결함이 있거나 수정을 원할 때는 미드저니의 인페인팅 기능인 'Vary Region'을 사용하여 나머지 배경을 보존한 채 원하는 영역만 다시 생성할 수 있다 [18-20]. +* 출력된 이미지에서 반복적으로 시각적 결함(기형적인 손, 렌더링 오류, 워터마크 등)이 발생할 경우, 결함을 정확히 진단한 뒤 부정 지시어로 번역하여 모델의 생성을 차단하는 접근법이 필요하다 [21-23]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[부정 프롬프트 (Negative Prompt)]], [[매개변수 (Parameters)]], [[인페인팅 (Inpainting/Vary Region)]] +- **Projects/Contexts:** [[미드저니 V7 및 드래프트 모드 워크플로우]], [[DALL-E 3와 GPT-4의 상호작용적 생성]], [[스테이블 디퓨전의 가중치 및 제어 시스템]] +- **Contradictions/Notes:** DALL-E 3는 "없는", "아닌"과 같은 부정 지시어(Negation)를 잘 이해하지 못하고 오히려 해당 요소를 생성해버리는 경향이 있어 반드시 긍정형 문장으로 프롬프트를 구성해야 하는 반면 [14, 15, 24], 스테이블 디퓨전은 원치 않는 요소(예: 뒤틀린 손, 텍스트 등)를 배제하고 고품질 결과를 얻기 위해 별도의 '부정 프롬프트(Negative Prompt)' 기능을 핵심적으로 사용해야 한다는 뚜렷한 방법론적 차이가 존재한다 [17, 25, 26]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/인페인팅 및 아웃페인팅 (Inpainting & Outpainting).md b/10_Wiki/Topics_Art/인페인팅 및 아웃페인팅 (Inpainting & Outpainting).md new file mode 100644 index 00000000..f8036e47 --- /dev/null +++ b/10_Wiki/Topics_Art/인페인팅 및 아웃페인팅 (Inpainting & Outpainting).md @@ -0,0 +1,30 @@ +# [[인페인팅 및 아웃페인팅 (Inpainting & Outpainting)]] + +## 📌 Brief Summary +인페인팅(Inpainting)은 생성된 이미지의 전체적인 맥락을 유지하면서 특정 부분만을 선택적으로 수정하거나 새로운 요소를 추가하는 기술입니다 [1-3]. 반면, 아웃페인팅(Outpainting)은 기존 이미지의 경계를 넘어 캔버스 밖의 풍경을 확장하고 새로운 배경이나 요소를 추가하는 기술입니다 [2, 4]. 이 두 가지 기능은 사용자가 단 한 번의 프롬프트로 완벽한 이미지를 얻으려 하기보다, 초기 이미지를 바탕으로 오류를 수정하고 구도를 조절하며 점진적이고 정교하게 결과물을 다듬을 수 있도록 돕는 핵심 워크플로우입니다 [5, 6]. + +## 📖 Core Content + +* **인페인팅 (Inpainting)의 메커니즘과 활용** + * 인페인팅은 이미지 내의 특정 영역을 선택해 지우거나 새롭게 변형하는 기능입니다 [2, 4]. + * 미드저니(Midjourney)에서는 이를 'Vary (Region)' 또는 'Erase' 도구로 제공합니다 [7]. 사용자는 업스케일링된 이미지에서 사각형(Rectangle)이나 자유형(Freehand) 도구로 수정할 부분을 선택한 뒤, 새로운 프롬프트를 입력하여 해당 영역만 재생성할 수 있습니다 [8, 9]. + * 예를 들어, 생성된 인물의 모자를 왕관으로 바꾸거나 배경에 새를 추가하는 등의 세밀한 수정이 가능합니다 [6, 10]. + * 이때 '리믹스(Remix) 모드'를 활성화해야 선택 영역에 대한 새로운 텍스트 프롬프트를 입력할 수 있으며, 프롬프트는 기존 이미지의 맥락을 AI가 참고하므로 길고 복잡한 문장보다는 "meadow stream(초원 시냇물)"처럼 짧고 직관적으로 작성하는 것이 가장 효과적입니다 [6, 11, 12]. + * 미드저니 외에도 DALL-E와 Adobe Firefly 등 주요 AI 생성 도구들이 인페인팅 기능을 기본적으로 지원하여 배경 교체나 오류 수정을 돕습니다 [4, 13]. + +* **아웃페인팅 (Outpainting)의 메커니즘과 활용** + * 아웃페인팅은 기존 이미지의 테두리 바깥으로 공간을 넓혀 더 많은 맥락과 요소를 추가하는 기능입니다 [4, 6]. + * 미드저니에서는 '팬(Pan)'과 '줌 아웃(Zoom Out)' 도구를 통해 이를 구현합니다 [7]. '팬' 기능은 이미지의 특정 방향(상하좌우)으로 캔버스를 확장하여 종횡비를 변경할 수 있게 해주며, '줌 아웃' 기능은 기존 이미지의 네 면 모두에 요소를 추가하여 시야를 넓혀줍니다 [2]. + * 생성된 이미지의 피사체가 너무 근접하게 촬영되었거나 구도가 답답할 때 유용하며, 기존 이미지의 화풍과 조명을 일관되게 유지하면서 캔버스 밖의 풍경이나 서사적 요소(보이지 않던 건물 형태, 확장된 거리 등)를 논리적이고 자연스럽게 연장할 수 있습니다 [6]. + +* **성공적인 적용을 위한 팁** + * 인페인팅을 위해 영역을 선택할 때 선택 영역의 크기가 중요합니다. 대상을 너무 좁게 선택하면 AI가 주변과의 연결성을 파악하기 어려워지므로, 수정 대상 주변의 여백을 충분히 포함하여 넓게 선택하는 것이 자연스러운 합성 결과물을 얻는 기술적 노하우입니다 [6, 9]. + * 여러 부분을 수정하고 싶다면 한 번에 모두 변경하려 하지 말고 한 번에 하나의 영역씩 단계별로(Small steps) 작업하는 것이 좋습니다 [12]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[리믹스 모드 (Remix Mode)]], [[반복적 정교화 (Iterative Refinement)]] +- **Projects/Contexts:** [[미드저니(Midjourney) 에디터 기능]], [[프롬프트 엔지니어링의 진화]] +- **Contradictions/Notes:** 인페인팅 영역을 지정할 때 지나치게 넓은 영역을 선택하면 유지하고자 했던 원본 이미지의 중요한 부분까지 변형되거나 새 요소로 대체될 위험이 있으므로 주의가 필요합니다 [12]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/일관된 캐릭터 및 스타일 구축.md b/10_Wiki/Topics_Art/일관된 캐릭터 및 스타일 구축.md new file mode 100644 index 00000000..e8ff8aa9 --- /dev/null +++ b/10_Wiki/Topics_Art/일관된 캐릭터 및 스타일 구축.md @@ -0,0 +1,26 @@ +# [[일관된 캐릭터 및 스타일 구축]] + +## 📌 Brief Summary +일관된 캐릭터 및 스타일 구축은 이미지 생성 시 특정 인물, 사물 또는 시각적 분위기를 여러 작업물에 걸쳐 동일하게 유지하는 프롬프트 작성 및 매개변수 제어 기술이다 [1, 2]. Midjourney나 Veo 3.1과 같은 도구는 참조 이미지 기능과 매개변수를 적극적으로 활용하여 피사체의 정체성과 미학을 고정할 수 있도록 지원한다 [2-4]. 반면, 이전 작업물의 직접적인 재사용이 시스템적으로 매우 어려운 DALL-E 3와 같은 모델에서는 몽타주 기법 등의 우회적인 프롬프트 전략이 요구된다 [5, 6]. + +## 📖 Core 코어 Content +* **Midjourney의 참조 매개변수(Reference Parameters) 활용:** + * **캐릭터 참조 (Character Reference, `--cref`):** V6 모델부터 도입된 이 기능은 참조 이미지의 얼굴, 머리 모양 등 시각적 정체성을 여러 장면에 걸쳐 동일하게 유지하게 해준다 [7-9]. `--cw` (0~100) 매개변수를 조합하여 일치 강도를 조절할 수 있는데, 값이 0이면 얼굴에만 집중하고 100이면 의상과 헤어스타일까지 완벽하게 포함하여 유지한다 [1, 10]. + * **스타일 참조 (Style Reference, `--sref`):** 특정 이미지의 전반적인 분위기, 색상 팔레트, 질감을 새로운 생성물에 복제하여 적용하는 기능이다 [1, 2]. 여러 개의 이미지 URL을 띄어쓰기로 결합하여 고유한 미학적 톤을 만들 수 있으며, 브랜드 시각 자료나 소셜 미디어 피드의 일관성을 지키는 데 유용하다 [1, 3]. + * **옴니 참조 (Omni Reference, `--oref`):** V7 모델에서 새롭게 추가된 기능으로, 인물뿐만 아니라 커스텀 자동차나 장신구 등 특정 사물(Object)의 형태적 정체성까지 기억하여 다수의 프롬프트 환경에서 정확히 동일하게 유지해준다 [3, 7, 11]. + * 이러한 매개변수 없이 일관성을 꾀하려면, 핵심적인 스타일과 조명 묘사용 프롬프트 키워드들을 여러 생성 작업 간에 정확하게 반복해서 기입해야 한다 [12]. + +* **DALL-E 3의 일관성 한계와 우회 프롬프트 전략:** + * DALL-E 3는 한 번 생성한 캐릭터나 장면을 다음 생성에서 그대로 재사용하는 것이 거의 불가능하다는 구조적 약점이 있다 [5, 6]. + * 이를 극복하기 위해 동일한 프롬프트(단일 시드 기반) 내에서 한 캐릭터가 여러 상황에 있는 모습을 분할하여 묘사하는 우회법이 쓰인다. 프롬프트에 "왼쪽 위 모서리에...", "오른쪽 위 모서리에..." 와 같이 구역을 나눠 묘사하거나, "몽타주(montage)"라는 핵심 키워드를 입력하여 한 장의 이미지 안에 일관된 캐릭터의 다중 패널 장면을 얻어낼 수 있다 [5, 6]. + +* **Veo 3.1 비디오 생성 모델의 에셋 유지 기법:** + * Google의 비디오 생성 모델인 Veo 3.1에서는 '비디오 재료(Ingredients to video)' 기능을 통해 장면, 캐릭터, 사물 또는 스타일의 참조 이미지를 입력하여 다중 샷 간의 미학을 일관되게 유지한다 [4]. 이 기능을 바탕으로 Gemini가 생성한 피사체 이미지를 결합하면, 완벽하게 일관된 캐릭터들이 대화를 나누는 복잡한 씬(Scene)도 구축할 수 있다 [13, 14]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Midjourney 매개변수]], [[이미지 참조(Image Prompts)]], [[프롬프트 엔지니어링]] +- **Projects/Contexts:** [[스토리텔링 및 코믹북 캐릭터 디자인]], [[브랜드 시각 자료 및 소셜 미디어 캠페인 기획]] +- **Contradictions/Notes:** Midjourney와 Veo 3.1은 전용 참조 매개변수(`--cref`, `--oref`)와 참조 에셋 투입 기능을 통해 캐릭터 및 스타일의 일관성 유지를 시스템 차원에서 강력히 지원한다 [3, 4, 7]. 이와 대조적으로 DALL-E 3는 생성된 피사체의 연속적인 재사용이 불가능하므로, 한 프롬프트 안에서 화면 분할을 묘사하는 기법에 의존해야 한다는 명확한 기능적 차이가 존재한다 [5, 6]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/자연어 프롬프트 (Natural Language Prompt).md b/10_Wiki/Topics_Art/자연어 프롬프트 (Natural Language Prompt).md new file mode 100644 index 00000000..bca6260e --- /dev/null +++ b/10_Wiki/Topics_Art/자연어 프롬프트 (Natural Language Prompt).md @@ -0,0 +1,22 @@ +# [[자연어 프롬프트 (Natural Language Prompt)]] + +## 📌 Brief Summary +자연어 프롬프트(Natural Language Prompt)는 기술적인 매개변수나 복잡한 키워드 나열 대신 일상적인 대화형 문장을 사용하여 AI 이미지 생성 모델에게 지시를 내리는 프롬프트 작성 방식을 의미합니다 [1, 2]. 주로 DALL-E 3와 같이 대규모 언어 모델(LLM)과 통합된 시스템에서 가장 효과적으로 작동하며, 사용자의 간단한 문장을 AI가 이해하고 상세한 시각적 묘사로 자동 확장(expansion)해 줍니다 [3, 4]. 반면 스테이블 디퓨전(Stable Diffusion)과 같은 일부 모델에서는 자연어 문장보다 쉼표로 구분된 태그 방식이 권장되는 등, 모델의 특성에 따라 그 활용도와 효과가 크게 달라집니다 [5]. + +## 📖 Core Content +* **모델별 자연어 프롬프트 처리 방식의 차이:** + DALL-E 3는 자연어에 대한 의존성과 이해도가 매우 높아, 단순히 키워드를 나열하는 것보다 완전한 문장(full sentences)을 사용할 때 훨씬 뛰어난 결과를 얻을 수 있습니다 [1]. ChatGPT와 자연스럽게 통합되어 있기 때문에 사용자가 "미래형 AI 로봇 이미지를 만들어줘"처럼 단순한 자연어 프롬프트를 입력하더라도, 언어 모델이 이를 풍부하고 상세한 시각적 묘사를 담은 프롬프트로 자동 증강(augment)해 줍니다 [3, 4, 6]. 반면, 스테이블 디퓨전(Stable Diffusion)은 완전한 자연어 문장보다는 쉼표로 구분된 키워드 태그(comma-separated tags) 형식을 사용해야 원하는 결과물에 도달하기 쉽습니다 [5, 7]. + +* **자연어 프롬프트의 이상적인 길이 및 구조:** + 자연어 프롬프트를 기술적인 매뉴얼처럼 작성할 필요는 없지만, 무작위 단어의 나열은 지양해야 합니다 [8]. 가장 효과적인 자연어 프롬프트는 보통 15~50단어 분량의 1~2개 문장으로 구성됩니다 [2, 9]. 구조적으로는 '주체(Subject)'를 먼저 명확히 한 뒤, 주체가 존재하는 '상황 및 배경(Context)', 보여져야 할 '스타일(Style)', 그리고 '카메라 앵글이나 조명 등의 기술적 세부사항(Technical Details)'을 덧붙이는 계층적(layered) 접근이 가장 권장됩니다 [2]. + +* **자연어 프롬프트의 장점과 한계:** + 자연어를 사용하면 특정 텍스트나 간판, 로고 등을 이미지 내에 삽입할 때 명확한 지시가 가능하며, DALL-E 3는 이러한 자연어의 맥락을 파악해 오타 없이 이미지를 렌더링하는 데 탁월합니다 [4, 10]. 그러나 자연어 프롬프트에도 한계가 존재하는데, 특히 DALL-E 3는 "하지 말 것(not, no, don't, without)"과 같은 부정 지시어(Negation)를 제대로 처리하지 못하고 해당 단어가 포함된 피사체를 오히려 생성해버리는 경향이 있습니다 [4, 11]. 따라서 자연어로 지시를 내릴 때는 가급적 '긍정형 문장'으로 원하는 바를 묘사하는 것이 필수적입니다 [4, 11, 12]. + +## 🔗 +- **Related Topics:** [[DALL-E 3]], [[프롬프트 구조 (Prompt Structure)]], [[부정 프롬프트 (Negative Prompt)]], [[프롬프트 엔지니어링 (Prompt Engineering)]] +- **Projects/Contexts:** [[ChatGPT 통합 (ChatGPT Integration)]], [[미드저니 대화형 모드 (Conversational Mode)]] +- **Contradictions/Notes:** DALL-E 3는 자연어 형태의 완전한 문장 지시를 매우 선호하지만 [1], 스테이블 디퓨전(Stable Diffusion)은 자연어 문장을 피하고 쉼표로 구분된 태그 형식을 사용해야 더 나은 결과를 얻는다는 점에서 모델 간 상반된 작성법이 요구됩니다 [5]. 또한, 대화형 자연어 지시에서 흔히 쓰이는 "없는(without)", "하지 않는(don't)" 등의 부정형 자연어 표현은 모델이 문맥의 의도와 다르게 문자 그대로 요소를 추가해버리는 부작용을 초래합니다 [4, 11]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/캐릭터 참조(Character Reference).md b/10_Wiki/Topics_Art/캐릭터 참조(Character Reference).md new file mode 100644 index 00000000..3952ccf6 --- /dev/null +++ b/10_Wiki/Topics_Art/캐릭터 참조(Character Reference).md @@ -0,0 +1,24 @@ +# [[캐릭터 참조(Character Reference)]] + +## 📌 Brief Summary +캐릭터 참조(Character Reference)는 미드저니(Midjourney) V6에서 처음 도입되어 V7 모델까지 지원되는 프롬프트 제어 기능으로, 여러 생성 이미지에 걸쳐 특정 캐릭터의 시각적 정체성을 일관되게 유지하게 해줍니다 [1-3]. 프롬프트 내에 `--cref` 매개변수와 참조할 캐릭터의 이미지 URL을 입력하여 사용하며, 캐릭터 가중치(`--cw`)를 통해 원본 이미지의 특징을 얼마나 강하게 유지할지 세밀하게 조절할 수 있습니다 [4-6]. 주로 AI를 활용한 코믹스 제작이나 스토리텔링, 일관된 브랜드 이미지가 필요한 작업에서 핵심적으로 활용됩니다 [3, 7]. + +## 📖 Core Content +* **캐릭터 참조의 문법과 작동 원리**: 캐릭터 참조를 적용하기 위해서는 프롬프트의 끝부분에 `--cref` 매개변수와 함께 참조할 이미지의 URL을 추가합니다 [2, 6]. 예를 들어, "숲속 빈터에서 지도를 읽는 모험가 여성"이라는 새로운 상황을 만들 때, 이전에 생성한 캐릭터와 동일한 인물을 등장시키고 싶다면 `adventurer woman reading a map in forest clearing --cref https://example.com/char.jpg`와 같이 명령어를 구성합니다 [4]. + +* **캐릭터 가중치(--cw, Character Weight)를 통한 제어**: AI가 원본 캐릭터의 특성을 얼마나 충실하게 반영할지 결정하기 위해 `--cw` 매개변수를 0에서 100 사이의 값으로 설정할 수 있습니다 [2, 5, 6]. + * `--cw 0`: 캐릭터의 '얼굴(face)' 형태에만 초점을 맞추어 참조하며, 캐릭터의 의상이나 머리 스타일을 새로운 장면에 맞게 변경하고자 할 때 적합합니다 [6]. + * `--cw 100`: 얼굴뿐만 아니라 의상, 머리 모양 등 캐릭터의 전체적인 외형을 원본과 매우 흡사하게 유지합니다 [6]. + * 가중치 값이 높을수록 원본 이미지와의 유사성이 강해지고, 낮을수록 새로운 장면에 맞춘 더 많은 변형과 창의성이 허용됩니다 [2]. + +* **스토리텔링과 장면 연출에서의 역할**: 캐릭터 참조는 코믹스 패널이나 연속적인 스토리보드를 만들 때, 한 캐릭터가 다양한 행동, 각도, 환경 속에서도 동일 인물로 보이도록 시각적 연속성을 부여하는 데 필수적입니다 [2, 7]. + +* **다른 참조 기능과의 결합 및 확장**: 특정 캐릭터의 일관성을 넘어 장면 전반의 객체를 고정하기 위해 V7에서 도입된 옴니 참조(`--oref`)나, 이미지 전체의 미학적 분위기와 질감을 일치시키는 스타일 참조(`--sref`) 기능과 함께 사용될 수 있습니다 [3, 4]. 이를 통해 복잡하고 긴 단어를 나열하지 않고도 일관성 있는 서사와 완벽한 시각적 통제를 구축할 수 있습니다 [3]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[캐릭터 가중치(--cw)]], [[스타일 참조(Style Reference)]], [[옴니 참조(Omni Reference)]] +- **Projects/Contexts:** [[미드저니(Midjourney) 프롬프트 엔지니어링]], [[AI 스토리텔링 및 코믹스 제작]] +- **Contradictions/Notes:** 소스에서는 미드저니의 참조 매개변수들이 각기 다른 역할을 수행한다고 명시합니다. 캐릭터 참조(`--cref`)가 인물의 일관성에 집중한다면, 스타일 참조(`--sref`)는 전반적인 미학적 톤과 색감을 복제하고, 옴니 참조(`--oref`)는 피사체나 사물의 형태적 정체성을 광범위하게 유지하는 데 특화되어 있어 목적에 맞는 구분 사용이 필요합니다 [3, 8, 9]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/프롬프트 가중치 (Prompt Weights).md b/10_Wiki/Topics_Art/프롬프트 가중치 (Prompt Weights).md new file mode 100644 index 00000000..82df96bf --- /dev/null +++ b/10_Wiki/Topics_Art/프롬프트 가중치 (Prompt Weights).md @@ -0,0 +1,26 @@ +# [[프롬프트 가중치 (Prompt Weights)]] + +## 📌 Brief Summary +**프롬프트 가중치(Prompt Weights)**는 AI 이미지 생성 과정에서 프롬프트 내 특정 단어나 구문이 차지하는 상대적 중요도를 세밀하게 조절하여 생성 결과물을 제어하는 기법입니다 [1, 2]. 모델 및 플랫폼 고유의 문법(기호 및 숫자)을 사용해 특정 요소의 비중을 기본값(1)에서 더하거나 뺄 수 있습니다 [1, 3, 4]. 가중치를 전략적으로 활용하면 긍정적 요소와 부정적 요소의 균형을 맞출 수 있으나, 지나치게 높게 설정할 경우 오히려 이미지 품질이 저하되거나 시각적 오류가 발생할 위험이 있습니다 [1, 5]. + +## 📖 Core Content +- **가중치의 개념과 작동 원리:** 가중치는 특정 단어에 대한 AI의 주목도를 상대적으로 높이거나 낮추는 역할을 합니다 [1]. 예를 들어, 개와 고양이의 특징이 혼합된 생명체를 만들 때, 각 단어에 부여하는 숫자를 통해 두 개념 간의 시각적 발현 비율을 구체적으로 제어할 수 있습니다 [2]. 명시하지 않을 경우 모든 단어의 기본 가중치 값은 1입니다 [1, 3]. +- **스테이블 디퓨전(Stable Diffusion)의 가중치 문법:** 괄호 `()`와 숫자, 또는 `+`, `-` 기호를 결합하여 단어의 비중을 조절합니다. + - **강조:** `(단어)+`나 `(단어:1.1)`은 해당 요소를 1.1배 강조한다는 의미이며, 괄호를 중첩하거나 기호를 추가하여 `(단어)+++` 또는 `((단어)++)` 형태로 영향력을 기하급수적으로 배가시킬 수 있습니다 [6, 7]. + - **약화:** 단어의 비중을 줄일 때는 `(단어)-`, `(단어:0.7)`과 같이 1보다 작은 소수점을 사용하거나, 대괄호 `[단어]` 문법을 사용하여 해당 요소의 영향력을 약화시킵니다 [6-9]. +- **미드저니(Midjourney)의 가중치 문법:** + - **텍스트 가중치:** 이중 콜론 `::` 뒤에 숫자를 입력하여 텍스트 프롬프트 내 객체 간의 중요도를 할당합니다 (예: `foggy forest::2 goblin bear::1` 또는 `red car::2 blue car::1`) [4, 10]. + - **이미지 가중치:** 텍스트 대신 참조 이미지(Image Prompt)의 비중을 조절할 때는 `--iw <숫자>` 매개변수를 사용하여 텍스트 대비 업로드된 이미지 스타일의 반영 강도를 설정합니다 [11, 12]. +- **가중치 활용 시 모범 사례(Best Practices):** + - **안전한 가중치 범위 사용:** 시각적 개념이나 LoRA 모델을 프롬프트에 중첩하여 적용할 때 **0.5에서 0.7 사이의 낮은 가중치**에서 시작하는 것이 가장 안전합니다 [5, 13]. + - **부작용 주의:** 단일 프롬프트에 너무 높은 가중치(예: 1.5 ~ 2 이상)를 부여하면 모델이 개념의 혼란을 겪으며 **파란색 아티팩트(Blue Artifacts)**를 유발하거나 이미지 전체의 구조가 붕괴되는 등 품질 저하 위험이 커집니다 [1, 8, 14, 15]. + - **부정 프롬프트(Negative Prompt)와의 결합:** 가중치는 부정 프롬프트와 함께 사용할 때 효과가 극대화됩니다. 이미지에 지속적으로 나타나는 오류(예: `(blurry:1.3)`, `(deformed hands:1.2)`)에 가중치를 부여하면, 불필요한 단어를 나열하는 것보다 대상 요소만을 훨씬 강력하고 효율적으로 차단할 수 있습니다 [14, 16]. + - **단어 순서(Word Order) 고려:** 가중치를 세밀하게 조절하더라도, **단어가 프롬프트 상에 배치된 순서**가 가중치만큼이나(때로는 그 이상으로) AI의 해석에 큰 영향을 미칩니다 [2, 6]. 가장 핵심적인 주체나 요소는 프롬프트의 맨 앞에 배치하는 것이 원칙입니다 [6]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[프롬프트 엔지니어링 (Prompt Engineering)]], [[부정 프롬프트 (Negative Prompt)]], [[매개변수 (Parameters)]] +- **Projects/Contexts:** [[스테이블 디퓨전 (Stable Diffusion)]], [[미드저니 (Midjourney)]] +- **Contradictions/Notes:** 스테이블 디퓨전 프롬프트에서 대괄호 `[]`가 가지는 의미에 대해 일부 가이드에서는 단순히 비중을 줄이는 '0.9배 약화'의 의미로 설명하지만 [9], 다른 플랫폼 기반 자료에서는 이를 '부정 프롬프트 문법(1.1배 억제)'으로 간주한다고 설명하기도 합니다 [17]. 이는 사용하는 파서(Parser)나 환경에 따라 기호 연산 로직에 미세한 차이가 있을 수 있음을 시사합니다. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/프롬프트 가중치 및 부정 프롬프트 (Prompt Weights and Negative Prompts).md b/10_Wiki/Topics_Art/프롬프트 가중치 및 부정 프롬프트 (Prompt Weights and Negative Prompts).md new file mode 100644 index 00000000..dbfae24f --- /dev/null +++ b/10_Wiki/Topics_Art/프롬프트 가중치 및 부정 프롬프트 (Prompt Weights and Negative Prompts).md @@ -0,0 +1,28 @@ +# [[프롬프트 가중치 및 부정 프롬프트 (Prompt Weights and Negative Prompts)]] + +## 📌 Brief Summary +프롬프트 가중치(Prompt Weights)와 부정 프롬프트(Negative Prompts)는 AI 이미지 생성 시 사용자의 시각적 의도를 정밀하게 제어하기 위한 핵심 프롬프트 엔지니어링 기술입니다 [1, 2]. 프롬프트 가중치는 텍스트 내 특정 단어나 개념에 부여되는 중요도를 높이거나 낮추어 결과물에 미치는 영향력을 조절합니다 [1, 3]. 부정 프롬프트는 이미지에 나타나지 않아야 할 요소(예: 왜곡된 신체, 워터마크, 원치 않는 화풍 등)를 명시하여 이미지의 품질을 최적화하고 불필요한 재수정 작업을 줄여줍니다 [4, 5]. + +## 📖 Core Content +* **프롬프트 가중치 (Prompt Weights)의 원리와 구문** + * 프롬프트 가중치는 AI 모델이 여러 키워드 중에서 특정 단어에 얼마나 집중할지를 수치화하여 제어하는 방법입니다 [1]. + * **Stable Diffusion**: 단어의 기본 가중치는 1입니다 [1]. 괄호와 숫자, 또는 `+`, `-` 기호를 사용하여 조절할 수 있습니다. 예를 들어 `(beer:1.1)` 또는 `(beer)+`는 해당 개념의 가중치를 증가시키고, `(beer:0.9)` 또는 `(beer)-`는 가중치를 감소시킵니다 [6, 7]. 중첩 사용(예: `((word))`)도 가능하지만, 2.0 이상의 지나치게 높은 가중치를 주거나 괄호를 남용하면 심한 아티팩트(왜곡)가 발생하거나 이미지가 망가질 수 있으므로 일반적으로 0.5에서 1.5 사이의 값을 사용하는 것이 안전합니다 [8-11]. + * **Midjourney**: `::` 기호 뒤에 숫자를 붙여 특정 용어에 상대적인 중요도를 부여합니다 (예: `red car::2 blue car::1`로 입력하면 빨간 차의 비중이 더 커짐) [12]. + +* **부정 프롬프트 (Negative Prompts)의 역할과 활용** + * 부정 프롬프트는 긍정 프롬프트가 목표를 설정할 때, 생성 과정에서 차단해야 할 '회피 지도(avoidance map)' 역할을 수행합니다 [13]. + * 단순히 "bad"라고 적기보다 "extra fingers", "watermark", "blurry", "text"처럼 피하고 싶은 구체적인 시각적 결함을 명시하는 것이 훨씬 효과적입니다 [13, 14]. + * 또한, 화풍을 제어할 때도 유용합니다. 예를 들어 실사 사진을 원할 때 `cgi`, `render`, `cartoon` 등의 단어를 부정 프롬프트에 넣으면 의도하지 않은 스타일 변질을 막을 수 있습니다 [15, 16]. + +* **모델별 부정 프롬프트 지원 및 한계** + * **Stable Diffusion**: 전용 부정 프롬프트 입력란을 사용하거나 대괄호 `[word]` 구문을 사용할 수 있습니다 [17]. 부정 프롬프트 내에서도 가중치 조절(예: `(blurry:1.5)`)을 적용해 반복적으로 나타나는 결함을 강하게 억제할 수 있으며, CFG 스케일 수치와 상호작용하여 이미지에 반영됩니다 [18, 19]. + * **Midjourney**: `--no` 매개변수를 사용하여 제외할 요소를 명시합니다 (예: `--no buildings`는 건물 생성을 제외함) [12, 20]. + * **DALL-E 3**: DALL-E는 "not, no, don't, without"과 같은 부정 표현을 제대로 처리하지 못하는 치명적인 한계가 있습니다. 제외하라고 지시한 요소를 오히려 이미지에 포함시키는 경향이 있으므로, 부정적인 지시를 내리기보다는 원하는 긍정적 속성을 상세히 묘사하는 방식으로 우회해야 합니다 [21, 22]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Stable Diffusion]], [[Midjourney]], [[DALL-E 3]], [[프롬프트 구문 (Prompt Syntax)]] +- **Projects/Contexts:** [[AI 이미지 품질 최적화 및 디버깅 (Image Quality Optimization & Debugging)]] +- **Contradictions/Notes:** Stable Diffusion과 Midjourney는 부정 프롬프트 및 `--no` 파라미터를 통해 원치 않는 시각적 요소를 훌륭하게 배제할 수 있습니다 [20, 23]. 하지만 DALL-E 3는 부정어를 이해하지 못해 "no text"라고 지시하면 오히려 텍스트를 이미지에 무의미하게 삽입하는 모순된 결과를 낳으므로 텍스트 프롬프트 작성 시 주의해야 합니다 [21, 22]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/프롬프트 엔지니어링 (Prompt Engineering).md b/10_Wiki/Topics_Art/프롬프트 엔지니어링 (Prompt Engineering).md new file mode 100644 index 00000000..0e6d0918 --- /dev/null +++ b/10_Wiki/Topics_Art/프롬프트 엔지니어링 (Prompt Engineering).md @@ -0,0 +1,28 @@ +# [[프롬프트 엔지니어링 (Prompt Engineering)]] + +## 📌 Brief Summary +프롬프트 엔지니어링은 인공지능 이미지 생성 모델에게 **사용자의 추상적인 언어적 의도를 기계가 해석 가능한 구체적 시각 좌표로 번역하는 기술적 과정**이다 [1]. 단순한 단어의 나열을 넘어 주체, 스타일, 조명, 구도 등의 시각적 요소를 체계적으로 구성하여 원하는 결과물을 도출한다 [1-3]. 미드저니(Midjourney), DALL-E 3, 스테이블 디퓨전(Stable Diffusion) 등 **각 AI 모델의 고유한 아키텍처와 '방언'을 이해하고 이에 맞춘 전략적인 지시어를 작성하는 것**이 핵심이다 [4, 5]. + +## 📖 Core Content + +* **프롬프트의 핵심 구성 요소** + 성공적인 이미지 프롬프트는 일반적으로 **주체(Subject), 매체/스타일(Medium/Style), 환경(Environment), 조명(Lighting), 구도(Composition), 그리고 기술적 매개변수(Parameters)**의 층위로 구성된다 [1, 3, 6]. + * 주체는 단순 명사보다 상황적 맥락을 포함하여 구체적으로 묘사해야 하며, 매체와 스타일(예: 유화, 35mm 필름 사진, 사이버펑크)을 명시하여 이미지의 전반적인 질감을 결정한다 [7]. + * 카메라 렌즈(예: 85mm, 얕은 피사계 심도)나 조명 기법(예: 골든 아워, 치아로스쿠로, 볼륨메트릭 라이팅)과 같은 **시각적 전문 용어를 사용**하면 인공지능이 학습한 특정 데이터 영역을 자극하여 훨씬 사실적이고 깊이 있는 이미지를 생성할 수 있다 [8-10]. + +* **주요 플랫폼별 프롬프트 패러다임** + 각 생성 모델은 각기 다른 메커니즘을 지니고 있어 특화된 접근이 필요하다 [5]. + * **미드저니(Midjourney):** 시네마틱하고 예술적인 미학에 강점이 있으며, 전용 매개변수를 활용한 수치적 제어가 중요하다. `--ar`(종횡비), `--stylize`(예술적 개입 강도), `--sref`(스타일 참조), `--cref`(캐릭터 참조) 등을 프롬프트 끝에 덧붙여 결과물을 세밀하게 통제한다 [11-14]. + * **DALL-E 3:** 자연어 이해도가 높고 GPT-4와 상호작용하며 복잡한 다중 객체 배치나 정확한 텍스트 렌더링에 탁월하다 [15]. 하지만 시적이고 장황한 언어보다는 **짧고 명확하며 그래픽 중심적인 언어**가 효과적이다 [16, 17]. + * **스테이블 디퓨전(Stable Diffusion):** 프롬프트 내 **가중치(Prompt Weights)**를 `(keyword:1.2)` 형태로 표기하여 특정 단어의 중요도를 세밀하게 조정할 수 있다 [18-20]. 또한 기형적인 손가락이나 워터마크 등 원치 않는 요소를 배제하기 위해 '부정 프롬프트(Negative Prompt)'를 적극적으로 활용하는 것이 필수적이다 [20-22]. + +* **반복적 정교화와 사후 편집(Iterative Refinement)** + 프롬프트 작성은 한 번에 끝나는 단발성 행위가 아니라 생성된 이미지를 바탕으로 점진적으로 수정해 나가는 협업 과정이다 [23-26]. 미드저니의 **Vary Region(인페인팅)** 기능을 통해 이미지 전체를 유지하며 특정 부분만 수정하거나, **Zoom Out(아웃페인팅)**으로 캔버스 밖의 시야를 논리적으로 확장하는 등 프롬프트 기반의 세부 편집이 필수적으로 수반된다 [26-28]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[Negative Prompt]], [[Prompt Weights]], [[Lighting & Composition]], [[Model Parameters]] +- **Projects/Contexts:** [[미드저니 매개변수 제어 및 스타일 참조(Style Reference)]], [[DALL-E 3 대화형 프롬프트 생성]], [[스테이블 디퓨전 아티팩트 디버깅(Artifact Debugging)]] +- **Contradictions/Notes:** DALL-E 3는 "없는(no, without)"과 같은 부정 지시어 처리에 약점이 있어 원치 않는 요소를 피하려면 반드시 긍정형 문장으로 원하는 속성만 묘사해야 한다 [15, 29, 30]. 반면, 스테이블 디퓨전(Stable Diffusion)은 출력물 최적화 및 오류(기형적인 신체, 워터마크 등) 차단을 위해 '부정 프롬프트(Negative Prompt)'의 명시적이고 적극적인 사용이 필수적이라는 점에서 상반된 접근법을 요구한다 [20, 21, 31]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/프롬프트 엔지니어링 미세 조정.md b/10_Wiki/Topics_Art/프롬프트 엔지니어링 미세 조정.md new file mode 100644 index 00000000..db032939 --- /dev/null +++ b/10_Wiki/Topics_Art/프롬프트 엔지니어링 미세 조정.md @@ -0,0 +1,19 @@ +# [[프롬프트 엔지니어링 미세 조정]] + +## 📌 Brief Summary +프롬프트 엔지니어링 미세 조정은 초기 텍스트 프롬프트로 생성된 이미지를 분석하고, 원하는 시각적 결과물에 완벽히 부합하도록 지시어를 점진적으로 수정 및 정교화하는 과정입니다 [1, 2]. 단순한 단어의 나열을 넘어 가중치 조절, 부정 프롬프트 활용, 플랫폼 특화 매개변수 설정 등을 통해 픽셀 단위까지 결과물을 통제합니다 [3, 4]. 이 과정을 통해 사용자는 무작위성을 줄이고, AI 모델이 일관성 있고 의도된 미학을 구현하도록 정밀하게 안내할 수 있습니다 [5, 6]. + +## 📖 Core Content +* **반복적 정교화 (Iterative Refinement)**: 프롬프트 작성은 단발성 행위가 아니라 모델과의 반복적인 협업 과정입니다 [2]. 초기에는 주체와 매체 등 핵심만을 담은 단순한 프롬프트로 시작하여 모델에 창의적 여지를 주고, 이후 조명, 구도, 스타일 등의 세부 요소를 3~5회에 걸쳐 점진적으로 덧붙이거나 수정하며 완벽한 이미지를 찾아가는 것이 핵심입니다 [7-10]. +* **가중치 제어 (Prompt Weights)**: 특정 단어나 구문의 중요도를 수학적으로 조절하여 결과물 내 특정 요소의 비중을 세밀하게 타협하는 기술입니다 [11, 12]. 스테이블 디퓨전(Stable Diffusion)에서는 `(keyword:factor)` 형태나 괄호 `()`를 사용하여 가중치를 높이거나 낮출 수 있으며(예: `(dog:1.5)` 또는 `[dog]`) [4, 13, 14], 미드저니(Midjourney)에서는 `::` 뒤에 숫자를 붙여 개념의 강도를 조절합니다 [15, 16]. +* **부정 프롬프트 활용 (Negative Prompts)**: 생성된 이미지에서 원하지 않는 요소(예: 워터마크, 왜곡된 손, 원치 않는 3D 렌더링 스타일 등)를 배제하여 품질을 최적화하는 강력한 통제 수단입니다 [17-19]. 모호하게 '나쁜(bad)'이라고 쓰기보다 '기형적인 눈', '추가된 손가락'과 같이 구체적이고 물리적인 명사로 묘사해야 효과적이며 [20, 21], 미드저니에서는 `--no` 매개변수로 이를 구현합니다 [16, 22]. +* **매개변수(Parameter)를 통한 전역적 통제**: 텍스트 뒤에 붙는 특수 명령어로 이미지의 기술적, 미학적 틀을 결정합니다. 미드저니의 경우 종횡비(`--ar`), 예술적 개입 강도(`--stylize` 또는 `--s`), 결과물의 다양성(`--chaos` 또는 `--c`), 기이함(`--weird`) 등을 세밀하게 조절할 수 있습니다 [3, 23-27]. +* **국소적 영역 변주 및 확장 (Inpainting / Outpainting)**: 전체 이미지를 다시 생성하지 않고, 이미지의 완벽성을 높이기 위해 부분만 덧칠하는 기술입니다 [28]. 미드저니의 Vary (Region) 기능과 리믹스(Remix) 모드를 함께 사용하면 기존 맥락을 완벽히 유지한 채 모자를 왕관으로 바꾸거나 배경에 새로운 요소를 정교하게 픽셀 단위로 합성할 수 있습니다 [2, 29-32]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[가중치 제어(Prompt Weights)]], [[부정 프롬프트(Negative Prompt)]], [[매개변수 설정(Parameters)]], [[인페인팅 및 영역 변주(Inpainting/Vary Region)]] +- **Projects/Contexts:** [[초기 생성 이미지의 반복적 개선 및 디버깅 작업]], [[상업용 AI 아트 및 일관성 있는 브랜드 이미지 제작]] +- **Contradictions/Notes:** DALL-E 3 모델은 "no", "without", "don't"과 같은 부정 지시어(Negation)를 잘 처리하지 못하고 오히려 그 단어를 인식해 원치 않는 요소를 이미지에 포함시키는 경향이 있으므로 항상 '원하는 긍정적 속성' 위주로 서술해야 합니다 [33-35]. 반면, 스테이블 디퓨전과 미드저니(예: `--no` 파라미터)에서는 부정 프롬프트가 아티팩트(결함)를 제거하고 품질을 높이는 필수적이고 효과적인 수단으로 작동합니다 [5, 16, 17]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/프롬프트 엔지니어링(Prompt Engineering).md b/10_Wiki/Topics_Art/프롬프트 엔지니어링(Prompt Engineering).md new file mode 100644 index 00000000..d0a9bd39 --- /dev/null +++ b/10_Wiki/Topics_Art/프롬프트 엔지니어링(Prompt Engineering).md @@ -0,0 +1,30 @@ +# [[프롬프트 엔지니어링(Prompt Engineering)]] + +## 📌 Brief 구Summary +프롬프트 엔지니어링은 인공지능 모델에게 텍스트 기반의 언어적 의도를 전달하여 원하는 시각적 결과물(이미지)을 생성하도록 유도하는 기술이다 [1]. 단순한 명령어의 나열을 넘어 주체, 매체, 스타일, 조명, 구도 등 신경망 구조에 부합하는 계층적 구조를 설계하여 픽셀 패턴을 제어한다 [1, 2]. 각 AI 모델(Midjourney, DALL-E, Stable Diffusion 등)이 가진 고유한 아키텍처와 문법에 맞춰 지시어를 최적화하고, 반복적인 수정 과정을 거쳐 고품질의 결과물을 도출하는 것이 핵심이다 [3-5]. + +## 📖 Core Content +**이미지 프롬프트의 핵심 구성 요소** +성공적인 이미지 생성을 위해서는 AI가 명확히 해석할 수 있는 구조화된 프롬프트가 필요하다. 전문적인 프롬프트는 일반적으로 주체(Subject), 매체 및 스타일(Medium/Style), 환경적 맥락(Context/Environment), 조명(Lighting), 구도 및 카메라 설정(Composition/Camera), 기술적 매개변수(Parameters)의 층위로 구성된다 [1, 2]. +* **주체 묘사:** 단순한 명사보다는 상황과 감정이 포함된 구체적이고 특징적인 묘사를 제공해야 AI가 뚜렷한 시각적 특징을 추출할 수 있다 [6]. +* **조명 및 렌즈 물리학:** 골든 아워(Golden Hour), 림 라이팅(Rim Lighting)과 같은 조명과 85mm, 얕은 피사계 심도 등 구체적 카메라 사양을 지시하면 결과물의 입체감과 사실성이 극대화된다 [7-9]. + +**플랫폼별 특화 프롬프트 전략** +각 AI 플랫폼은 구동되는 메커니즘이 다르므로 그에 맞는 '방언'을 구사해야 한다 [4]. +* **미드저니(Midjourney):** 시네마틱한 완성도와 예술적 해석에 강점이 있다 [10]. 자연어 입력 후 문장 끝에 `--ar`(종횡비 조절), `--stylize`(예술적 개입 강도), `--cref`(캐릭터 참조), `--sref`(스타일 참조) 등의 매개변수(Parameters)를 활용한 수치 제어가 필수적이다 [10, 11]. +* **달리 3(DALL-E 3):** 챗GPT와의 결합을 통해 사용자의 짧고 단순한 지시를 풍부한 시각적 묘사로 확장하는 데 능숙하며, 텍스트 삽입이나 복잡한 객체 배치에 뛰어나다 [12, 13]. +* **스테이블 디퓨전(Stable Diffusion):** 개방형 구조로서 사용자의 통제력이 가장 강하다. `(keyword:factor)` 문법을 통해 특정 단어의 가중치(Weights)를 세밀하게 지정하며, 원치 않는 요소를 제거하는 부정 프롬프트(Negative Prompt)의 사용이 필수적이다 [14-16]. + +**반복적 정교화와 사후 편집 전략** +전문가들은 프롬프트를 한 번에 완성하기보다는 점진적으로 발전시킨다 [5, 17]. +* **점진적 추가:** 초기에는 주체와 매체 등 핵심 요소로 단순하게 시작해 구도나 조명 등의 디테일을 더해가는 방식이 권장된다 [18, 19]. +* **인페인팅(Inpainting) 및 영역 변주:** 미드저니의 'Vary Region' 등을 사용하면 이미지의 전체 맥락을 유지한 채 특정 부분(예: 인물의 모자만 변경)만 새로운 프롬프트로 수정할 수 있다 [5, 20]. +* **결함 제어:** 이미지가 의도와 다르게 나오거나 손가락 변형, 워터마크 등의 오류가 발생하면, 해당 결함을 정확히 묘사하는 키워드를 부정 프롬프트로 추가하여 모델이 그 방향을 피하도록 교정해야 한다 [21, 22]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[부정 프롬프트(Negative Prompt)]], [[프롬프트 가중치(Prompt Weights)]], [[매개변수(Parameters)]], [[확산 모델(Diffusion Models)]], [[생성적 적대 신경망(GAN)]] +- **Projects/Contexts:** [[AI 이미지 생성 도구(Midjourney, DALL-E, Stable Diffusion 등)를 활용한 고품질 상업/예술 이미지 및 애니메이션 제작 워크플로우]] +- **Contradictions/Notes:** 부정 프롬프트(Negative Prompt)는 Stable Diffusion 등 대다수의 모델에서 원하지 않는 요소(예: 워터마크, 기형적 신체 등)를 억제하여 이미지 품질을 높이는 핵심 기술로 작용하지만 [16, 21], DALL-E 3의 경우 "사용하지 말 것", "없는" 등과 같은 부정 지시어(Negation)를 이해하지 못하고 오히려 해당 요소를 이미지에 생성해버리는 한계가 있어 DALL-E에서는 무조건 긍정형 문장으로 지시해야 한다는 구조적 차이가 존재한다 [13, 23]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/프롬프트 자동 확장 (Automatic Prompt Expansion).md b/10_Wiki/Topics_Art/프롬프트 자동 확장 (Automatic Prompt Expansion).md new file mode 100644 index 00000000..63061edd --- /dev/null +++ b/10_Wiki/Topics_Art/프롬프트 자동 확장 (Automatic Prompt Expansion).md @@ -0,0 +1,17 @@ +# [[프롬프트 자동 확장 (Automatic Prompt Expansion)]] + +## 📌 Brief Summary +프롬프트 자동 확장(Automatic Prompt Expansion)은 사용자가 입력한 짧고 단순한 텍스트 지시를 대규모 언어 모델이 풍부한 시각적 묘사를 갖춘 상세한 프롬프트로 자동 변환하고 증강하는 기능입니다 [1-3]. 주로 DALL-E 3와 ChatGPT의 통합 환경에서 두드러지게 활용되며, 복잡한 프롬프트 작성 지식이 없어도 쉽게 고품질의 이미지를 생성할 수 있도록 돕습니다 [1, 4]. 다만 의도치 않은 시각적 요소가 무작위로 추가되는 것을 막기 위해서는 명시적인 통제 명령이 필요할 때도 있습니다 [3, 5]. + +## 📖 Core Content +* **자동 확장의 메커니즘:** DALL-E 3와 같은 모델은 자연어에 대한 의존성이 매우 높으며, 사용자가 입력한 짧은 의도를 GPT-4 모델이 해석하여 훨씬 상세하고 풍부한 시각적 묘사로 자동 확장(Expansion)합니다 [3]. 예를 들어, 사용자가 단지 "미래적인 AI 로봇"이라고만 입력하더라도, 시스템 내의 언어 모델이 로봇의 형태, 표면의 질감, 조명, 관절 구조, 배경 등을 구체적으로 묘사하는 세밀한 프롬프트로 알아서 변환한 후 최종 이미지를 출력합니다 [2]. +* **자동 확장의 이점:** 이 기능은 프롬프트 작성에 수반되는 까다로운 작업(heavy lifting)을 대규모 언어 모델이 대신 처리해주기 때문에, 사용자가 프롬프트 작성 기술을 몰라도 손쉽게 훌륭한 결과물을 얻게 해줍니다 [4, 6]. 시각적 디테일에 대한 구상이 부족하거나 창의성을 온전히 AI에게 위임하고 싶을 때 매우 유용하게 작용합니다 [5]. +* **한계점 및 제어 방법:** 입력 텍스트가 너무 짧을 경우 GPT 모델은 결과물을 더 흥미롭게 만들기 위해 임의로 내용을 확장하려는 경향이 있으며, 이는 사용자가 결과물에 대한 세밀한 통제력(Control)을 갖는 데 방해가 될 수 있습니다 [5, 7]. 이러한 자동 확장을 제한하고 사용자의 원래 의도만을 정확하게 반영하고 싶다면, "입력한 프롬프트를 변경하지 말고 그대로 사용할 것(Use the prompt unchanged as entered)"이라는 명시적인 지시를 추가하여 확장을 방지해야 합니다 [3, 5, 7]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[DALL-E 3]], [[GPT-4]] +- **Projects/Contexts:** [[ChatGPT 통합(ChatGPT Integration)]] +- **Contradictions/Notes:** 소스들은 프롬프트 자동 확장이 사용자의 편의성과 결과물의 창의성을 크게 높여주는 혁신적인 기능이라고 설명하지만, 동시에 사용자가 의도한 정확한 통제를 방해할 수 있는 요소로도 지목합니다. 따라서 세밀한 제어가 필요한 경우 확장을 강제로 제한하는 지시어를 전략적으로 혼용할 것을 권장합니다 [3, 5, 7]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file diff --git a/10_Wiki/Topics_Art/플랫폼별 프롬프트 최적화 (Platform-Specific Prompt Optimization).md b/10_Wiki/Topics_Art/플랫폼별 프롬프트 최적화 (Platform-Specific Prompt Optimization).md new file mode 100644 index 00000000..a6037049 --- /dev/null +++ b/10_Wiki/Topics_Art/플랫폼별 프롬프트 최적화 (Platform-Specific Prompt Optimization).md @@ -0,0 +1,33 @@ +# [[플랫폼별 프롬프트 최적화 (Platform-Specific Prompt Optimization)]] + +## 📌 Brief Summary +플랫폼별 프롬프트 최적화는 미드저니(Midjourney), DALL-E 3, 스테이블 디퓨전(Stable Diffusion) 등 각 인공지능 이미지 생성 모델의 고유한 아키텍처와 학습 데이터 특성에 맞춰 프롬프트의 문법과 구조를 조정하는 과정입니다 [1, 2]. 모델마다 언어를 해석하는 방식과 특화된 강점이 다르기 때문에, 고품질의 결과물을 일관되게 얻기 위해서는 각 플랫폼의 고유한 '방언(dialect)'과 매개변수 시스템을 이해하고 전략적으로 접근해야 합니다 [1-3]. 이를 통해 단순한 텍스트 입력의 한계를 극복하고 사용자의 예술적 의도를 픽셀 단위로 정확하게 구현할 수 있습니다 [1, 4]. + +## 📖 Core Content +* **미드저니(Midjourney) 최적화 전략** + * 미드저니는 예술적이고 시네마틱한 미학적 결과물을 도출하는 데 강점을 지닙니다 [5-7]. + * 명령어 `/imagine`을 시작으로 주체, 매체, 환경, 조명, 분위기 순의 구조화된 공식을 사용하는 것이 유리하며, 장황한 문장보다는 명확하고 간결한 구문이 좋습니다 [8-10]. + * 최적화의 핵심은 매개변수(Parameters)의 활용입니다 [11]. 비율을 조정하는 `--ar`, 모델의 예술적 개입 강도를 정하는 `--stylize`(--s), 그리고 최신 V6/V7 버전에서 제공하는 스타일 참조(`--sref`), 캐릭터 참조(`--cref`), 옴니 참조(`--oref`), 초안 모드(`--draft`) 등을 조합하여 결과물을 정밀하게 제어합니다 [7, 12-14]. + +* **DALL-E 3 최적화 전략** + * DALL-E 3는 자연어 이해력이 뛰어나며, 복잡한 지시 사항 이행과 이미지 내 정확한 텍스트(타이포그래피) 렌더링에 압도적인 성능을 보입니다 [5, 15, 16]. + * 쉼표로 구분된 키워드 나열보다는 대화형의 자연스러운 서술형 문장(Full sentences)이 훨씬 효과적으로 작동합니다 [17]. + * 모델이 부정 지시어(예: "no", "without")를 잘 처리하지 못하므로, 원하는 속성을 긍정형으로 묘사하는 것이 필수적입니다 [16, 18, 19]. + * 생성 과정에서 ChatGPT가 프롬프트를 임의로 장황하게 윤색하는 것을 막기 위해 "프롬프트를 변경 없이 그대로 사용할 것"이라고 명시적인 제한을 두어 통제력을 높일 수 있습니다 [16, 20]. + +* **스테이블 디퓨전(Stable Diffusion) 최적화 전략** + * 스테이블 디퓨전은 오픈소스로서 프롬프트 가중치 조절과 부정 프롬프트를 통한 극강의 정밀 제어(Fine-grained control)를 제공합니다 [21-23]. + * 완성된 자연어 문장보다는 쉼표로 구분된 키워드와 태그(Tags) 조합이 잘 작동합니다 [24, 25]. + * `(keyword:1.5)`나 `(word)++` 형태의 가중치 문법을 통해 특정 단어의 중요도(Weight)를 수치로 세밀하게 조절하여 모델의 방향성을 통제합니다 [23, 26, 27]. + * 손가락 기형이나 원치 않는 스타일 등 모델의 편향이나 오류를 방지하기 위해 부정 프롬프트(Negative Prompt)를 핵심 통제 수단으로 사용하며, 대상에 맞게 구체적이고 결함에 집중한 소수의 키워드만 선택해 적용하는 것이 권장됩니다 [23, 24, 28, 29]. + +## 🔗 Knowledge Connections +- **Related Topics:** [[인공지능 시각 언어 생성 (AI Visual Language Generation)]], [[프롬프트 가중치 및 부정 프롬프트 (Prompt Weights and Negative Prompts)]], [[모델 매개변수 제어 (Model Parameter Control)]] +- **Projects/Contexts:** [[미드저니 V7 및 DALL-E 3를 활용한 맞춤형 브랜드 이미지 및 텍스트 포함 콘텐츠 제작 워크플로우]], [[스테이블 디퓨전을 이용한 오픈소스 기반 정밀 이미지 합성 및 해부학적 오류 수정 파이프라인]] +- **Contradictions/Notes:** + * DALL-E 3는 서술형 자연어 문장 작성이 권장되지만, 미드저니와 스테이블 디퓨전은 너무 장황하거나 시적인 언어를 피하고 명확한 단어 및 키워드 중심의 나열이 훨씬 효과적입니다 [17, 20, 24, 30]. + * DALL-E 3는 부정어 처리에 취약하여 긍정적 묘사로 우회해야 하지만, 스테이블 디퓨전에서는 '부정 프롬프트'가 이미지의 품질(해부학적 오류, 워터마크 제거 등)을 높이기 위한 필수적이고 가장 강력한 도구로 활용됩니다 [16, 18, 23, 31]. + * 프롬프트 가중치 문법 적용 시, 일부 스테이블 디퓨전 파생 인터페이스에서는 대괄호(`[]`) 문법을 다르게 해석하거나 처리하지 못할 수 있으므로 괄호(`()`)와 수치, 기호(`+/-`) 등 플랫폼이 공식적으로 지원하는 문법 체계를 따라야 합니다 [32, 33]. + +--- +*Last updated: 2026-04-30* \ No newline at end of file