2nd/10_Wiki/Topics/생성형 AI (Generative AI).md

# [[생성형 AI (Generative AI)|생성형 AI (Generative AI)]]

## 📌 Brief Summary
생성형 AI는 텍스트 프롬프트나 기존 이미지를 입력받아 새로운 시각적 결과물로 변환하는 인공지능 기술이다 [1], [2]. 대규모 데이터셋을 통해 형태, 색상, 스타일, 맥락 등의 패턴을 학습하며, 적대적 생성 신경망(GAN), 변이형 오토인코더(VAE), 확산 모델(Diffusion Models) 등의 아키텍처를 기반으로 작동한다 [2], [3], [4], [5]. 사용자의 추상적인 언어적 의도를 기계가 이해할 수 있는 구체적인 시각적 기호로 번역하는 '프롬프트 작성(Prompt Engineering)'의 정교함에 따라 결과물의 품질이 결정된다 [6].

## 📖 Core Content

**프롬프트의 계층적 구조**
고품질의 이미지를 생성하는 프롬프트는 무작위 단어의 나열이 아니라, 인공지능의 신경망 구조에 부합하는 계층적 구조를 가진다 [6]. 이상적인 프롬프트는 약 15~50단어(1~2문장) 분량으로 구성되며, 주체(Subject), 환경 및 맥락(Context), 스타일 및 매체(Style/Medium), 조명(Lighting), 카메라 및 기술적 매개변수(Technical Details)의 요소를 순차적으로 포함하는 것이 효과적이다 [7], [8], [9], [6].

**주체 묘사와 긍정형 지시**
이미지의 중심이 되는 주체는 모호한 명사보다 상황적 맥락이 포함된 구체적인 형용사로 묘사해야 한다 [10], [11]. 예를 들어 "등대"보다는 "폭풍우가 치는 바위 절벽 위의 풍화된 등대"가 모델이 학습한 특정 데이터 영역을 명확히 자극한다 [12], [11]. 또한 생성형 AI 모델들은 "없는(without)"이나 "아닌(no)"과 같은 부정형 지시어를 잘 이해하지 못하고 오히려 해당 객체를 생성하는 경향이 있으므로, 모든 지시는 긍정형으로 작성하는 것이 필수적이다 [13], [14], [15], [16].

**조명 및 카메라 구도의 정밀 제어**
조명과 구도는 이미지의 깊이와 감정을 결정짓는 핵심이다. "골든 아워(Golden hour)", "볼륨메트릭 라이팅(Volumetric lighting)", "림 라이팅(Rim lighting)"과 같은 명확한 조명 키워드를 명시하지 않으면, AI는 평면적이고 밋밋한 기본 조명으로 빈 곳을 채우게 된다 [17], [18], [19], [20], [21]. 더 사실적인 묘사를 위해 "85mm 렌즈", "얕은 피사계 심도", "로우 앵글" 등 카메라의 사양과 구도 용어를 명시하면 피사체가 한층 강조된다 [17], [22], [23].

**플랫폼별 특화 프롬프트 엔지니어링 패러다임**
각 AI 모델은 고유의 아키텍처를 가지므로, 그에 맞는 전략적 접근이 필요하다 [24].
*   **미드저니(Midjourney):** `/imagine` 명령어로 시작하며 시네마틱한 미학 제어에 뛰어나다 [25], [26]. 프롬프트 끝에 붙는 매개변수를 활용하여 종횡비(`--ar`), 예술적 강도(`--stylize`), 그리고 시각적 일관성을 유지하는 스타일 참조(`--sref`), 캐릭터 참조(`--cref`), 옴니 참조(`--oref`) 등의 수치적 제어가 필수적이다 [27], [28], [29], [30], [31], [26].
*   **DALL-E 3:** 쉼표로 나열된 키워드보다 자연어 문장을 선호한다 [32]. 사용자의 짧은 프롬프트를 고도로 묘사적인 합성 캡션으로 자동 확장하여 복잡한 객체의 관계와 배경 요소를 정확히 반영하는 데 강점이 있다 [33], [34], [35], [16].
*   **스테이블 디퓨전(Stable Diffusion):** 쉼표로 구분된 태그와 가중치 문법(예: `(word:1.5)`)을 통해 단어별 중요도를 세밀하게 조작할 수 있다 [36], [37], [38], [39]. 특히 원치 않는 기형적인 구조나 저화질 요소를 제거하기 위해 '부정 프롬프트(Negative Prompt)'를 적극 활용하며, 문제를 구체적으로 진단하여 "추가된 손가락", "흐릿함" 등을 명시적으로 차단하는 제어 방식이 핵심이다 [40], [41], [42], [39].

## 🔗 Knowledge Connections
- **Related Topics:** [[Prompt Engineering|Prompt Engineering]], [[Diffusion Models|Diffusion Models]], [[Negative Prompts|Negative Prompts]], [[Style Reference|Style Reference]], [[Midjourney|Midjourney]], [[DALL-E 3|DALL-E 3]], [[Stable Diffusion|Stable Diffusion]]
- **Projects/Contexts:** [[AI Image Generation Workflow|AI Image Generation Workflow]], [[Agentic Creative|Agentic Creative]]
- **Contradictions/Notes:** 프롬프트 작성 시, 챗GPT(DALL-E 3)는 시적이고 장황하게 프롬프트를 확장하려는 경향이 있으나, 실제 이미지 생성 시스템은 명확하고 간결한 시각적 지시어(Graphic-oriented language)에 가장 잘 반응하므로 이러한 과도한 수사는 오히려 방해가 될 수 있다는 점이 지적된다 [43], [44]. 또한 스테이블 디퓨전은 강력한 부정 프롬프트(Negative Prompt)를 통해 원치 않는 요소를 훌륭하게 통제하지만, DALL-E는 부정어를 이해하지 못해 긍정문으로만 우회하여 표현해야 하는 등 모델 간의 언어 처리 방식에 극명한 차이가 존재한다 [13], [40], [16].

---
*Last updated: 2026-04-30*