2nd/10_Wiki/Topics/AI_and_ML/Generative-AI.md

---
category: Unified
tags: [auto-consolidated, technical-documentation]
title: Generative AI (생성형 AI)
last_updated: 2026-05-02
---

# Generative AI (생성형 AI)

## 📌 Brief Summary
> "데이터를 분석하는 단계를 넘어, 새로운 데이터를 창조하는 시대로" — 텍스트, 이미지, 오디오, 코드 등 방대한 데이터를 학습하여 기존에 존재하지 않던 새로운 콘텐츠를 생성해내는 AI 기술의 총칭.

---

생성형 AI는 텍스트 프롬프트나 기존 이미지를 입력받아 새로운 시각적 결과물로 변환하는 인공지능 기술이다 [1], [2]. 대규모 데이터셋을 통해 형태, 색상, 스타일, 맥락 등의 패턴을 학습하며, 적대적 생성 신경망(GAN), 변이형 오토인코더(VAE), 확산 모델(Diffusion Models) 등의 아키텍처를 기반으로 작동한다 [2], [3], [4], [5]. 사용자의 추상적인 언어적 의도를 기계가 이해할 수 있는 구체적인 시각적 기호로 번역하는 '프롬프트 작성(Prompt Engineering)'의 정교함에 따라 결과물의 품질이 결정된다 [6].

## 📖 Core Content
- **추출된 패턴:** 입력(prompt)의 문맥을 이해하고 확률적으로 가장 자연스러운 다음 요소(Next Token/Pixel)를 예측하여 전체 결과물을 완성하는 생성 패턴.
- **세부 내용:**
    - **[[Large Language Models (LLM)|Large Language Models (LLM)]]:** 트랜스포머 아키텍처를 기반으로 텍스트의 문맥과 지식을 학습하여 대화, 요약, 번역 수행.
    - **Diffusion Models:** 노이즈로부터 점진적으로 이미지를 복원해가는 과정을 통해 고품질 이미지 및 비디오 생성.
    - **Multimodal AI:** 텍스트, 이미지, 음성 등 서로 다른 형태의 데이터를 통합적으로 이해하고 생성.
    - **Zero-shot/Few-shot Learning:** 별도의 추가 학습 없이 프롬프트만으로 새로운 태스크를 수행하는 능력.

---

**프롬프트의 계층적 구조**
고품질의 이미지를 생성하는 프롬프트는 무작위 단어의 나열이 아니라, 인공지능의 신경망 구조에 부합하는 계층적 구조를 가진다 [6]. 이상적인 프롬프트는 약 15~50단어(1~2문장) 분량으로 구성되며, 주체(Subject), 환경 및 맥락(Context), 스타일 및 매체(Style/Medium), 조명(Lighting), 카메라 및 기술적 매개변수(Technical Details)의 요소를 순차적으로 포함하는 것이 효과적이다 [7], [8], [9], [6].

**주체 묘사와 긍정형 지시**
이미지의 중심이 되는 주체는 모호한 명사보다 상황적 맥락이 포함된 구체적인 형용사로 묘사해야 한다 [10], [11]. 예를 들어 "등대"보다는 "폭풍우가 치는 바위 절벽 위의 풍화된 등대"가 모델이 학습한 특정 데이터 영역을 명확히 자극한다 [12], [11]. 또한 생성형 AI 모델들은 "없는(without)"이나 "아닌(no)"과 같은 부정형 지시어를 잘 이해하지 못하고 오히려 해당 객체를 생성하는 경향이 있으므로, 모든 지시는 긍정형으로 작성하는 것이 필수적이다 [13], [14], [15], [16].

**조명 및 카메라 구도의 정밀 제어**
조명과 구도는 이미지의 깊이와 감정을 결정짓는 핵심이다. "골든 아워(Golden hour)", "볼륨메트릭 라이팅(Volumetric lighting)", "림 라이팅(Rim lighting)"과 같은 명확한 조명 키워드를 명시하지 않으면, AI는 평면적이고 밋밋한 기본 조명으로 빈 곳을 채우게 된다 [17], [18], [19], [20], [21]. 더 사실적인 묘사를 위해 "85mm 렌즈", "얕은 피사계 심도", "로우 앵글" 등 카메라의 사양과 구도 용어를 명시하면 피사체가 한층 강조된다 [17], [22], [23].

**플랫폼별 특화 프롬프트 엔지니어링 패러다임**
각 AI 모델은 고유의 아키텍처를 가지므로, 그에 맞는 전략적 접근이 필요하다 [24].
*   **미드저니(Midjourney):** `/imagine` 명령어로 시작하며 시네마틱한 미학 제어에 뛰어나다 [25], [26]. 프롬프트 끝에 붙는 매개변수를 활용하여 종횡비(`--ar`), 예술적 강도(`--stylize`), 그리고 시각적 일관성을 유지하는 스타일 참조(`--sref`), 캐릭터 참조(`--cref`), 옴니 참조(`--oref`) 등의 수치적 제어가 필수적이다 [27], [28], [29], [30], [31], [26].
*   **DALL-E 3:** 쉼표로 나열된 키워드보다 자연어 문장을 선호한다 [32]. 사용자의 짧은 프롬프트를 고도로 묘사적인 합성 캡션으로 자동 확장하여 복잡한 객체의 관계와 배경 요소를 정확히 반영하는 데 강점이 있다 [33], [34], [35], [16].
*   **스테이블 디퓨전(Stable Diffusion):** 쉼표로 구분된 태그와 가중치 문법(예: `(word:1.5)`)을 통해 단어별 중요도를 세밀하게 조작할 수 있다 [36], [37], [38], [39]. 특히 원치 않는 기형적인 구조나 저화질 요소를 제거하기 위해 '부정 프롬프트(Negative Prompt)'를 적극 활용하며, 문제를 구체적으로 진단하여 "추가된 손가락", "흐릿함" 등을 명시적으로 차단하는 제어 방식이 핵심이다 [40], [41], [42], [39].

## ⚖️ Trade-offs & Caveats
- **과거 데이터와의 충돌:** 단순한 패턴 반복(RNN/[[LSTM|LSTM]]) 수준에서, 거대 모델과 주의 집중(Attention) 메커니즘을 통한 창의적 결과물 도출 단계로 도약.
- **정책 변화:** Antigravity 프로젝트는 생성형 AI를 활용하여 위키 문서 보강, 코드 자동 생성, 게임 에셋 제작 등 워크플로우 전반의 생산성을 극대화함.

## 🔗 Knowledge Connections
- [[Transformer-Architecture|Transformer-Architecture]], [[LLM|LLM]], [[Diffusion-Models|Diffusion-Models]], [[Prompt-Engineering|Prompt-Engineering]]
- **Raw Source:** 10_Wiki/Topics/AI/Generative-AI.md

---

- **Related Topics:** [[Prompt Engineering|Prompt Engineering]], [[Diffusion Models|Diffusion Models]], [[Negative Prompts|Negative Prompts]], [[Style Reference|Style Reference]], [[Midjourney|Midjourney]], [[DALL-E 3|DALL-E 3]], [[Stable Diffusion|Stable Diffusion]]
- **Projects/Contexts:** [[AI Image Generation Workflow|AI Image Generation Workflow]], [[Agentic Creative|Agentic Creative]]
- **Contradictions/Notes:** 프롬프트 작성 시, 챗GPT(DALL-E 3)는 시적이고 장황하게 프롬프트를 확장하려는 경향이 있으나, 실제 이미지 생성 시스템은 명확하고 간결한 시각적 지시어(Graphic-oriented language)에 가장 잘 반응하므로 이러한 과도한 수사는 오히려 방해가 될 수 있다는 점이 지적된다 [43], [44]. 또한 스테이블 디퓨전은 강력한 부정 프롬프트(Negative Prompt)를 통해 원치 않는 요소를 훌륭하게 통제하지만, DALL-E는 부정어를 이해하지 못해 긍정문으로만 우회하여 표현해야 하는 등 모델 간의 언어 처리 방식에 극명한 차이가 존재한다 [13], [40], [16].

---
*Last updated: 2026-04-30*