4.8 KiB
프롬프트 구조 (Prompt Structure)
📌 Brief Summary
프롬프트 구조(Prompt Structure)는 인공지능 이미지 생성 모델이 사용자의 추상적인 텍스트 의도를 시각적 기호로 정확하게 변환할 수 있도록 지시어를 논리적으로 배치하는 계층적 뼈대이다 [1]. 효과적인 프롬프트는 단순한 단어의 나열이 아니라 주체, 환경, 스타일, 조명, 구도 및 기술적 매개변수 등의 요소를 체계적으로 구성한 15~50단어 분량의 문장이나 구문으로 이루어진다 [1, 2]. 이러한 체계적인 구조화는 모델의 혼란을 줄이고 사용자가 의도한 고품질의 시각적 결과물을 일관되게 도출하는 데 핵심적인 역할을 한다 [3, 4].
📖 Core Content
-
기본 프롬프트 공식 및 계층 구조 성공적인 이미지 생성 프롬프트는 대체로 4~5개의 핵심 층위로 구성된다 [1, 2]. 일반적인 공식은
[주체] + [행동/맥락/환경] + [매체/스타일] + [조명/분위기/세부사항] + [구도/기술 매개변수]의 순서를 따른다 [5-7].- 주체 (Subject): 프롬프트의 중심 초점(인물, 동물, 사물, 풍경 등)으로, 가장 먼저 명확하게 정의되어야 한다 [4, 8]. 단순한 명사보다는 "맞춤형 검은 코트를 입은 여성"처럼 상황적 맥락이 포함된 구체적인 묘사를 추가하여 명확성을 높인다 [4, 9, 10].
- 맥락 및 환경 (Context/Environment): 주체가 존재하는 공간과 배경을 설정하여 이미지의 서사와 깊이감을 부여한다 [2, 11].
- 매체 및 스타일 (Medium & Style): 유화, 35mm 필름, 3D 렌더링, 수채화, 사이버펑크 등 시각적 형식과 예술적 장르를 결정한다 [9-11].
- 조명 및 분위기 (Lighting & Mood): 골든 아워, 네온 글로우, 시네마틱 조명 등 명암과 빛의 방향을 지시하여 이미지의 감정적 톤과 입체감을 형성한다 [12-14].
- 구도 및 기술적 매개변수 (Composition & Parameters): 카메라 렌즈(예: 85mm), 앵글(예: 로우 앵글), 심도, 그리고 각 플랫폼 고유의 명령어(종횡비
--ar, 스타일화--s등)를 프롬프트의 마지막에 배치하여 최종 출력을 제어한다 [14-17].
-
어순과 문법의 중요성 AI 모델은 프롬프트의 앞부분에 위치한 단어일수록 더 큰 가중치를 부여하는 경향이 있다 [18, 19]. 따라서 첫 번째 섹션에 주체와 환경을 배치하고, 두 번째 섹션에 색상, 스타일, 조명을, 마지막 세 번째 섹션에 구도와 추가 수정자(매개변수 포함)를 그룹화하여 구조화하는 것이 권장된다 [20, 21]. 이처럼 관련된 토큰(단어)들을 블록 형태로 묶어주면, 모델이 이를 누락하지 않고 최종 이미지에 반영할 확률이 높아진다 [18].
-
플랫폼별 구조적 특징 각 AI 모델은 고유한 아키텍처를 가지고 있으므로 그에 맞는 '방언(dialect)'으로 프롬프트를 구조화해야 한다 [11, 22].
- 미드저니 (Midjourney):
/imagine명령어로 시작하여 이미지 URL(선택 사항), 핵심 텍스트 프롬프트, 그리고--v 7,--ar 16:9와 같은 매개변수 순으로 배치되는 구조를 갖는다 [23, 24]. - DALL-E 3: 쉼표로 구분된 키워드의 나열보다 완벽한 자연어 문장 형태의 프롬프트 구조에 훨씬 더 잘 반응한다 [25, 26].
- 스테이블 디퓨전 (Stable Diffusion): 쉼표로 구분된 태그(키워드) 구조를 사용하며, 특히 단어의 중요도를 숫자로 조절하는 가중치 문법과 제외할 요소를 명시하는 부정 프롬프트(Negative Prompt)를 별도의 구조로 작성하여 결과물을 정밀하게 통제한다 [27-29].
- 미드저니 (Midjourney):
🔗 Knowledge Connections
- Related Topics: 프롬프트 가중치 (Prompt Weights), 부정 프롬프트 (Negative Prompts), 매개변수 (Parameters)
- Projects/Contexts: 미드저니 (Midjourney), 스테이블 디퓨전 (Stable Diffusion), DALL-E 3
- Contradictions/Notes: 이미지 생성 플랫폼별로 이상적인 프롬프트 구조와 문법이 상이하다. 스테이블 디퓨전은 짧은 태그의 쉼표 나열과 괄호를 활용한 구조적 문법이 필요하지만, DALL-E 3는 완전한 자연어 문장을 사용할 때 가장 효과적인 결과를 얻을 수 있다 [26, 27, 30].
Last updated: 2026-04-30