4.5 KiB
4.5 KiB
프롬프트 엔지니어링(Prompt Engineering)
📌 Brief 구Summary
프롬프트 엔지니어링은 인공지능 모델에게 텍스트 기반의 언어적 의도를 전달하여 원하는 시각적 결과물(이미지)을 생성하도록 유도하는 기술이다 [1]. 단순한 명령어의 나열을 넘어 주체, 매체, 스타일, 조명, 구도 등 신경망 구조에 부합하는 계층적 구조를 설계하여 픽셀 패턴을 제어한다 [1, 2]. 각 AI 모델(Midjourney, DALL-E, Stable Diffusion 등)이 가진 고유한 아키텍처와 문법에 맞춰 지시어를 최적화하고, 반복적인 수정 과정을 거쳐 고품질의 결과물을 도출하는 것이 핵심이다 [3-5].
📖 Core Content
이미지 프롬프트의 핵심 구성 요소 성공적인 이미지 생성을 위해서는 AI가 명확히 해석할 수 있는 구조화된 프롬프트가 필요하다. 전문적인 프롬프트는 일반적으로 주체(Subject), 매체 및 스타일(Medium/Style), 환경적 맥락(Context/Environment), 조명(Lighting), 구도 및 카메라 설정(Composition/Camera), 기술적 매개변수(Parameters)의 층위로 구성된다 [1, 2].
- 주체 묘사: 단순한 명사보다는 상황과 감정이 포함된 구체적이고 특징적인 묘사를 제공해야 AI가 뚜렷한 시각적 특징을 추출할 수 있다 [6].
- 조명 및 렌즈 물리학: 골든 아워(Golden Hour), 림 라이팅(Rim Lighting)과 같은 조명과 85mm, 얕은 피사계 심도 등 구체적 카메라 사양을 지시하면 결과물의 입체감과 사실성이 극대화된다 [7-9].
플랫폼별 특화 프롬프트 전략 각 AI 플랫폼은 구동되는 메커니즘이 다르므로 그에 맞는 '방언'을 구사해야 한다 [4].
- 미드저니(Midjourney): 시네마틱한 완성도와 예술적 해석에 강점이 있다 [10]. 자연어 입력 후 문장 끝에
--ar(종횡비 조절),--stylize(예술적 개입 강도),--cref(캐릭터 참조),--sref(스타일 참조) 등의 매개변수(Parameters)를 활용한 수치 제어가 필수적이다 [10, 11]. - 달리 3(DALL-E 3): 챗GPT와의 결합을 통해 사용자의 짧고 단순한 지시를 풍부한 시각적 묘사로 확장하는 데 능숙하며, 텍스트 삽입이나 복잡한 객체 배치에 뛰어나다 [12, 13].
- 스테이블 디퓨전(Stable Diffusion): 개방형 구조로서 사용자의 통제력이 가장 강하다.
(keyword:factor)문법을 통해 특정 단어의 가중치(Weights)를 세밀하게 지정하며, 원치 않는 요소를 제거하는 부정 프롬프트(Negative Prompt)의 사용이 필수적이다 [14-16].
반복적 정교화와 사후 편집 전략 전문가들은 프롬프트를 한 번에 완성하기보다는 점진적으로 발전시킨다 [5, 17].
- 점진적 추가: 초기에는 주체와 매체 등 핵심 요소로 단순하게 시작해 구도나 조명 등의 디테일을 더해가는 방식이 권장된다 [18, 19].
- 인페인팅(Inpainting) 및 영역 변주: 미드저니의 'Vary Region' 등을 사용하면 이미지의 전체 맥락을 유지한 채 특정 부분(예: 인물의 모자만 변경)만 새로운 프롬프트로 수정할 수 있다 [5, 20].
- 결함 제어: 이미지가 의도와 다르게 나오거나 손가락 변형, 워터마크 등의 오류가 발생하면, 해당 결함을 정확히 묘사하는 키워드를 부정 프롬프트로 추가하여 모델이 그 방향을 피하도록 교정해야 한다 [21, 22].
🔗 Knowledge Connections
- Related Topics: 부정 프롬프트(Negative Prompt), 프롬프트 가중치(Prompt Weights), 매개변수(Parameters), 확산 모델(Diffusion Models), 생성적 적대 신경망(GAN)
- Projects/Contexts: AI 이미지 생성 도구(Midjourney, DALL-E, Stable Diffusion 등)를 활용한 고품질 상업/예술 이미지 및 애니메이션 제작 워크플로우
- Contradictions/Notes: 부정 프롬프트(Negative Prompt)는 Stable Diffusion 등 대다수의 모델에서 원하지 않는 요소(예: 워터마크, 기형적 신체 등)를 억제하여 이미지 품질을 높이는 핵심 기술로 작용하지만 [16, 21], DALL-E 3의 경우 "사용하지 말 것", "없는" 등과 같은 부정 지시어(Negation)를 이해하지 못하고 오히려 해당 요소를 이미지에 생성해버리는 한계가 있어 DALL-E에서는 무조건 긍정형 문장으로 지시해야 한다는 구조적 차이가 존재한다 [13, 23].
Last updated: 2026-04-30