5.2 KiB
5.2 KiB
id, title, category, status, confidence_score, created_at, updated_at, tags, raw_sources
| id | title | category | status | confidence_score | created_at | updated_at | tags | raw_sources | ||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| prompt_engineering | 프롬프트 엔지니어링 (Prompt Engineering) | AI_and_ML | stable | 0.95 | 2026-04-30 | 2026-05-08 |
|
|
프롬프트 엔지니어링 (Prompt Engineering)
📌 Brief Summary
프롬프트 엔지니어링은 인간의 언어적 의도를 기계(LLM 및 이미지 생성 모델)가 해석 가능한 최적의 입력값으로 변환하여 원하는 결과물을 도출하는 정교한 기술 체계입니다 [1]. 이미지 생성 분야에서는 주체, 환경, 스타일, 조명 등을 논리적으로 배열하여 시각적 기호와 픽셀로 변환하는 청사진 역할을 하며 [2], 텍스트 분야에서는 모델의 추론 성능을 극대화하기 위한 구조적 지시어 설계를 의미합니다 [3]. 효과적인 프롬프트는 모델의 특성을 이해하고 반복적인 실험(Iterative Refinement)을 통해 정교화되는 과정을 거칩니다 [4].
📖 Core Content
1. 프롬프트의 핵심 계층 구조 (Hierarchical Structure)
성공적인 프롬프트는 일반적으로 다음과 같은 5단계 레이어 패턴을 따릅니다 [1, 2, 7, 8].
- 주체 (Subject): 이미지의 중심 초점 및 서사적 주인공. 막연한 명사보다 구체적인 특징이나 행동을 포함해야 합니다 (예: "은색 털의 메인쿤 고양이") [6, 9].
- 환경 및 맥락 (Environment/Context): 주체가 존재하는 배경, 시간적/공간적 설정 [4, 11].
- 매체 및 스타일 (Medium & Style): 예술적 형식(유화, 3D 렌더링, 사진 등)이나 특정 화풍 정의 [8, 10].
- 조명 및 카메라 구도 (Lighting & Composition): 림 라이팅, 골든 아워, 85mm 렌즈 등 기술적 시각 연출 [11, 12].
- 기술 매개변수 (Parameters): 모델 고유의 명령어를 통한 시스템적 제어 (예: Midjourney의
--ar,--s) [13].
2. 플랫폼별 최적화 전략 (Platform Optimization)
- 미드저니 (Midjourney):
[주체] [배경] [스타일] [매개변수]공식을 따르며, 예술적 미학이 강합니다.--sref(스타일 참조) 등을 통해 일관성을 유지합니다 [24-28]. - DALL-E 3: 자연어 이해도가 매우 높아 문장 형태의 서술이 유리합니다. 부정형 지시어("No", "Without")를 잘 이해하지 못하므로 긍정형 문장으로 구성해야 합니다 [18, 19, 29-31].
- 스테이블 디퓨전 (Stable Diffusion): 쉼표로 구분된 태그 중심 문법이 효과적이며,
(keyword:factor)가중치 조절과 전용 부정 프롬프트(Negative Prompt) 활용이 핵심입니다 [22, 23, 32].
3. 정밀 제어 및 고급 기법
- 프롬프트 가중치 (Weights): 단어나 구문의 중요도를 수치적으로 조절하여 특정 요소의 발현 강도를 제어합니다 [17, 25].
- 부정 프롬프트 (Negative Prompt): 이미지에서 배제할 요소를 명시합니다. "나쁜" 같은 모호한 단어보다 "융합된 손가락", "워터마크" 등 구체적 결함을 지칭해야 합니다 [29-33].
- 프롬프트 자동 확장 및 정밀도: 모델의 자동 확장 기능을 이해하고, 필요에 따라 특정 키워드를 강조하거나 억제하여 결과물의 정밀도(Precision)를 높입니다 [35-37].
⚖️ Trade-offs & Caveats
- 자연어 vs 키워드: DALL-E 3는 자연어에 최적화되어 있으나, 스테이블 디퓨전은 태그 중심이 더 유리합니다. 모델의 인코더 특성에 따른 선택이 필요합니다.
- 과도한 묘사의 함정: 너무 많은 디테일은 모델의 '주의력(Attention)'을 분산시켜 핵심 주체의 품질을 저하시킬 수 있습니다. 15~50단어 사이가 가장 효과적입니다.
- 부정형 지시어의 반작용: 일부 모델에서 "No dots"라고 입력하면 오히려 "dots"라는 토큰에 주목하여 점을 더 많이 그리는 현상이 발생할 수 있습니다.
🔗 Knowledge Connections
- Related Topics: 부정 프롬프트(Negative Prompt), 디퓨전 모델(Diffusion Models), 매개변수(Parameters)
- Projects/Contexts: ConnectAI 프롬프트 라이브러리, 에이전트 워크플로우 최적화
- Contradictions/Notes: "Photorealistic" 단어 사용 시 일부 모델에서 인위적인 질감이 촉발될 수 있으므로, 실제 카메라 사양(렌즈, 셔터스피드)을 명시하는 것이 낫다는 보고가 있습니다 [35].
Last updated: 2026-05-08