Files
2nd/10_Wiki/Topics/DALL-E 3.md
T

4.6 KiB

DALL-E 3

📌 Brief Summary

DALL-E 3는 OpenAI가 개발한 최신 텍스트 투 이미지(Text-to-Image) 생성 모델로, ChatGPT에 기본적으로 통합되어 사용자의 프롬프트를 상세하게 자동 확장(Expansion)하여 이미지를 생성하는 특징을 지닙니다 [1-5]. 이전 모델들과 달리 복잡한 자연어 문장을 깊이 있게 이해하며, 피사체 간의 관계, 배경 요소, 텍스트 렌더링에 있어 뛰어난 정확성을 자랑합니다 [3, 5-7]. 이미지 프롬프트 작성 시 키워드 나열보다는 구체적이고 명확한 자연어 묘사를 사용할 때 가장 효과적인 결과를 얻을 수 있는 플랫폼입니다 [8-10].

📖 Core 소스 Content

  • 자연어 기반의 프롬프트 구조

    • DALL-E 3는 쉼표로 구분된 키워드나 복잡한 매개변수를 나열하는 방식보다 자연어 형태의 완전한 문장으로 묘사할 때 가장 잘 작동합니다 [8, 9].
    • 가장 효과적인 프롬프트는 시적이거나 지나치게 장황한 언어보다는 명확하고 간결하며 그래픽 지향적인 언어(clear, precise, short, and graphic-oriented language)를 사용하는 것입니다 [10, 11].
    • 프롬프트의 순서가 결과물에 영향을 미치므로, 가장 중요한 피사체를 먼저 묘사하고 세부 사항, 분위기, 기술적 지시(예: 이미지 비율 등)의 순서로 작성하는 것이 유리합니다 [10, 11].
  • 부정 지시어(Negative Prompt)의 한계와 긍정적 묘사

    • DALL-E 3는 "not", "no", "don't", "without" 등과 같은 부정형 지시어를 제대로 처리하지 못하며, 오히려 포함하지 말아야 할 요소를 이미지에 생성해 버리는 경향이 있습니다 [5, 12, 13].
    • 따라서 이미지에서 제외하고 싶은 요소가 있다면, 이를 부정하는 대신 원하는 속성을 긍정형 문장으로 명확히 묘사하여 AI의 방향을 유도해야 합니다 [5, 12, 13].
  • 지시어 해석 오류 방지 기술

    • 프롬프트 작성 시 "이미지를 생성하라(create an image)"나 "장면(a scene)"과 같은 표현은 피해야 합니다 [12, 13]. DALL-E 3는 이를 문자 그대로 해석하여 캔버스에 그림을 그리는 손, 붓, 혹은 연극 무대 세트를 이미지 내에 임의로 추가할 수 있습니다 [12, 13].
    • 대신 이미지 자체의 시각적 요소만을 직접적으로 묘사해야 하며, 전체적인 분위기를 지시할 때는 "All is..."와 같은 표현을 사용하는 것이 안전합니다 [12, 13].
  • 인-이미지 텍스트(In-Image Text) 생성

    • DALL-E 3는 이미지 안에 특정 문자, 로고, 간판 등을 정확하게 렌더링하는 데 탁월한 능력을 갖추고 있습니다 [3, 8, 14].
    • 원하는 텍스트가 있다면 프롬프트에 따옴표(" ")로 묶어 명시하면 높은 확률로 오타 없이 텍스트가 포함된 이미지를 생성할 수 있습니다 [5, 9, 15]. 창의적 한계를 넘었을 때 무의미한 텍스트가 임의로 삽입되는 오류가 발생할 수 있는데, 이때는 "문자를 읽지 못하는 관객을 위한 것(For unlettered viewers only)"과 같은 문구를 추가하여 억제할 수 있습니다 [16, 17].
  • 프롬프트 확장(Prompt Expansion) 제어

    • ChatGPT에 내장된 DALL-E 3는 사용자의 짧은 텍스트를 더 흥미롭고 상세한 시각적 묘사로 자동 확장 및 윤색하는 기능이 있습니다 [1, 3, 5, 11].
    • 창작자가 의도한 정확한 구도와 제한적인 예술적 통제를 원할 경우, 프롬프트 끝에 "프롬프트를 변경하지 말고 입력한 그대로 사용할 것(Use the prompt unchanged as entered)"이라는 명시적 지시를 추가하여 모델의 개입을 차단해야 합니다 [5, 10, 11].

🔗 Knowledge Connections


Last updated: 2026-04-30