ChatGPT에 "이 포스터에 'Grand Opening' 넣어줘"라고 했더니, 진짜로 글씨가 깨끗하게 들어갔어요. 오타 없이. 이게 예전엔 불가능했거든요. DALL-E 시절에는 텍스트를 넣으면 십중팔구 깨진 외계어가 나왔어요. 근데 2025년 3월, OpenAI가 GPT-4o 안에 이미지 생성 기능을 네이티브로 탑재하면서 게임이 바뀌었습니다. 출시 1시간 만에 100만 명이 몰렸고, 지브리 밈이 인터넷을 뒤덮었어요.
이게 뭔데?
기존 ChatGPT의 이미지 생성은 이랬어요. 사용자가 프롬프트를 입력하면, GPT-4가 그 텍스트를 해석해서 별도의 DALL-E 모델에 전달하고, DALL-E가 이미지를 만들어서 돌려주는 구조. 두 개의 모델이 릴레이를 하는 거예요.
GPT-4o의 네이티브 이미지 생성은 완전히 다릅니다. 하나의 모델이 텍스트도 이해하고, 이미지도 직접 만들어요. 언어 모델이 텍스트를 토큰 단위로 생성하듯, 이미지도 토큰 단위로 자기회귀(autoregressive) 방식으로 생성해요. DALL-E의 확산(diffusion) 방식과는 근본적으로 다른 아키텍처예요.
이게 왜 중요하냐면, 모델이 "무엇을 그리는지"를 진짜로 이해하기 때문이에요. DALL-E는 프롬프트를 패턴 매칭으로 처리했지만, GPT-4o는 대화 맥락, 세계 지식, 이전 이미지를 모두 기억하면서 이미지를 만들어요. "아까 그 포스터에서 배경색만 바꿔줘"라고 하면 나머지를 그대로 유지하면서 배경만 바꿔주는 거예요.
그래서 가능해진 게 이런 것들이에요:
뭐가 달라지는 건데?
DALL-E 3와 GPT-4o 네이티브 이미지 생성을 직접 비교해볼게요. 같은 OpenAI인데, 접근 방식이 완전히 다릅니다.
| DALL-E 3 | GPT-4o 네이티브 | |
|---|---|---|
| 아키텍처 | 확산(Diffusion) 모델 | 자기회귀(Autoregressive) 모델 |
| 통합 방식 | 외부 모델 호출 (릴레이) | 네이티브 내장 (옴니모달) |
| 텍스트 렌더링 | 깨짐·오타 빈번 | 거의 완벽 (영문 기준) |
| 사진 사실성 | 62% | 87% |
| 반복 수정 | 매번 새로 생성 | 대화로 점진적 수정 |
| 생성 속도 | 20~45초 | 60~180초 |
| 최대 오브젝트 | ~5개 | 10~20개 |
| 맥락 이해 | 프롬프트만 참조 | 대화 전체 + 업로드 이미지 |
| API 모델명 | dall-e-3 | gpt-image-1 |
| API 이미지 가격 | $0.04~$0.08/장 | $0.04~$0.17/장 (품질별) |
속도는 DALL-E가 빠르지만, 그 외 거의 모든 면에서 GPT-4o가 압도해요. OpenAI도 이를 인정하며 "훨씬 느리지만, 믿을 수 없을 만큼 좋다. 기다릴 가치가 충분하다"고 밝혔어요. 결국 2025년 3월, ChatGPT의 기본 이미지 생성 모델이 DALL-E 3에서 GPT-4o로 교체됐습니다.
다른 AI 이미지 생성 도구와도 비교해볼게요:
| 모델 | 회사 | 텍스트 렌더링 | 핵심 강점 | 가격대 |
|---|---|---|---|---|
| GPT-4o (gpt-image-1) | OpenAI | 최상 | 대화형 수정, 맥락 이해 | $20/월 또는 API |
| Midjourney v7 | Midjourney | 보통 | 예술적 스타일, 미학 | $10~$30/월 |
| 나노 바나나 2 | 매우 우수 | 속도(4~6초), 다국어 | 무료~$0.067/장 | |
| FLUX 2 Max | Black Forest Labs | 우수 | 제품 사진, 오픈소스 | $0.05/장 |
| Ideogram 3 | Ideogram | 매우 우수 (~90%) | 그래픽 디자인, 타이포 | 무료~$7/월 |
마케팅 팀이라면 이렇게 쓰세요
소셜 미디어 크리에이티브 → GPT-4o (텍스트 포함 에셋을 대화로 빠르게 변형)
브랜드 캠페인 비주얼 → Midjourney (예술적 완성도)
대량 배너·썸네일 → 나노 바나나 2 (속도 + 가격)
제품 목업·패키지 → FLUX 2 Max (사실적 제품 사진)
로고·타이포 중심 디자인 → Ideogram 3 (텍스트 특화)
GPT-4o 이미지 생성이 마케팅 워크플로우를 바꾸는 핵심 포인트는 "반복 수정의 비용이 0에 수렴한다"는 거예요. 예전에는 디자이너에게 "여기 텍스트 바꿔주세요, 색감 조정해주세요"를 요청할 때마다 시간과 비용이 들었어요. 이제는 ChatGPT에서 "배경을 파란색으로 바꾸고, 헤드라인 폰트를 키워줘"라고 말하면 30초 안에 새 시안이 나와요.
알아둘 것: 속도와 한계
GPT-4o의 이미지 생성은 DALL-E보다 2~4배 느려요. 이미지 한 장에 60~180초 걸릴 수 있어요. 비라틴 문자(한국어, 일본어, 아랍어 등)의 텍스트 렌더링은 아직 완벽하지 않고, 부정확하거나 환각된 텍스트가 나올 수 있어요. 또한 생성된 모든 이미지에 C2PA 메타데이터가 삽입되어 AI 생성 여부를 추적할 수 있어요. 상업용으로 사용할 때 이 점을 인지하세요.
핵심만 정리: 시작하는 법
- ChatGPT에서 바로 시작하기
chatgpt.com에 접속해서 이미지를 요청하면 GPT-4o가 기본 생성 모델로 작동해요. 무료 사용자도 이용 가능(속도 제한 있음). Plus 구독($20/월)이면 더 빠르게, 더 많이 생성할 수 있어요. - 텍스트를 포함한 이미지 만들기
"'Grand Opening — 3월 25일' 텍스트가 포함된 카페 오픈 포스터, 미니멀 디자인"처럼 텍스트를 명시적으로 지정하세요. 따옴표로 감싸면 정확도가 올라가요. 한국어 텍스트는 짧을수록 정확해요. - 대화로 반복 수정하기
첫 결과물이 마음에 안 들면 "배경을 좀 더 밝게", "로고 위치를 오른쪽으로", "전체적으로 따뜻한 톤으로" 같은 식으로 자연어로 수정을 요청하세요. 이전 맥락을 기억하기 때문에 일관성이 유지돼요. - 기존 이미지 편집하기
이미지를 업로드하고 "이 사진에서 배경을 바꿔줘", "이 제품 사진을 화이트 배경으로", "이 손그림을 사실적으로 변환해줘"처럼 요청하면 업로드 이미지를 기반으로 편집해줘요. - API로 자동화하기 (개발자)
OpenAI API에서 모델명gpt-image-1으로 이미지 생성을 자동화할 수 있어요. 표준 품질 기준 이미지당 $0.04~$0.05, HD 품질은 $0.08~$0.12. 마케팅 에셋 대량 생산이나 동적 썸네일 생성에 적합해요.



