2022년 말, GPT-4 수준의 AI를 쓰려면 100만 토큰당 $20을 내야 했어요. 지금은 $0.40이면 돼요. 2년 만에 50배 폭락. 이건 단순한 할인이 아니라, 스타트업이 AI를 쓰는 방식 자체를 바꿔놓은 구조적 변화예요.
이게 뭔데?
a16z의 Guido Appenzeller가 이 현상에 이름을 붙였어요 — "LLMflation". 동일 성능 기준 LLM 추론 비용이 매년 10배씩 떨어지고 있다는 거예요. 2021년 11월 GPT-3가 공개됐을 때 100만 토큰당 $60이었는데, 지금 같은 수준의 성능을 Llama 3.2 3B로 돌리면 $0.06이에요. 3년 만에 1,000배 하락.
Epoch AI의 분석은 더 극적이에요. 벤치마크별로 가격 하락 속도가 다른데, 중위값이 연 50배. 2024년 1월 이후 데이터만 보면 연 200배 속도로 가격이 떨어지고 있어요. PhD 수준 과학 문제(GPQA)에서 GPT-4급 성능을 내는 비용은 연 40배씩 하락 중이고요.
왜 이렇게 빠를까요? 여섯 가지 요인이 동시에 작용하고 있어요. GPU 성능 향상, 모델 양자화(16비트→4비트), 소프트웨어 최적화, 더 작고 효율적인 모델의 등장, 인스트럭션 튜닝 기법 발전, 그리고 오픈소스 모델이 만드는 가격 경쟁 압력까지. 무어의 법칙 시대의 반도체보다 훨씬 빠른 속도예요.
결정적 방아쇠를 당긴 건 DeepSeek이에요. 2025년 1월 DeepSeek R1이 등장했을 때, 업계가 뒤집어졌어요. 비용이 OpenAI·Anthropic 대비 90~95% 저렴한데 성능은 비슷했거든요. Nvidia 주가가 역사상 최대 단일 하락폭을 기록했을 정도예요. 핵심은 DeepSeek이 미국 수출 규제로 구할 수 없는 최신 H100 대신 구형 A100 칩으로 이걸 해냈다는 거예요.
뭐가 달라지는 건데?
숫자로 보면 명확해요. 2025년 8월 OpenAI가 GPT-5를 출시하면서 GPT-4o보다 더 싸게 가격을 책정했어요. TechCrunch는 이걸 "가격 전쟁의 시작"이라고 보도했고요. 구글은 Gemini Flash-Lite를 100만 토큰당 $0.10까지 내렸고, Anthropic은 배치 프로세싱 옵션으로 대응했어요.
| 2023년 초 (GPT-4 시대) | 2026년 3월 (현재) | |
|---|---|---|
| 프리미엄 모델 비용 | $30~60/1M 출력 토큰 | $8~25/1M 출력 토큰 (60~80%↓) |
| 경량 모델 비용 | $1~2/1M 토큰 | $0.04~0.10/1M 토큰 |
| 스타트업 월 API 예산 | $50,000 | $3,000~5,000 (동일 워크로드) |
| 프롬프트 캐싱 | 없음 | 최대 90% 입력 비용 절감 |
| 오프피크 할인 | 없음 | 최대 75% 추가 할인 (DeepSeek) |
프론티어급 모델을 봐도 가격 경쟁이 치열해요. 현재 주요 모델 가격을 비교해보면요:
| 모델 | 입력 ($/1M 토큰) | 출력 ($/1M 토큰) | 특징 |
|---|---|---|---|
| DeepSeek V3 | $0.28 | $1.10 | 가성비 최강, 오프피크 75%↓ |
| Gemini 2.5 Flash | $0.30 | $2.50 | 구글 인프라, 빠른 속도 |
| GPT-5 (기본) | $1.25 | $10.00 | GPT-4o보다 싸고 성능 향상 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 코딩·분석 특화 |
| Claude Opus 4.6 | $5.00 | $25.00 | 최고 성능 프리미엄 |
가장 싼 모델(DeepSeek V3)과 가장 비싼 모델(Claude Opus) 사이 가격 차이가 20배 이상이에요. 여기에 Mistral Nemo 같은 초경량 모델까지 포함하면 최저가와 최고가의 차이가 1,000배를 넘어요. 과거엔 "좋은 AI = 비싼 AI"였는데, 이제는 용도에 따라 $0.04짜리로도 충분한 시대가 된 거예요.
AWS 클라우드 혁명의 데자뷔
2010년대 AWS가 클라우드 비용을 계속 낮추면서, 자체 인프라를 감당할 수 없던 스타트업 세대가 폭발적으로 탄생했어요. 지금 AI API 가격 전쟁이 정확히 같은 역할을 하고 있어요. 라고스, 상파울루, 자카르타, 방갈로르의 개발자들이 프론티어 AI에 접근할 수 있게 된 거예요.
핵심만 정리: AI API 비용 최적화하는 법
- 워크로드별 모델 분류
모든 작업에 GPT-5를 쓸 필요 없어요. 단순 분류는 경량 모델($0.04/M), 요약은 중간급($0.30/M), 복잡한 추론만 프리미엄($3~15/M)으로 라우팅하세요. - 프롬프트 캐싱 활용
Anthropic은 캐시된 입력에 대해 최대 90% 비용 절감을 제공해요. 반복적인 시스템 프롬프트가 있다면 즉시 적용하세요. - 배치 프로세싱 도입
실시간 응답이 필요 없는 작업(리포트 생성, 데이터 분류 등)은 배치 API를 쓰면 50% 할인이 가능해요. - API 어그리게이터 검토
OpenRouter, LemonData 같은 멀티 프로바이더 플랫폼을 쓰면 하나의 API 키로 400개 이상 모델을 전환할 수 있어요. 마크업은 0~10% 수준. - 오픈소스 셀프호스팅 고려
DeepSeek V3, Llama 3.3 70B는 GPT-4 대비 90~95% 수준 성능이에요. 트래픽이 많다면 자체 호스팅으로 90% 이상 절감 가능.
싸다고 무조건 좋은 건 아닙니다
DeepSeek은 일부 API 가격을 보조금으로 유지하고 있어요 — 헤지펀드 자본을 태우는 시장 점유율 전략이에요. 데이터 프라이버시, 규제 컴플라이언스, 지정학적 리스크도 고려해야 해요. 그리고 직접 모델 비용 외에 인프라·모니터링·컴플라이언스까지 합치면 실제 비용은 5~10배가 될 수 있어요.



