고객이 스페인어로 전화했는데, 상담원은 한국어만 해요. 예전엔 "영어 가능한 상담원 연결해드리겠습니다"로 끝났죠. 이제 그 통화를 끊지 않아도 됩니다.
이게 뭔데?
DeepL이 2026년 2월, Voice API를 정식 출시했어요. 한마디로 오디오를 스트리밍으로 보내면 실시간으로 음성 인식 + 번역을 동시에 돌려주는 API예요. 기존 DeepL 텍스트 번역 API의 음성 버전이라고 보면 돼요.
DeepL은 독일 쾰른에서 시작한 AI 번역 전문 기업인데, 2024년 5월에 3억 달러 투자를 받으며 기업가치 20억 달러를 찍었어요. 2024년 말 기준 연 매출 1.85억 달러, 직원 수 1,570명 규모고요. 번역 정확도에 진심인 회사예요 — 블라인드 테스트에서 언어 전문가들이 DeepL 번역을 Google보다 1.3배, Microsoft보다 2.3배 더 선호한다는 결과가 나왔거든요.
Voice API의 핵심은 세 가지예요:
- WebSocket 기반 실시간 스트리밍
HTTP 요청-응답이 아니라 WebSocket 연결이라서, 오디오를 계속 흘려보내면 번역도 계속 흘러나와요. 지연 시간이 극도로 짧아요. - 동시 5개 언어 번역
하나의 오디오 스트림에서 최대 5개 타깃 언어로 동시 번역이 돼요. 다국적 컨퍼런스콜에서 참가자마다 모국어 자막을 받을 수 있다는 뜻이에요. - Voice-to-Voice 실시간 통역 (얼리 액세스)
텍스트가 아니라 번역된 음성을 바로 들려주는 기능이에요. 상담원이 고객의 말을 자기 언어로 바로 듣는 거죠.
타깃 고객은 명확해요. 컨택센터와 BPO(아웃소싱) 업체가 1순위예요. 언어 때문에 전화를 돌려야 했던 상담, 통역사를 고용해야 했던 글로벌 미팅 — 이런 시나리오에서 바로 쓸 수 있거든요.
뭐가 달라지는 건데?
실시간 음성 번역이 DeepL만의 영역은 아니에요. Google Cloud Speech-to-Text, Microsoft Azure Speech, OpenAI Realtime API 등 경쟁자가 많죠. 근데 결이 달라요.
| 기존 방식 (수동/순차 번역) | DeepL Voice API | |
|---|---|---|
| 처리 방식 | 녹음 → STT → 번역 → 전달 (순차) | 실시간 스트리밍 (동시 처리) |
| 지연 시간 | 수 초~수십 초 | 서브초 수준 저지연 |
| 번역 정확도 | 범용 모델 | 전문가 블라인드 테스트 1.3x (vs Google) |
| 동시 언어 | 1개 | 최대 5개 동시 |
| 통합 방식 | REST API (요청-응답) | WebSocket (양방향 스트리밍) |
| 후편집 부담 | Google 대비 2x 수정 필요 | 최소 수정 (GPT-4 대비 3x 적음) |
경쟁 도구별로도 비교해볼게요:
| 도구 | 강점 | 약점 | 음성 번역 |
|---|---|---|---|
| DeepL Voice API | 번역 정확도 최상위, 동시 5개 언어 | Enterprise 전용, 가격 비공개 | STT + 번역 + Voice-to-Voice |
| Google Cloud STT + Translate | 125개 언어, 저렴한 가격 | 번역 품질이 DeepL 대비 낮음 | STT → 번역 (별도 API) |
| Microsoft Azure Speech | Teams 네이티브 연동 | 번역 정확도 DeepL 대비 2.3x 낮음 | STT + 번역 통합 |
| OpenAI Realtime API | 대화형 AI 에이전트에 강점 | 번역 전문 도구 아님 | 음성 입출력 (번역 특화 X) |
| Sanas | 억양 변환 특화, BPO 20곳 채택 | 번역이 아닌 억양 중립화 | 억양 변환 (번역 아님) |
Forrester 연구에 따르면 DeepL 도입 기업은 번역 시간 90% 감소, 업무량 50% 절감, ROI 345%를 달성했어요. 물론 이건 텍스트 번역 포함 수치지만, Voice API까지 더하면 음성 기반 업무의 효율은 더 크게 올라갈 거예요.
실제 도입 사례
IT 컨설팅 기업 Inetum은 DeepL Voice로 내부 지원팀을 국가별로 분산 배치해 언어와 무관하게 전 직원을 지원하고 있어요. 글로벌 제빵 기업 Brioche Pasquier는 Voice for Meetings 도입 후 "국가 간 사이트의 협업 장벽이 사라졌다"고 밝혔어요.
핵심만 정리: DeepL Voice API 시작하는 법
- API 플랜 확인
Voice API는 DeepL API Pro($5.49/월 기본) 이상에서 사용 가능해요. Enterprise 구독이면 v3 엔드포인트로 바로 접근돼요. - WebSocket 세션 열기
POST v3/voice/realtime으로 임시 스트리밍 URL + 인증 토큰을 받아요. 이 토큰은 1회용이에요. - 오디오 스트리밍 시작
받은 URL로 WebSocket 연결을 열고, 모노 오디오 스트림을 전송해요. 30초 안에 오디오를 보내야 연결이 유지돼요. - 번역 결과 수신
원본 언어 전사(transcription)와 타깃 언어 번역이 실시간으로 돌아와요. 최대 1시간 연속 세션이 가능해요. - 기존 시스템에 통합
컨택센터 소프트웨어, CRM, 화상회의 도구에 번역 결과를 자막이나 실시간 텍스트로 표시하면 끝이에요.
참고
공식 DeepL SDK에는 아직 Voice API가 통합되어 있지 않아요. WebSocket 클라이언트 라이브러리를 직접 사용해야 해요. DeepL CLI 도구에서는 Voice API를 지원하고 있어요.
Voice 외에도 — DeepL 플랫폼 전체 그림
Voice API만 떼어놓고 보면 놓치는 게 있어요. DeepL은 지금 번역 API → Write API → Voice API로 풀 플랫폼화를 진행 중이에요.




