고객이 스페인어로 전화했는데, 상담원은 한국어만 해요. 예전엔 "영어 가능한 상담원 연결해드리겠습니다"로 끝났죠. 이제 그 통화를 끊지 않아도 됩니다.

3초 요약
고객 음성 입력 WebSocket 스트리밍 실시간 음성 인식 최대 5개 언어 동시 번역 상담원 화면에 자막 표시

이게 뭔데?

DeepL이 2026년 2월, Voice API를 정식 출시했어요. 한마디로 오디오를 스트리밍으로 보내면 실시간으로 음성 인식 + 번역을 동시에 돌려주는 API예요. 기존 DeepL 텍스트 번역 API의 음성 버전이라고 보면 돼요.

DeepL은 독일 쾰른에서 시작한 AI 번역 전문 기업인데, 2024년 5월에 3억 달러 투자를 받으며 기업가치 20억 달러를 찍었어요. 2024년 말 기준 연 매출 1.85억 달러, 직원 수 1,570명 규모고요. 번역 정확도에 진심인 회사예요 — 블라인드 테스트에서 언어 전문가들이 DeepL 번역을 Google보다 1.3배, Microsoft보다 2.3배 더 선호한다는 결과가 나왔거든요.

Voice API의 핵심은 세 가지예요:

  1. WebSocket 기반 실시간 스트리밍
    HTTP 요청-응답이 아니라 WebSocket 연결이라서, 오디오를 계속 흘려보내면 번역도 계속 흘러나와요. 지연 시간이 극도로 짧아요.
  2. 동시 5개 언어 번역
    하나의 오디오 스트림에서 최대 5개 타깃 언어로 동시 번역이 돼요. 다국적 컨퍼런스콜에서 참가자마다 모국어 자막을 받을 수 있다는 뜻이에요.
  3. Voice-to-Voice 실시간 통역 (얼리 액세스)
    텍스트가 아니라 번역된 음성을 바로 들려주는 기능이에요. 상담원이 고객의 말을 자기 언어로 바로 듣는 거죠.

타깃 고객은 명확해요. 컨택센터와 BPO(아웃소싱) 업체가 1순위예요. 언어 때문에 전화를 돌려야 했던 상담, 통역사를 고용해야 했던 글로벌 미팅 — 이런 시나리오에서 바로 쓸 수 있거든요.

뭐가 달라지는 건데?

실시간 음성 번역이 DeepL만의 영역은 아니에요. Google Cloud Speech-to-Text, Microsoft Azure Speech, OpenAI Realtime API 등 경쟁자가 많죠. 근데 결이 달라요.

기존 방식 (수동/순차 번역)DeepL Voice API
처리 방식녹음 → STT → 번역 → 전달 (순차)실시간 스트리밍 (동시 처리)
지연 시간수 초~수십 초서브초 수준 저지연
번역 정확도범용 모델전문가 블라인드 테스트 1.3x (vs Google)
동시 언어1개최대 5개 동시
통합 방식REST API (요청-응답)WebSocket (양방향 스트리밍)
후편집 부담Google 대비 2x 수정 필요최소 수정 (GPT-4 대비 3x 적음)

경쟁 도구별로도 비교해볼게요:

도구강점약점음성 번역
DeepL Voice API번역 정확도 최상위, 동시 5개 언어Enterprise 전용, 가격 비공개STT + 번역 + Voice-to-Voice
Google Cloud STT + Translate125개 언어, 저렴한 가격번역 품질이 DeepL 대비 낮음STT → 번역 (별도 API)
Microsoft Azure SpeechTeams 네이티브 연동번역 정확도 DeepL 대비 2.3x 낮음STT + 번역 통합
OpenAI Realtime API대화형 AI 에이전트에 강점번역 전문 도구 아님음성 입출력 (번역 특화 X)
Sanas억양 변환 특화, BPO 20곳 채택번역이 아닌 억양 중립화억양 변환 (번역 아님)

Forrester 연구에 따르면 DeepL 도입 기업은 번역 시간 90% 감소, 업무량 50% 절감, ROI 345%를 달성했어요. 물론 이건 텍스트 번역 포함 수치지만, Voice API까지 더하면 음성 기반 업무의 효율은 더 크게 올라갈 거예요.

실제 도입 사례

IT 컨설팅 기업 Inetum은 DeepL Voice로 내부 지원팀을 국가별로 분산 배치해 언어와 무관하게 전 직원을 지원하고 있어요. 글로벌 제빵 기업 Brioche Pasquier는 Voice for Meetings 도입 후 "국가 간 사이트의 협업 장벽이 사라졌다"고 밝혔어요.

핵심만 정리: DeepL Voice API 시작하는 법

  1. API 플랜 확인
    Voice API는 DeepL API Pro($5.49/월 기본) 이상에서 사용 가능해요. Enterprise 구독이면 v3 엔드포인트로 바로 접근돼요.
  2. WebSocket 세션 열기
    POST v3/voice/realtime으로 임시 스트리밍 URL + 인증 토큰을 받아요. 이 토큰은 1회용이에요.
  3. 오디오 스트리밍 시작
    받은 URL로 WebSocket 연결을 열고, 모노 오디오 스트림을 전송해요. 30초 안에 오디오를 보내야 연결이 유지돼요.
  4. 번역 결과 수신
    원본 언어 전사(transcription)와 타깃 언어 번역이 실시간으로 돌아와요. 최대 1시간 연속 세션이 가능해요.
  5. 기존 시스템에 통합
    컨택센터 소프트웨어, CRM, 화상회의 도구에 번역 결과를 자막이나 실시간 텍스트로 표시하면 끝이에요.

참고

공식 DeepL SDK에는 아직 Voice API가 통합되어 있지 않아요. WebSocket 클라이언트 라이브러리를 직접 사용해야 해요. DeepL CLI 도구에서는 Voice API를 지원하고 있어요.

Voice 외에도 — DeepL 플랫폼 전체 그림

Voice API만 떼어놓고 보면 놓치는 게 있어요. DeepL은 지금 번역 API → Write API → Voice API로 풀 플랫폼화를 진행 중이에요.

1/3

DeepL Voice for Meetings

Microsoft Teams, Zoom에서 실시간 번역 자막. 참가자마다 모국어로 캡션을 볼 수 있어요. 회의 데이터는 메모리에서만 처리되고 종료 후 삭제돼요.

2/3

DeepL Voice for Conversations

1:1 대면 대화용 모바일 솔루션. 한 기기에서 양쪽이 동시에 번역 내용을 볼 수 있는 Split View 제공.

3/3

DeepL Voice API

개발자가 자사 앱에 직접 통합하는 API. 컨택센터, CRM, 자체 플랫폼에 음성 번역을 임베드할 수 있어요.