images.ctfassets.net

DeepL Voice API — 고객센터 통화에 실시간 번역을 꽂는 법

deepl-voice-api-realtime-translationDeepL Voice API

DeepL Launches Voice API for Real-Time Speech Transcription and Translation

DeepL Voice: instant, secure voice translation for global teams

Translate Speech in Realtime - DeepL Voice API Documentation

고객이 스페인어로 전화했는데, 상담원은 한국어만 해요. 예전엔 "영어 가능한 상담원 연결해드리겠습니다"로 끝났죠. 이제 그 통화를 끊지 않아도 됩니다.

3초 요약

고객 음성 입력 → WebSocket 스트리밍 → 실시간 음성 인식 → 최대 5개 언어 동시 번역 → 상담원 화면에 자막 표시

이게 뭔데?

DeepL이 2026년 2월, Voice API를 정식 출시했어요. 한마디로 오디오를 스트리밍으로 보내면 실시간으로 음성 인식 + 번역을 동시에 돌려주는 API예요. 기존 DeepL 텍스트 번역 API의 음성 버전이라고 보면 돼요.

DeepL은 독일 쾰른에서 시작한 AI 번역 전문 기업인데, 2024년 5월에 3억 달러 투자를 받으며 기업가치 20억 달러를 찍었어요. 2024년 말 기준 연 매출 1.85억 달러, 직원 수 1,570명 규모고요. 번역 정확도에 진심인 회사예요 — 블라인드 테스트에서 언어 전문가들이 DeepL 번역을 Google보다 1.3배, Microsoft보다 2.3배 더 선호한다는 결과가 나왔거든요.

Voice API의 핵심은 세 가지예요:

WebSocket 기반 실시간 스트리밍
HTTP 요청-응답이 아니라 WebSocket 연결이라서, 오디오를 계속 흘려보내면 번역도 계속 흘러나와요. 지연 시간이 극도로 짧아요.
동시 5개 언어 번역
하나의 오디오 스트림에서 최대 5개 타깃 언어로 동시 번역이 돼요. 다국적 컨퍼런스콜에서 참가자마다 모국어 자막을 받을 수 있다는 뜻이에요.
Voice-to-Voice 실시간 통역 (얼리 액세스)
텍스트가 아니라 번역된 음성을 바로 들려주는 기능이에요. 상담원이 고객의 말을 자기 언어로 바로 듣는 거죠.

타깃 고객은 명확해요. 컨택센터와 BPO(아웃소싱) 업체가 1순위예요. 언어 때문에 전화를 돌려야 했던 상담, 통역사를 고용해야 했던 글로벌 미팅 — 이런 시나리오에서 바로 쓸 수 있거든요.

뭐가 달라지는 건데?

실시간 음성 번역이 DeepL만의 영역은 아니에요. Google Cloud Speech-to-Text, Microsoft Azure Speech, OpenAI Realtime API 등 경쟁자가 많죠. 근데 결이 달라요.

	기존 방식 (수동/순차 번역)	DeepL Voice API
처리 방식	녹음 → STT → 번역 → 전달 (순차)	실시간 스트리밍 (동시 처리)
지연 시간	수 초~수십 초	서브초 수준 저지연
번역 정확도	범용 모델	전문가 블라인드 테스트 1.3x (vs Google)
동시 언어	1개	최대 5개 동시
통합 방식	REST API (요청-응답)	WebSocket (양방향 스트리밍)
후편집 부담	Google 대비 2x 수정 필요	최소 수정 (GPT-4 대비 3x 적음)

경쟁 도구별로도 비교해볼게요:

도구	강점	약점	음성 번역
DeepL Voice API	번역 정확도 최상위, 동시 5개 언어	Enterprise 전용, 가격 비공개	STT + 번역 + Voice-to-Voice
Google Cloud STT + Translate	125개 언어, 저렴한 가격	번역 품질이 DeepL 대비 낮음	STT → 번역 (별도 API)
Microsoft Azure Speech	Teams 네이티브 연동	번역 정확도 DeepL 대비 2.3x 낮음	STT + 번역 통합
OpenAI Realtime API	대화형 AI 에이전트에 강점	번역 전문 도구 아님	음성 입출력 (번역 특화 X)
Sanas	억양 변환 특화, BPO 20곳 채택	번역이 아닌 억양 중립화	억양 변환 (번역 아님)

Forrester 연구에 따르면 DeepL 도입 기업은 번역 시간 90% 감소, 업무량 50% 절감, ROI 345%를 달성했어요. 물론 이건 텍스트 번역 포함 수치지만, Voice API까지 더하면 음성 기반 업무의 효율은 더 크게 올라갈 거예요.

실제 도입 사례

IT 컨설팅 기업 Inetum은 DeepL Voice로 내부 지원팀을 국가별로 분산 배치해 언어와 무관하게 전 직원을 지원하고 있어요. 글로벌 제빵 기업 Brioche Pasquier는 Voice for Meetings 도입 후 "국가 간 사이트의 협업 장벽이 사라졌다"고 밝혔어요.

핵심만 정리: DeepL Voice API 시작하는 법

API 플랜 확인
Voice API는 DeepL API Pro($5.49/월 기본) 이상에서 사용 가능해요. Enterprise 구독이면 v3 엔드포인트로 바로 접근돼요.
WebSocket 세션 열기
POST v3/voice/realtime으로 임시 스트리밍 URL + 인증 토큰을 받아요. 이 토큰은 1회용이에요.
오디오 스트리밍 시작
받은 URL로 WebSocket 연결을 열고, 모노 오디오 스트림을 전송해요. 30초 안에 오디오를 보내야 연결이 유지돼요.
번역 결과 수신
원본 언어 전사(transcription)와 타깃 언어 번역이 실시간으로 돌아와요. 최대 1시간 연속 세션이 가능해요.
기존 시스템에 통합
컨택센터 소프트웨어, CRM, 화상회의 도구에 번역 결과를 자막이나 실시간 텍스트로 표시하면 끝이에요.

참고

공식 DeepL SDK에는 아직 Voice API가 통합되어 있지 않아요. WebSocket 클라이언트 라이브러리를 직접 사용해야 해요. DeepL CLI 도구에서는 Voice API를 지원하고 있어요.

Voice 외에도 — DeepL 플랫폼 전체 그림

Voice API만 떼어놓고 보면 놓치는 게 있어요. DeepL은 지금 번역 API → Write API → Voice API로 풀 플랫폼화를 진행 중이에요.

1/3

DeepL Voice for Meetings

Microsoft Teams, Zoom에서 실시간 번역 자막. 참가자마다 모국어로 캡션을 볼 수 있어요. 회의 데이터는 메모리에서만 처리되고 종료 후 삭제돼요.

2/3

DeepL Voice for Conversations

1:1 대면 대화용 모바일 솔루션. 한 기기에서 양쪽이 동시에 번역 내용을 볼 수 있는 Split View 제공.

3/3

DeepL Voice API

개발자가 자사 앱에 직접 통합하는 API. 컨택센터, CRM, 자체 플랫폼에 음성 번역을 임베드할 수 있어요.

🔗

더 깊이 파고 싶다면

DeepL Voice API 공식 문서

WebSocket 연결, 오디오 포맷, 세션 관리까지 개발자가 필요한 모든 레퍼런스

DeepL Voice 제품 페이지

Meetings, Conversations, API 세 가지 모델의 차이와 데모를 한눈에 확인

DeepL Voice 소개 블로그

Voice 제품군의 탄생 배경과 비전을 DeepL이 직접 설명하는 공식 블로그 포스트

DeepL 차세대 LLM 번역 정확도 분석

Google, GPT-4 대비 블라인드 테스트 결과와 언어별 성능 비교 데이터

국경 없는 컨택센터 — DeepL 블로그

실시간 번역으로 다국어 고객 지원팀을 구축하는 전략과 사례

DeepL CLI — GitHub

Translate, Write, Voice API를 커맨드라인에서 바로 테스트할 수 있는 공식 CLI 도구

자주 묻는 질문

Voice API 가격이 얼마인가요? 텍스트 번역 API처럼 글자 수 과금인가요?

Voice API는 DeepL API Pro($5.49/월 기본) 이상에서 사용할 수 있지만, 음성 번역의 세부 과금 체계는 아직 공개되지 않았어요. Enterprise 구독자는 영업팀을 통해 별도 견적을 받을 수 있고, 텍스트 API와 달리 스트리밍 시간 기반 과금일 가능성이 높아요.

한국어 음성 인식도 지원하나요? 정확도는 어떤가요?

네, 한국어를 포함해 13개 언어의 음성 인식을 지원해요. 실시간 자막 번역은 DeepL 번역기가 지원하는 33개 언어 전체로 가능하고요. 한국어-영어 번역은 DeepL의 차세대 모델에서 기존 대비 1.7배 품질이 향상됐어요.

기존 컨택센터 소프트웨어(Genesys, Zendesk 등)에 어떻게 연동하나요?

Voice API는 WebSocket 기반이라서, 컨택센터 소프트웨어의 오디오 스트림을 WebSocket으로 전달하고 번역 결과를 상담원 화면에 표시하는 미들웨어를 구축하면 돼요. 공식 SDK 통합은 아직이지만, DeepL CLI나 일반 WebSocket 라이브러리로 바로 개발할 수 있어요.

회의 녹음 데이터가 DeepL 서버에 저장되나요? 보안이 걱정돼요.

DeepL은 모든 음성 데이터를 메모리에서만 임시 처리하고, 세션이 끝나면 즉시 삭제해요. 전송 중 암호화가 적용되고, 고객 데이터를 AI 모델 학습에 절대 사용하지 않는다고 명시하고 있어요. GDPR 준수 EU 서버에서 처리되는 것도 장점이에요.

Written by 러쉬

매력적인 비즈니스 성공 사례를 발굴하고 공유합니다.

이 레퍼런스가 도움이 되셨나요?

매주 엄선된 레퍼런스를 메일로 받아보세요

이 레퍼런스 공유하기

이런 가이드도 추천해요

비슷한 주제의 AI 활용 가이드를 더 살펴보세요

d3phaj0sisr2ct.cloudfront.net

AI 도구Runway Characters

사진 한 장으로 웹사이트에 실시간 AI 비디오 에이전트를 심는 시대

Runway Characters는 사진 한 장으로 실시간 AI 비디오 에이전트를 만드는 API예요. 표정, 눈 맞춤, 제스처까지 갖춘 포토리얼리스틱 캐릭터가 웹사이트에서 고객과 대화해요. GWM-1 기반, BBC·Silverside 도입 사례, 시작하는 법까지 정리했습니다.