10분짜리 녹음만으로 사라진 목소리가 돌아왔어요. ALS로 말을 잃은 배우 Eric Dane이 ElevenLabs의 음성 복원 기술로 다시 자기 목소리로 이야기하기 시작한 거예요. 그리고 2026년 2월, ElevenLabs는 역대 가장 표현력 높은 TTS 모델 Eleven v3를 출시하면서 AI 음성 합성의 기준을 다시 썼어요. 단순히 "읽어주는" 수준을 넘어서, 속삭이고, 웃고, 한숨 쉬는 음성까지 텍스트만으로 만들어내는 시대가 열린 거예요.
이게 뭔데?
ElevenLabs v3는 두 가지 이야기가 동시에 진행 중이에요. 하나는 기술, 하나는 사람이에요.
기술 이야기 — Eleven v3 모델. 2026년 2월 12일 출시된 ElevenLabs의 최신 음성 합성 모델이에요. 이전 모델(Multilingual v2)이 "자연스럽게 읽는" 데 초점이 있었다면, v3는 "연기하는" 음성을 목표로 만들어졌어요. 핵심 변화는 크게 세 가지예요.
첫째, Audio Tags. 텍스트 안에 대괄호로 감정이나 행동을 지시할 수 있어요. [whispers], [excited], [sighs], [laughs] 같은 태그를 넣으면 모델이 그에 맞게 톤과 속도를 바꿔요. [gunshot]이나 [explosion] 같은 효과음 태그까지 지원하니까, 오디오북이나 게임 대사에 효과음을 별도로 편집할 필요가 줄어든 거예요.
둘째, Text to Dialogue API. 여러 목소리를 하나의 대화로 엮어주는 API예요. 최대 10개의 고유 음성을 지정하면, 각 캐릭터가 서로의 말투에 반응하듯 자연스러운 대화를 생성해요. 팟캐스트, 오디오북, 게임 대사 — 멀티 캐릭터가 필요한 모든 곳에 쓸 수 있어요.
셋째, 70개 이상 언어 지원. 한국어, 일본어, 중국어, 아랍어 등 아시아·중동 언어까지 폭넓게 커버하고, 텍스트 내용에 따라 악센트를 자동 조절해요.
독립 블라인드 리스닝 테스트에서 ElevenLabs는 37표로 1위를 차지했어요. 2위는 19표. 단어 오류율(WER)도 2.83%로 업계 최저 수준이에요.
사람 이야기 — 11 Voices 프로젝트. 2026년 3월 11일, SXSW에서 공개된 다큐시리즈예요. ALS, 뇌성마비 등으로 목소리를 잃은 11명이 AI로 복원한 자기 목소리로 자신의 이야기를 직접 내레이션해요. 배우 Eric Dane은 ALS 투병 중 ElevenLabs 기술로 목소리를 되찾았고, 그의 아내 Rebecca Gayheart Dane이 이 프로젝트의 대변인으로 나섰어요.
ElevenLabs의 공동 창업자 Mati Staniszewski는 이렇게 말했어요 — "누군가 목소리를 잃으면, 독립성과 사랑하는 사람과의 연결을 함께 잃는 거예요." 단 10분의 과거 녹음만 있으면 거의 구분 불가능한 디지털 음성을 만들 수 있고, 보조 기기와 연동돼 일상 대화에 쓸 수 있어요.
1 Million Voices 캠페인
ElevenLabs는 음성 손실을 겪는 100만 명에게 무료 음성 복원 기술을 제공하겠다고 약속했어요. 현물 기부 가치 10억 달러 규모. 현재까지 약 7,000명을 지원했고, 49개국 800개 이상의 비영리 파트너와 협력 중이에요. 공식 트레일러는 마이클 케인 경이 ElevenLabs 음성으로 내레이션했어요.
뭐가 달라지는 건데?
AI TTS 시장에 선택지가 많아진 지금, v3가 실제로 뭘 바꾸는지가 중요하겠죠.
| 기존 TTS (v2 세대) | Eleven v3 | |
|---|---|---|
| 감정 표현 | 톤 일정, 뉘앙스 부족 | Audio Tags로 감정·비언어 실시간 제어 |
| 멀티 화자 | 개별 생성 후 수동 편집 | Text to Dialogue API로 자연스러운 대화 한 번에 생성 |
| 언어 | 29개 (Multilingual v2) | 70개 이상 + 자동 악센트 적응 |
| 비언어 표현 | 불가 | [laughs], [sighs], [whispers] 등 인라인 태그 |
| 효과음 | 별도 편집 필요 | [gunshot], [explosion] 등 태그로 삽입 |
| 문자 한도 | 10,000자 (~10분) | 5,000자 (~5분) — 품질 우선 설계 |
| 기술 접근 | 프로소디 기반 합성 | 컨텍스트 인지 표현 모델링 |
CloudThat의 기술 분석에 따르면, v3의 핵심 아키텍처 변화는 "프로소디 기반 합성에서 컨텍스트 인지 표현 모델링으로의 전환"이에요. 감정과 의도를 후처리 효과가 아니라 생성 토큰 자체에 녹여넣은 거죠. 그래서 긴 텍스트에서도 감정이 일관되게 유지돼요.
물론 트레이드오프도 있어요. v3의 문자 한도는 5,000자로, v2의 10,000자나 Flash v2.5의 40,000자보다 짧아요. 연산 비용도 더 높고요. 그래서 ElevenLabs는 용도별로 모델을 나눠뒀어요 — 표현력이 중요한 프리미엄 콘텐츠는 v3, 일반 내레이션은 v2, 실시간 대화는 Flash v2.5(레이턴시 ~75ms)를 추천해요.
알아둘 점
v3는 아직 알파 단계여서 가끔 버그가 있을 수 있어요. 긴 콘텐츠에서 악센트가 중간에 바뀌는 현상이 보고되기도 했고, 실패한 생성으로 인해 실제 비용이 표시 가격의 2.8배에 달한다는 리뷰도 있어요. 프로덕션 환경에서는 v2와 병행 사용을 권장해요.
핵심만 정리: 시작하는 법
- 무료 계정 만들기
elevenlabs.io에서 가입하면 월 10,000자를 무료로 쓸 수 있어요. 모든 사용자에게 v3 접근 권한이 있어요. - v3 모델 선택
Text to Speech 화면에서 모델 드롭다운을 열고 "Eleven v3"를 선택하세요. 기본은 v2로 되어 있으니 수동 전환이 필요해요. - Audio Tags 실험
[whispers] 비밀인데요 [normal] 사실은 아무것도 아니에요 [laughs]같은 식으로 텍스트에 태그를 넣어보세요. 감정 전환이 얼마나 자연스러운지 바로 체감할 수 있어요. - Text to Dialogue 시도
API 또는 ElevenLabs 플랫폼에서 두 명의 음성을 지정하고 대화 텍스트를 입력하면, 각 캐릭터가 서로 반응하는 자연스러운 대화가 생성돼요. - 음성 복원이 필요하다면
본인 또는 주변에 음성 손실을 겪는 분이 있다면, elevenlabs.io/impact-program에서 무료 평생 라이선스를 신청할 수 있어요.



