ElevenLabs v3 AI 음성 합성 모델과 11 Voices 음성 복원 프로젝트

elevenlabs.io

ElevenLabs v3 + 11 Voices — AI 음성의 표현력이 인간을 넘다

AI 음성 합성이 "읽어주는" 수준을 넘어 "연기하는" 수준으로 진화했어요. Audio Tags 하나로 속삭임, 웃음, 한숨까지. 그리고 ALS 환자 100만 명에게 목소리를 돌려주는 프로젝트까지.ElevenLabs v3, Text to Dialogue, AI TTS, 음성 복원, ALS, 11 Voices

ElevenLabs debuts 11 Voices docuseries at SXSW — 1 Million Voices campaign

Eleven v3: Most Expressive AI TTS Model Launched

ElevenLabs Audio Tags: More control over AI Voices

10분짜리 녹음만으로 사라진 목소리가 돌아왔어요. ALS로 말을 잃은 배우 Eric Dane이 ElevenLabs의 음성 복원 기술로 다시 자기 목소리로 이야기하기 시작한 거예요. 그리고 2026년 2월, ElevenLabs는 역대 가장 표현력 높은 TTS 모델 Eleven v3를 출시하면서 AI 음성 합성의 기준을 다시 썼어요. 단순히 "읽어주는" 수준을 넘어서, 속삭이고, 웃고, 한숨 쉬는 음성까지 텍스트만으로 만들어내는 시대가 열린 거예요.

3초 요약

Eleven v3 출시 (70+ 언어) → Audio Tags로 감정·비언어 제어 → Text to Dialogue API (멀티 보이스) → 11 Voices: ALS 환자 100만 명 음성 복원

이게 뭔데?

ElevenLabs v3는 두 가지 이야기가 동시에 진행 중이에요. 하나는 기술, 하나는 사람이에요.

기술 이야기 — Eleven v3 모델. 2026년 2월 12일 출시된 ElevenLabs의 최신 음성 합성 모델이에요. 이전 모델(Multilingual v2)이 "자연스럽게 읽는" 데 초점이 있었다면, v3는 "연기하는" 음성을 목표로 만들어졌어요. 핵심 변화는 크게 세 가지예요.

첫째, Audio Tags. 텍스트 안에 대괄호로 감정이나 행동을 지시할 수 있어요. [whispers], [excited], [sighs], [laughs] 같은 태그를 넣으면 모델이 그에 맞게 톤과 속도를 바꿔요. [gunshot]이나 [explosion] 같은 효과음 태그까지 지원하니까, 오디오북이나 게임 대사에 효과음을 별도로 편집할 필요가 줄어든 거예요.

둘째, Text to Dialogue API. 여러 목소리를 하나의 대화로 엮어주는 API예요. 최대 10개의 고유 음성을 지정하면, 각 캐릭터가 서로의 말투에 반응하듯 자연스러운 대화를 생성해요. 팟캐스트, 오디오북, 게임 대사 — 멀티 캐릭터가 필요한 모든 곳에 쓸 수 있어요.

셋째, 70개 이상 언어 지원. 한국어, 일본어, 중국어, 아랍어 등 아시아·중동 언어까지 폭넓게 커버하고, 텍스트 내용에 따라 악센트를 자동 조절해요.

70+

지원 언어

블라인드 리스닝 테스트 1위

2.83%

단어 오류율 (업계 최저)

독립 블라인드 리스닝 테스트에서 ElevenLabs는 37표로 1위를 차지했어요. 2위는 19표. 단어 오류율(WER)도 2.83%로 업계 최저 수준이에요.

사람 이야기 — 11 Voices 프로젝트. 2026년 3월 11일, SXSW에서 공개된 다큐시리즈예요. ALS, 뇌성마비 등으로 목소리를 잃은 11명이 AI로 복원한 자기 목소리로 자신의 이야기를 직접 내레이션해요. 배우 Eric Dane은 ALS 투병 중 ElevenLabs 기술로 목소리를 되찾았고, 그의 아내 Rebecca Gayheart Dane이 이 프로젝트의 대변인으로 나섰어요.

ElevenLabs의 공동 창업자 Mati Staniszewski는 이렇게 말했어요 — "누군가 목소리를 잃으면, 독립성과 사랑하는 사람과의 연결을 함께 잃는 거예요." 단 10분의 과거 녹음만 있으면 거의 구분 불가능한 디지털 음성을 만들 수 있고, 보조 기기와 연동돼 일상 대화에 쓸 수 있어요.

1 Million Voices 캠페인

ElevenLabs는 음성 손실을 겪는 100만 명에게 무료 음성 복원 기술을 제공하겠다고 약속했어요. 현물 기부 가치 10억 달러 규모. 현재까지 약 7,000명을 지원했고, 49개국 800개 이상의 비영리 파트너와 협력 중이에요. 공식 트레일러는 마이클 케인 경이 ElevenLabs 음성으로 내레이션했어요.

뭐가 달라지는 건데?

AI TTS 시장에 선택지가 많아진 지금, v3가 실제로 뭘 바꾸는지가 중요하겠죠.

	기존 TTS (v2 세대)	Eleven v3
감정 표현	톤 일정, 뉘앙스 부족	Audio Tags로 감정·비언어 실시간 제어
멀티 화자	개별 생성 후 수동 편집	Text to Dialogue API로 자연스러운 대화 한 번에 생성
언어	29개 (Multilingual v2)	70개 이상 + 자동 악센트 적응
비언어 표현	불가	[laughs], [sighs], [whispers] 등 인라인 태그
효과음	별도 편집 필요	[gunshot], [explosion] 등 태그로 삽입
문자 한도	10,000자 (~10분)	5,000자 (~5분) — 품질 우선 설계
기술 접근	프로소디 기반 합성	컨텍스트 인지 표현 모델링

CloudThat의 기술 분석에 따르면, v3의 핵심 아키텍처 변화는 "프로소디 기반 합성에서 컨텍스트 인지 표현 모델링으로의 전환"이에요. 감정과 의도를 후처리 효과가 아니라 생성 토큰 자체에 녹여넣은 거죠. 그래서 긴 텍스트에서도 감정이 일관되게 유지돼요.

물론 트레이드오프도 있어요. v3의 문자 한도는 5,000자로, v2의 10,000자나 Flash v2.5의 40,000자보다 짧아요. 연산 비용도 더 높고요. 그래서 ElevenLabs는 용도별로 모델을 나눠뒀어요 — 표현력이 중요한 프리미엄 콘텐츠는 v3, 일반 내레이션은 v2, 실시간 대화는 Flash v2.5(레이턴시 ~75ms)를 추천해요.

알아둘 점

v3는 아직 알파 단계여서 가끔 버그가 있을 수 있어요. 긴 콘텐츠에서 악센트가 중간에 바뀌는 현상이 보고되기도 했고, 실패한 생성으로 인해 실제 비용이 표시 가격의 2.8배에 달한다는 리뷰도 있어요. 프로덕션 환경에서는 v2와 병행 사용을 권장해요.

핵심만 정리: 시작하는 법

무료 계정 만들기
elevenlabs.io에서 가입하면 월 10,000자를 무료로 쓸 수 있어요. 모든 사용자에게 v3 접근 권한이 있어요.
v3 모델 선택
Text to Speech 화면에서 모델 드롭다운을 열고 "Eleven v3"를 선택하세요. 기본은 v2로 되어 있으니 수동 전환이 필요해요.
Audio Tags 실험
[whispers] 비밀인데요 [normal] 사실은 아무것도 아니에요 [laughs] 같은 식으로 텍스트에 태그를 넣어보세요. 감정 전환이 얼마나 자연스러운지 바로 체감할 수 있어요.
Text to Dialogue 시도
API 또는 ElevenLabs 플랫폼에서 두 명의 음성을 지정하고 대화 텍스트를 입력하면, 각 캐릭터가 서로 반응하는 자연스러운 대화가 생성돼요.
음성 복원이 필요하다면
본인 또는 주변에 음성 손실을 겪는 분이 있다면, elevenlabs.io/impact-program에서 무료 평생 라이선스를 신청할 수 있어요.

🔗

더 깊이 파고 싶다면

Eleven v3 공식 발표

ElevenLabs 공식 블로그. v3 모델의 기술 스펙과 데모 음성을 직접 들어볼 수 있어요.

Audio Tags 가이드

감정, 비언어, 효과음 태그의 전체 목록과 활용법. 실전 예제 포함.

Text to Dialogue API 문서

멀티 화자 대화 생성 API 레퍼런스. 코드 예제와 파라미터 설명.

11 Voices 다큐시리즈 프레스 릴리스

SXSW 공개, 1 Million Voices 캠페인, Eric Dane 이야기의 전체 맥락.

Impact Program — 무료 음성 복원 신청

음성 손실을 겪는 분을 위한 무료 평생 라이선스 신청 페이지.

자주 묻는 질문

ElevenLabs v3는 무료로 쓸 수 있나요?

네. 무료 계정으로 월 10,000자까지 v3를 포함한 모든 모델을 사용할 수 있어요. 유료 플랜은 Starter $5/월(30,000자)부터 시작해요.

Audio Tags는 어떤 종류가 있나요?

감정 태그([excited], [sad], [angry]), 비언어 태그([whispers], [laughs], [sighs]), 효과음 태그([gunshot], [explosion], [clapping]) 등이 있어요. 대괄호 안에 원하는 지시를 넣으면 모델이 해석해서 음성에 반영해요.

Text to Dialogue API는 실시간 대화에 쓸 수 있나요?

아니요. Text to Dialogue는 사전 제작 콘텐츠(오디오북, 팟캐스트, 게임 대사)용이에요. 실시간 대화에는 레이턴시 75ms의 Flash v2.5 모델이 더 적합해요.

음성 복원 프로그램은 누가 신청할 수 있나요?

ALS, 뇌성마비, 뇌졸중 등 영구적 음성 손실을 겪는 분이라면 누구나 elevenlabs.io/impact-program에서 무료 평생 라이선스를 신청할 수 있어요. 과거 녹음 약 10분이면 충분해요.

v3와 v2 중 어떤 걸 써야 하나요?

감정 표현이 중요한 오디오북, 게임, 드라마틱한 콘텐츠에는 v3가 최적이에요. 안정적인 품질의 일반 내레이션이나 기업 영상에는 v2가 여전히 좋은 선택이에요. v3는 아직 알파 단계라 가끔 버그가 있을 수 있어요.

Written by 러쉬

매력적인 비즈니스 성공 사례를 발굴하고 공유합니다.

이 레퍼런스가 도움이 되셨나요?

매주 엄선된 레퍼런스를 메일로 받아보세요

이 레퍼런스 공유하기

이런 가이드도 추천해요

비슷한 주제의 AI 활용 가이드를 더 살펴보세요

d3phaj0sisr2ct.cloudfront.net

AI 도구Runway Characters

사진 한 장으로 웹사이트에 실시간 AI 비디오 에이전트를 심는 시대

Runway Characters는 사진 한 장으로 실시간 AI 비디오 에이전트를 만드는 API예요. 표정, 눈 맞춤, 제스처까지 갖춘 포토리얼리스틱 캐릭터가 웹사이트에서 고객과 대화해요. GWM-1 기반, BBC·Silverside 도입 사례, 시작하는 법까지 정리했습니다.

Claude 인터랙티브 시각화 — 채팅 안에서 차트, 다이어그램, 그래프를 직접 그려주는 AI

the-decoder.com

AI 도구 실전기코드 없이, 대화만으로 데이터 시각화

Claude 인터랙티브 시각화 — 채팅 안에서 차트, 다이어그램, 그래프를 직접 그려주는 AI

Claude가 채팅 중에 인터랙티브 차트와 다이어그램을 직접 생성합니다. HTML/SVG 기반으로 빠르고, 클릭·호버까지 되는 시각화를 대화 흐름 안에서 바로 확인하세요.

images.ctfassets.net

AI SDR 도구로 영업 아웃바운드 자동화하기AI SDR, 아웃바운드 세일즈 자동화, 영업 개발 대리인

AI SDR — 영업 대리인을 AI로 바꾸면 생기는 일

AI SDR이 리드 발굴부터 미팅 셋업까지 자동화합니다. 아웃바운드 볼륨 10배, 비용 60~85% 절감. 주요 도구 비교와 도입 전략을 정리했어요.