Presentamos Eleven v3 (alpha): el modelo de Text to Speech más expresivo
Eleven v3 es el modelo de Text to Speech más expresivo
Nos complace revelar Eleven v3 (alpha) — el modelo de Text to Speech más expresivo.
Esta vista previa de investigación ofrece un control y realismo sin precedentes en la generación de voz con:
- Más de 70 idiomas
- Diálogo multivoces
- Audio tags like [excited], [whispers], and [sighs]
Eleven v3 (alpha) requiere más ingeniería de prompts que los modelos anteriores, pero las generaciones son impresionantes.
Si trabajas en vídeos, audiolibros o herramientas de medios, esto desbloquea un nuevo nivel de expresividad. Para casos de uso en tiempo real y conversacionales, recomendamos seguir con v2.5 Turbo o Flash por ahora. Una versión en tiempo real de v3 está en desarrollo.
Eleven v3 está disponible hoy en nuestro sitio web. El acceso público a la API llegará pronto. Para acceso anticipado, por favor contacta con ventas.
El uso del nuevo modelo en la app de ElevenLabs tiene un 80% de descuento hasta finales de junio. Regístrate aquí.
Why we built v3
Por qué creamos v3expressiveness. More exaggerated emotions, conversational interruptions, and believable back-and-forth were difficult to achieve.
Desde el lanzamiento de Multilingual v2, hemos visto la adopción de voz IA en cine profesional, desarrollo de videojuegos, educación y accesibilidad. Pero la limitación constante no era la calidad del sonido, sino la
Eleven v3 aborda esta brecha. Fue construido desde cero para ofrecer voces que suspiran, susurran, ríen y reaccionan, produciendo un habla que se siente genuinamente receptiva y viva.
Feature | What it unlocks |
---|---|
Audio tags | Inline control of tone, emotion, and non-verbal reactions |
Dialogue mode | Multi-speaker conversations with natural pacing and interruptions |
70+ languages | Full coverage of high-demand global languages |
Deeper text understanding | Better stress, cadence, and expressivity from text input |
Using audio tags
Uso de etiquetas de audioprompting guide for v3 in the docs.
Las etiquetas de audio se integran en tu guion y se formatean con corchetes en minúsculas. Puedes ver más sobre las etiquetas de audio en nuestra
1 | “[happily][shouts] We did it! [laughs].” |
Por ejemplo, podrías indicar: “[susurra] Algo se acerca… [suspira] Lo puedo sentir.” O para un control más expresivo, puedes combinar múltiples etiquetas:
Creación de diálogos multivocesText to Dialogue API endpoint. Provide a structured array of JSON objects — each representing a speaker turn — and the model generates a cohesive, overlapping audio file:
1 | [ |
2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
5 | ] |
6 |
Eleven v3 es compatible con nuestro endpoint existente de Text to Speech. Además, introducimos un nuevo
El endpoint gestiona automáticamente las transiciones de hablante, cambios emocionales e interrupciones.here.
Aprende más
Plan | Launch promo | After 30 days |
---|---|---|
UI (self-serve) | 80% off (~5× cheaper) | Same as Multilingual V2 |
API (self-serve & enterprise) | Same as Multilingual V2 | Same |
Enterprise UI | Same as Multilingual V2 | Same |
Precios y disponibilidad
- Use the Model Picker and select Eleven v3 (alpha)
Para habilitar v3:contact sales.
El acceso a la API y el soporte en Studio llegarán pronto. Para acceso anticipado, por favor
El acceso a la API y el soporte en Studio llegarán pronto. Para acceso anticipado, por favor
Cuándo no usar v3v3 documentation and FAQ.
- Log in to ElevenLabs UI
- documentación completa de v3 3 (alpha) in the model dropdown
- Paste your script — use tags or dialogue
- Generate audio
We’re excited to see how you bring v3 to life across new use cases — from immersive storytelling to cinematic production pipelines.