
Presentamos Eleven v3 (alpha): el modelo de Text to Speech más expresivo
Eleven v3 es el modelo de Text to Speech más expresivo
Mejora el habla IA con Eleven v3 Audio Tags. Controla el tono, la emoción y el ritmo para una conversación natural. Añade conciencia situacional a tu Text to Speech.
Las etiquetas de audio son una parte fundamental del nuevo
En su forma más simple, los Audio Tags son palabras entre corchetes. El modelo los interpreta como indicaciones de actuación. Esto significa que puedes ajustar la entonación a mitad de frase para reflejar cambios emocionales o situacionales, dando a la IA un grado de conciencia situacional.
Conciencia situacional significa que la IA adapta su entonación al momento. Con Audio Tags, controlas no solo lo que dice el modelo, sino cómo responde.
Ya sea que añadas urgencia con una etiqueta [SHOUTING], suavices una advertencia con un [WHISPER], o señales duda con [SIGH], las etiquetas transforman la narración en actuación. Son especialmente valiosas en escenas de alto contexto o dinámicas.
Imagina que estás escribiendo un vídeo destacado de un partido de fútbol entre 11 United y 12 United. Quieres que la intensidad aumente con la acción: “Se adelanta a un defensor — [EXCITED] aquí viene el centro — [SHOUTING] ¡GOOOL!”
O estás narrando un momento de suspense en un audiolibro: “[WHISPERING] Creo que hay alguien en la casa. [PAUSE] Mantente en silencio.”
Estos no son simples añadidos estilísticos. Definen el momento y determinan cómo se siente. El modelo no lee, actúa.
Audio Tags te permiten simular una variedad de indicaciones emocionales y físicas:
Las etiquetas pueden superponerse para añadir matices: “[NERVOUSLY] Yo... no estoy seguro de que esto vaya a funcionar. [GULPS] Pero intentémoslo de todos modos.”
Eleven v3 soporta estas etiquetas con un modelo contextual más profundo. Puede cambiar el tono a mitad de línea, manejar interrupciones y mantener el flujo, ofreciendo una entonación que se siente más natural sin reescribir el guion.
Para diseñadores de voz, desarrolladores de juegos y narradores, esto desbloquea una nueva capa creativa. No solo escribes líneas, las diriges.
Los Professional Voice Clones (PVCs) actualmente no están completamente optimizados para Eleven v3, lo que puede resultar en una calidad de clonación inferior en comparación con modelos anteriores. Durante esta etapa de vista previa de investigación, sería mejor encontrar un Instant Voice Clone (IVC) o una voz diseñada para tu proyecto si necesitas usar las funciones de v3. La optimización de PVC para v3 llegará pronto.
Eleven v3 es el modelo de Text to Speech más expresivo
Las etiquetas de audio de ElevenLabs controlan la emoción, el ritmo y los efectos de sonido de la voz IA.