
Bolna powers recruitment voice agents with ElevenLabs
Recruitment Voice AI agents that boost engagement, and drive 95% call completion rates.
Incorpora matices emocionales en el habla de IA usando Eleven v3 Audio Tags. Controla la tensión, calidez, duda y alivio para crear contenido hablado cercano, dinámico y humano.
Las emociones moldean cómo hablamos, no solo lo que decimos sino cómo lo decimos. Con Eleven v3 Audio Tags, ahora puedes añadir matices emocionales al habla de IA, incorporando tensión, calidez, duda o alivio a cualquier línea.
Esto hace que el contenido hablado sea más cercano, más dinámico y más humano.
Usando indicaciones entre corchetes como [suspiro], [emocionado] o [cansado], puedes dirigir la entrega emocional de un modelo de voz — momento a momento.
El contexto emocional se refiere a la capacidad del modelo para expresar sentimientos que coinciden con la situación. Es cómo un personaje reacciona a los eventos — ya sea asombro, miedo, alegría o agotamiento.
Con Audio Tags, puedes guiar el estado emocional de una línea a mitad de entrega. Por ejemplo: “[triste] No pude dormir esa noche. El aire estaba demasiado quieto, y la luz de la luna seguía deslizándose por las persianas como si intentara decirme algo. [en voz baja] Y de repente, fue cuando lo vi.”
Esto no es solo actuación de voz — es una interpretación consciente del contexto.
En el habla real, los sentimientos cambian. Eleven v3 captura eso a través de etiquetas en capas. Por ejemplo: ” [cansado] He estado trabajando 14 horas seguidas. [suspiro] Ya no siento mis manos. [nervioso] ¿Estás seguro de que esto va a funcionar? [traga] Vale… vamos.”
Incluso cambios sutiles como [risita] o [suspiro de alivio] pueden cambiar drásticamente el significado de una frase.
Aquí tienes algunas etiquetas frecuentemente usadas para dirigir la interpretación emocional:
Estas pueden combinarse o secuenciarse para crear arcos emocionales más ricos: [dudoso] Yo... no quería decir eso. [arrepentido] Simplemente salió.
En narración, diálogos de personajes o retroalimentación de la interfaz, las etiquetas emocionales ayudan a controlar el ritmo, el tono y la atmósfera. Una voz que se ríe de su propio chiste o susurra durante una escena de suspense hace más que recitar texto — involucra.
Por ejemplo, esta línea de una demo de personaje: [riendo] Brooo—BROOO no sé POR QUÉ eso me hizo reír tanto!! [ríe más fuerte] ¡El pollo no tenía TRAMA, ni giro, solo pura determinación!
Etiquetas como estas permiten a actores de voz, diseñadores y desarrolladores crear experiencias más atractivas — sin volver a grabar, re-editar o reescribir.
Eleven v3 entiende el contexto emocional a nivel estructural. Eso significa que puede ofrecer interpretaciones largas que evolucionan de manera natural, reflejan estados internos y cambian de tono en respuesta a la historia o interacción — todo desde el guion.
Para creadores, ya no se trata solo de la entrega de líneas. Se trata de dirección emocional.
Los Professional Voice Clones (PVCs) actualmente no están completamente optimizados para Eleven v3, lo que puede resultar en una calidad de clonación potencialmente inferior en comparación con modelos anteriores. Durante esta etapa de vista previa de investigación, sería mejor encontrar un Instant Voice Clone (IVC) o una voz diseñada para tu proyecto si necesitas usar las funciones de v3. La optimización de PVC para v3 llegará en un futuro cercano.
Recruitment Voice AI agents that boost engagement, and drive 95% call completion rates.
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Desarrollado por ElevenLabs Conversational AI