Eleven en INTERSPEECH 2022

La conferencia de este año fue la mejor oportunidad que hemos tenido hasta ahora para compartir nuestra investigación y sus resultados

Cómo nos fue

Acabamos de regresar de la conferencia INTERSPEECH de este año, que fue la mejor oportunidad que hemos tenido hasta ahora para presentar y recibir comentarios sobre todos los desarrollos en los que hemos estado trabajando estos últimos meses.

Ha sido genial aprender y compartir ideas con los mejores del sector y forjar relaciones futuras en el proceso. Conocimos a equipos de startups fantásticas que trabajan en el mismo campo que nosotros, especialmente en voice cloning, síntesis de voz (TTS) y conversión de voz (VC) (Supertone y LOVO, por nombrar solo dos). También nos emocionó hablar con algunas de las empresas más consolidadas como Meta y Google sobre el trabajo detrás de escena que implica desarrollar software de TTS y VC.

Nos pusimos manos a la obra. La cantidad de entusiasmo sincero por nuestro trabajo no podría habernos hecho más felices, superó cualquier expectativa que teníamos. Durante los siguientes cuatro días discutimos nuestra investigación y progreso en esas tres áreas de tecnología de voz mencionadas, los pasos absolutamente cruciales en nuestro camino para desarrollar nuestra herramienta de doblaje automático, cuya versión 1.0 planeamos lanzar a principios del próximo año.

Lo más importante para nosotros aquí fue demostrar que podemos clonar voces fielmente, que somos capaces de preservar la similitud de voz entre los datos de voz fuente en los que entrenamos nuestro algoritmo y la forma en que la misma voz suena cuando se genera sintéticamente. Y en segundo lugar, era crucial para nosotros demostrar que nuestras herramientas de TTS están en camino de convertirse en parte de la plataforma de voz sintética más humana y natural que existe, proporcionando una prosodia y tonalidad inigualables.

Lo primero es naturalmente importante ya que necesitamos que las nuevas expresiones generadas sean fácilmente identificables como habladas por una persona en particular, necesitamos preservar correctamente la identidad del hablante. La prosodia y la tonalidad son importantes porque el tono y el ritmo transmiten intención, que es realmente lo que hace que el habla suene humana en primer lugar. El santo grial aquí es que el programa no solo pronuncie palabras con fluidez, sino que también superponga la expresión con una carga emocional adecuada para que suene como si entendiera lo que está diciendo.

Demo de TTS

Puedes ver una de esas demos de TTS que usamos durante la conferencia a continuación. El primer enlace es el video original y luego sigue nuestra muestra que contiene el mismo mensaje hablado en una voz diferente. Ten en cuenta que esto es text-to-speech, no voice conversion. Nuestra única entrada fue escribir las palabras habladas en el video original para generar el discurso que escuchas. Toda la prosodia y entonación dependen del algoritmo en sí, no hay post-procesamiento involucrado. ¡A ver si reconoces de quién es la voz!

Leerás más sobre la tecnología TTS de Eleven en nuestra próxima entrada dedicada específicamente a generar voz a partir de texto.

Si te gusta nuestra tecnología y te gustaría convertirte en nuestro beta-tester, puedes inscribirte para esto aquí.

Original:

Eleven Labs voice cloning TTS:

Contenido sobre forma

En los meses previos a la conferencia, nuestros esfuerzos se centraron casi exclusivamente en entregar muestras demostrables de nuestra tecnología y en mostrar nuestra investigación propia. Después de todo, INTERSPEECH es una conferencia de investigación y estábamos decididos a que el contenido debía preceder a la forma, especialmente en un encuentro tan específicamente orientado. Sin embargo, el día de la conferencia comenzamos a bromear que nuestro enfoque intensificado en la tecnología quizás hizo que nuestros esfuerzos de marca parecieran demasiado minimalistas. Pronto nos sentimos bastante aliviados, ¡si no reivindicados!, al ver que otros, incluidos los grandes jugadores, también optaron por configuraciones más humildes.

Hasta el próximo año

Nuestro viaje a Corea fue un gran éxito para Eleven y una gran dosis de motivación para esforzarnos aún más. Ya estamos emocionados solo de pensar en el progreso que podemos lograr durante este próximo año tanto en nuestra investigación como en las formas de presentarla. Esperamos que para entonces tengamos nuestras herramientas de doblaje de calidad de producción listas y estemos usando las voces de las personas para permitirles hablar los idiomas que no conocen.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión