ElevenLabs recauda $2M y anuncia plataforma de voz IA que promete revolucionar la narración de audio

La empresa abre acceso a la plataforma Beta diseñada para que creadores y editores narren contenido de larga duración

  • ElevenLabs lanza plataforma Beta que permite a creadores y editores narrar su contenido de larga duración
  • La ronda de financiación pre-semilla fue liderada por Credo Ventures, con la participación de Concept Ventures e inversores individuales
  • El capital impulsará la investigación y desarrollo del doblaje IA previsto para su lanzamiento a finales de este año


2023-01-23, Londres, Reino Unido | ElevenLabs, una startup de tecnología de voz IA, está desarrollando herramientas de síntesis de voz realistas con el objetivo a largo plazo de convertir instantáneamente audio hablado entre idiomas. Hoy, anunciaron el lanzamiento de su plataforma Beta tras recaudar $2 millones en una ronda de financiación pre-semilla liderada por Credo Ventures, con la participación de Concept Ventures y otros inversores individuales.

La plataforma de la empresa permite a creadores y editores narrar contenido de larga duración y expandirse al formato de audio. Sus características están impulsadas por un modelo de aprendizaje profundo desarrollado internamente para la síntesis de voz que reproduce de manera realista la entonación e inflexiones humanas, y puede ajustar la entonación según el contexto. ElevenLabs también ofrece un conjunto de herramientas para clonar voces y diseñar voces sintéticas, con el objetivo de proporcionar a los usuarios nuevas vías creativas. La empresa está trabajando actualmente con editores seleccionados en una estación de trabajo dedicada a la edición de locuciones que se añadirá a la plataforma a principios de febrero. ElevenLabs busca convertirse en el primer narrador IA que proporcione la calidad necesaria para dar voz a noticias y audiolibros a gran escala.

Los avances en capacidad requieren innovación, por eso ElevenLabs se considera ante todo una empresa de investigación. Gran parte de esta investigación hasta la fecha se ha centrado en desarrollar nuevos modelos de text-to-speech que se basan en alta compresión y comprensión del contexto para reproducir el habla humana de manera ultra-realista. La empresa también ha construido un nuevo modelo para clonar voces que logra una alta similitud de salida sin entrenamiento (sin ajuste fino), en muestras de tan solo 5 segundos, un logro sin precedentes. Los desarrolladores pueden acceder a todas estas características a través de la API.

Esta investigación impulsa las características actuales de la plataforma, pero también contribuye a realizar el objetivo final de la empresa de convertir instantáneamente audio hablado entre idiomas. Su herramienta de doblaje IA, prevista para su lanzamiento a finales de este año, permitirá a los usuarios re-vocear automáticamente cualquier audio o video en un idioma diferente, preservando la voz original del hablante. ElevenLabs espera inicialmente atraer clientes en el ámbito educativo, mientras que su objetivo a largo plazo es hacer realidad el soporte de audio multilingüe bajo demanda en streaming, audiolibros, videojuegos, películas e incluso conversaciones en tiempo real.

Las herramientas de síntesis de voz y doblaje de la empresa son tan complementarias como oportunas: ambas prometen llevar el audio y el video a audiencias más amplias y ambas llegan en un momento en que el espacio de audio está en auge. Un grupo inicial de probadores, entre ellos creadores de YouTube, editores y desarrolladores, ya utilizan la plataforma a diario para dar voz a videos, historias y personajes, y la empresa espera que el ámbito de aplicaciones potenciales para el habla generativa solo se expanda. Los editores de noticias ya han descubierto que aumentar su presencia en audio es una excelente manera de interactuar y retener suscriptores. Pero contratar actores de doblaje es caro, al igual que hacer que los reporteros lean sus historias. Autores de libros y newsletters, e incluso desarrolladores de juegos, enfrentan desafíos similares: los primeros recurren cada vez más a narrar su propio trabajo y los segundos deben decidir si un personaje en particular justifica los costos de grabación. Aquellos que usan software de text-to-speech existente ahorran dinero pero pagan un precio diferente al comprometer la calidad. ElevenLabs insiste en que ya no es necesario comprometerse, ya que se preparan para equipar a creadores y editores con las herramientas de narración IA más avanzadas y versátiles.

“La plataforma que estamos lanzando ahora se trata de convertir texto en audio hablado de alta calidad. Queremos que la gente disfrute de su libro o newsletter favorito dando voz a todos los autores, creadores y desarrolladores que no podían permitírselo” - dice Mati Staniszewski, cofundador. “Nuestro objetivo final es que la gente disfrute de cualquier contenido que encuentre relevante e interesante, independientemente del idioma que hable” - añade Piotr Dabkowski, también cofundador.

En Credo Ventures buscamos trabajar con fundadores inteligentes y ambiciosos de la región CEE. Vimos el hambre y la chispa en los ojos de Mati y Piotr en nuestra primera reunión. Unos meses después, se están convirtiendo en un centro de investigación de tecnología de voz al nivel de OpenAI, superando los mayores desafíos en audio artificial. Sus voces sintetizadas ya son indistinguibles de las reales y este avance no solo ha reducido enormemente las barreras para generar contenido con una calidad y fidelidad sin precedentes, sino que pronto también permitirá a los creadores expandir radicalmente sus audiencias al volverse multilingües. – dice Maciek Gnutek, Socio General en Credo Ventures.

A pesar de ser común en el entretenimiento y los negocios, el audio ha sido relativamente descuidado por los avances recientes en investigación. No podríamos estar más emocionados de apoyar a Mati y Piotr durante esta era dorada para la IA generativa, y creemos que ElevenLabs es el equipo para llevar esta tecnología a las masas, una voz a la vez - dice Oliver Kicks, Principal en Concept Ventures.

Sobre ElevenLabs:
ElevenLabs es una empresa de investigación que desarrolla software de síntesis de voz IA para creadores y editores. Las herramientas de la empresa reproducen un habla notablemente realista y pueden ajustar la entonación e inflexiones basándose en el contexto o en las instrucciones del usuario. La plataforma de la empresa busca proporcionar la calidad y versatilidad necesarias para convertirse en una solución integral para dar voz a noticias, newsletters, libros y videos. Las características clave incluyen: generación de voz basada en texto, clonación de voz, diseño de voz y, próximamente, flujo de trabajo de proyectos para la edición de narraciones. ElevenLabs fue fundada en 2022 por Piotr, un ex ingeniero de aprendizaje automático de Google, y Mati, un ex estratega de implementación de Palantir. El objetivo a largo plazo de la empresa es hacer que el contenido hablado sea universalmente accesible en cualquier idioma y voz.

Capital de riesgo proporcionado por Credo Ventures y Concept Ventures. Los inversores individuales incluyen a Peter Czaban, Tytus Cytowski, Talfan Evans, Dra. Fatima Godall, Tomasz Karwatka, Piotr Karwatka, Akhil Paul, Bartek Pucek, Marta Pyrzyk, Carles Reina, Parin Shah, Charlie Songhurst y Harry Songhurst.

Contacto
[email protected]

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión