KI-Stimmenübersetzung

26. Sept. 2023 • 4 Minuten Lesezeit

KI-Synchronisationstool erscheint im Oktober

Sprachübersetzung / KI-Synchronisation

Wir bringen nächsten Monat das KI-Sprachübersetzungstool auf den Markt. Damit können Nutzer Audio- oder Videoinhalte in eine andere Sprache umwandeln, während die Originalstimme des Sprechers erhalten bleibt. Unser Ziel ist klar: Mehrsprachige Inhalte zugänglich und authentisch über Medien wie Streaming, Gaming und Filme hinweg zu machen.

Wir haben gesehen, wie Spotify und OpenAI ihre Fortschritte in der Sprachübersetzung und Sprachfähigkeiten angedeutet haben, und wir freuen uns, Neuigkeiten über unsere eigenen Entwicklungen zu teilen.

This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023

Das kommende Tool geht über die reine Übersetzung hinaus; es geht darum, die Identität und die ursprünglichen Sprachmuster des Sprechers über Sprachen hinweg zu bewahren, um ein stärker verbundenes und immersives Erlebnis zu ermöglichen, als es herkömmliche Untertitel bieten können.

Stellen Sie sich ein Bildungsvideo auf Englisch vor. Wenn jemand nur Spanisch spricht (aber das Thema ansonsten interessant finden würde), ist das ein Problem. Wir möchten in der Lage sein, die ursprüngliche Person, die die ursprüngliche Botschaft auf natürliche Weise in spanischer Muttersprache spricht, zu erzeugen.

Dies erfordert die Kombination von Stimmenkonvertierung, Stimmenklonung und mehrsprachiger Sprachsynthese Fähigkeiten in einem einzigen neuen Tool. Hier ermöglicht uns die Stimmenklonung, die Identität des Sprechers zu bewahren - den Klang seiner Stimme. Wir nutzen Sprachsynthese, um neue Äußerungen in einer anderen Sprache zu erzeugen, als ob es dieselbe Person wäre, die spricht. Die Stimmenkonvertierung kommt ins Spiel, weil wir die ursprünglichen Emotionen, Absichten und den Stil der Darbietung für maximale Immersion bewahren wollen.

Voice Cloning

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatisieren Sie Voiceovers für Videos, Werbung, Podcasts und mehr – mit Ihrer eigenen Stimme.

Wir haben viel Forschung und Innovation investiert, um eine Technologie zu entwickeln, die menschliche Sprache ultra-realistisch wiedergeben, Kontext verstehen und Sprachprofile kodieren kann. Unser KI-Sprachübersetzungstool ist ein bedeutender Schritt, um Kreatoren zu ermöglichen, ihre Reichweite zu erweitern und potenziellen Zuschauern zu helfen, Inhalte zu entdecken, die sie relevant und fesselnd finden, unabhängig davon, welche Sprache sie verstehen.

Was sind Synchronisation, Stimmenkonvertierung und Sprachsynthese?

Synchronisation ist ein Prozess, bei dem ein Video mit einem anderssprachigen Soundtrack versehen wird, indem die Originalstimmen der Schauspieler durch die von Darstellern ersetzt werden, die eine andere Sprache sprechen - auch bekannt als "Neuvertonung" - traditionell eine kostspielige und zeitaufwändige Aufgabe. Bei Eleven ist es unser Ziel, dies automatisch zu tun, während die Originalstimmen über Sprachen hinweg erhalten bleiben.

Die Stimmenkonvertierung ermöglicht es einer Person, in der Stimme einer anderen zu sprechen. Sie nutzt Stimmenklonung, um eine Zielstimme zu kodieren und sie auf die Quellstimme zu legen. Das Ergebnis ist die ursprüngliche Botschaft, die scheinbar von jemand anderem gesprochen wird.

Text-to-Speech (TTS) ist die Grundlage aller Sprachsynthesetechnologie. TTS Technologie hat sich im Laufe der Jahre radikal verbessert, klingt jedoch oft noch robotisch. Das liegt daran, dass das flüssige Aussprechen von Wörtern allein nicht ausreicht, um der Sprache menschliche Qualität zu verleihen. Es ist der absichtsgetriebene Ton und das Tempo, die aus dem Verständnis dessen, was gesagt wird, resultieren, die es natürlich klingen lassen. Bei Eleven versuchen wir genau das zu erreichen: Indem wir unser Modell einer Fülle von menschlichen Sprachdaten aussetzen, trainieren wir es, sowohl den logischen als auch den emotionalen Kontext von Äußerungen zu verstehen und die Darbietung entsprechend anzupassen.

TEXT TO SPEECH

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

Unsere KI-Text-to-Speech-Technologie bietet tausende ultrarealistische, menschenähnliche Stimmen in 32 Sprachen. Unsere Tools erfüllen Ihre Anforderungen – von der kostenlosen Text-to-Speech-Lösung bis zu Premium-KI-Stimmen für professionelle Projekte.