KI-Stimmenübersetzung

KI-Synchronisationstool erscheint im Oktober

Sprachübersetzung / KI-Synchronisation

Wir bringen nächsten Monat das KI-Sprachübersetzungstool auf den Markt. Damit können Nutzer Audio- oder Videoinhalte in eine andere Sprache umwandeln, während die Originalstimme des Sprechers erhalten bleibt. Unser Ziel ist klar: Mehrsprachige Inhalte zugänglich und authentisch über Medien wie Streaming, Gaming und Filme hinweg zu machen.

Wir haben gesehen, wie Spotify und OpenAI ihre Fortschritte in der Sprachübersetzung und Sprachfähigkeiten angedeutet haben, und wir freuen uns, Neuigkeiten über unsere eigenen Entwicklungen zu teilen.

Das kommende Tool geht über die reine Übersetzung hinaus; es geht darum, die Identität und die ursprünglichen Sprachmuster des Sprechers über Sprachen hinweg zu bewahren, um ein stärker verbundenes und immersives Erlebnis zu ermöglichen, als es herkömmliche Untertitel bieten können.

Stellen Sie sich ein Bildungsvideo auf Englisch vor. Wenn jemand nur Spanisch spricht (aber das Thema ansonsten interessant finden würde), ist das ein Problem. Wir möchten in der Lage sein, die ursprüngliche Person, die die ursprüngliche Botschaft auf natürliche Weise in spanischer Muttersprache spricht, zu erzeugen.

Dies erfordert die Kombination von Stimmenkonvertierung, Stimmenklonung und mehrsprachiger Sprachsynthese Fähigkeiten in einem einzigen neuen Tool. Hier ermöglicht uns die Stimmenklonung, die Identität des Sprechers zu bewahren - den Klang seiner Stimme. Wir nutzen Sprachsynthese, um neue Äußerungen in einer anderen Sprache zu erzeugen, als ob es dieselbe Person wäre, die spricht. Die Stimmenkonvertierung kommt ins Spiel, weil wir die ursprünglichen Emotionen, Absichten und den Stil der Darbietung für maximale Immersion bewahren wollen.

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatisieren Sie Voiceovers für Videos, Werbung, Podcasts und mehr – mit Ihrer eigenen Stimme.

Wir haben viel Forschung und Innovation investiert, um eine Technologie zu entwickeln, die menschliche Sprache ultra-realistisch wiedergeben, Kontext verstehen und Sprachprofile kodieren kann. Unser KI-Sprachübersetzungstool ist ein bedeutender Schritt, um Kreatoren zu ermöglichen, ihre Reichweite zu erweitern und potenziellen Zuschauern zu helfen, Inhalte zu entdecken, die sie relevant und fesselnd finden, unabhängig davon, welche Sprache sie verstehen.

Was sind Synchronisation, Stimmenkonvertierung und Sprachsynthese?

Synchronisation ist ein Prozess, bei dem ein Video mit einem anderssprachigen Soundtrack versehen wird, indem die Originalstimmen der Schauspieler durch die von Darstellern ersetzt werden, die eine andere Sprache sprechen - auch bekannt als "Neuvertonung" - traditionell eine kostspielige und zeitaufwändige Aufgabe. Bei Eleven ist es unser Ziel, dies automatisch zu tun, während die Originalstimmen über Sprachen hinweg erhalten bleiben.

Die Stimmenkonvertierung ermöglicht es einer Person, in der Stimme einer anderen zu sprechen. Sie nutzt Stimmenklonung, um eine Zielstimme zu kodieren und sie auf die Quellstimme zu legen. Das Ergebnis ist die ursprüngliche Botschaft, die scheinbar von jemand anderem gesprochen wird.

Text-to-Speech (TTS) ist die Grundlage aller Sprachsynthesetechnologie. TTS Technologie hat sich im Laufe der Jahre radikal verbessert, klingt jedoch oft noch robotisch. Das liegt daran, dass das flüssige Aussprechen von Wörtern allein nicht ausreicht, um der Sprache menschliche Qualität zu verleihen. Es ist der absichtsgetriebene Ton und das Tempo, die aus dem Verständnis dessen, was gesagt wird, resultieren, die es natürlich klingen lassen. Bei Eleven versuchen wir genau das zu erreichen: Indem wir unser Modell einer Fülle von menschlichen Sprachdaten aussetzen, trainieren wir es, sowohl den logischen als auch den emotionalen Kontext von Äußerungen zu verstehen und die Darbietung entsprechend anzupassen.

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

Unsere KI-Text-to-Speech-Technologie bietet tausende ultrarealistische, menschenähnliche Stimmen in 32 Sprachen. Unsere Tools erfüllen Ihre Anforderungen – von der kostenlosen Text-to-Speech-Lösung bis zu Premium-KI-Stimmen für professionelle Projekte.

Demnächst verfügbar

Wir freuen uns auf die Veröffentlichung im Oktober und darauf, die Art und Weise zu verändern, wie wir mit mehrsprachigen Inhalten interagieren.


Entdecken Sie Artikel des ElevenLabs-Teams

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden