OpenAI Voice: Verwenden Sie Bilder und Sprachbefehle in ChatGPT

1. Sept. 2023 • 11 Minuten Lesezeit

Unterhalten Sie sich mit ChatGPT mit Ihrer eigenen Stimme

A smartphone displaying a holographic microphone with voice command icons and digital sound waves.

Haben Sie sich jemals gefragt, ob Sie mit ChatGPT mit Ihrer eigenen Stimme sprechen oder Bilder teilen können? Es scheint, als wären Ihre visionären Träume kurz vor der Realität.

OpenAIs bahnbrechende Fortschritte leiten eine neue Ära ein, in der Stimme und Bilder verschmelzen und es ChatGPT ermöglichen, nicht nur auf Ihre Tastatureingaben, sondern auch auf Ihre gesprochenen Worte und geteilten Bilder zu reagieren.

Stellen Sie sich vor, Sie schlendern an einem architektonischen Wunderwerk vorbei und tauchen in ein lebhaftes Gespräch über dessen Geschichte ein oder führen eine kulinarische Diskussion, inspiriert von einem Schnappschuss des Inneren Ihres Kühlschranks.

Dank der Integration eines hochmodernen Text-to-Speech Modells entwickeln sich die Interaktionen mit ChatGPT von bloßen Gesprächen zu immersiven Dialogen. Es geht über traditionelle Abfragen hinaus und bietet eine Plattform für fließende Gespräche, sei es für eine fantasievolle Gutenachtgeschichte oder die Lösung eines kulinarischen Problems.

Dies ist der Beginn einer Ära, in der Stimme, Vision und virtuelle Intelligenz nahtlos verschmelzen.

Also, können Sie mit ChatGPT sprechen?

Ja, das können Sie. Lesen Sie weiter, um zu erfahren, wie.

Artikelzusammenfassung

Was ist OpenAI Voice?
Alles, was Sie mit OpenAI Voice tun können
Einschränkungen von OpenAI Voice
Generative Voice KI

Was ist OpenAI Voice?

OpenAI Voice ist eine hochmoderne Technologie, die KI-basierte Gespräche menschlicher klingen lässt. Ein wesentlicher Bestandteil seines Erfolgs ist das Whisper-Modell.

Whisper ist ein automatisches Spracherkennungssystem, das auf einer großen Menge an Daten trainiert wurde – etwa 680.000 Stunden mehrsprachiger Inhalte aus dem Internet.

Dieses umfangreiche Training ermöglicht es, eine Vielzahl von Akzenten zu verstehen, sich an Hintergrundgeräusche anzupassen und technische Sprache zu erfassen. Das System ist auch in der Lage, verschiedene Sprachen ins Englische zu übersetzen.

Die Funktionsweise von Whisper ist recht einfach. Wenn es Audioeingaben erhält, teilt es diese in 30-Sekunden-Segmente. Diese Segmente werden dann in ein Format namens Log-Mel-Spektrogramm umgewandelt.

Einfach ausgedrückt ist ein Log-Mel-Spektrogramm eine visuelle Darstellung des Frequenzspektrums in einem Tonsignal, wie es sich im Laufe der Zeit verändert. Es hebt die melodischen Muster im Audio hervor und erleichtert dem System die Analyse und Verarbeitung der Informationen.

Nach dieser Umwandlung verarbeitet ein Encoder die Daten und ein Decoder sagt den entsprechenden Text voraus. Dieser Prozess umfasst auch spezielle Indikatoren oder Tokens, die Sprachen identifizieren und sogar Sprache ins Englische übersetzen können.

Es ist erwähnenswert, dass viele bestehende Modelle auf spezifische, begrenzte Datensätze angewiesen sind, während die Stärke von Whisper aus seinem breiten und vielfältigen Training resultiert.

Obwohl es möglicherweise nicht immer Modelle übertrifft, die für sehr spezifische Aufgaben entwickelt wurden, bedeutet sein umfassendes Training, dass es vielseitig ist und ein breiteres Spektrum an Herausforderungen bewältigen kann.

Zum Beispiel kann es eine erhebliche Menge an nicht-englischen Audioinhalten verstehen und umwandeln, entweder indem es die Originalsprache beibehält oder ins Englische übersetzt.

Wenn der ChatGPT-Sprachassistent also eine Gutenachtgeschichte vorliest oder eine Frage beantwortet, nutzt er die Kraft von Whisper. Diese Kombination sorgt für Interaktionen, die sowohl natürlich als auch informiert sind und die Lücke zwischen KI und menschlichem Gespräch schließen.

Alles, was Sie mit OpenAI Voice tun können

Der ChatGPT-Sprachgenerator ist nicht nur ein technologisches Werkzeug, sondern ein Tor zu immersiven, multisensorischen Erlebnissen, die digitale Interaktionen intuitiver und umfassender machen.

Lassen Sie uns seine umfangreichen Fähigkeiten erkunden:

Fragen an ChatGPT sprechen

Die Zeiten, in denen Interaktionen mit ChatGPT auf das Tippen beschränkt waren, sind vorbei. Jetzt ist es so einfach, ein Gespräch zu beginnen:

Öffnen Sie die ChatGPT-App und melden Sie sich mit Ihrem OpenAI-Konto an.
Tippen Sie auf 'neue Frage'.
Wählen Sie das Kopfhörersymbol.
Wählen Sie eine bevorzugte Stimme.
Sprechen Sie Ihre Frage aus.
Warten Sie einen Moment, um eine gesprochene Antwort zu erhalten.

Stellen Sie sich vor, Sie fragen beiläufig: "Erzählen Sie mir vom Zeitalter der Renaissance?" und erhalten eine nuancierte, artikulierte Antwort.

Dieses dynamische Erlebnis bietet mehr als nur Antworten. Es bietet ein Erlebnis menschlicher Diskurse mit einer KI.