Asystent głosowy OpenAI

13 maj 2024 • 5 minut czytania

I jego rzekoma integracja z iOS 18 od Apple

OpenAI rozszerza swoje portfolio o nowe produkty, a jednym z najczęściej omawianych jest ich technologia Voice Assistant. Ma zrewolucjonizować sposób, w jaki używamy głosu do interakcji z maszynami, choć wiele na temat jej szerokiego wdrożenia pozostaje tajemnicą.

Podobno OpenAI rozwija technologię, która integruje możliwości rozpoznawania dźwięku, tekstu i obrazu w jednym produkcie. Ta technologia mogłaby na przykład pomagać dzieciom w zadaniach z matematyki lub dostarczać użytkownikom praktycznych informacji o ich otoczeniu, takich jak tłumaczenie języka czy wskazówki dotyczące naprawy pojazdów.

Czym jest Voice Assistant OpenAI?

Plotkowany Voice Assistant jest zaprojektowany do naturalnej interakcji z użytkownikami poprzez mowę. Wykorzystuje postępy w Automatic Speech Recognition (ASR), Large Language Models (LLMs) i Text to Speech (TTS). Integracja tych technologii pozwala Voice Assistant rozumieć mowę, przetwarzać informacje kontekstowo i odpowiadać naturalnym, ludzkim głosem.

OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?

Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
— Jim Fan (@DrJimFan) May 12, 2024

Prawie wszystkie systemy głosowe AI działają w trzech krokach:

Rozpoznawanie mowy ("ASR"): To zamienia dźwięk na tekst. Przykładem technologii jest Whisper.
Przetwarzanie modelu językowego: Tutaj model językowy określa odpowiednią odpowiedź, przekształcając początkowy tekst w tekst odpowiedzi.
Synteza mowy ("TTS"): Ten krok zamienia tekst odpowiedzi z powrotem na dźwięk, z technologiami takimi jak ElevenLabs czy VALL-E jako przykładami.

Ścisłe trzymanie się tych trzech etapów może prowadzić do znacznych opóźnień. Jeśli użytkownicy muszą czekać pięć sekund na każdą odpowiedź, interakcja staje się uciążliwa i nienaturalna, co pogarsza doświadczenie użytkownika, nawet jeśli dźwięk brzmi realistycznie.

Efektywny naturalny dialog nie działa sekwencyjnie:

Myślimy, słuchamy i mówimy jednocześnie.
Naturalnie wtrącamy potwierdzenia jak "tak" czy "hmm."
Przewidujemy, kiedy ktoś skończy mówić i odpowiadamy od razu.
Możemy przerywać lub mówić jednocześnie w nieobraźliwy sposób.
Radzimy sobie z przerwami płynnie.
Możemy bez trudu prowadzić rozmowy z wieloma osobami.

Ulepszanie dialogu w czasie rzeczywistym to nie tylko przyspieszanie każdego procesu sieci neuronowej; wymaga to fundamentalnego przeprojektowania całego systemu. Musimy maksymalizować nakładanie się tych komponentów i uczyć się skutecznie dokonywać zmian w czasie rzeczywistym.

OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
(1/n) pic.twitter.com/KT8Hb54DwA
— Ananay (@ananayarora) May 11, 2024

Zastosowania i potencjalna integracja z iOS Apple

Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)

Guess Apple decided that it couldn't make it on its own 🤷

The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
— Bindu Reddy (@bindureddy) May 13, 2024