OpenAI rozszerza swoje portfolio o nowe produkty, a jednym z najczęściej omawianych jest ich technologia Voice Assistant. Ma zrewolucjonizować sposób, w jaki używamy głosu do interakcji z maszynami, choć wiele na temat jej szerokiego wdrożenia pozostaje tajemnicą.
Podobno OpenAI rozwija technologię, która integruje możliwości rozpoznawania dźwięku, tekstu i obrazu w jednym produkcie. Ta technologia mogłaby na przykład pomagać dzieciom w zadaniach z matematyki lub dostarczać użytkownikom praktycznych informacji o ich otoczeniu, takich jak tłumaczenie języka czy wskazówki dotyczące naprawy pojazdów.
Czym jest Voice Assistant OpenAI?
Plotkowany Voice Assistant jest zaprojektowany do naturalnej interakcji z użytkownikami poprzez mowę. Wykorzystuje postępy w Automatic Speech Recognition (ASR), Large Language Models (LLMs) i Text to Speech (TTS). Integracja tych technologii pozwala Voice Assistant rozumieć mowę, przetwarzać informacje kontekstowo i odpowiadać naturalnym, ludzkim głosem.
OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?
— Jim Fan (@DrJimFan) May 12, 2024
Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
Prawie wszystkie systemy głosowe AI działają w trzech krokach:
- Rozpoznawanie mowy ("ASR"): To zamienia dźwięk na tekst. Przykładem technologii jest Whisper.
- Przetwarzanie modelu językowego: Tutaj model językowy określa odpowiednią odpowiedź, przekształcając początkowy tekst w tekst odpowiedzi.
- Synteza mowy ("TTS"): Ten krok zamienia tekst odpowiedzi z powrotem na dźwięk, z technologiami takimi jak ElevenLabs czy VALL-E jako przykładami.
Ścisłe trzymanie się tych trzech etapów może prowadzić do znacznych opóźnień. Jeśli użytkownicy muszą czekać pięć sekund na każdą odpowiedź, interakcja staje się uciążliwa i nienaturalna, co pogarsza doświadczenie użytkownika, nawet jeśli dźwięk brzmi realistycznie.
Efektywny naturalny dialog nie działa sekwencyjnie:
- Myślimy, słuchamy i mówimy jednocześnie.
- Naturalnie wtrącamy potwierdzenia jak "tak" czy "hmm."
- Przewidujemy, kiedy ktoś skończy mówić i odpowiadamy od razu.
- Możemy przerywać lub mówić jednocześnie w nieobraźliwy sposób.
- Radzimy sobie z przerwami płynnie.
- Możemy bez trudu prowadzić rozmowy z wieloma osobami.
Ulepszanie dialogu w czasie rzeczywistym to nie tylko przyspieszanie każdego procesu sieci neuronowej; wymaga to fundamentalnego przeprojektowania całego systemu. Musimy maksymalizować nakładanie się tych komponentów i uczyć się skutecznie dokonywać zmian w czasie rzeczywistym.
OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
— Ananay (@ananayarora) May 11, 2024
(1/n) pic.twitter.com/KT8Hb54DwA
Zastosowania i potencjalna integracja z iOS Apple
Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)
— Bindu Reddy (@bindureddy) May 13, 2024
Guess Apple decided that it couldn't make it on its own 🤷
The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ