Assistant vocal OpenAI

Et son intégration supposée dans iOS 18 d'Apple

OpenAI a élargi son portefeuille avec de nouveaux produits, et l'un des plus discutés est leur technologie d'assistant vocal. Elle est prête à révolutionner notre interaction avec les machines par la voix, bien que beaucoup de détails sur son déploiement restent secrets.

Il semblerait qu'OpenAI développe une technologie qui intègre des capacités de reconnaissance audio, texte et image en un seul produit. Cette technologie pourrait, par exemple, aider les enfants avec leurs devoirs de mathématiques ou fournir aux utilisateurs des informations pratiques sur leur environnement immédiat, comme la traduction de langues ou des conseils de réparation de véhicules.

Qu'est-ce que l'assistant vocal d'OpenAI ?

L'assistant vocal supposé est conçu pour interagir naturellement avec les utilisateurs par la parole. Il utilise les avancées en reconnaissance automatique de la parole (ASR), les grands modèles de langage (LLMs), et Text to Speech (TTS). L'intégration de ces technologies permet à l'assistant vocal de comprendre les entrées vocales, de traiter l'information contextuellement et de répondre avec une voix naturelle et humaine.

Presque tous les systèmes de voix IA suivent trois étapes :

  1. Reconnaissance vocale ("ASR"): Cela convertit l'audio parlé en texte. Une technologie exemple est Whisper.
  2. Traitement par modèle de langage: Ici, un modèle de langage détermine la réponse appropriée, transformant le texte initial en texte de réponse.
  3. Synthèse vocale ("TTS"): Cette étape convertit le texte de réponse en audio parlé, avec des technologies comme ElevenLabs ou VALL-E en exemples.

Suivre strictement ces trois étapes peut entraîner des délais importants. Si les utilisateurs doivent attendre cinq secondes pour chaque réponse, l'interaction devient lourde et peu naturelle, diminuant l'expérience utilisateur même si l'audio semble réaliste.

Un dialogue naturel efficace ne fonctionne pas de manière séquentielle :

  • Nous pensons, écoutons et parlons simultanément.
  • Nous intercalons naturellement des affirmations comme "oui" ou "hmm".
  • Nous anticipons quand quelqu'un va finir de parler et répondons immédiatement.
  • Nous pouvons interrompre ou parler par-dessus quelqu'un de manière non offensante.
  • Nous gérons les interruptions avec fluidité.
  • Nous pouvons participer à des conversations impliquant plusieurs personnes sans effort.

Améliorer le dialogue en temps réel ne consiste pas seulement à accélérer chaque processus de réseau neuronal ; cela nécessite une refonte fondamentale de tout le système. Nous devons maximiser le chevauchement de ces composants et apprendre à faire des ajustements en temps réel efficacement.