OpenAI voice: use imagens e comandos de voz no ChatGPT

Converse com o ChatGPT usando sua própria voz

A smartphone displaying a holographic microphone with voice command icons and digital sound waves.

Já se pegou pensando na possibilidade de conversar com o ChatGPT usando sua própria voz ou compartilhar imagens com ele? Parece que seus sonhos visionários estão prestes a se tornar realidade.

Os avanços revolucionários da OpenAI inauguram uma era inovadora onde voz e imagens se unem, permitindo que o ChatGPT ressoe não apenas com suas teclas, mas também com suas palavras faladas e visuais compartilhados.

Imagine-se passando por uma maravilha arquitetônica e mergulhando em uma conversa animada sobre sua história ou orquestrando uma discussão culinária inspirada por uma foto do interior da sua geladeira.

Graças à integração de um modelo de text-to-speech de última geração, os engajamentos com o ChatGPT evoluem de meras interações para diálogos imersivos. Ele transcende a consulta tradicional, oferecendo uma plataforma para conversas fluidas, seja para uma história de ninar divertida ou para resolver uma dúvida culinária.

Este é o início de uma era onde voz, visão e intelecto virtual se fundem perfeitamente.

Então, você pode falar com o ChatGPT?

Sim, você pode. Continue lendo para descobrir como.

Resumo do artigo

  • O que é o OpenAI voice?
  • Tudo o que você pode fazer com o OpenAI voice
  • Limitações do OpenAI voice
  • Voz IA generativa

O que é o OpenAI voice?

OpenAI Voice é uma tecnologia de ponta que faz com que conversas baseadas em IA soem mais humanas. Um componente significativo de seu sucesso é atribuído ao modelo Whisper.

Whisper é um sistema de reconhecimento automático de fala que foi treinado com uma vasta quantidade de dados — cerca de 680.000 horas de conteúdo multilíngue da web.

Esse treinamento extenso permite que ele entenda uma ampla gama de sotaques, se adapte a ruídos de fundo e compreenda linguagem técnica. O sistema também é hábil em traduzir vários idiomas para o inglês.

A forma como o Whisper funciona é bastante simples. Quando recebe uma entrada de áudio, ele a divide em segmentos de 30 segundos. Esses segmentos são então transformados em um formato chamado log-Mel spectrogram.

Simplificando, um log-Mel spectrogram é uma representação visual do espectro de frequências em um sinal sonoro à medida que mudam com o tempo. Ele destaca os padrões melódicos no áudio, facilitando a análise e processamento das informações pelo sistema.

Após essa transformação, um codificador processa os dados e um decodificador prevê o texto correspondente. Esse processo também inclui indicadores ou tokens especiais que podem identificar idiomas e até traduzir a fala para o inglês.

Vale a pena notar que, enquanto muitos modelos existentes dependem de conjuntos de dados específicos e limitados, a força do Whisper vem de seu treinamento amplo e diversificado.

Embora possa não superar sempre modelos projetados para tarefas muito específicas, seu treinamento abrangente significa que é versátil e pode lidar com uma gama mais ampla de desafios.

Por exemplo, ele pode entender e converter uma quantidade significativa de conteúdo de áudio não inglês, mantendo o idioma original ou traduzindo para o inglês.

Assim, quando o assistente de voz do ChatGPT lê uma história de ninar ou responde a uma pergunta, está aproveitando o poder do Whisper. Essa combinação garante interações que são tanto naturais quanto informadas, aproximando a conversa entre IA e humanos.

Tudo o que você pode fazer com o OpenAI voice

O gerador de voz do ChatGPT não é apenas uma ferramenta tecnológica, é um portal para experiências imersivas e multissensoriais que tornam as interações digitais mais intuitivas e abrangentes.

Vamos explorar suas amplas capacidades:

Fale perguntas para o ChatGPT

Acabaram-se os dias em que as interações com o ChatGPT se limitavam a digitar. Agora, iniciar uma conversa é tão simples quanto:

  1. Abrir o aplicativo ChatGPT e fazer login com sua conta OpenAI.
  2. Tocar em 'nova pergunta'.
  3. Selecionar o ícone de fone de ouvido.
  4. Escolher uma voz preferida.
  5. Fazer sua pergunta em voz alta.
  6. Aguardar um momento para receber uma resposta articulada vocalmente.

Imagine perguntar casualmente, "Me fale sobre o período renascentista?" e receber uma resposta articulada e detalhada.

Essa dinâmica oferece mais do que apenas respostas. Proporciona uma experiência de discurso semelhante ao humano com uma IA.

Screenshots of a voice selection and calling interface on a mobile device, showing options to choose a voice, a calling screen with a large circle, and a call in progress with options to pause or end the call.

Modelo de text-to-speech

A nova tecnologia de voz da OpenAI anuncia uma era de diversidade auditiva. Dos tons tranquilos de um barítono aos tons vibrantes de um soprano, o OpenAI Voice encapsula um espectro de vozes.

Além da mera replicação, essa tecnologia cria vozes sintéticas que têm uma semelhança impressionante com a fala humana genuína, aumentando a autenticidade nas interações.

No entanto, é importante notar que, embora as aplicações potenciais sejam vastas, elas vêm com considerações éticas. A precisão da síntese de voz, embora notável, pode ser mal utilizada para engano ou personificação.

A OpenAI reconhece esses desafios e tomou medidas ativas para mitigar o uso indevido, principalmente focando em casos de uso específicos e benéficos, como o chat por voz.

Entrada de imagem

A capacidade de "ver" e compreender informações visuais leva o OpenAI Voice a uma nova fronteira. Mas interpretar imagens é mais do que apenas entender o conteúdo; é sobre garantir segurança e privacidade e, ao mesmo tempo, fornecer o mesmo nível de insight que um ser humano com conhecimento sobre o assunto.

O trabalho da OpenAI com '