notícias

OpenAI abre o modo de voz GPT-4o para alguns usuários pagantes, proporcionando conversas mais naturais em tempo real

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A IT House informou em 31 de julho que no dia 30, horário local, a OpenAI anunciou que abrirá o modo de voz GPT-4o (nota da IT House: versão Alpha) para alguns usuários do ChatGPT Plus a partir de agora, e irá promovê-lo gradualmente para todos os ChatGPT neste outono.


Em maio deste ano, Mira Murati, diretora de tecnologia da OpenAI, mencionou em seu discurso:

No GPT-4o, treinamos um novo modelo unificado de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural. Como o GPT-4o é o nosso primeiro modelo a combinar todos esses modos, ainda estamos nos estágios iniciais de exploração das capacidades deste modelo e de suas limitações.

A OpenAI planejou originalmente convidar um pequeno grupo de usuários do ChatGPT Plus para testar o modo de voz GPT-4o no final de junho deste ano, mas o funcionário anunciou o adiamento em junho, dizendo que era necessárioMais tempo para poliro modelo, melhorar o modeloDetectar e rejeitar determinado conteúdoHabilidade.

De acordo com informações expostas anteriormente, o atraso médio do feedback de voz do modelo GPT-3.5 é de 2,8 segundos, enquanto o atraso do modelo GPT-4 é de 5,4 segundos. Portanto, não é muito bom na comunicação de voz, e o próximo GPT-. 4o pode encurtar muito o atraso,conversa quase perfeita

O modo de voz GPT-4o temResposta rápidaA voz é tão boa quanto a de uma pessoa realE outros recursos, OpenAI também chamado de modo de fala GPT-4o, que pode detectar o tom emocional da fala, incluindo tristeza, excitação ou canto.

A porta-voz da OpenAI, Lindsay McCallum, disse: “ChatGPT Não personifique a voz de outra pessoa, incluindo as vozes de indivíduos e figuras públicas, e bloqueiaDiferente do som padrão Saída. "