notícias

O modo de voz avançado do ChatGPT está online: assim que você fala chinês, sua identidade é revelada

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Relatório do coração da máquina

Editor: Molho de Ovo, Xiaozhou

“Her” da OpenAI está finalmente aberto para algumas pessoas.



Em maio deste ano, a OpenAI lançou seu carro-chefe da nova geração, modelo GPT-4o e aplicativo de desktop no "Lançamento de Novo Produto de Primavera" e demonstrou uma série de novos recursos.

Agora, a OpenAI anunciou que abrirá o modo de voz avançado do ChatGPT para um pequeno grupo de usuários do ChatGPT Plus, permitindo que os usuários obtenham a resposta de áudio ultra-realista do GPT-4o pela primeira vez. Esses usuários receberão um alerta no aplicativo ChatGPT e receberão um e-mail com instruções de como usar o aplicativo.

"Desde a nossa primeira demonstração do modo de fala avançado, temos trabalhado arduamente para melhorar a segurança e a qualidade das conversas de voz e nos preparar para levar esta tecnologia de ponta a milhões de pessoas." outono de 2024. Apresentado a todos os usuários Plus.

Alguns usuários já postaram os efeitos do uso do modo de voz avançado:

Fonte: https://x.com/tsarnick/status/1818402307115241608

Quando você conta piadas com ChatGPT, ChatGPT pode lhe proporcionar algumas risadas:

Fonte: https://x.com/yoimnotkesku/status/1818406786077970663

Usando o modo de voz avançado do ChatGPT, “Her” pode criar música de fundo enquanto conta histórias e está disponível em vários idiomas.

Fonte: https://x.com/yoimnotkesku/status/1818415019349901354

Francês, espanhol e urdu também estão disponíveis:

Fonte: https://x.com/yoimnotkesku/status/1818424494106853438

Mas a expressão chinesa não é muito autêntica, como uma “noz torta” que está aprendendo chinês:

Fonte: https://x.com/yoimnotkesku/status/1818446895083139170

Todos que ouviram ficaram surpresos:



O problema do sotaque não ocorre apenas em chinês, mas também em alemão:



Fonte: https://x.com/yoimnotkesku/status/1818445235606671670

Finalmente, vamos falar sobre um trava-língua:

Fonte: https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI afirma que o modo de voz avançado é diferente do que o ChatGPT oferece atualmente.

A antiga solução de modo de fala do ChatGPT usava três modelos separados: um modelo convertia fala em texto, o GPT-4 era responsável por lidar com prompts (prompts) e um terceiro modelo era responsável por converter texto em fala do ChatGPT. O GPT-4o é multimodal e pode realizar essas tarefas sem a ajuda de modelos auxiliares, reduzindo significativamente a latência do diálogo. A OpenAI também disse que o GPT-4o pode sentir a entonação emocional na voz do usuário, incluindo tristeza, excitação, etc.

Em maio deste ano, a OpenAI demonstrou pela primeira vez a função de voz do GPT-4o, a velocidade de reação de “Sua” e a incrível semelhança com a voz de uma pessoa real chocou o público – e aqui está o problema.



A voz chamada “Sky” lembra Scarlett Johansson, que interpreta a assistente artificial no filme “Her”.

Pouco depois da demonstração do OpenAI, Johnson disse que resistiu a vários pedidos do CEO da OpenAI, Sam Altman, para usar sua voz e que contratou um advogado para defendê-la depois de ver a demonstração do GPT-4o. A OpenAI negou ter usado a voz de Scarlett Johansson, mas também removeu a voz da demo.

Em junho, a OpenAI disse que atrasaria o lançamento de um modo de fala avançado para melhorar suas medidas de segurança.

Depois de uma longa espera, “Ela” finalmente conheceu todos. OpenAI disse que o modo de voz avançado lançado desta vez será limitado ao ChatGPT, que colaborou com dubladores pagos para produzir quatro vozes predefinidas: Juniper, Breeze, Cove e Ember.

É importante notar que existem apenas esses quatro tipos de sons de saída – a voz Sky mostrada na demonstração da OpenAI em maio não está mais disponível para ChatGPT. “O ChatGPT não pode personificar as vozes de outras pessoas, incluindo as de indivíduos e figuras públicas, e bloqueará saídas que sejam diferentes de uma dessas vozes predefinidas”, disse Lindsay McCallum, porta-voz da OpenAI.

A intenção original desta configuração é evitar a controvérsia do Deepfake. Em janeiro deste ano, a tecnologia de clonagem de voz da startup de inteligência artificial ElevenLabs foi usada para se passar pelo presidente dos EUA, Biden, e enganar os eleitores das primárias em New Hampshire, causando considerável controvérsia.

A OpenAI também disse que introduziu novos filtros para bloquear certas solicitações de geração de música ou outro áudio protegido por direitos autorais.

No ano passado, muitas empresas de IA de geração de imagens e música entraram em disputas legais devido a violações de direitos autorais. Em particular, as gravadoras que gostam de litigar processaram os geradores de áudio de inteligência artificial Suno e Udio. E modelos de áudio como o GPT-4o acrescentam uma nova categoria de empresas que podem registrar reclamações.

Diz-se que a OpenAI testou os recursos de voz do GPT-4o com mais de 100 membros externos da “equipe vermelha” em 45 idiomas. Essas informações importantes serão anunciadas com mais detalhes em um relatório sobre as funções, limitações e avaliação de segurança do GPT-4o em agosto.

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant