notícias

OpenAI lança modo de voz avançado para alguns usuários do ChatGPT Plus

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

· Novos recursos de áudio permitem que os usuários falem com o ChatGPT e recebam respostas em tempo real imediatamente ou interrompam enquanto o ChatGPT está falando. Recursos mais avançados, como vídeo e compartilhamento de tela, serão introduzidos posteriormente.

Em 31 de julho, a OpenAI anunciou o lançamento do modo de voz avançado para alguns usuários do ChatGPT Plus e planeja abri-lo para todos os usuários do ChatGPT Plus no outono.

A OpenAI está impulsionando o desenvolvimento de uma nova geração de assistentes de voz com inteligência artificial. O novo recurso de áudio permitirá que os usuários falem com o ChatGPT e recebam respostas em tempo real imediatamente, além de interromper o ChatGPT enquanto ele estiver falando. Os padrões de fala distinguem as informações transmitidas por diferentes entonações de fala. Parece mais natural e usa o som para transmitir uma variedade de emoções.

O novo modo de fala é alimentado pelo modelo GPT-4o da OpenAI, que combina recursos de fala, texto e visão. Para obter feedback, a OpenAI está inicialmente lançando recursos premium de voz para um “pequeno grupo de usuários” do ChatGPT Plus, mas a OpenAI diz que estará disponível para todos os usuários do ChatGPT Plus neste outono.

A OpenAI atrasou o lançamento da experiência de chamada de voz do final de junho para julho, dizendo que levaria tempo para atender aos padrões de lançamento. A OpenAI disse que testou os recursos de fala do GPT-4o com mais de 100 equipes vermelhas externas, cobrindo 45 idiomas. A empresa disse que incorporou vários mecanismos de segurança, como para proteger a privacidade e evitar que o modelo fosse usado para criar vozes falsas. Ela trabalhou com dubladores para criar quatro vozes predefinidas que o GPT-4o não imitasse ou gerasse vozes de outras pessoas. . o som de.

Quando a OpenAI lançou o GPT-4o pela primeira vez, ela enfrentou reações adversas por usar uma voz chamada “Sky”, que parecia muito com a da atriz Scarlett Johansson. Scarlett Johansson emitiu um comunicado dizendo que foi contatada pela OpenAI para permitir que a modelo usasse sua voz, mas ela recusou. A OpenAI negou que fosse a voz de Johnson, mas suspendeu o uso do Sky.

A OpenAI também disse que adotou filtros para identificar e bloquear solicitações de geração de música ou outro áudio protegido por direitos autorais e aplicou os mesmos mecanismos de segurança usados ​​​​em modelos de texto ao GPT-4o para evitar que violem leis e gerem conteúdo prejudicial. “Temos proteções para bloquear solicitações de conteúdo violento ou protegido por direitos autorais. Além disso, recursos mais avançados, como compartilhamento de vídeo e tela, serão lançados posteriormente”.