notícias

OpenAI atualizado de repente! GPT-4o lança versão avançada de voz, responde perguntas em segundos, internautas enlouquecem

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Coisas inteligentes (conta pública:zhidx com
autorbaunilha
editarLi Shuiqing

A função de voz avançada do GPT-4o finalmente não é mais um “futuro”!

Notícias de Zhidongxi em 31 de julho, esta manhã,IA abertaAnunciando o início da implementação para um pequeno grupo de usuários do ChatGPT PlusModo de voz avançado, baseado em GPT-4o para fornecer conversas mais naturais em tempo real.


▲ OpenAI lança modo de voz avançado

Após o lançamento do modelo, muitos internautas que receberam o convite já começaram a jogá-lo e compartilharam seus próprios vídeos de teste e sentimentos. Por exemplo, esta é uma peça rápida de rap e beatbox apresentada pelo ChatGPT, que parece bastante estilosa.

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

No geral, o modo de voz avançado do ChatGPT não é muito diferente da demonstração oficial original.quase nenhum atraso , os vários tons também são muito vivos. No entanto, parece que o ChatGPT tomou muitas medidas de proteção em termos de segurança.A chance de rejeitar solicitações de usuários aumentou

O recurso de conversação por voz do ChatGPT foi lançado pela primeira vez em setembro do ano passado.Em maio deste ano, a OpenAI lançou umModelo carro-chefe GPT-4o Uma versão mais avançada do diálogo de voz e conduziu uma demonstração pública. O GPT-4o usa um único modelo multimodal em vez dos três modelos separados anteriores para recursos de fala, reduzindo a latência em conversas com chatbots. (OpenAI derrubou o assistente de voz durante a noite! O modelo GPT-4o é terrivelmente poderoso, ChatGPT aprendeu a ler a tela e a versão real dela está aqui)

Na época, a OpenAI anunciou que o recurso seria lançado para usuários gratuitos e pagos dentro de semanas. No entanto, poucos dias após seu lançamento, a OpenAI teve uma disputa com Scarlett Johansson, que interpreta a “Viúva Negra” na série de filmes “Vingadores” e é conhecida pelos fãs como a “irmã viúva” devido ao som ChatGPT em a manifestação As falas eram muito parecidas, e ela foi acusada pela própria Scarlett e fortemente contestada pelos internautas.

Como resultado, a data de lançamento do Advanced Voice Mode também foi adiada. Embora a OpenAI insistisse que o ChatGPT não imitasse a voz de Scarlett, a linha de voz foi posteriormente removida.

1. Testes com mais de cem membros externos da equipe vermelha, que podem ser abertos a todos os assinantes no outono

O modo de voz avançado baseado em GPT-4o está atualmente disponível apenas para um pequeno número de usuários do ChatGPT Plus e está disponívelConversas mais naturais em tempo realPermitir que os usuários interrompam a qualquer momento, e podeSinta e responda às emoções do usuário

Os usuários participantes deste teste Alpha receberão um e-mail com instruções e uma notificação em seu aplicativo móvel ChatGPT. A OpenAI disse que continuará adicionando mais usuários continuamente e planeja disponibilizá-lo para todos os assinantes do Plus no outono.


▲ E-mail de convite e página principal do aplicativo

O modo de voz avançado do ChatGPT foi lançado em maio deste ano. Ele é baseado no novo modelo GPT-4o da OpenAI, que pode realizar bate-papo por voz e interação de vídeo em tempo real, como compreender equações lineares por meio de imagens de vídeo e compreender e julgar as expressões das pessoas. e entonações.

OpenAI disse que desde seu lançamento inicial, a equipe tem trabalhado para melhorar a segurança e a qualidade das conversas de voz, testando recursos de voz com mais de 100 membros externos da equipe vermelha em 45 idiomas.

Para proteger a privacidade, a OpenAI só falou com quatro vozes predefinidas ao treinar o modelo e construiu um sistema correspondente para bloquear diferentes saídas. Também tomou medidas de proteção para bloquear solicitações de conteúdo violento ou protegido por direitos autorais.

A OpenAI planeja compartilhar um relatório detalhado sobre a funcionalidade, limitações e avaliação de segurança do GPT-4o no início de agosto.

2. A primeira leva de usuários do teste começou a viver uma vida plena: praticando francês, aprendendo a miar e explicando futebol.

A primeira leva de usuários de teste mal pode esperar para usar o modo de voz avançado e compartilhar suas experiências de teste.

O artista Manuel Saisily liga a câmera enquantoFilmagem ao vivoPerguntei ao ChatGPT sobre meu gatinho recém-criado e o ambiente que organizei para ele, enquanto pedia a opinião do ChatGPT sobre alimentação.

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_Conversação de vídeo.mp4

A resposta do ChatGPT foi basicamente sem demora. Primeiro, ele elogiou a fofura do gato em um tom muito carinhoso, e depois confortou Saisily após pedir mais informações, dizendo-lhe para não se preocupar. Sainsily exclama: “É como fazer uma videochamada com um amigo experiente”.

O internauta Bergara compartilhou na plataforma social Reddit que ChatGPT rejeitou todos os seus pedidos de canto e não estava disposto a mudar sua voz. ChatGPT teve sucesso quando pediu para recitar um poema de diferentes maneiras e humores, mas quando solicitado a recitá-lo com um sorriso, ele recusou.

Por exemplo, Bergara disse que praticava francês e pediu ao ChatGPT para atuar comotreinador de idiomas, pedindo a opinião deles sobre a pronúncia.

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_Ensino francês.mp4

Em relação à pronúncia da palavra Bergara, o ChatGPT deu sugestões detalhadas sobre acentos, sons finais, etc., e forneceu demonstrações. Ao mesmo tempo, seu estilo de ensino é muito “incentivador à educação”, e ele elogia sem hesitação a pronúncia de Bergara, o que aumenta diretamente o valor emocional.

Bergara permite que ChaGPT use-o separadamenteTom tímido e irritado Conte piadas sobre cerveja. O entendimento do ChatGPT sobre timidez é usar uma voz sussurrada e, ao expressar raiva, aumenta seus decibéis.

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_Contando piadas em tom tímido e raivoso.mp4

Quando o ChatGPT é solicitado a usartom tristeAo recitar poesia, parece que está prestes a quebrar...

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_sad tone.mp4

Bergara disse que nos testes até agora o ChatGPT se comportou de forma semelhante ao que o OpenAI mostrou, masA taxa de rejeição parece um pouco alta, ele especulou que poderia ser por razões de segurança.

Por exemplo, quando Bergara pediu ao ChatGPT para cantar uma história sobre robôs e amor, ele disse que poderia contar a história, mas apenas em um tom normal.

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_Narrativa emocional.mp4

Durante a narrativa do ChatGPT, Bergara interrompeu diversas vezes e pediu para “adicionar mais emoção”. ChatGPT obedeceu e seu tom ficou mais lento e animado.

Alguns internautas já começaram a usar o ChatGPT para organizar suas vidas.

O cofundador e CTO do esquadrão, Ethan Sutin, permite ChatGPTimitou vários miados de gatos . Devo dizer que esse chamado de gato é um pouco “mágico”, mas parece ser bem real, porque meu gato ficou atraído por ele...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_Aprenda a miar.mp4

ChatGPT também parece terapresentação musical Habilidade. Sutin pediu-lhe para tocar um acorde de dó menor. Existe algum leitor que conheça teoria musical e possa ouvi-lo e ver se está correto?

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

O internauta Cristiano Giardina deixou o ChatGPT jogarcomentarista de jogos de futebol . Ele compartilhou algumas impressões iniciais ao experimentar o modo de fala avançado: é muito rápido, sempre produz resultados interessantes e sempre tem sotaque americano ao falar outros idiomas.

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_Comentário de futebol.mp4

O internauta Kesku pediu ao ChatGPT para dizer uma coisalinguagem inexistente e depois explique como a linguagem funciona. ChatGPT criou o Glimnar, uma linguagem baseada em som que parece um pouco com um canto.

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Creation Language.mp4

Embora ainda existam apenas alguns usuários usando o modo de voz avançado do ChatGPT, à medida que seu escopo de push se expande, talvez possamos ver jogabilidade e experiências mais interessantes.

Conclusão: OpenAI aumenta a conscientização sobre a segurança da IA

A IA em voz e vídeo está sendo examinada quanto à sua capacidade de servir como ferramenta para fraudes. Embora o modo de fala do OpenAI atualmente não permita a geração de novas vozes ou clones de voz, o modo ainda pode causar confusão.

Nos meses seguintes à atualização da primavera, a OpenAI lançou uma série de novos artigos sobre segurança e alinhamento do modelo de IA. Isso ocorre depois que sua equipe Super Alignment foi dissolvida, criticada por alguns ex-funcionários e atuais por mudar seu foco para o lançamento de novos produtos em vez de segurança. Por enquanto, a desaceleração na implementação de modos avançados de voz parece ser um sinal para usuários, reguladores e legisladores de que a OpenAI leva a segurança a sério.

O lançamento do modo de fala avançado do ChatGPT também diferencia ainda mais a OpenAI de concorrentes como o modelo Llama 3.1 da Meta e Claude 3 da Anthropic, pressionando as startups de IA com foco na fala emocional.