notícias

A versão GPT-4o "Her" finalmente chegou! Contando piadas e miando como um gato, quão sexy pode ser uma namorada com IA?

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Taozi está com tanto sono

[Introdução à Nova Sabedoria] A função de voz GPT-4o finalmente chega como esperado, e a versão sci-fi dela se torna realidade! Alguns internautas que testaram a escala de cinza enlouqueceram. No entanto, o OpenAI atualmente oferece apenas 4 vozes predefinidas. Além disso, o token de saída do novo modelo GPT-4o também aumentou 16 vezes, para 64K.

A promessa de Ultraman foi finalmente cumprida.

Antes do final de julho, o modo de voz GPT-4o finalmente lançou testes em escala de cinza, e um pequeno número de usuários do ChatGPT Plus já obteve tickets de adoção antecipada.


Se você vir a seguinte interface após abrir o aplicativo ChatGPT, parabéns por se tornar um dos primeiros sortudos.


De acordo com a OpenAI, o modo de voz avançado proporciona uma conversa mais natural e em tempo real, pode ser interrompido à vontade e pode até sentir e responder às suas emoções.

Espera-se que todos os usuários do ChatGPT Plus possam usar esse recurso neste outono.


Além disso, vídeos mais poderosos e compartilhamento de tela serão lançados posteriormente. Ou seja, ao ligar a câmera, você pode conversar “cara a cara” com o ChatGPT.


Alguns internautas afetados pela escala de cinza começaram a testar um após o outro e descobriram muitos casos de uso do modo de voz GPT-4o.


Não, algumas pessoas permitem que ele atue como um “treinador de segunda língua estrangeira” para aprenderem a praticar a fala.


No ensinamento a seguir, o ChatGPT ajudou os internautas a corrigir a pronúncia de Croissant (croissant) e Baguette (baguete francesa).

Ao mesmo tempo, os tokens de saída do GPT-4o aumentaram 16 vezes, dos 4.000 tokens iniciais para 64.000 tokens.

Este é o novo modelo beta gpt-4o-64k-output-alpha que a OpenAI lançou recentemente em seu site oficial.


Um token de saída mais longo significa que aproximadamente 4 roteiros completos de filmes de longa-metragem podem ser obtidos de uma só vez.


Ela chegou

A razão pela qual a função de voz GPT-4o foi lançada agora é porque a OpenAI tem conduzido testes de segurança e qualidade nela nos últimos meses.

Eles testaram os recursos de voz do GPT-4o em 45 idiomas com mais de 100 membros da equipe vermelha.


Para proteger a privacidade das pessoas, a equipe treinou o modelo para falar usando apenas 4 “vozes padrão”.

Eles também criaram um sistema para bloquear a saída de outros sons além desses quatro.

Além disso, a filtragem de conteúdo também é essencial, e a equipe também tomou medidas para evitar a geração de conteúdo violento e relacionado a direitos autorais.

A OpenAI anunciou que planeja lançar um relatório detalhado sobre as capacidades, limitações e avaliação de segurança do GPT-4o no início de agosto.


Medição real em toda a rede

Abaixo estão alguns casos do modo de voz GPT-4o compartilhados por internautas.

ChatGPT pode realizar beatboxing.


ChatGPT também contou piadas sobre cerveja em tons tímidos, raivosos e mais raivosos.

Alguns internautas contaram uma piada especificamente para o ChatGPT: “Por que os cientistas não acreditam no Adam-Atom, porque eles inventam tudo?”

ChatGPT riu sem jeito.

O que é ainda mais engraçado é que o ChatGPT ainda tem uma maneira de aprender a miar.

Após alguns testes, alguém descobriu que o modo de voz avançado do ChatGPT é muito rápido e quase não há demora na resposta.

Quando solicitado a imitar alguns sons, ele sempre os reproduz de forma realista. E diferentes sotaques também podem ser imitados.


O vídeo abaixo mostra a cena em que a IA atua como comentarista de uma partida de futebol.

ChatGPT conta histórias em chinês, o que também é muito vívido.

Embora a OpenAI afirme que as funções de compartilhamento de vídeo e tela serão lançadas posteriormente, alguns internautas já as utilizaram primeiro.


Um internauta tem um novo gato de estimação. Ele construiu um ninho para ele e preparou comida para ele, mas não sabia o que fazer, então perguntou ao ChatGPT.

Durante a conversa no vídeo, o internauta mostrou a casa do gato para ele. Depois de ver, ChatGPT comentou: “Deve ser muito confortável” e ficou preocupado com o estado do gato.

Os internautas disseram que ainda não comeu e parece um pouco preocupado. ChatGPT confortou: “Isso é normal. Leva tempo para os gatos se adaptarem”.

Percebe-se que todo o processo de perguntas e respostas é muito tranquilo, dando às pessoas a sensação de se comunicarem com pessoas reais.

Os internautas também descobriram a versão japonesa do console de jogo, mas não falam japonês.

Nesse momento, ele mostrou a interface do jogo ao ChatGPT e pediu que traduzisse para ele. Finalmente, Hu completou o jogo juntos.

Devo dizer que com a bênção do modo visual + voz, o ChatGPT é muito mais forte.

GPT-4o Long Output está online silenciosamente, com saída de até 64K

Além disso, o GPT-4o, que suporta saída de token maior, virá em seguida.

Ainda ontem, a OpenAI anunciou oficialmente que fornecerá aos testadores a versão GPT-4o Alpha, que suporta a saída de até 64 mil tokens por solicitação, o que equivale a um romance de 200 páginas.

Os testadores podem acessar a função de saída longa do GPT-4o em "gpt-4o-64k-output-alpha".

No entanto, o preço do novo modelo estabeleceu mais uma vez um novo teto. Custa US$ 6 por milhão de tokens de entrada e US$ 18 por milhão de tokens de saída.

Embora o token de saída seja 16 vezes maior que o do GPT-4o, o preço também aumentou em US$ 3.


Após essa comparação, o gpt-4o-mini é realmente mais acessível!


O pesquisador Simon Willison disse que a produção longa é usada principalmente para casos de uso de transformação de dados.

Por exemplo, para traduzir documentos de um idioma para outro ou para extrair dados estruturados de documentos, quase todos os tokens de entrada precisam ser usados ​​no JSON de saída.

Antes disso, o modelo de saída mais longo que ele conhecia era o GPT-4o mini, que tinha 16 mil tokens.


Por que lançar um modelo com produção mais longa?

Obviamente, uma saída mais longa permite que o GPT-4o forneça uma resposta mais abrangente e detalhada, o que é muito útil em alguns cenários.

Por exemplo, escrever código e melhorar a escrita.

Este também é um ajuste feito pela OpenAI com base no feedback do usuário de que é necessário um conteúdo de saída mais longo para atender ao caso de uso.

Diferença entre contexto e saída

Desde o seu lançamento, o GPT-4o forneceu uma janela de contexto máxima de 128K. Para GPT-4o Long Output, a janela de contexto máxima ainda é 128K.

Então, como o OpenAI aumenta o número de tokens de saída de 4.000 para 64.000, mantendo a janela de contexto geral de 128K?

Isso ocorre porque a OpenAI inicialmente limitou o número de tokens de saída a um máximo de 4.000 tokens.

Isso significa que os usuários podem usar até 124.000 tokens como entrada em uma interação e obter apenas até 4.000 tokens de saída.

Claro, você também pode inserir mais tokens, o que significa que menos tokens serão gerados.

Afinal, o comprimento do contexto longo (128K) é fixado lá. Não importa como a entrada mude, o token de saída não excederá 4.000.

Agora, a OpenAI limita o comprimento do token de saída a 64.000 tokens, o que significa que você pode gerar 16 vezes mais tokens do que antes.

Afinal, a produção é mais intensiva em termos computacionais e o aumento de preço é maior.

Da mesma forma, para o mini GPT-4o mais recente, o contexto também é de 128K, mas a saída máxima foi aumentada para 16.000 tokens.

Então, os usuários podem fornecer até 112.000 tokens como entrada e, por fim, obter até 16.000 tokens como saída.

Em geral, OpenAI fornece aqui uma solução para limitar o token de entrada para obter uma resposta mais longa do LLM, em vez de expandir diretamente o comprimento do contexto.


Quanto aos outros modelos no mercado, o longo ultrapassou um milhão (Gemini), e o um pouco mais curto tem 200K (Claude); alguns até têm saídas de modelo que atingiram 200K, e o OpenAI ainda está aqui.

Isso também representa um problema difícil para os desenvolvedores: se você quiser inserir mais, terá que aceitar menos saída; se quiser mais saída, terá que inserir menos;

Como medi-lo depende de qual você está disposto a sacrificar...

Referências:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/