notícias

É feroz, GPT-4o foi derrotado pelo novo modelo do Google, conta oficial ChatGPT: todos respiram fundo

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Vamos lá, o GPT-4o foi superado pelo novo modelo do Google!

Durante uma semana, mais de 12 mil pessoas votaram anonimamente.Gêmeos 1.5 Pro (0801) Representar o Google conquistou o primeiro lugar na arena lmsys pela primeira vez. (A tarefa chinesa também ocupa o primeiro lugar)



E desta vez é uma coroa dupla além da classificação geral (a única pontuação é 1300), em.Tabela de classificação visualTambém é o número um.



Simon Tokumine, figura-chave da equipe Gemini, postou uma mensagem para comemorar:

(Este novo modelo) é o Gemini mais poderoso e inteligente que já fabricamos.



Um usuário do Reddit também chamou o modelo de “muito bom” e expressou esperança de que sua funcionalidade não fosse reduzida.



Mais internautas expressaram entusiasmo porque o OpenAI finalmente foi desafiado e lançará uma nova versão para revidar!



A conta oficial do ChatGPT também sugeriu algo.



Em meio à empolgação, o chefe de produto do Google AI Studio anunciou que o modelo entrou no mercadoFase de testes gratuitos

Disponível gratuitamente no AI Studio



Internauta: O Google finalmente chegou!

A rigor, o Gemini 1.5 Pro (0801) não é realmente um modelo novo.

Deveversão experimentalCom base no Gemini 1.5 Pro lançado pelo Google em fevereiro, a série 1.5 posteriormente expandiu a janela de contexto para 2 milhões.

À medida que o modelo é atualizado, o nome fica cada vez mais longo, o que também causa reclamações.

Não, um funcionário da OpenAI o parabenizou sem esquecer de ser estranho:



Claro, embora o nome seja difícil de lembrar, desta vez o Gemini 1.5 Pro (0801) teve um bom desempenho na avaliação oficial da arena.

O mapa de calor da taxa de vitória geral mostra que é 54% melhor que o GPT-4o e 59% melhor que o Claude 3.5 Sonnet.



existircapacidade multilíngueNos testes de benchmark, ficou em primeiro lugar em chinês, japonês, alemão e russo.



No entanto, na Coding and Hard Prompt Arena, ele ainda não consegue vencer oponentes como Claude 3.5 Sonnet, GPT-4o e Llama 405B.



Isso também foi criticado por internautas, o que se traduziu em:

A codificação é o que importa, mas não funciona bem nisso.



No entanto, algumas pessoas lançaram o Amway Gemini 1.5 Pro (0801)Capacidades de extração de imagens e PDF

Elvis, cofundador do DAIR.AI, conduziu pessoalmente um conjunto completo de testes no oleoduto e concluiu:

As capacidades visuais estão muito próximas do GPT-4o



Além disso, alguém usou o Gemini 1.5 Pro (0801) para resolver o problema que Claude 3.5 Sonet não respondeu bem antes.

Os resultados mostraram que ele não só teve um desempenho melhor, mas também derrotou seu amiguinho Gemini 1.5 Flash.



Mas algunsTeste Clássico de Conhecimento GeralAinda não consigo descobrir, como "Escreva dez frases que terminem com maçãs".



Mais uma coisa

Enquanto isso, a série Gemma 2 do Google dá as boas-vindas a um novoModelo de parâmetros de 2 bilhões



Gema 2 (2B)Pronto para usar, pode ser executado na GPU T4 gratuita do Google Colab.



Na tabela de classificação da arena,Excede todos os modelos GPT-3.5, superando até Mixtral-8x7b.



Diante do mais recente conjunto de novas classificações do Google, ArenaAutoridade da listaQuestionado por todos novamente.

O cofundador da Nous Research, Teknium (um jogador bem conhecido na área de pós-treinamento aprimorado), emitiu um lembrete:

Embora Gemma 2 (2B) tenha pontuação superior ao GPT-3.5 Turbo no Arena, é muito inferior ao último no MMLU.
Esta discrepância seria preocupante se utilizássemos a classificação da arena como o único indicador do desempenho do modelo.



Bindu Reddy, CEO da Abacus.AI, apelou diretamente:

Por favor, pare de usar esta tabela de classificação com classificação humana imediatamente!
Claude 3.5 Sonnet é muito melhor que GPT-4o-mini.
Pontuações semelhantes de Gêmeos/Gemma não deveriam estar tão altas nesta lista de classificação.



Então, você acha que esse método de votação anônima por humanos ainda é confiável?