Google finalmente vence OpenAI: versão experimental Gemini 1.5 Pro supera GPT-4o

2024-08-02

Relatório do coração da máquina

Editor: Chen Chen, Xiaozhou

Com um modelo tão poderoso, o Google oferece a todos um teste gratuito.

Nos últimos dois dias, o Google divulgou as pesquisas mais recentes. Após o lançamento ontem do mais poderoso modelo pequeno Gemma 2 2B, a versão experimental Gemini 1.5 Pro (0801) acaba de ser lançada.

Os usuários podem testar e fornecer feedback por meio do Google AI Studio e da API Gemini.

Como é gratuito, vamos ajudá-lo a testar o problema recentemente popular de proporção de tamanho. Quando perguntamos ao Gemini 1.5 Pro (0801) qual número era maior, 9,9 ou 9,11, o modelo respondeu corretamente na primeira vez e deu um motivo.

Quando continuamos a perguntar “quantos r’s tem a palavra Morango”, o Gemini 1.5 Pro (0801) capotou. Aplicando passo a passo um “feitiço” nos prompts, a análise do modelo deu errado na quarta etapa.

Endereço de teste do Google AI Studio: https://aistudio.google.com/app/prompts/new_chat

No entanto, a julgar pela avaliação oficial, o Gemini 1.5 Pro (0801) ainda é muito capaz em vários indicadores. O novo modelo rapidamente liderou a prestigiada tabela de classificação do LMSYS Chatbot Arena e possui uma impressionante pontuação ELO de 1300.

Esta conquista coloca o Gemini 1.5 Pro (0801) à frente do GPT-4o da OpenAI(ELO: 1286) e o Soneto Claude-3.5 da Anthropic (ELO: 1271) e outros concorrentes fortes, isto pode anunciar uma mudança no panorama da inteligência artificial.

Simon Tokumine, um membro importante da equipe Gemini, chama o Gemini 1.5 Pro (0801) de o (modelo) Gemini mais poderoso e inteligente que o Google já fez.

Além de ocupar o primeiro lugar no Chatbot Arena, o Gemini 1.5 Pro (0801) também teve um desempenho muito bom em áreas como tarefas multilíngues, matemática, Hard Prompt e codificação.

Especificamente, o Gemini 1.5 Pro (0801) teve o primeiro desempenho em chinês, japonês, alemão e russo.

Mas na área de codificação e Hard Prompt, Claude 3.5 Sonnet, GPT-4o, Llama 405B ainda estão na liderança.

No mapa de calor da taxa de vitória: Gemini 1.5 Pro (0801) tem uma taxa de vitória de 54% contra GPT-4o e uma taxa de vitória de 59% contra Claude-3.5-Sonnet.

Gemini 1.5 Pro (0801) também ocupa o primeiro lugar no ranking Vision!

Os internautas disseram que o Google realmente superou as expectativas de todos desta vez. De repente, abriu o teste do modelo mais forte sem nenhum anúncio oficial prévio. Desta vez, a pressão estava sobre o OpenAI.

Embora o Gemini 1.5 Pro (0801) alcance resultados elevados, ele ainda está em fase experimental. Isso significa que o modelo pode sofrer novas modificações antes de ser amplamente utilizado.

Comentários de internautas

Alguns internautas testaram os recursos de extração de conteúdo, recursos de geração de código, recursos de raciocínio, etc. do Gemini 1.5 Pro (0801).

Fonte: https://x.com/omarsar0/status/1819162249593840110

Em primeiro lugar, Gemini 1.5 Pro (0801) possui uma forte função de extração de informações de imagem. Por exemplo, insira uma imagem de fatura e escreva os detalhes da fatura no formato JSON:

Vamos dar uma olhada na função de extração de conteúdo de documento PDF do Gemini 1.5 Pro (0801). Tomando o artigo clássico "Atenção é tudo que você precisa" como exemplo, extraia o diretório do capítulo do artigo:

Deixe o Gemini 1.5 Pro (0801) gerar um jogo Python que ajuda a aprender o conhecimento do modelo de linguagem grande (LLM), que gera diretamente um código inteiro:

Vale ressaltar que Gemini 1.5 Pro (0801) também fornece explicações detalhadas do código, incluindo o papel das funções no código, como jogar o jogo Python, etc.

Este programa pode ser executado diretamente no Google AI Studio e pode ser testado, como responder a questões de múltipla escolha sobre a definição de Tokenização:

Se você acha que as questões de múltipla escolha são muito simples e chatas, você pode deixar o Gemini 1.5 Pro (0801) gerar um jogo mais complexo:

Obtenha um jogo de preencher as lacunas com frases de especialização LLM:

Para testar a capacidade de raciocínio do Gemini 1.5 Pro (0801), os internautas fizeram uma pergunta sobre “soprar velas”, mas o modelo respondeu incorretamente:

Apesar de algumas falhas, o Gemini 1.5 Pro (0801) mostra capacidades visuais próximas ao GPT-4o, bem como geração de código e capacidades de compreensão e raciocínio de PDF próximas ao Claude 3.5 Sonnet, que vale a pena esperar.

https://www.youtube.com/watch?v=lUA9elNdpoY

notícias

Google finalmente vence OpenAI: versão experimental Gemini 1.5 Pro supera GPT-4o

Introdução

minhas informações de contato