Grok-2 está aqui, pode gerar e reconhecer imagens, e seu desempenho é comparável ao GPT-4o Musk: está se desenvolvendo como um foguete

Grok-2 está aqui, pode gerar e reconhecer imagens, e seu desempenho é comparável ao GPT-4o Musk: está se desenvolvendo como um foguete.

2024-08-14

Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

O GPT-5 ainda não foi lançado, Grok já o alcançou.

No mesmo dia em que Google e OpenAI competiam por novidades, o xAI de Musk também não ficou parado.

Na tarde de quarta-feira, horário de Pequim, a xAI lançou oficialmente a nova geração do modelo grande Grok 2.

A organização terceirizada de benchmark de grandes modelos, Chatbot Arena, também atualizou imediatamente a lista de pontuação da lista LMSYS. O modelo inicial do Grok 2 (sus-column-r) pode ser classificado em quarto lugar, depois do GPT-4o (versão 0513), superando o Claude 3.5 Sonnet e o GPT-4-Turbo.

É excelente em codificação, problemas complexos e matemática.

Musk não pôde deixar de se gabar: “A velocidade de propulsão de Grok é como a de um foguete”.

Observe que esta é apenas a pontuação da versão inicial. O Chatbot Arena disse que testará a versão oficial no futuro.

Musk disse que o Grok-2 é um modelo de linguagem avançado com capacidades de raciocínio de última geração. A nova geração inclui duas versões: Grok-2 e Grok-2 mini. Ambos os modelos agora são lançados para usuários Grok na plataforma X. Atualmente, os usuários X Premium e Premium+ já podem experimentar os modelos Grok-2 e Grok-2 mini.

Em comparação com o Grok-1.5 anterior, a versão inicial do Grok-2 alcançou um progresso significativo, demonstrando capacidades líderes em chat, raciocínio, codificação, etc. xAI diz que Grok-2 e Grok-2 mini estão atualmente em beta no X e estarão disponíveis por meio de uma API corporativa ainda este mês.

Menos de meia hora após o lançamento do novo modelo, um internauta já exibia os resultados. Ele usou o Grok 2 mini para gerar uma imagem de “Eu e Musk comendo cachorro-quente”.

Experimente outro para gerar um retrato de Washington.

Algumas pessoas também experimentaram o Grok 2 mini para gerar um gato voador.

Alguém construiu um Tesla Model Y, é parecido?

PK de desempenho do Grok-2

À medida que o xAI coloca uma versão inicial do Grok-2, “sus-column-r”, no Chatbot Arena, vemos como seu desempenho se compara a outros modelos populares de código aberto e fechado.

Em termos de pontuação Elo geral, o Grok-2 tem desempenho melhor que os modelos da série Claude e a maioria das versões do GPT-4. Claro, o primeiro da lista é o GPT-4o (versão 8 de agosto), que a OpenAI acaba de lançar hoje em dia.

A imagem abaixo mostra a comparação do Win Rate entre o Grok-2 e outros modelos populares.

A imagem abaixo mostra uma comparação da taxa de vitória baseada em fatos entre as duas versões do Grok 1.5 e Grok 2.

xAI adota esse processo para avaliar o modelo Grok 2, usando AI Tutors para interagir verdadeiramente com o modelo em diversas tarefas. Durante cada interação, o Grok 2 fornece duas respostas aos AI Tutors, que então selecionam a melhor resposta com base em critérios específicos listados no guia.

xAI se concentra na avaliação do desempenho do modelo em duas áreas principais: seguir instruções e fornecer informações precisas e verdadeiras. Os resultados mostram melhorias significativas na capacidade do Grok 2 de raciocinar a partir do conteúdo recuperado e usar ferramentas como identificar corretamente informações faltantes, raciocinar através de sequências de eventos, descartar postagens irrelevantes, etc.

Pontuações de referência

A xAI avaliou o modelo Grok-2 em uma série de benchmarks acadêmicos, incluindo raciocínio, compreensão de leitura, matemática, ciências e codificação.

Tanto o Grok-2 quanto o Grok-2 mini são melhorias significativas em relação ao modelo anterior Grok-1.5. O desempenho é comparável a outros modelos de ponta em áreas como conhecimento científico de pós-graduação (GPQA), conhecimento geral (MMLU, MMLU-Pro) e problemas de competição matemática (MATH).

Além disso, o Grok-2 também tem um bom desempenho em tarefas baseadas em visão, com desempenho notável em raciocínio matemático visual (MathVista) e resposta a perguntas baseadas em documentos (DocVQA).

Interface e funções do Grok 2 “grande reforma”

Nos últimos meses, a xAI tem melhorado continuamente a experiência Grok na plataforma x. Agora, com o lançamento da próxima geração do Grok 2, o xAI redesenhou a interface, conforme mostrado abaixo.

Claro, xAI oferece alguns novos recursos, como uma implementação simples do “Jogo da Vida” de Conway.

Outro exemplo é a capacidade de compreensão multimodal (ver fotos e falar).

Entre eles, Grok-2 é o assistente de IA mais avançado do xAI, com recursos de compreensão de texto e visual e informações integradas em tempo real da plataforma X, que podem ser acessadas através da guia Grok no aplicativo X.

Grok-2 mini é um modelo pequeno, mas poderoso, que atinge um bom equilíbrio entre velocidade e qualidade de resposta.

Grok-2 é mais intuitivo, mais controlável e mais flexível que seu antecessor, tornando-o adequado para uma variedade de tarefas, seja você procurando respostas, escrevendo de forma colaborativa ou resolvendo tarefas de codificação.

Além disso, a xAI está trabalhando com a startup Black Forest Labs para experimentar seu modelo FLUX.1 para expandir os recursos do Grok no X.

No final deste mês, a xAI também lançará Grok-2 e Grok-2 mini para desenvolvedores por meio de uma nova plataforma API empresarial. A próxima API é construída em uma nova pilha de tecnologia personalizada, permitindo a implantação de inferência multirregional para acesso global de baixa latência.

É claro que o xAI também oferece alguns recursos de segurança aprimorados, como autenticação multifatorial obrigatória (por exemplo, usando Yubikey, Apple TouchID ou TOTP).

Pode-se observar que desde o lançamento do Grok-1 em novembro de 2023, o xAI tem avançado esta série de modelos a um ritmo alarmante. Em breve, eles lançarão uma versão prévia com compreensão multimodal. O foco após o xAI será melhorar as principais capacidades de raciocínio do modelo por meio de novos clusters de computação.

Endereço do blog: https://x.ai/blog/grok-2

notícias

Grok-2 está aqui, pode gerar e reconhecer imagens, e seu desempenho é comparável ao GPT-4o Musk: está se desenvolvendo como um foguete.

Introdução

Minhas informações de contato