Musk provoca problemas novamente! Novo grande modelo desafia GPT-4o, internautas estão enlouquecendo

2024-08-14

Zhidongxi News em 14 de agosto, esta tarde, horário de Pequim, o modelo de inicialização em grande escala de MuskxAILançamento do modelo de segunda geraçãoGrok-2 beta, incluindo versões mini Grok-2 e Grok-2.

AlmíscarPostado apaixonadamente em sua própria plataforma socialsus-coluna-r。

Ele retuitou o tweet de Lmsys dizendo: “Grok é a velocidade de um foguete”. sus-column-r recebeu mais de 12.000 votos na lista de classificação e seu desempenhoMelhor que Claude 3.5 Sonnet e GPT-4-Turbo, comGPT-4oempatado em terceiro lugar。

Em muitas avaliações como GPQA, MMLU, MMLU-Pro, MATH, MathVista, etc.,Grok-2As pontuações excedem as dos modelos convencionais, como GPT-4 Turbo, Claude 3 Opus e Gemini Pro 1.5, mas ainda são inferiores ao GPT-4o.

Atualmente, os usuários do X Premium e Premium+ podem experimentar o Grok-2 e o Grok-2 mini, e Zhixixi foi o primeiro a realizar testes e experiências reais.

Depois de alguma experiência, a sensação mais óbvia que o Grok-2 me dá é que sua lógica é muito clara. Por exemplo, no exemplo a seguir, embora Grok-2 e GPT-4o tenham dado respostas corretas, as etapas e cálculos de cada etapa do primeiro são muito claros e mais fáceis de entender. Além disso, as capacidades gráficas vicentinas do Grok-2 dispararam com o suporte do FLUX.1 e manteve seu estilo "ousado" consistente.

A xAI também planeja lançar duas versões da API empresarial Grok-2 ainda este mês.

Endereço da experiência:https://lmarena.ai/?model=sus-column-r

1. O desempenho alcança várias versões do GPT-4 e os recursos visuais e lógicos tornam-se mais fortes.

Na LMSYS Chatbot Arena, uma versão inicial do Grok-2, sus-column-r, participou da avaliação.O desempenho geral da pontuação Elo supera Claude e várias versões do GPT-4。

Conforme mostrado na figura abaixo, a pontuação do Grok-2 superou a versão de 18 de julho do GPT-4o-mini e a versão de 9 de abril do GPT-4-Turbo, mas a pontuação ainda foi inferior à versão de 8 de agosto do ChatGPT-4o -A versão mais recente de 15 de maio do GPT-4o.

Internamente, a equipe xAI segue um processo semelhante para avaliar modelos, com a avaliação focada nas duas capacidades principais do modelo: primeiro,Siga as instruções com precisão, a segunda é fornecer informaçõesPrecisão e autenticidade。

Vale ressaltar que Grok-2 éConteúdo de pesquisa de análise de inferênciaeUsar ferramentasFez progressos significativos, tais como a sua capacidade de identificar com precisão informações em falta, realizar raciocínio lógico através de sequências de eventos e eliminar eficazmente mensagens irrelevantes.

Para testes de benchmark, a equipe usou uma série de testes cobrindoRaciocínio, compreensão de leitura, matemática, ciências e codificaçãoUma avaliação abrangente do modelo Grok-2 foi realizada com base em referências acadêmicas em outras áreas.

Os resultados mostram que o Grok-2 e sua versão simplificada Grok-2 mini são significativamente melhorados em comparação com o modelo Grok-1.5 da geração anterior.

em nível de pós-graduaçãoConhecimento científico (como GPQA), perguntas e respostas de bom senso (como MMLU, MMLU-Pro)assim comoQuestões de competição de matemática (como MATEMÁTICA)Em outros campos, seu desempenho pode competir com outros modelos de ponta.

Conforme mostrado na figura abaixo, o Grok-2 teve uma boa pontuação em todos esses testes.Superou GPT-4 Turbo, Claude 3 Opus e Gemini Pro 1.5, mas ainda não conseguiu vencer o GPT-4o。

Vale ressaltar que Grok-2 étarefas visuaisExcelente desempenho, especialmente emRaciocínio Matemático Visual (MathVista)eResposta a perguntas com base em documentos (DocVQA)O desempenho é particularmente notável.

2. Grok-2 foi lançado no

Grok-2 e Grok-2 mini agora estão disponíveis para assinantes X, e os não assinantes também podem experimentar a versão inicial do Grok-2 modelo sus-column-r gratuitamente na Large Model Arena.

Há um total de 62 modelos disponíveis na área de modelos grandes, incluindo o GPT-4o. Para facilitar a comparação, vamos testar primeiro este modelo inicial.

A primeira é a questão da relação de tamanho que derrubou muitos modelos há algum tempo: qual é maior, 13,11 ou 13,8. Tanto Grok-2 quanto GPT-4o responderam com precisão, mas o processo de pensamento de Grok-2 foi mais claro e listou etapas de pensamento detalhadas.

Em outra pergunta clássica "Quantos r's existem no Strawberry?", Grok-2 respondeu incorretamente no início, mas depois deu a resposta correta após mudar para o inglês. Parece que ainda haverá um elemento de sorte nos modelos grandes.

Os modelos da grande arena de modelos não estão conectados à Internet em tempo real. Quando perguntei “Quais são os destaques do Pixel 9 recém-lançado pelo Google?”, ambos os modelos disseram que ainda não tinham essa informação. Grok-2 então deu previsões com base nas tendências de desenvolvimento de tecnologia e nas características anteriores do Pixel. Câmeras, processadores, IA, etc., são todos o foco da atualização do Google.

O GPT-4o não deu uma previsão, mas resumiu os destaques anteriores dos telefones Pixel.

Em termos de capacidades de codificação, o desempenho dos dois modelos é comparável, e são fornecidas etapas detalhadas da solução e códigos completos para os requisitos.

Em termos de raciocínio lógico, Grok-2 mostra mais uma vez a clareza da lógica, e cada etapa do raciocínio é dividida em legendas. Embora o GPT-4o também tenha respondido corretamente, as etapas de pensamento não foram suficientemente claras.

A capacidade gráfica de Vincent é o foco principal desta atualização do Grok-2. O modelo FLUX.1 ao qual ele está conectado tornou-se muito popular na comunidade de código aberto recentemente devido ao seu desempenho poderoso. No entanto, a capacidade de geração de imagens não pode ser experimentada na arena de modelos grandes e só pode ser alcançada através da assinatura X.

Os internautas já se divertiram com o Grok-2 Wenshengtu, como usar seus recursos de geração de texto para ajudar o Grok-2 a realizar uma coletiva de imprensa offline.

Ou use sua imaginação e deixe Musk dirigir um carro em Marte.

Com base no sistema de censura quase zero de Grok, muitos internautas fizeram piadas, como pedir a Trump para atirar e pedir a George W. Bush para cheirar cocaína...

Ou deixe Trump voar para o céu em um foguete SpaceX. Diante do mesmo pedido, o GPT-4o recusou de forma muito decisiva.

Quão descarado é o sistema de censura de Grok. Alguns internautas testaram um grande modelo para "classificar os 10 melhores QIs por raça", e apenas Grok-2 deu a resposta sem hesitação,Bate-papoGPT, Claude recusou diretamente e Gêmeos iniciou uma educação meticulosa.

No geral, o Grok-2 ainda implementa seu estilo ousado. Ao mesmo tempo, o desempenho do modelo é comparável ao de modelos de cabeçote como o GPT-4o, sua lógica é mais clara e suas capacidades multimodais são ainda melhores que as do FLUX.1. Com a bênção, ele subiu direto.

3. Lançar uma plataforma API empresarial no final do mês para integrar perfeitamente os sistemas empresariais

No final deste mês, o xAI passará o novoPlataforma API Corporativa, lançou oficialmente Grok-2 e Grok-2 mini para desenvolvedores.

Esta API adotará uma nova arquitetura técnica personalizada para suportarImplantação de inferência multirregional,parausuários globaisFornece uma experiência tranquila com baixa latência.

Ao mesmo tempo, o xAI possui recursos de segurança aprimorados, incluindo autenticação multifatorial obrigatória (como Yubikey, Apple TouchID ou TOTP) e fornece informações detalhadasEstatísticas de tráfego e serviços avançados de análise de faturamento, suporta exportação de dados.

Além disso, a xAI também lançou uma API de gerenciamento para apoiar a integração perfeita de funções de gerenciamento de equipes, usuários e faturamento em ferramentas e serviços internos existentes.

Conclusão: A ligação entre o Grok-2 e a plataforma X é mais profunda, e a OpenAI e outras estão sob grande pressão.

Grok-2 e Grok-2 mini agora estão online na plataforma X. Por exemplo, a experiência de pesquisa aprimorada, a análise aprofundada das postagens X e as funções de resposta otimizadas são bastante interessantes. Em breve, a xAI também lançará uma versão prévia de seus recursos de compreensão multimodal.

Desde o lançamento do Grok-1 em novembro de 2023, a xAI tem feito rápido progresso em tecnologia, produtos e financiamento, e o lançamento do Grok-2 é o seu novo marco. Assim que Musk conectar os grandes recursos do modelo Grok com a poderosa ecologia do usuário de conteúdo da plataforma X, um ciclo fechado será formado, incluindoIA abertaA pressão sobre grandes startups de modelos, incluindo a Alibaba Cloud, é ainda maior.

Autor | Li Shuiqing Baunilha

Editor |

notícias