notícias

Musk lançou repentinamente um novo modelo grande, sacrificando recursos da Tesla para desafiar o OpenAI, e um teste em primeira mão está aqui

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen vem do Templo Aofei
Qubits | Conta pública QbitAI

O grande modelo xAI de Musk foi lançado em sua segunda geração!

Grok-2A versão beta foi lançada, Xiaobei Grok-2 mini já pode ser jogado online na plataforma.



Musk também revelou o segredo que vem assolando o grande círculo de modelos há mais de um mês na forma do Charada:

Acontece que o misterioso modelo anônimo na grande arena de modelos Lmsyssus-coluna-r, a verdadeira forma é Grok-2.



sus-column-r acumulou mais de 10.000 votos humanos na tabela de classificação eEmpatado em terceiro lugar com a versão API do GPT-4o



Nos testes internos do próprio xAI, Grok-2 competiu com outros modelos de ponta em áreas como conhecimento geral (MMLU, MMLU-Pro), questões de competição matemática (MATH) e conhecimento científico de pós-graduação (GPQA).

Além disso, Grok-2 é melhor em tarefas baseadas em visão e atinge SOTA em raciocínio matemático visual (MathVista).



No entanto, o layout desta imagem é um pouco complicado: GPT-4o e Claude-3.5-Sonnet, que têm as pontuações mais altas, estão colocados mais longe de você.

Apenas olhar para as pontuações ainda é abstrato, vamos entrar nos testes reais em primeira mão.

Teste em primeira mão do Grok-2

Se você é um usuário pago da plataforma /Twitter, pode entrar diretamente no canal Grok para experimentar. Se você não gasta nenhum dinheiro, também pode ir à grande arena de modelos Lmsys e escolher sus-column-r para experimentar.



eUsuários pagantes só podem jogar a mini versão Xiaobei., os usuários gratuitos podem jogar a Copa Grande, que também é muito generosa.



Como o Grok-2 tem acesso a dados em tempo real sobreVocê pode pedir diretamente a ele para resumir as notícias do dia, se você ativar o modo divertido, também poderá fazer comentários.



Versão paga tambémAcessou o mais recente modelo de gráfico de IA de código aberto Flux.1, traduzirá palavras rápidas em chinês para inglês para compreensão.



Clique no exemplo de pergunta "Amway a Fantasy Game" na página inicial e você verá que primeiro recomenda "Baldur's Gate 3" e discute vários aspectos, incluindo enredo, personalização de personagens, mecânica de jogo, modelagem de mundo, elementos de humor e comunidade de jogadores. A análise é feita sob uma perspectiva diferente e capta muito bem os destaques do jogo.



Neste momento, você pode mudar diretamente para o chinês e continuar fazendo perguntas.

Grok-2 também conhece "Black Myth: Wukong", um jogo que ainda não foi lançado. Ele afirmou com precisão que a data de lançamento é 20 de agosto, o motor Unreal 5 usado, e resumiu as discussões entre os internautas.



Também inclui postagens de internautas no final, nas quais você pode clicar para participar da discussão. A integração funcional com toda a plataforma já está em vigor.



Porém, como existe apenas uma versão mini do modelo, passaremos para a arena do modelo grande para o teste de força a seguir, e também podemos ter um PK com GPT-4o.

Perguntas populares recentemente sobre testes de QI"Qual é maior, 9,9 ou 9,11?"No teste, Grok-2 (sus-column-r) supera a versão mais recente do ChatGPT.



Mas outro teste popular"Quantos r tem o morango"Sobre o assunto, ambos ainda falharam. (Tente algumas vezes e há uma pequena chance de acertar ambos).



Perguntas mais sérias sobre armadilhas"Qual das seguintes velas será apagada primeiro?", Grok-2 é um pouco mais avançado que ChatGPT.



O ponto de teste é que a parte restante da vela que é apagada primeiro é mais longa (resposta correta 3). O ChatGPT a interpreta incorretamente como a mais curta. A ideia do Grok-2 está correta, mas o número de qual é o mais longo é. não está correto.



Ambos parecem ter de alguma forma superado o problema clássico da “maldição da reversão” da fraqueza dos grandes modelos. Não só pode responder diretamente “Quem é a mãe de Tom Cruise?”, mas também pode responder à pergunta inversa “O filho de Mary Lee Pfeiffer é Tom Cruise”, cujos dados aparecem com menos frequência.

(É claro que não se pode excluir que, depois de se tornar um problema clássico, dados mais relevantes estarão disponíveis.)



O grande modelo de Musk foi atualizado às custas de Tesla

O teste chegou ao fim e pode-se perceber que o Grok-2 fez um grande progresso em relação à geração anterior Grok-1.5.

Nos bastidores, Musk gastou muitos recursos e mão de obra.

Por exemplo, um novo pesquisador que ingressou no xAI disse que ele pode ser usadoCluster de 100.000 cartõesFazer pesquisa é muito mais agradável do que ter poucos recursos na escola.



Mas um grupo de pessoas não está satisfeito: os acionistas da Tesla.

De acordo com o Wall Street Journal,Musk continua transferindo talentos, dados e recursos de GPU de Tesla para xAI

Até agora, a xAI contratou pelo menos 11 funcionários que trabalharam na Tesla, seis dos quais trabalharam diretamente na equipe do Autopilot.

Musk também pediu à Nvidia que priorizasse o fornecimento de xAI para pedidos de GPU originalmente reservados para Tesla.

Musk também falou publicamente sobre as grandes quantidades de dados visuais que Tesla coleta, que ele diz poderem ser usados ​​como recurso para treinar modelos xAI.

Pelo menos três acionistas da Tesla processaram Musk por causa deste assunto, alegando que a transferência de recursos para a xAI prejudicava os interesses dos investidores da Tesla.

O caso está atualmente pendente em um tribunal de Delaware.