nouvelles

Musk a soudainement publié un nouveau grand modèle, sacrifiant les ressources de Tesla pour défier OpenAI, et un test de première main est ici

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen vient du temple Aofei
Qubits | Compte public QbitAI

Le grand modèle xAI de Musk en est à sa deuxième génération !

Grok-2La version bêta est sortie, Xiaobei Grok-2 mini est déjà jouable en ligne sur la plateforme.



Musk a également révélé le secret qui tourmente le cercle des grands mannequins depuis plus d'un mois sous la forme du Riddler :

Il s'avère que le mystérieux modèle anonyme dans l'arène des grands modèles Lmsyscolonne sus-r, dont la vraie forme est Grok-2.



sus-column-r a accumulé plus de 10 000 votes humains dans le classement et aÀ égalité pour la troisième place avec la version API de GPT-4o



Lors des tests internes de xAI, Grok-2 a rivalisé avec d'autres modèles de pointe dans des domaines tels que les connaissances générales (MMLU, MMLU-Pro), les questions de concours de mathématiques (MATH) et les connaissances scientifiques de niveau supérieur (GPQA).

De plus, Grok-2 est le meilleur dans les tâches basées sur la vision et atteint SOTA en raisonnement mathématique visuel (MathVista).



Cependant, la disposition de cette image est un peu délicate : GPT-4o et Claude-3.5-Sonnet, qui ont les scores les plus élevés, sont placés plus loin de vous.

Le simple fait de regarder les scores est encore abstrait, passons aux tests réels.

Test de première main de Grok-2

Si vous êtes un utilisateur payant de la plateforme /Twitter, vous pouvez accéder directement à la chaîne Grok pour l'essayer. Si vous ne dépensez pas d'argent, vous pouvez également vous rendre dans l'arène des grands modèles Lmsys et choisir sus-column-r pour l'essayer.



etLes utilisateurs payants ne peuvent jouer qu’à la version mini de Xiaobei., les utilisateurs gratuits peuvent jouer à Big Cup, ce qui est également très généreux.



Puisque Grok-2 a accès aux données en temps réel surVous pouvez directement lui demander de résumer l'actualité du jour, si vous activez le mode amusant, vous pouvez également donner des commentaires.



Version payante égalementAccès au dernier modèle de graphique IA open source Flux.1, traduira les mots rapides chinois en anglais pour faciliter la compréhension.



Cliquez sur l'exemple de question « Amway a Fantasy Game » sur la page d'accueil, et vous pouvez voir qu'il recommande d'abord « Baldur's Gate 3 » et aborde plusieurs aspects, notamment l'intrigue, la personnalisation des personnages, les mécanismes de jeu, la configuration du monde, les éléments d'humour et la communauté des joueurs. La revue est effectuée sous un angle différent et capture très bien les points forts du jeu.



À ce stade, vous pouvez passer directement au chinois et continuer à poser des questions.

Grok-2 connaît également "Black Myth : Wukong", un jeu qui n'est pas encore sorti. Il a déclaré avec précision que la date de sortie est le 20 août, le moteur Unreal 5 utilisé, et a résumé les discussions entre les internautes.



Il comprend également à la fin les messages des internautes, sur lesquels vous pouvez cliquer pour participer à la discussion. L'intégration fonctionnelle avec l'ensemble de la plateforme est déjà en place.



Cependant, comme il n'existe qu'une mini version du modèle, nous passerons ensuite à l'arène des grands modèles pour le test de résistance, et nous pouvons également avoir un PK avec GPT-4o.

Questions de test de QI récemment populaires"Lequel est le plus grand, 9,9 ou 9,11 ?"Lors du test, Grok-2 (sus-column-r) surpasse la dernière version de ChatGPT.



Mais un autre test populaire"Combien y a-t-il de r dans la fraise"Sur ce point, les deux ont toujours échoué. (Essayez plusieurs fois et il y a une petite chance d'obtenir les deux bons résultats).



Des questions pièges plus sérieuses« Laquelle des bougies suivantes sera soufflée en premier ? », Grok-2 est légèrement plus avancé que ChatGPT.



Le point de test est que la partie restante de la bougie qui est soufflée en premier est plus longue (bonne réponse 3). ChatGPT l'interprète à tort comme la plus courte. L'idée de Grok-2 est correcte, mais le numéro de celle qui est la plus longue est. pas correct.



Les deux semblent avoir surmonté d’une manière ou d’une autre le problème classique de la « malédiction du renversement » de la faiblesse des grands modèles. Non seulement il peut répondre directement « Qui est la mère de Tom Cruise ? », mais il peut également répondre à la question inverse « Le fils de Mary Lee Pfeiffer est Tom Cruise » dont les données apparaissent moins fréquemment.

(Bien entendu, on ne peut exclure qu’une fois que ce problème deviendra classique, des données plus pertinentes seront disponibles.)



Le grand modèle de Musk a été modernisé aux dépens de Tesla

Le test est terminé et on constate que Grok-2 a fait de grands progrès par rapport à la génération précédente Grok-1.5.

Dans les coulisses, Musk a dépensé beaucoup de ressources et de main d’œuvre.

Par exemple, un nouveau chercheur qui a rejoint xAI a déclaré qu'il pouvait être utiliséGroupe de 100 000 cartesFaire de la recherche est bien plus agréable que de disposer de peu de ressources à l’école.



Mais un groupe de personnes n’est pas satisfait : les actionnaires de Tesla.

Selon le Wall Street Journal,Musk continue de transférer les talents, les données et les ressources GPU de Tesla vers xAI

Jusqu'à présent, xAI a embauché au moins 11 employés ayant travaillé chez Tesla, dont six ont travaillé directement dans l'équipe Autopilot.

Musk a également demandé à Nvidia de donner la priorité à la fourniture de xAI pour les commandes de GPU initialement réservées à Tesla.

Musk a également parlé publiquement des grandes quantités de données visuelles collectées par Tesla, qui, selon lui, peuvent servir de ressource pour la formation de modèles xAI.

Au moins trois actionnaires de Tesla ont poursuivi Musk à ce sujet, affirmant que le transfert de ressources vers xAI nuisait aux intérêts des investisseurs de Tesla.

L'affaire est actuellement pendante devant un tribunal du Delaware.