Musk sème encore le trouble ! Un nouveau grand modèle défie GPT-4o, les internautes deviennent fous

2024-08-14

Zhidongxi News le 14 août, cet après-midi, heure de Pékin, la startup modèle à grande échelle de MuskxAILancement du modèle de deuxième générationGrok-2 bêta, y compris les mini versions Grok-2 et Grok-2.

MuscPublié avec passion sur sa propre plateforme socialecolonne sus-r。

Il a retweeté le tweet de Lmsys en disant : "Grok est la vitesse d'une fusée." sus-column-r a reçu plus de 12 000 votes sur le classement et ses performancesMieux que Claude 3.5 Sonnet et GPT-4-Turbo, avecGPT-4oà égalité pour la troisième place。

Dans de nombreuses évaluations telles que GPQA, MMLU, MMLU-Pro, MATH, MathVista, etc.,Grok-2Les scores dépassent ceux des modèles grand public tels que GPT-4 Turbo, Claude 3 Opus et Gemini Pro 1.5, mais restent inférieurs à ceux du GPT-4o.

Actuellement, les utilisateurs de X Premium et Premium+ peuvent désormais découvrir Grok-2 et Grok-2 mini, et Zhixixi a été le premier à effectuer des tests et des expériences réels.

Après quelques expériences, le sentiment le plus évident que me donne Grok-2 est que sa logique est très claire. Par exemple, dans l'exemple suivant, bien que Grok-2 et GPT-4o aient tous deux donné des réponses correctes, les étapes et les calculs de chaque étape du premier sont très clairs et plus faciles à comprendre. De plus, les capacités graphiques vincentiennes de Grok-2 ont grimpé en flèche avec le support de FLUX.1, et il a conservé son style « audacieux » cohérent.

xAI prévoit également de lancer deux versions de l'API d'entreprise Grok-2 plus tard ce mois-ci.

Adresse de l'expérience :https://lmarena.ai/?model=sus-column-r

1. Les performances rattrapent plusieurs versions de GPT-4 et les capacités visuelles et logiques deviennent plus fortes.

Dans la LMSYS Chatbot Arena, une première version de Grok-2, sus-column-r, a participé à l'évaluation.Les performances globales du score Elo surpassent Claude et plusieurs versions de GPT-4。

Comme le montre la figure ci-dessous, le score de Grok-2 a dépassé la version du 18 juillet de GPT-4o-mini et la version du 9 avril de GPT-4-Turbo, mais le score était toujours inférieur à celui de la version du 8 août de ChatGPT-4o – La dernière version de GPT-4o, datée du 15 mai.

En interne, l'équipe xAI suit un processus similaire pour évaluer les modèles, l'évaluation étant axée sur les deux fonctionnalités principales du modèle : Premièrement,Suivre les instructions avec précision, la seconde est de fournir des informationsPrécision et authenticité。

Il convient de mentionner que Grok-2 estContenu de recherche d'analyse d'inférenceetUtiliser des outilsIl a réalisé des progrès significatifs, tels que sa capacité à identifier avec précision les informations manquantes, à effectuer un raisonnement logique à travers des séquences d'événements et à éliminer efficacement les messages non pertinents.

Pour les tests de référence, l'équipe a utilisé une série de tests couvrantRaisonnement, compréhension écrite, mathématiques, sciences et codageUne évaluation complète du modèle Grok-2 a été menée sur des références académiques dans d'autres domaines.

Les résultats montrent que Grok-2 et sa version simplifiée Grok-2 mini sont considérablement améliorés par rapport au modèle Grok-1.5 de la génération précédente.

au niveau des cycles supérieursConnaissances scientifiques (telles que GPQA), questions et réponses de bon sens (telles que MMLU, MMLU-Pro)ainsi queQuestions de concours de mathématiques (telles que MATH)Dans d’autres domaines, leurs performances peuvent rivaliser avec d’autres modèles haut de gamme.

Comme le montre la figure ci-dessous, le Grok-2 a obtenu de bons résultats à tous ces tests.Surpassé GPT-4 Turbo, Claude 3 Opus et Gemini Pro 1.5, mais n'a toujours pas pu battre GPT-4o。

Il convient de mentionner que Grok-2 esttâches visuellesExcellentes performances, notamment surRaisonnement mathématique visuel (MathVista)etRéponses aux questions basées sur des documents (DocVQA)Les performances sont particulièrement remarquables.

2. Grok-2 a été lancé sur le

Grok-2 et Grok-2 mini sont désormais disponibles pour les abonnés X, et les non-abonnés peuvent également découvrir gratuitement la première version du modèle Grok-2 sus-column-r dans la Large Model Arena.

Il existe un total de 62 modèles disponibles dans le domaine des grands modèles, dont le GPT-4o. Pour faciliter la comparaison, testons d'abord ce premier modèle.

Le premier est le problème du rapport de taille qui a bouleversé de nombreux modèles il y a quelques temps : lequel est le plus grand, 13,11 ou 13,8. Grok-2 et GPT-4o ont répondu avec précision, mais le processus de réflexion de Grok-2 était plus clair et répertoriait des étapes de réflexion détaillées.

Sur une autre question classique « Combien y a-t-il de r dans Strawberry ? », Grok-2 a d'abord répondu de manière incorrecte, mais a ensuite donné la bonne réponse après être passé à l'anglais. GPT-4o a répondu correctement en chinois et en anglais. Il semble qu’il y aura encore une part de chance dans les grands modèles.

Les modèles du grand modèle ne sont pas connectés à Internet en temps réel. Lorsque j'ai demandé "Quels sont les points forts du Pixel 9 que Google vient de sortir ?", les deux modèles ont répondu qu'ils ne disposaient pas encore de cette information. Grok-2 a ensuite donné des prédictions basées sur les tendances de développement technologique et les caractéristiques passées du Pixel. Une hypothèse était assez fiable. Les caméras, les processeurs, l'IA, etc. sont tous au centre de la mise à jour de Google.

GPT-4o n'a pas donné de prédiction, mais a résumé les points forts passés des téléphones Pixel.

En termes de capacités de codage, les performances des deux modèles sont comparables, et des étapes de solution détaillées et des codes complets sont fournis pour les exigences.

En termes de raisonnement logique, Grok-2 montre une fois de plus la clarté de la logique, et chaque étape du raisonnement est divisée en sous-titres. Bien que GPT-4o ait également répondu correctement, les étapes de réflexion n'étaient pas assez claires.

La capacité graphique de Vincent est un objectif majeur de cette mise à jour de Grok-2. Le modèle FLUX.1 auquel il est connecté a récemment été très populaire dans la communauté open source en raison de ses performances puissantes. Cependant, la capacité de génération d’images ne peut pas être expérimentée dans le domaine des grands modèles et ne peut être obtenue que via un abonnement X.

Les internautes se sont déjà amusés avec Grok-2 Wenshengtu, par exemple en utilisant ses capacités de génération de texte pour aider Grok-2 à tenir une conférence de presse hors ligne.

Ou utilisez votre imagination et laissez Musk conduire une voiture sur Mars.

Sur la base du système de censure presque nul de Grok, de nombreux internautes ont fait des blagues, comme demander à Trump de tirer et demander à George W. Bush de sniffer de la cocaïne...

Ou laissez Trump s’envoler dans le ciel à bord d’une fusée SpaceX. Face à la même demande, GPT-4o a refusé de manière très décisive.

À quel point le système de censure de Grok est-il imperturbable ? Certains internautes ont testé un grand modèle pour « classer les 10 meilleurs QI par race », et seul Grok-2 a donné la réponse sans hésitation :ChatGPT, Claude a refusé directement, et Gémeaux a lancé une éducation minutieuse.

Dans l'ensemble, Grok-2 met toujours en œuvre son style audacieux. Dans le même temps, les performances de son modèle sont comparables à celles des modèles principaux tels que GPT-4o, sa logique est plus claire et ses capacités multimodales sont encore meilleures que celles de FLUX.1. . Avec la bénédiction, il s’est envolé.

3. Lancez une plateforme API d'entreprise à la fin du mois pour intégrer de manière transparente les systèmes d'entreprise

À la fin de ce mois, xAI passera le nouveauPlateforme API d'entreprise, a officiellement lancé Grok-2 et Grok-2 mini aux développeurs.

Cette API adoptera une nouvelle architecture technique personnalisée pour prendre en chargeDéploiement d'inférence multirégional,pourutilisateurs mondiauxOffrez une expérience fluide avec une faible latence.

Dans le même temps, xAI dispose de fonctionnalités de sécurité améliorées, notamment l'authentification multifacteur obligatoire (telle que Yubikey, Apple TouchID ou TOTP) et fournit des informations détaillées.Statistiques de trafic et services avancés d’analyse de facturation, prend en charge l'exportation de données.

En outre, xAI a également lancé une API de gestion pour prendre en charge l'intégration transparente des fonctions de gestion des équipes, des utilisateurs et de la facturation dans les outils et services internes existants.

Conclusion : le lien entre Grok-2 et la plate-forme X est plus profond, et OpenAI et d'autres sont soumis à une forte pression.

Grok-2 et Grok-2 mini sont désormais en ligne sur la plateforme X. Par exemple, l'expérience de recherche améliorée, l'analyse approfondie des publications X et les fonctions de réponse optimisées sont très intéressantes. Bientôt, xAI publiera également une version préliminaire de ses capacités de compréhension multimodale.

Depuis le lancement de Grok-1 en novembre 2023, xAI a réalisé des progrès rapides en termes de technologie, de produits et de financement, et le lancement de Grok-2 constitue sa nouvelle étape. Une fois que Musk aura connecté les capacités de grand modèle de Grok à la puissante écologie des utilisateurs de contenu de la plate-forme X, une boucle fermée sera formée, comprenantOpenAILa pression sur les start-ups de grande envergure, dont Alibaba Cloud, est encore plus forte.

Auteur | Li Shuiqing Vanille

Éditeur | Yunpeng

nouvelles