2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Rapport sur le cœur de la machine
Département éditorial de Machine Heart
GPT-5 n'est pas encore sorti, Grok a déjà rattrapé son retard.
Le jour même où Google et OpenAI se disputaient l'actualité, le xAI de Musk ne chômait pas non plus.
Mercredi après-midi, heure de Pékin, xAI a officiellement lancé le grand modèle Grok 2 de nouvelle génération.
L'organisation tierce de référence de grands modèles Chatbot Arena a également immédiatement mis à jour la liste des scores de la liste LMSYS. Le premier modèle de Grok 2 (sus-column-r) peut être classé quatrième après GPT-4o (version 0513), surpassant Claude 3.5 Sonnet et GPT-4-Turbo.
Il excelle dans le codage, les problèmes complexes et les mathématiques.
Musk ne pouvait s'empêcher de se vanter : "La vitesse de propulsion de Grok est comme celle d'une fusée".
Notez qu'il ne s'agit que du score de la première version. Chatbot Arena a déclaré qu'il testerait la version officielle à l'avenir.
Musk a déclaré que Grok-2 est un modèle de langage avancé doté de capacités de raisonnement de pointe. La nouvelle génération comprend deux versions : Grok-2 et Grok-2 mini. Les deux modèles sont désormais proposés aux utilisateurs de Grok sur la plateforme X. Actuellement, les utilisateurs de X Premium et Premium+ peuvent déjà découvrir les mini modèles Grok-2 et Grok-2.
Par rapport à la précédente Grok-1.5, la première version préliminaire de Grok-2 a réalisé des progrès significatifs, démontrant des capacités de pointe en matière de chat, de raisonnement, de codage, etc. xAI indique que Grok-2 et Grok-2 mini sont actuellement en version bêta sur le X et seront disponibles via une API d'entreprise plus tard ce mois-ci.
Moins d'une demi-heure après la sortie du nouveau modèle, un internaute montrait déjà les résultats. Il a utilisé Grok 2 mini pour générer une image de "Moi et Musk mangeant des hot-dogs".
Essayez-en un autre pour générer un portrait de Washington.
Certaines personnes ont également essayé Grok 2 mini pour générer un chat volant.
Quelqu'un d'autre a construit une Tesla Model Y, est-ce qu'elle lui ressemble ?
Grok-2 performances PK
Alors que xAI installe une première version de Grok-2, « sus-column-r », dans Chatbot Arena, nous voyons comment ses performances se comparent à d'autres modèles open source et fermés populaires.
En termes de score Elo global, Grok-2 fonctionne mieux que les modèles de la série Claude et la plupart des versions de GPT-4. Bien entendu, le premier de la liste est GPT-4o (version du 8 août), qu’OpenAI vient de publier ces jours-ci.
L'image ci-dessous montre la comparaison du taux de victoire entre le Grok-2 et d'autres modèles populaires.
L'image ci-dessous montre une comparaison factuelle des taux de victoire entre les deux versions de Grok 1.5 et Grok 2.
xAI adopte ce processus pour évaluer le modèle Grok 2, en utilisant des tuteurs IA pour véritablement interagir avec le modèle dans diverses tâches. Lors de chaque interaction, Grok 2 fournit deux réponses aux tuteurs IA, qui sélectionnent ensuite la meilleure réponse en fonction de critères spécifiques répertoriés dans le guide.
xAI se concentre sur l'évaluation des performances du modèle dans deux domaines clés : le suivi des instructions et la fourniture d'informations précises et véridiques. Les résultats montrent des améliorations significatives dans la capacité de Grok 2 à raisonner à partir du contenu récupéré et à utiliser des outils tels que l'identification correcte des informations manquantes, le raisonnement à travers des séquences d'événements, l'élimination des messages non pertinents, etc.
Scores de référence
xAI a évalué le modèle Grok-2 sur une gamme de critères académiques, notamment le raisonnement, la compréhension écrite, les mathématiques, les sciences et le codage.
Le Grok-2 et le Grok-2 mini constituent des améliorations significatives par rapport au modèle Grok-1.5 précédent. Les performances sont comparables à celles d'autres modèles de pointe dans des domaines tels que les connaissances scientifiques de niveau supérieur (GPQA), les connaissances générales (MMLU, MMLU-Pro) et les problèmes de compétition en mathématiques (MATH).
De plus, Grok-2 fonctionne également bien dans les tâches basées sur la vision, avec des performances remarquables en raisonnement mathématique visuel (MathVista) et en réponse aux questions basées sur des documents (DocVQA).
Interface et fonctions Grok 2 "gros relooking"
Au cours des derniers mois, xAI a continuellement amélioré l'expérience Grok sur la plateforme x. Désormais, avec le lancement de la nouvelle génération Grok 2, xAI a repensé l'interface, comme indiqué ci-dessous.
Bien entendu, xAI offre quelques nouvelles fonctionnalités, comme une implémentation simple du « Game of Life » de Conway.
Un autre exemple est la capacité de compréhension multimodale (regarder des images et parler).
Parmi eux, Grok-2 est l'assistant d'IA le plus avancé de xAI, avec des capacités de compréhension textuelle et visuelle et des informations intégrées en temps réel de la plate-forme X, accessibles via l'onglet Grok de l'application X.
Grok-2 mini est un modèle petit mais puissant qui offre un bon équilibre entre vitesse et qualité de réponse.
Grok-2 est plus intuitif, plus contrôlable et plus flexible que son prédécesseur, ce qui le rend adapté à une variété de tâches, que vous recherchiez des réponses, écriviez en collaboration ou résolviez des tâches de codage.
De plus, xAI travaille avec la startup Black Forest Labs pour expérimenter leur modèle FLUX.1 afin d'étendre les capacités de Grok sur X.
Plus tard ce mois-ci, xAI proposera également Grok-2 et Grok-2 mini aux développeurs via une nouvelle plate-forme API d'entreprise. La prochaine API repose sur une nouvelle pile technologique personnalisée, permettant le déploiement d'inférences multirégionales pour un accès mondial à faible latence.
Bien entendu, xAI offre également des fonctionnalités de sécurité améliorées, telles que l'authentification multifacteur obligatoire (par exemple en utilisant Yubikey, Apple TouchID ou TOTP).
On peut constater que depuis le lancement de Grok-1 en novembre 2023, xAI a fait progresser cette série de modèles à un rythme alarmant. Bientôt, ils publieront une version préliminaire avec une compréhension multimodale. Après xAI, l’objectif sera d’améliorer les capacités de raisonnement de base du modèle grâce à de nouveaux clusters informatiques.
Adresse du blog : https://x.ai/blog/grok-2