Google l'emporte enfin sur OpenAI : la version expérimentale Gemini 1.5 Pro surpasse GPT-4o

2024-08-02

Rapport sur le cœur de la machine

Editeur : Chen Chen, Xiaozhou

Avec un modèle aussi puissant, Google offre à chacun un essai gratuit.

Au cours des deux derniers jours, Google a publié les dernières recherches. Après la sortie hier du petit modèle Gemma 2 2B le plus puissant, la version expérimentale Gemini 1.5 Pro (0801) vient d'être lancée.

Les utilisateurs peuvent tester et fournir des commentaires via Google AI Studio et l'API Gemini.

Comme c’est gratuit, laissez-nous vous aider à tester le problème récemment populaire du rapport de taille. Lorsque nous avons demandé au Gemini 1.5 Pro (0801) quel chiffre était le plus grand, 9.9 ou 9.11, le modèle a répondu correctement la première fois et a donné une raison.

Lorsque nous avons continué à demander "combien de r y a-t-il dans le mot Strawberry", le Gemini 1.5 Pro (0801) s'est renversé. En appliquant un « sort » dans les invites étape par étape, l'analyse du modèle s'est mal déroulée à la quatrième étape.

Adresse de test Google AI Studio : https://aistudio.google.com/app/prompts/new_chat

Cependant, à en juger par l'évaluation officielle, le Gemini 1.5 Pro (0801) est toujours très bon dans divers indicateurs. Le nouveau modèle a rapidement dominé le prestigieux classement LMSYS Chatbot Arena et affiche un impressionnant score ELO de 1 300.

Cette réalisation place Gemini 1.5 Pro (0801) devant le GPT-4o d'OpenAI.(ELO : 1286) et Claude-3.5 Sonnet d'Anthropic (ELO : 1271) et d'autres concurrents puissants, cela pourrait annoncer un changement dans le paysage de l'intelligence artificielle.

Simon Tokumine, un membre clé de l'équipe Gemini, appelle le Gemini 1.5 Pro (0801) le Gemini (modèle) le plus puissant et le plus intelligent jamais fabriqué par Google.

En plus d'occuper la première place dans Chatbot Arena, Gemini 1.5 Pro (0801) a également obtenu de très bons résultats dans des domaines tels que les tâches multilingues, les mathématiques, les invites matérielles et le codage.

Plus précisément, Gemini 1.5 Pro (0801) a été le premier à fonctionner en chinois, japonais, allemand et russe.

Mais dans le domaine du codage et du Hard Prompt, Claude 3.5 Sonnet, GPT-4o, Llama 405B sont toujours en tête.

Sur la carte thermique du taux de victoire : Gemini 1.5 Pro (0801) a un taux de victoire de 54 % contre GPT-4o et un taux de victoire de 59 % contre Claude-3.5-Sonnet.

Gemini 1.5 Pro (0801) se classe également premier au classement Vision !

Les internautes ont déclaré que cette fois, Google avait vraiment dépassé les attentes de tout le monde. Il a soudainement ouvert le test du modèle le plus puissant sans aucune annonce officielle à l'avance. Cette fois, la pression était sur OpenAI.

Bien que le Gemini 1.5 Pro (0801) obtienne des résultats élevés, il en est encore au stade expérimental. Cela signifie que le modèle pourra subir d’autres modifications avant d’être largement utilisé.

Commentaires des internautes

Certains internautes ont testé les capacités d'extraction de contenu, les capacités de génération de code, les capacités de raisonnement, etc. de Gemini 1.5 Pro (0801). Jetons un coup d'œil à ses résultats de tests.

Source : https://x.com/omarsar0/status/1819162249593840110

Tout d'abord, Gemini 1.5 Pro (0801) dispose d'une puissante fonction d'extraction d'informations d'image. Par exemple, saisissez une image de facture et écrivez les détails de la facture au format JSON :

Jetons un coup d'œil à la fonction d'extraction de contenu de document PDF de Gemini 1.5 Pro (0801). En prenant comme exemple l'article classique « L'attention est tout ce dont vous avez besoin », extrayez la table des matières des chapitres de l'article :

Laissez Gemini 1.5 Pro (0801) générer un jeu Python qui aide à apprendre les connaissances sur les grands modèles de langage (LLM), qui génère directement un code entier :

Il convient de mentionner que Gemini 1.5 Pro (0801) fournit également des explications détaillées du code, notamment le rôle des fonctions dans le code, comment jouer au jeu Python, etc.

Ce programme peut être exécuté directement dans Google AI Studio et peut être essayé, par exemple en répondant à des questions à choix multiples sur la définition de la tokenisation :

Si vous pensez que les questions à choix multiples sont trop simples et ennuyeuses, vous pouvez laisser Gemini 1.5 Pro (0801) générer un jeu plus complexe :

Obtenez un jeu de remplissage de phrases d'expertise LLM :

Afin de tester la capacité de raisonnement du Gemini 1.5 Pro (0801), les internautes ont posé une question « souffler une bougie », mais le modèle a répondu de manière incorrecte :

Malgré quelques défauts, Gemini 1.5 Pro (0801) présente des capacités visuelles proches de GPT-4o, ainsi que des capacités de génération de code et de compréhension et de raisonnement PDF proches de Claude 3.5 Sonnet, ce qui mérite d'être attendu.

https://www.youtube.com/watch?v=lUA9elNdpoY

nouvelles

Google l'emporte enfin sur OpenAI : la version expérimentale Gemini 1.5 Pro surpasse GPT-4o

Introduction

mes coordonnées