Ça devient féroce, GPT-4o a été vaincu par le nouveau modèle de Google, le compte officiel ChatGPT : tout le monde respire profondément

C'est féroce, GPT-4o a été vaincu par le nouveau modèle de Google, le compte officiel ChatGPT : tout le monde respire profondément

2024-08-02

Allez, GPT-4o a été dépassé par le nouveau modèle de Google !

En une semaine, plus de 12 000 personnes ont voté de manière anonyme.Gemini 1.5 Pro (0801) Représentant Google, il a remporté pour la première fois la première place dans l'arène lmsys. (La tâche chinoise occupe également la première place)

Et cette fois c'est une double couronne, en plus du classement général (le seul score est de 1300), en plus du classement général.Classement visuelC'est aussi le numéro un.

Simon Tokumine, une figure clé de l'équipe Gemini, a posté un message pour célébrer :

(Ce nouveau modèle) est le Gemini le plus puissant et le plus intelligent que nous ayons jamais fabriqué.

Un utilisateur de Reddit a également qualifié le modèle de « très bon » et a exprimé l’espoir que ses fonctionnalités ne seraient pas réduites.

De plus en plus d'internautes ont exprimé leur enthousiasme à l'idée qu'OpenAI ait enfin été contesté et qu'il publiera une nouvelle version pour riposter !

Le compte officiel ChatGPT a également laissé entendre quelque chose.

Au milieu de l'enthousiasme, le responsable produit de Google AI Studio a annoncé que le modèle était entré sur le marché.Phase de test gratuite：

Disponible gratuitement dans AI Studio

Internaute : Google est enfin là !

À proprement parler, le Gemini 1.5 Pro (0801) n’est pas un nouveau modèle.

Devraitversion expérimentaleS'appuyant sur le Gemini 1.5 Pro publié par Google en février, la série 1.5 a ensuite étendu la fenêtre contextuelle à 2 millions.

Au fur et à mesure que le modèle est mis à jour, le nom devient de plus en plus long, ce qui amène également les gens à se plaindre.

Non, un employé d'OpenAI l'a félicité sans oublier d'être bizarre :

Bien sûr, même si le nom est difficile à retenir, Gemini 1.5 Pro (0801) a cette fois bien performé lors de l'évaluation officielle de l'arène.

La carte thermique du taux de victoire global montre qu'il est 54 % meilleur que GPT-4o et 59 % meilleur que Claude 3.5 Sonnet.

existercapacité multilingueDans les tests de référence, il se classe premier en chinois, japonais, allemand et russe.

Cependant, dans Coding et Hard Prompt Arena, il ne peut toujours pas battre des adversaires tels que Claude 3.5 Sonnet, GPT-4o et Llama 405B.

Cela a également été critiqué par les internautes, qui se traduisent par :

L'encodage est ce qui compte, mais il ne fonctionne pas bien là-bas.

Cependant, certaines personnes ont sorti Amway Gemini 1.5 Pro (0801)Capacités d’extraction d’images et de PDF。

Elvis, co-fondateur de DAIR.AI, a personnellement effectué une série complète de tests sur l'oléoduc et a conclu :

Les capacités visuelles sont très proches de GPT-4o。

De plus, quelqu'un a utilisé Gemini 1.5 Pro (0801) pour résoudre le problème auquel Claude 3.5 Sonet n'avait pas bien répondu auparavant.

Les résultats ont montré que non seulement il fonctionnait mieux, mais qu'il battait également son petit ami Gemini 1.5 Flash.

Mais quelquesTest de connaissances générales classiqueIl n'arrive toujours pas à comprendre, comme « Écrivez dix phrases qui se terminent par des pommes ».

Encore une chose

Pendant ce temps, la série Gemma 2 de Google accueille un nouveauModèle à 2 milliards de paramètres。

Gemma 2 (2B)Prêt à l'emploi, peut fonctionner sur le GPU T4 gratuit de Google Colab.

Au classement de l'arène, ilDépasse tous les modèles GPT-3.5, dépassant même Mixtral-8x7b.

Face aux derniers nouveaux classements de Google, ArenaAutorité de la listeInterrogé à nouveau par tout le monde.

Le co-fondateur de Nous Research, Teknium (acteur bien connu dans le domaine de la post-formation fine) a rappelé :

Bien que Gemma 2 (2B) ait un score supérieur à GPT-3.5 Turbo sur Arena, il est bien inférieur à ce dernier sur MMLU.
Cet écart serait préoccupant si l’on utilisait le classement des arènes comme seul indicateur de performance du modèle.

Bindu Reddy, PDG d'Abacus.AI, a même directement lancé un appel :

Veuillez arrêter immédiatement d'utiliser ce classement évalué par les humains !
Claude 3.5 Sonnet est bien meilleur que GPT-4o-mini.
Des scores Gémeaux/Gemma similaires ne devraient pas être aussi élevés dans ce classement.

Alors, pensez-vous que cette méthode de vote anonyme par des humains est encore fiable ?

nouvelles

C'est féroce, GPT-4o a été vaincu par le nouveau modèle de Google, le compte officiel ChatGPT : tout le monde respire profondément

Introduction

mes coordonnées