nouvelles

GPT-4o mini atteint le sommet de l'arène des grands modèles, Ultraman : mise au point gratuite en deux mois

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crécy vient du temple Aofei
    Qubits | Compte public QbitAI

Tout à l'heure, la mini version GPT-4o a inauguré son « moment fort »——

J'ai escaladé l'arène des grands modèles Lmsys, à égalité à la première place avec la version pleine santé, et laissant Claude 3,5 derrière.



Contrairement à l'évaluation générale des ensembles de données, l'arène des grands modèles est le résultat de la définition par les utilisateurs de leurs propres questions et du vote avec leurs pieds. Les raccourcis ne peuvent pas être pris en « effleurant les questions », c'est donc plus réel.

Dès que ce résultat est sorti, même le PDG Altman s'est enthousiasmé :

Face aux résultats de l'évaluation, nous avons d'abord essayé d'être réservés, mais quand nous avons vu que GPT-4o mini fonctionnait de la même manière que la version full-health, mais que le prix n'était que de 1/20, nous étions toujours très excités.



Les internautes ont dit que tout allait bien après l'avoir vu, mais ils étaient plus préoccupés par le moment où la « Elle » présentée lors de la conférence de presse du GPT-4o serait en ligne.



Dans le même temps, OpenAI a également envoyé une autre bonne nouvelle, qui apportera des avantages aux développeurs——

GPT-4o miniLe réglage fin sera progressivement ouvert, actuellement ouvert aux utilisateurs de niveaux 4 et 5, et étendra progressivement sa portée.

etJusqu'au 23 septembre, vous pouvez utiliser 2 millions de jetons d'entraînement gratuitement chaque jour



La mini est à égalité avec la version complète santé

Après des millions de tours de compétition 1v1 avec plus de 80 modèles, le score du GPT-4o mini sur la liste lmsys n'est qu'à 7 points derrière la version complète.

Selon la disposition de la liste lmsys, cet écart de 7 points n'affecte pas le classement, et les deux modèles sont comptés à égalité pour la première place.

Suivent de près les familles Claude 3.5 et Gemini, ainsi que deux autres versions de GPT-4.



Si nous examinons les données brutes de GPT-4o mini, nous constaterons que son taux de victoire moyen de 0,6 est juste derrière la version complète.



En regardant les résultats de la compétition entre les deux seuls, ils sont à égalité.



La raison pour laquelle les performances de lmsys ont attiré l'attention est qu'il dispose d'un ensemble unique de méthodes de compétition——

Au lieu d'utiliser un ensemble de données,Laissez les utilisateurs poser leurs propres questions et tirer au sort deux modèles dans une bataille en 1 contre 1., puis choisissez quel modèle est le plus performant.

Avant qu'un choix ne soit donné, le modèle est anonyme et l'utilisateur ne sait pas quels sont les deux modèles en compétition. Si le modèle divulgue quelque chose, le vote sera invalide.



Les scores ainsi obtenus sont plus réalistes, ce qui non seulement évite la possibilité d'obtenir des scores artificiellement élevés en « effleurant les questions », mais est également plus proche de l'expérience utilisateur.

Cette arène de grand modèle, récemmentParticipation à la meilleure conférence sur l'apprentissage automatique ICML2024



De plus, l’évaluation de lmsysTrès populaire auprès d’OpenAI, la première version de GPT-4o mini avant son lancement officiel était répertoriée sous le pseudonyme de gpt-mini.

A cette époque, il était déjà classé 4ème, au même niveau que GPT4-Turbo.



Auparavant, avant que GPT-4o ne soit mis en ligne, il avait également été testé sous le pseudonyme de gpt2-chatbot sur lmsys.



Cependant, certaines personnes se demandent si, même si le GPT-4o mini fonctionne très bien, il est exagéré de dire qu'il surpasse le sonnet Claude 3,5.



Certaines personnes ont même dit sans ambages que l'intégrité de la méthode lmsys avait commencé à s'effondrer et devait être modifiée, sinon elle ne serait plus une référence de test utile.



Le « petit modèle » est également retroussé

Le lancement de la version mini se concentre sur la rentabilité.

Par million de jetons d'entrée/sortie, les prix sont respectivement de 15 cents et 60 cents (environ 1,09/4,36 RMB), ce qui ne représente même pas la moitié du 3,5 Turbo.



Si on le compare à la version text-davinci-003 de GPT-3 d'il y a deux ans (le meilleur modèle de l'époque), le prix a baissé de 99 %.

En plus d'ouvrir de petits modèles aux utilisateurs, OpenAI a également mis au point de nouvelles façons de jouer——

Dans un travail posthume de l'équipe "Super Alignement", un petit modèle avec un millième ou un centième des paramètres du grand modèle a été utilisé pour optimiser le grand modèle.

Dans l'expérience, les grands et les petits modèles « jouent » les uns avec les autres. Le grand modèle doit continuellement optimiser et ajuster sa sortie pour faire croire au petit modèle qu'il dit la vérité.

Au cours de ce « jeu », les capacités du grand modèle ont été améliorées et la compréhensibilité a été considérablement améliorée sans perte significative de précision.



Outre OpenAI, d’autres sociétés ont également lancé de petits modèles.

Par exemple, avant GPT-4o mini, Google et Anthropic ont lancé respectivement Gemini Flash et Claude 3-Haiku.

On peut même dire que GPT-4o mini est la contre-attaque d’OpenAI contre les deux modèles, surpassant ces deux modèles en termes de performances et de prix.



La même semaine que la sortie du GPT-4o mini, Hugging Face et « European OpenAI » Mistral ont tous deux lancé de petits modèles.

Même Apple a lancé son propre modèle 7B et a ouvert tous les processus et ressources de formation en même temps.

Bref, tant que les performances sont suffisantes pour répondre aux besoins d’usage, le petit modèle constitue sans doute un choix plus économique.

Dans le même temps, la plus petite échelle signifie également qu'il est possible de fonctionner du côté du terminal, ce qui présente des avantages en matière de protection de la vie privée et d'autres aspects.

De cette façon, il n’est pas difficile de comprendre pourquoi les « petits » modèles deviennent de plus en plus frisés.

Liens de référence :
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015