nouvelles

mini-avalanche de classement gpt-4o, règles d'arène des grands modèles mises à jour, astuces pour augmenter les points ultraman invalides

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

règles d'arène grand modèle mises à jour,le classement du gpt-4o mini s’est immédiatement effondré et est sorti du top 10

la nouvelle liste répond à l'iales caractéristiques telles que la longueur et le style ont été dégradées., garantissant que le score reflète la véritable capacité du modèle à résoudre le problème.

essayer d’utiliser de beaux formats, augmenter le nombre de sous-titres et d’autres techniques pour plaire aux utilisateurs et améliorer les classements sont désormais inutiles.

selon les nouvelles règles, ultramangpt-4o mini, celui de musksérie grok-2baisse significative des classements, googlegemini-1,5-flashles petits modèles ont également reculé.

série claudelama-3.1-405bles scores des grands modèles ont augmenté les uns après les autres.

lors du calcul uniquement de tâches difficiles (hard prompt), l'avantage des grands modèles dans la liste de contrôle de style est encore plus évident.

auparavant, le mini modèle gpt-4o atteignait le sommet, à égalité avec la version complète gpt-4o, ce qui était évidemment incompatible avec le sens du toucher des internautes.

lmsys large model arena, une norme d'évaluation autrefois recommandée par karpathy, est également tombée au point où elle « ne peut refléter que les préférences de l'utilisateur plutôt que les capacités du modèle ».

l'organisation lmsys a tiré les leçons de l'expérience et a d'abord divulgué les données de 1 000 batailles auxquelles gpt-4o mini a participé, analysant ainsi le taux de rejet du modèle, la longueur du contenu généré et le formatage comme plusieurs facteurs qui affectent les résultats du vote.

de plus, avant la sortie de gpt-4o mini, ultraman a laissé entendre qu'il était optimisé selon les préférences humaines.

aujourd'hui, lmsys est allé plus loin et a lancé un nouvel algorithme pour contrôler ces facteurs, et ce n'est que la première étape de la planification.

comment contrôler l’influence du style ?

supposons qu'il y aitmodèle ail est efficace pour générer du code, des faits, des réponses impartiales, etc., mais son résultat est très concis.

modèle bce n'est pas très bon en termes de substance (comme l'exactitude), mais le résultat est long, détaillé et magnifiquement formaté.

alors lequel est le meilleur ?

la réponse n'est pas unique, lmsys essaie de déterminer mathématiquement dans quelle mesure le score d'un modèle est contribué par le contenu ou le style.

de plus, des études récentes ont montré queles humains peuvent avoir une préférence pour les réponses de l’ia qui sont magnifiquement formatées et plus détaillées.

par dansbradley-terry revientajoutez des fonctionnalités de style telles que la longueur de la réponse, le nombre de sous-titres démarques, les listes et le nombre de texte en gras comme arguments.

il s'agit d'une technique courante en statistique et a récemment été utilisée pour l'évaluation de grands modèles par alpacaeval lc et d'autres.

l’inclusion de variables confusionnelles (telles que la longueur de réponse) dans la régression permet d’attribuer l’augmentation des scores aux variables confusionnelles plutôt qu’à la puissance du modèle lui-même.

le code correspondant a été rendu public sur google colab.

en outre, l’équipe a également mené des expériences d’ablation sur le « contrôle uniquement de la longueur » et le « contrôle uniquement du format ». les scores des séries gpt-4o mini et google gemini sont davantage affectés par le format.

il existe cependant des limites à cette approche, comme la possibilité de facteurs de confusion non observés, comme une corrélation positive entre la longueur et la qualité de la réponse, qui ne sont pas pris en compte (par exemple, les invites de la chaîne de pensée).

de nombreux internautes ont déclaré que la liste ajustée des tâches difficiles correspondait mieux à leurs impressions subjectives.

certains pensent aussi que c'est le va-et-vient entre la liste et les grandes entreprises modèles qui se disputent la liste qui peut faire progresser ensemble l'ensemble du domaine.

choisissez-vous toujours des modèles en fonction des résultats de l’arène des grands modèles ? ou si vous disposez de meilleures méthodes d’évaluation, veuillez les partager dans la zone de commentaires.