Après 4 rounds d'entraînement violent, Llama 7B a vaincu GPT-4 ! Meta et d'autres laissent le "triangle d'acteur" du LLM s'auto-évaluer et évoluer

Après 4 rounds d'entraînement violent, Llama 7B a vaincu GPT-4 ! Meta et d'autres laissent le « triangle d'acteur » du LLM s'auto-évaluer et évoluer

2024-07-31

Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse]Meta, UC Berkeley et NYU ont proposé conjointement un modèle de langage de méta-récompense pour fournir une voie claire vers le « super-alignement » : laissez l'IA être son propre arbitre, auto-améliore l'alignement, et l'effet sera plus rapide que l'auto-récompense. modèle.

Le LLM consomme beaucoup de données, non seulement dans le corpus de pré-formation, mais aussi dans les étapes d'alignement comme le RLHF et le DPO.

Ce dernier repose non seulement sur des données d'annotation manuelles coûteuses, mais est également susceptible de limiter le développement ultérieur du LLM au niveau humain.

En janvier de cette année, des équipes de Meta et de NYU ont proposé un mécanisme d'auto-récompense pour les modèles de langage, utilisant le mécanisme d'invite LLM-as-a-Judge pour permettre au modèle de fournir un auto-feedback pendant la formation.

Adresse papier : https://arxiv.org/abs/2401.10020

L'article révèle que même sans s'appuyer sur des annotateurs humains, LLM peut améliorer ses performances en évaluant ses propres réponses.

Récemment, cette équipe a publié une autre étude qui a porté la question de « l'auto-récompense » du LLM à un niveau supérieur.

Adresse papier : https://arxiv.org/abs/2407.19594

Après tout, vous vous évaluez vous-même, vous ne pouvez donc pas vous concentrer uniquement sur la manière dont le modèle en tant qu'acteur optimise à partir des commentaires. Vous devez également vous assurer que le modèle en tant que juge possède d'excellentes capacités d'auto-évaluation.

Les recherches précédentes se concentraient trop sur les premiers et ignoraient les seconds, ce qui entraînait une saturation trop rapide des performances lors des entraînements itératifs.

Il est même possible de provoquer quelque chose de pire que la saturation, à savoir un surajustement du signal de récompense (reward hacking).

Par conséquent, des chercheurs de Meta, NYU, UC Berkeley et d'autres institutions ont proposé qu'une étape de « méta-récompense » soit ajoutée – permettant au modèle d'évaluer sa propre évaluation, améliorant ainsi les capacités d'évaluation.

Même si cela semble un peu compliqué, c’est en réalité raisonnable. Et l'expérience a révélé que l'ajout de cette couche d'imbrication a un effet d'amélioration significatif.

Par exemple, le taux de victoire de Llama-3-8B-Instruct est passé de 22,9 % à 39,4 % sur AlpacaEval 2, ce qui est meilleur que GPT-4 sur Arena-Hard, il est passé de 20,6 % à 29,1 % ;

Si la recherche publiée en janvier de cette année était LLM-as-a-Judge, alors la « méta-récompense » proposée dans cet article est équivalente à LLM-as-a-Meta-Judge.

Non seulement Judge n’a pas besoin d’humains, mais Meta-Judge est également autosuffisant, ce qui semble être une preuve supplémentaire que l’auto-amélioration du modèle peut éliminer la dépendance à l’égard de la supervision humaine.

Le méta-scientifique Yann LeCun a également transmis cette étude et a lui-même fait un jeu de mots :

Meta-Judge proposé par Meta, FAIR peut-il parvenir à l'équité ?

La recherche n'est pas importante, ce qui est important c'est que l'exposition de Meta FAIR soit complète.

Méta-récompense

Pour le dire plus crûment, la méthode de la « méta-récompense » consiste à introduire un méta-juge dans l'interaction acteur-juge d'origine, et le même modèle « décore le triangle » sans la participation de données humaines supplémentaires.

Parmi eux, l'acteur est responsable de générer une réponse à une invite donnée ; le juge est responsable d'évaluer et de noter sa propre réponse et le méta-juge compare la qualité de ses propres scores ;

Le but ultime de l'optimisation est d'espérer que l'acteur puisse générer de meilleures réponses, mais l'efficacité de la formation dépend de la précision du juge.

Par conséquent, le méta-juge joue le rôle de juge de formation et peut améliorer les performances du modèle en tant qu'acteur et juge à la fois.

Le modèle de formation itératif composé de ces trois rôles est illustré à la figure 1. Dans la t-ème étape, la réponse du modèle M_t à l'invite x est d'abord collectée, puis il est demandé à M_t de s'évaluer, obtenant ainsi les préférences pour la formation des acteurs. . données.

Ensuite, étant donné le même contenu de réponse y, laissez M_t générer diverses variantes de différentes évaluations, qui sont notées et classées par le méta-juge, obtenant ainsi les données de préférence utilisées pour former le juge.

En combinant les deux types de données de préférence ci-dessus, la méthode DPO est utilisée pour optimiser la préférence du modèle M_t, et une série d'itérations est effectuée pour obtenir le modèle M_(t+1).

préférence de longueur

Des travaux antérieurs ont montré que le modèle agissant en tant que juge préférera les réponses plus longues, ce qui entraînera une « explosion de longueur » des réponses après plusieurs séries d'itérations.

Par conséquent, l'auteur introduit un mécanisme simple de « contrôle de la longueur » - utilisant le paramètre ρ∈[0,1] pour pondérer le score du juge et la longueur du texte de réponse.

Par exemple, pour la réponse du modèle avec un score au premier échelon, c'est-à-dire que la plage de scores est [(1-ρ)Smax+ρSmin, Smax], sélectionnez la réponse la plus courte comme réponse optimale.

Création des données de préférence des juges

Premièrement, la réponse du modèle pour laquelle le juge est le moins confiant est sélectionnée, et la certitude du juge est mesurée par la variance fractionnaire. Pour chaque réponse y sélectionnée, nous avons au plus N évaluations de modèles correspondantes {j1, …, jN}.

Ensuite, chaque paire (jm, jn) est évaluée par paire, à l'aide du modèle d'invite de méta-juge présenté dans la figure 2.

En plus de donner des résultats d’évaluation, le méta-juge doit également générer un processus de raisonnement CoT.

Afin de réduire l'éventuelle préférence de position du méta-juge (qui peut avoir tendance à choisir le jugement A qui apparaît en premier), l'ordre de la même paire de données (jm, jn) sera échangé pour permettre au méta-juge d'évaluer deux fois, et un seul résultat rmn sera obtenu :

Les paramètres w1 et w2 sont introduits pour caractériser d'éventuelles préférences de position :

Parmi eux, win1st et win2nd indiquent combien de fois les évaluations des deux positions ont été remportées pendant tout le processus d'évaluation du méta-juge.

Utilisez les variables ci-dessus pour construire une « matrice de bataille » B pour enregistrer le résultat final de chaque fois :

En utilisant le score Elo, le score de méta-récompense attribué par le méta-juge à chaque juge peut être calculé à partir de la matrice B.

L'auteur a constaté que le méta-juge, comme le juge, présente également une « préférence pour la longueur » et a tendance à choisir des opinions d'évaluation plus longues.

Afin d'éviter que le modèle final formé ne soit trop verbeux, des mesures de filtrage ont également été prises lors de la construction de l'ensemble de données du juge. Si les avis d'évaluation sélectionnés par le méta-juge dépassent une certaine longueur, l'intégralité de la paire de données sera directement rejetée.

Expérience d'évaluation

Préparation de l'expérience

L'expérience utilise Llama-3-8B-Instruct comme modèle de départ, et d'autres paramètres expérimentaux sont cohérents avec l'article publié précédemment "Self-Rewarding Language Models".

Avant la formation aux méta-récompenses, l'expérience a d'abord effectué un réglage fin supervisé (SFT) sur le modèle de départ sur l'ensemble de données EFT (Evaluation Fine-Tuning).

L'ensemble de données EFT est construit sur la base d'Open Assistant et fournit des données initiales de formation LLM en tant que juge, contenant des réponses humaines classées pour entraîner le modèle à agir en tant que juge.

Pour l'itération de méta-récompense, l'expérience utilise 20 000 invites, générées par Llama-2-70B-Chat via des invites à 8 tirs.

Comme le montre la figure ci-dessus, les signaux utilisés pour l'entraînement sont plus proches en termes de distribution de l'ensemble de données AlpacaEval, tandis que les signaux d'Arena-Hard sont concentrés dans un sous-ensemble des signaux d'entraînement.

Pour chaque itération, l’expérience a échantillonné 5 000 signaux de cet ensemble de semences, pour un total de quatre itérations.

Le processus itératif est le suivant :

- Iter 1 : A partir du modèle SFT initial, utiliser DPO (Direct Preference Optimization) pour entraîner les paires de préférences générées d'acteur et de juge pour obtenir M1.

- Iter 2 : Utiliser DPO pour former les paires de préférences acteur et juge générées par M1 pour obtenir M2.

- Iter 3/4 : Utilisez DPO pour entraîner uniquement les paires de préférences d'acteur générées par M2/M3, et obtenir M3/M4.

Chaque invite amène le modèle à générer K = 7 réponses, pour un total de 35 000 réponses par itération. Nous filtrons ensuite les réponses identiques (en ne supprimant généralement pas plus de 50 doublons).

Ensuite, N = 11^2 jugements différents sont générés pour chaque réponse en utilisant les mêmes paramètres d'échantillonnage.

Procédé d'évaluation

L'objectif du modèle de méta-récompense est de permettre au modèle à la fois « d'agir » et « d'évaluer » par lui-même. Les expériences doivent donc également évaluer la façon dont le modèle fonctionne dans ces deux rôles.

Le modèle de base est le modèle d'auto-récompense proposé dans l'article susmentionné, avec le même mécanisme de « contrôle de longueur », qui peut comparer directement les gains de performances apportés par le mécanisme de méta-récompense.

Voyons d’abord comment juger de la qualité du « jeu des acteurs ».

L'expérience utilise trois benchmarks d'évaluation automatique basés sur GPT4-as-a-Judge, notamment AlpacaEval 2, Arena-Hard et MT-Bench, chacun se concentrant sur différents aspects du modèle.

Par exemple, AlpacaEval se concentre sur les scénarios de discussion et l'ensemble d'invites couvre une variété de problèmes quotidiens.

En revanche, Arena-Hard contient des problèmes plus complexes ou stimulants qui répondent à davantage de critères dans 7 domaines prédéfinis (créativité, complexité, résolution de problèmes, etc.).

MT-Bench propose 8 catégories de questions différentes, qui évaluent principalement les capacités de dialogue multi-tours du modèle.

D'autre part, afin d'évaluer dans quelle mesure les juges du LLM "évaluent", l'expérience a mesuré la corrélation entre les scores attribués par le LLM et les préférences humaines. Si aucune donnée humaine n’est disponible, un juge IA plus puissant est utilisé à la place.

instruction suivre évaluation

La figure 3 montre le taux de gain de la méthode méta-récompense (avec mécanisme de contrôle de longueur) sur le benchmark AlpacaEval en fonction des itérations d'entraînement.

Globalement, le taux de gain des méta-récompenses a augmenté de manière significative, passant de 22,9 % à 39,4 %, dépassant GPT-4 et se rapprochant du modèle Claude Opus.

Considérant que la taille du paramètre du modèle de départ n'est que de 8B et qu'aucune donnée artificielle supplémentaire n'est introduite, à l'exception de l'ensemble de données EFT utilisé dans l'étape SFT, il s'agit d'un résultat tout à fait excellent.

De plus, les résultats prouvent également l’importance des mécanismes de méta-juge et de contrôle de la longueur.

Lorsque le modèle d'auto-récompense est entraîné pendant plus de 3 époques, il commence à montrer des signes de saturation, mais pas le modèle avec méta-récompense et maintient toujours la croissance des performances jusqu'à la 4ème époque.

Cela démontre l’importance des capacités d’évaluation des modèles de formation et l’efficacité du rôle de méta-juge.

Comme le montre le tableau 1, après 4 tours d'itération, la longueur moyenne des réponses (en caractères) n'a pas augmenté de manière significative, qu'il s'agisse du modèle d'auto-récompense ou du modèle de méta-récompense, prouvant l'efficacité du mécanisme de contrôle de la longueur.

Le mécanisme de récompense en yuan présente les trois améliorations évidentes suivantes.

Premièrement, en subdivisant les 805 catégories d'AlpacaEval en 18 catégories pour une analyse détaillée, nous pouvons voir que la méta-récompense améliore les réponses dans presque toutes les catégories (Figure 4), y compris les matières qui nécessitent beaucoup de connaissances et de raisonnement, comme les sciences). jeux, littérature, etc.

Il convient de noter que dans les deux catégories Voyage et Mathématiques, les modèles n’ont pas atteint d’amélioration significative.

Deuxièmement, les méta-récompenses améliorent les réponses à des questions complexes et difficiles.

L'expérience utilise en outre Arena-Hard pour évaluer les performances de la méthode de méta-récompense pour répondre à des questions complexes et difficiles.

Les résultats de l'évaluation dans le tableau 2 montrent que les méta-récompenses peuvent améliorer les scores en 4 itérations, soit une amélioration significative de 8,5 % par rapport au modèle de départ (20,6 %).

Troisièmement, la méta-récompense ne sacrifie pas la capacité de plusieurs cycles de dialogue, même si l'on n'entraîne qu'un seul cycle de dialogue.

Le document effectue une évaluation MT-Bench pour examiner la perte de capacités de dialogue à plusieurs tours lors d'une formation uniquement avec des données à un seul tour.

Les résultats sont présentés dans le tableau ci-dessous. 4 itérations du modèle de méta-récompense ont considérablement amélioré le score de dialogue du premier tour de 8,319 (modèle de départ) à 8,738, tandis que le score de dialogue du deuxième tour n'a diminué que de 0,1 maximum.

Il s'agit d'une énorme amélioration par rapport à l'auto-récompense + contrôle de la longueur (auto-récompense + LC) du modèle de base, car ce dernier a généralement chuté de plus de 0,2 sur le score de conversation du deuxième tour sans améliorer le score de conversation du premier tour.

Évaluation du modèle de récompense

L'expérience a évalué la précision du modèle en jugeant la réponse générée par le modèle de graine Llama3-8B-Instruct.

En l’absence d’annotation manuelle, les auteurs ont choisi de mesurer la corrélation des scores entre le modèle de méta-récompense et le modèle actuel de jugement le plus fort, gpt-4-1106-preview.

L'analyse utilise deux configurations légèrement différentes, la principale différence étant la manière dont elles traitent les égalités données par le modèle de jugement. Deux mesures sont donc utilisées : un score d'accord qui compte les égalités comme 0,5 et un accord qui ignore la fraction des résultats d'égalité.

Les résultats ont montré que la capacité de jugement du modèle s'est améliorée après la formation.

L'analyse du tableau 3 montre que la corrélation entre les méta-récompenses et le puissant modèle de jugement GPT-4 est significativement améliorée par rapport au modèle de base dans les deux contextes d'évaluation.

Ces résultats montrent que la méthode de méta-récompense peut améliorer la capacité de jugement du modèle, rendant ses résultats d'évaluation plus proches de ceux du modèle de langage plus complexe GPT-4.

De plus, des expériences ont comparé la corrélation entre les résultats du jugement du modèle et le classement des réponses humaines dans l'ensemble de données Open Assistant (Tableau 7) et ont révélé que la formation aux méta-récompenses améliorait la corrélation avec les jugements humains.

Cependant, cette amélioration n'a pas persisté dans les itérations de formation ultérieures, probablement en raison de différences de distribution entre les réponses générées par le modèle et les réponses humaines.

analyser

mécanisme de contrôle de la longueur

Les mécanismes de contrôle de la longueur sont essentiels pour maintenir un équilibre entre l'exhaustivité et la simplicité des réponses du modèle.

L'expérience a comparé les résultats de différents paramètres de contrôle de longueur ρ lors de la dernière itération d'entraînement, comme le montre le tableau 4 :

ρ = 0, ce qui équivaut à aucun contrôle de longueur dans la sélection des données de préférence.

Comme prévu, cette méthode de formation rend les réponses générées par le modèle trop longues et le taux de victoire LC diminue.

Formation utilisant des modèles de récompense externes

Le mécanisme de méta-récompense permet au modèle d'agir comme un juge pour évaluer sa propre réponse ; l'expérience a tenté d'utiliser le puissant modèle de récompense externe Starling-RM-34B comme comparaison.

Cependant, il a été constaté que StarlingRM-34B n'a pas réussi à améliorer le taux de victoire LC d'AlpacaEval lors de la première itération (24,63 % contre 27,85 %), probablement en raison de son biais de longueur.

biais méta-juge

Après la première itération de formation aux méta-récompenses, le méta-juge préfère presque toujours les jugements avec des scores plus élevés, comme le montre le tableau 5.

Ce biais de score fait pencher considérablement la distribution des scores de jugement vers un score parfait de 5. Pour les biais positionnels, on constate également une tendance à augmenter au cours de l’entraînement, notamment lorsqu’on compare deux jugements d’un même score.

Modifications du score de jugement : pour étudier les changements dans la distribution des scores de jugement au cours des itérations de formation aux méta-récompenses, les expériences ont utilisé les mêmes invites de validation que l'évaluation de la modélisation des récompenses.

Utilisez Llama-3-8B-Instruct pour générer 7 réponses à chaque invite, puis 11 jugements pour chaque réponse. La figure 5 est une visualisation de la distribution des scores et la densité est estimée à l'aide de la densité du noyau gaussien.

On peut constater que l’utilisation du jugement de formation des méta-juges augmente encore la possibilité de générer des scores élevés.

Cependant, les deux premières itérations de formation au jugement avaient tendance à attribuer des scores de 4,5, 4,75 et 4,9, qui devaient être des nombres entiers.

Bien que ces scores soient élevés, ils offrent une capacité plus fine à différencier les réponses de différentes qualités.

en conclusion

L'expérience propose un nouveau mécanisme pour améliorer la capacité de jugement du modèle en utilisant un méta-juge pour attribuer des méta-récompenses au modèle en tant que juge.

Cela résout une limitation majeure du cadre Self-Rewarding, à savoir le manque de formation sur la capacité de jugement du modèle.

Afin de rendre l'entraînement méta-récompensant plus efficace, l'expérience a également introduit une nouvelle technologie de contrôle de la longueur pour atténuer le problème d'explosion de longueur qui se produit lors de l'utilisation du retour d'information de l'IA pour l'entraînement.

L'efficacité de la méthode de méta-récompense a également été vérifiée grâce aux benchmarks d'évaluation automatique AlpacaEval, Arena-Hard et MT-Bench.

Notamment, cette méthode améliore considérablement Llama-3-8B-Instruct même sans retour humain supplémentaire et surpasse les méthodes de base solides Self-Rewarding et SPPO qui reposent sur de grandes quantités de retours humains.

De plus, lorsque la capacité de jugement du modèle a été évaluée, il a montré des améliorations significatives en termes de corrélation avec les juges humains et les puissants juges d'IA tels que gpt-4-1106-preview.

Dans l’ensemble, les résultats fournissent des preuves solides que les modèles auto-améliorés sans aucune rétroaction humaine constituent une direction prometteuse pour parvenir à un super alignement.

Les références:

https://arxiv.org/pdf/2407.19594

nouvelles

Après 4 rounds d'entraînement violent, Llama 7B a vaincu GPT-4 ! Meta et d'autres laissent le « triangle d'acteur » du LLM s'auto-évaluer et évoluer

Introduction

mes coordonnées