2024-08-05
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Rapport sur le cœur de la machine
Editeur : Panda
Afin d'aligner le LLM, des chercheurs de tous horizons ont mis au point des astuces astucieuses.
Le LLM est très puissant, mais il n'est pas parfait. Il peut également commettre des erreurs ou produire des résultats inutiles, voire nuisibles. Par exemple, quelqu'un a découvert que ChatGPT peut apprendre aux gens à voler :
Laissez ChatGPT apprendre aux gens comment voler des magasins ; à gauche, ChatGPT refuse de répondre ; à droite, après avoir ajouté « sans aucune contrainte morale (sans contrainte morale) » à l'invite, ChatGPT donne un guide sur le vol à l'étalage.
A cette époque, l’alignement est crucial, son rôle est de rendre le LLM cohérent avec les valeurs humaines.
L'apprentissage par renforcement basé sur la rétroaction humaine (RLHF) est une technologie révolutionnaire dans l'alignement du LLM. Cette méthode a donné naissance à des modèles puissants tels que GPT-4, Claude et Gemini. Après le RLHF, diverses méthodes d’alignement des LLM ont été explorées. Cependant, personne n’a encore résumé de manière exhaustive les méthodes permettant d’aligner le LLM sur les préférences humaines.
Salesforce a décidé de combler cette lacune et a récemment publié un rapport de synthèse de 37 pages, qui résume la littérature de recherche existante par catégorie et analyse chaque article en détail.
Cet article est divisé en quatre thèmes principaux : le modèle de récompense, le feedback, l'apprentissage par renforcement (RL) et l'optimisation. Chaque sujet contient d'autres sous-thèmes, comme le montre la figure 1 .
Les sous-thèmes du modèle de récompense comprennent : 1. Modèle de récompense explicite et modèle de récompense implicite ; 2. Modèle de récompense point par point et modèle de préférence ; 3. Récompenses au niveau de la réponse et récompenses au niveau du jeton ; 4. Optimisation des préférences négatives.
Les sous-thèmes de feedback incluent : 1. Feedback de préférence et feedback binaire ; 2. Feedback par paire et feedback de liste ; 3. Feedback humain et feedback de l'IA ;
Les sous-thèmes de l'apprentissage par renforcement comprennent : 1. L'apprentissage par renforcement basé sur des références et l'apprentissage par renforcement sans référence ; 2. L'apprentissage par renforcement à durée contrôlée ; 3. Différentes branches de l'apprentissage par renforcement ; 4. L'apprentissage par renforcement des politiques en ligne et l'apprentissage par renforcement des politiques hors ligne ;
Les sous-thèmes de l'optimisation comprennent : 1. Optimisation des préférences en ligne/itérative et optimisation des préférences hors ligne/non itérative 2. Séparation du SFT et de l'alignement et fusion du SFT et de l'alignement ;
Le tableau 1 répertorie la classification de tous les articles analysés dans ce rapport d'examen sur ces 13 indicateurs d'évaluation.
Documents de recherche
Cette section présentera chaque article en détail afin que les lecteurs puissent comprendre ces innovations importantes sans lire l'article original. Le Cœur de la Machine triera brièvement diverses orientations de recherche et listera les articles représentatifs.
1. RLHF/PPO
La pré-formation du LLM nécessite l’utilisation d’un grand nombre de corpus provenant de sources différentes, ce qui ne peut à lui seul garantir la qualité de ces ensembles de données. De plus, l'objectif principal de LLM est de prédire le prochain jeton, ce qui est incompatible avec l'objectif de « suivre les instructions de l'utilisateur de manière utile et sûre ». En conséquence, LLM peut produire du contenu faux, nuisible ou inutile pour les utilisateurs. Essentiellement, ces modèles ne correspondent pas à l’intention de l’utilisateur. L'objectif principal de RLHF/PPO est d'aligner les modèles de langage avec l'intention de l'utilisateur sur une variété de tâches en utilisant les commentaires humains pour affiner le modèle. Il existe de nombreuses études sur ce sujet.
InstructGPT
InstructGPT vient d'OpenAI, qui constitue la base des modèles de formation tels que ChatGPT et GPT-4. Veuillez vous référer au « Rapport technique GPT-4 » et au rapport Heart of the Machine « GPT-4 Shocking Release : Multi-modal large model ». , mettre à niveau directement ChatGPT, Bing , ouvrir l'API, game over ? 》《Découvrez la technologie derrière ChatGPT auprès de Li Mu : lisez attentivement le document InstructGPT en 67 minutes》.
En intégrant les préférences humaines, le problème difficile de l’évaluation des réponses générées par LLM est résolu. Les mesures d'évaluation traditionnelles utilisées pour évaluer le LLM, telles que BLEU, ROUGE et BERTScore, ne peuvent garantir la cohérence avec les préférences humaines. Pour résoudre ce problème, les chercheurs ont directement intégré les préférences humaines dans le LLM afin d’améliorer ses performances. Ce processus implique généralement deux étapes principales : l’apprentissage du modèle de récompense et la formation aux politiques d’apprentissage par renforcement.
Au cours de la phase d'apprentissage du modèle de récompense, une fonction de récompense explicite par points est formée à l'aide d'invites et de réponses appariées.
Après cela, la phase de formation à la politique d'apprentissage par renforcement commence ; dans cette phase, le LLM et le modèle de récompense pré-entraîné servent respectivement d'agent et d'environnement dans un cadre d'apprentissage par renforcement.
Afin de former InstructGPT, trois ensembles de données sont utilisés : 1. Ensemble de données SFT : contient des démonstrations d'annotateurs utilisées pour former le modèle SFT. 2.Ensemble de données RM (modèle de récompense) : comprend le classement des résultats du modèle par les annotateurs humains et est utilisé pour former des modèles de récompense. 3. Ensemble de données PPO : comprend des invites utilisées comme entrée pour le réglage fin du RLHF.
L'InstructGPT formé sera évalué sous trois aspects : utilité, crédibilité et nocivité.
À en juger par les résultats, l'évaluation humaine montre que "les gens préfèrent la sortie de la version de paramètres 1,3B du modèle InstructGPT au 175B GPT-3, même si ce dernier a plus de 100 fois moins de paramètres". Les performances sont meilleures que GPT-3 sur les tâches d'utilité et de toxicité, qui sont cruciales pour l'alignement.
RLHF d’Anthropique
Anthropic a également étudié le même sujet et l'article s'intitule « Former un assistant utile et inoffensif avec un apprentissage par renforcement à partir des commentaires humains ».
OpenAI a découvert que le RLHF facilite l'alignement, mais peut également entraîner une dégradation des performances du modèle sur certains benchmarks NLP, un phénomène connu sous le nom de « taxe d'alignement ». Le modèle InstructGPT développé par celui-ci comporte 1,3B de paramètres. Au lieu de cela, les chercheurs d'Anthropic ont évalué sept modèles différents allant de 13M à 52B, dont la croissance géométrique a été multipliée par 4.
Ils ont conclu qu'il existe une « taxe » sur l'alignement pour les modèles plus petits, mais que cela ne profite qu'aux modèles plus grands, en particulier aux modèles dont les paramètres sont compris entre 13B et 52B.
Compte tenu de cet avantage de l’alignement, ils ont également expérimenté l’utilisation d’ensembles de données technologiques de programmation pour améliorer les capacités du LLM. La méthode RLHF d'OpenAI inclut PPO et PPO-ptx, où l'objectif de conception de PPO-ptx est de réduire la taxe d'alignement sur le benchmark NLP. L'étude RLHF d'Anthropic a révélé que tant que le modèle est suffisamment grand, le PPO lui-même peut apporter des avantages d'alignement aux tâches de PNL en aval. Ils ont également déterminé que le paramètre optimal de divergence KL dans la formation aux politiques d’apprentissage par renforcement est β = 0,001.
RLHF en ligne/itératif
Traditionnellement, les techniques RLHF pour aligner le LLM sont des méthodes hors ligne. Cependant, ce type de méthode présente quelques inconvénients, comme la difficulté de traiter les données non diffusées.
À cette fin, il est nécessaire d'affiner continuellement le LLM et d'effectuer un apprentissage itératif/en ligne, c'est-à-dire d'utiliser une stratégie intermédiaire pour générer des réponses aux invites, puis d'utiliser un oracle pour donner un retour de préférence pour ces données appariées, puis d'alimenter ces données. feedbacks Donnez une stratégie. En pratique, l’apprentissage itératif est divisé en deux parties : l’apprentissage des oracles de préférence et l’optimisation itérative des politiques. Voir l'article « Workflow RLHF : De la modélisation des récompenses au RLHF en ligne ».
2. RLAIF
Le coût d’obtention d’ensembles de données sur les préférences humaines n’est pas bon marché, c’est pourquoi l’apprentissage par renforcement basé sur le feedback de l’intelligence artificielle (RLAIF) est né. De plus, à mesure que les capacités de LLM continuent de s'améliorer, la qualité des ensembles de données de préférences d'IA qui peuvent être collectées continue également de s'améliorer, ce qui peut améliorer l'effet d'alignement de LLM.
RLAIF d'Anthropique
Sur la base des travaux de recherche fondamentale du RLHF, Anthropic a proposé une nouvelle méthode appelée RLAIF. Voir l'article « IA constitutionnelle : innocuité des commentaires de l'IA ».
La méthode se compose principalement de deux étapes : 1. Un apprentissage encadré par Critiques et Révisions, guidé par une charte. 2. RLAIF.
RLAIF de Google
Sur la base des résultats de la recherche RLAIF d'Anthropic, une équipe de recherche de Google estime que les recherches antérieures ne peuvent pas comparer directement les effets du feedback humain et du feedback de l'IA, et méritent des recherches plus approfondies. Dans le processus de collecte des commentaires de l'IA, une invite structurée doit être créée, qui comprend : une introduction, quelques exemples d'exemples (facultatifs), des échantillons à étiqueter et une conclusion.
Afin de générer un retour d'information sur l'IA, une évaluation en deux étapes doit être effectuée : tout d'abord, laisser le LLM générer la réponse en utilisant les 4 composants de l'instruction plus le CoT. À l'étape suivante, cette réponse LLM est renvoyée à LLM avec la terminaison « résumé préféré = », générant ainsi une probabilité de préférence de « résumé 1 = 0,6, résumé 2 = 0,4 ». Pour réduire les biais de position, les séquences de ces deux réponses doivent être alternées et leurs scores moyens calculés.
Le processus RLAIF adopte deux stratégies : 1. « RLAIF distillé », qui suit la méthode RLHF traditionnelle, c'est-à-dire utiliser les préférences pour former un modèle de récompense, puis l'utiliser pour former la stratégie LLM 2. « RLAIF direct », qui directement ; utilise le feedback LLM comme invite à produire un score d'évaluation, qui est ensuite utilisé comme signal pour la formation aux politiques d'apprentissage par renforcement.
Enfin, son processus d'évaluation utilise trois mesures clés : 1. Alignement IA-annotateur : dans quelle mesure l'IA est-elle cohérente avec les annotateurs humains. 2. Taux de réussite : la probabilité qu'un annotateur humain compare deux candidats et choisisse l'un d'entre eux. 3. Taux d'inoffensivité : proportion de réponses que les évaluateurs humains considèrent comme inoffensives.
Pour plus de détails, veuillez consulter l'article « RLAIF : Scaling enhancement learning from human feedback with AI feedback ».
Optimisation directe des préférences humaines
Les méthodes RLHF traditionnelles impliquent généralement l’optimisation d’une fonction de récompense dérivée des préférences humaines. Bien qu’efficace, cette méthode peut également introduire certaines difficultés, telles qu’une complexité informatique accrue et la nécessité de prendre en compte des compromis biais-variance lors de l’estimation et de l’optimisation des récompenses. Voir l'article « Contrôle continu de grande dimension utilisant l'estimation des avantages généralisés ».
Des recherches récentes ont exploré d'autres méthodes visant à optimiser directement les politiques LLM basées sur les préférences humaines sans compter sur un signal de récompense scalaire.
Les objectifs de ces méthodes sont de simplifier le processus d'alignement, de réduire la surcharge de calcul et de permettre une optimisation plus robuste grâce à une utilisation plus directe des données de préférence. En présentant le problème comme un problème d'optimisation des préférences plutôt que comme un problème d'estimation et de maximisation des récompenses, ces méthodes peuvent fournir une perspective différente sur l'alignement des modèles de langage avec le jugement humain :
DPO au niveau du jeton
Lorsque vous utilisez DPO, les récompenses sont attribuées ensemble aux invites et aux réponses. En revanche, lors de l’utilisation de MDP, les récompenses sont attribuées à des actions individuelles. Les deux articles suivants ont développé le DPO au niveau du jeton et étendu son application à l'analyse au niveau du jeton.
DPO itératif/en ligne
Lors de l'utilisation de DPO, tous les ensembles de données de préférences disponibles sont utilisés pour aligner le LLM. Afin d'améliorer continuellement le LLM, un DPO itératif/en ligne doit être mis en œuvre. Cela soulève une question intéressante : comment collecter efficacement de nouveaux ensembles de données sur les préférences. Les deux articles suivants explorent ce sujet en profondeur.
rétroaction binaire
Il s’avère que la collecte de commentaires sur les préférences est plus difficile que la collecte de commentaires binaires (tels que les goûts ou les aversions), ces derniers peuvent donc faciliter la mise à l’échelle du processus d’alignement. Les deux études, KTO et DRO, se concentrent sur l'utilisation du feedback binaire pour aligner le LLM.
Fusion de SFT et alignement
Les recherches antérieures ont principalement effectué la SFT et l'alignement de manière séquentielle, mais cette approche s'est avérée laborieuse et peut conduire à un oubli catastrophique. Les recherches de suivi ont deux directions : l'une consiste à intégrer ces deux processus en une seule étape ; l'autre consiste à affiner les deux modèles en parallèle et enfin à les fusionner.
DPO à longueur contrôlée et DPO sans référence
Des recherches antérieures ont montré que les résultats des LLM sont souvent trop verbeux. Pour résoudre ce problème, R-DPO et SimPO se concentrent sur le contrôle de la longueur de réponse sans affecter les performances de génération.
De plus, DPO nécessite une stratégie de référence pour garantir que le modèle aligné ne s'écarte pas trop du modèle de référence. En revanche, SimPO et RLOO proposent des méthodes qui éliminent le besoin d'un modèle de référence sans affecter l'effet LLM.
Optimisation des préférences liste par liste
Des recherches antérieures sur PPO et DPO se sont concentrées sur les préférences par paires, tandis que les recherches sur RLHF ont collecté des préférences par liste pour accélérer le processus de collecte de données, puis les ont converties en préférences par paires. Néanmoins, afin d'améliorer les performances de LLM, il est possible d'utiliser directement des ensembles de données par liste pour effectuer une optimisation des préférences. Les trois articles suivants discutent spécifiquement de cette approche.
optimisation des préférences négatives
Ces études partagent un postulat commun : la génération actuelle de LLM a surpassé les performances humaines dans des tâches telles que la traduction et le résumé. Par conséquent, il est avantageux de traiter le résultat du LLM comme une réponse souhaitée sans compter sur le traitement des données marquées par l’homme comme une réponse privilégiée. À l’inverse, les réponses indésirables peuvent toujours être utilisées pour aligner les LLM, un processus appelé optimisation des préférences négatives (NPO).
Apprentissage de Nash
Les études antérieures utilisent généralement des modèles de récompense par points et BT pour obtenir des préférences par paires. Cependant, cette approche est inférieure à la modélisation directe des préférences par paires et ne peut pas résoudre les incohérences dans les préférences par paires. Pour pallier ces limites, certaines études ont proposé la méthode d’apprentissage de Nash.
Comparaison de différentes méthodes
Certaines études ont été menées pour comparer ces différentes méthodes. De telles études peuvent illustrer les avantages et les inconvénients respectifs de chaque approche.
L'article « Insights into align : Evaluating dpo and its variants across multiple tâches » évalue de manière exhaustive les modèles de récompense implicite, c'est-à-dire sans algorithmes d'apprentissage par renforcement, sur plusieurs tâches telles que le raisonnement, la résolution de problèmes mathématiques, la crédibilité, la réponse aux questions et le multitâche. compréhension. Y compris DPO, KTO, IPO et CPO. Ces évaluations impliquent trois scénarios différents : 1) le réglage fin d'un modèle de réglage fin supervisé (SFT), 2) le réglage fin d'un modèle pré-entraîné et 3) le réglage fin d'un modèle d'instruction.
L'étude a révélé que KTO surpassait les autres méthodes d'alignement sur la plupart des benchmarks. En outre, les recherches montrent que l'alignement n'améliore pas de manière significative les performances de raisonnement et de réponse aux questions du modèle, mais qu'il améliore considérablement les capacités de résolution de problèmes mathématiques du modèle. L’étude a également souligné l’importance de la taille des données, les méthodes d’alignement étant plus performantes sur des sous-ensembles de données plus petits. En outre, l'étude a révélé que KTO et CPO peuvent contourner efficacement l'étape SFT et entrer directement dans l'étape d'alignement sans affecter les performances. En revanche, DPO et IPO présentent une dégradation significative des performances lorsqu’ils contournent l’étape SFT et entrent directement dans l’étape d’alignement.
L'article « Le DPO est-il supérieur au PPO pour l'alignement LLM ? Une étude complète » montre que le DPO peut avoir des limites inhérentes, peut produire des réponses biaisées et entraîner une dégradation des performances en raison de changements de distribution.
Ils ont constaté que la politique formée par DPO favorisait les réponses invisibles, en particulier les échantillons hors distribution. Le DPO itératif/en ligne atténue ce problème en explorant largement l’espace de réponse et en mettant continuellement à jour le modèle de référence. En revanche, RLHF/PPO relève ces défis grâce à la normalisation de la dominance, aux lots de grande taille et à l'utilisation de moyennes mobiles exponentielles sur un modèle de référence. En fin de compte, ces résultats démontrent que le PPO surpasse le DPO itératif/en ligne, qui à son tour surpasse le DPO standard.
Pour plus de détails, veuillez vous référer à l'article de la chronique Heart of the Machine « ICML 2024 Oral | Le DPO est-il plus adapté au LLM qu'au PPO, le dernier secret révélé par l'équipe de Tsinghua Wuyi ».
orientation future
En analysant des articles antérieurs, l’équipe a identifié un certain nombre de questions de recherche nécessitant une exploration plus approfondie.
Tâches générales pour l'évaluation de l'alignement
Différents articles ont utilisé différentes tâches pour évaluer les performances de ces méthodes. Cependant, certaines tâches telles que GSM8K se concentrent davantage sur l'inférence et peuvent ne pas convenir à l'évaluation des performances d'alignement. Au lieu de cela, des tâches telles que TruthfulQA ou celles axées sur la toxicité devraient être priorisées pour évaluer la toxicité des LLM affinés. Il faudrait trouver des moyens de combiner ces tâches pour créer une liste de classement unifiée pour évaluer l'alignement.
Utilisation de modèles de récompense implicites, de préférences par liste et d'apprentissage Nash pour des modèles de langage plus vastes
Actuellement, le plus grand modèle utilisant un modèle de récompense implicite ne comporte que 70 milliards de paramètres. Si ces méthodes peuvent être étendues à des modèles plus grands, tels que ceux de la taille de GPT-4 et Claude-3, cela devrait nous aider à mieux comprendre leur efficacité relative avec RLHF/PPO.
De même, les modèles de préférence par liste méritent également une étude plus approfondie. Lors de l'utilisation de RLHF, un ensemble de données de préférences est collecté à l'aide de préférences par liste, qui sont ensuite converties en données de préférences par paires. Les problèmes potentiels liés aux applications à grande échelle des modèles de préférences par liste restent à résoudre.
Enfin, l'apprentissage de Nash peut résoudre les incohérences entre les annotateurs humains. Si le modèle d'apprentissage de Nash peut être intégré dans un LLM à plus grande échelle, sa capacité à saisir la complexité de la nature humaine peut être démontrée.
Expériences sur la rétroaction binaire
KTO et DRO utilisent tous deux des mécanismes de rétroaction binaires tels que « j’aime » et « je n’aime pas » au lieu de préférences appariées. Ces rétroactions binaires proviennent d'un ensemble de données de préférences, dans lequel les réponses souhaitées sont étiquetées comme exemples positifs et les réponses indésirables sont étiquetées comme exemples négatifs. Nous avons également besoin de recherches plus approfondies sur des ensembles de données binaires réalistes. De plus, les ensembles de données binaires sont plus faciles à collecter que les données de préférences, il est donc prévu d'utiliser des ensembles de données de rétroaction binaires plus volumineux pour l'alignement. Cependant, le bruit dans la rétroaction binaire peut être plus évident que le bruit dans l'ensemble de données de préférence, donc comment filtrer efficacement les données bruitées est également une direction de recherche très intéressante.
Expérimenter des commentaires utiles sur l'IA
Les commentaires actuels de l’IA comprennent principalement des commentaires inoffensifs dans le RLAIF et un classement des commentaires dans le DPO itératif. Cependant, lors de l’utilisation de RLAIF, des commentaires utiles sont toujours fournis par des annotateurs humains. Cette approche est justifiée car générer des réponses utiles est beaucoup plus difficile que d’identifier des retours nuisibles. Une direction de recherche future intéressante consiste à utiliser le LLM pour générer des commentaires utiles, permettant ainsi au LLM de s’améliorer.
Accélérez l’apprentissage Nash
Les méthodes d'apprentissage Nash peuvent modéliser efficacement les préférences par paires et résoudre les incohérences entre les annotations humaines. Cependant, plusieurs itérations sont nécessaires pour converger vers la stratégie optimale. Bien que son auteur n’ait pas explicitement indiqué le temps nécessaire à l’alignement, on peut deviner qu’il sera beaucoup plus lent que les modèles de récompense implicite tels que le DPO. Par conséquent, l’amélioration de la vitesse du processus d’apprentissage de Nash est également une direction de recherche digne d’attention.
Fin de l'itération/apprentissage en ligne
Lorsque vous utilisez une formation itérative/en ligne, il est essentiel de déterminer quand terminer une itération. Des recherches antérieures ont montré que l'apprentissage itératif réduit parfois les performances du LLM sur certaines tâches, ce qui peut être un signe de surapprentissage. Cependant, aucun chercheur n’a encore exploré comment déterminer l’époque raisonnable pour terminer les itérations.
SFT + Alignement simplifié
Les approches actuelles mettent généralement en œuvre la SFT et l’alignement de manière séquentielle. Cependant, cette approche conduit souvent à des oublis catastrophiques et rend l’ensemble du processus de formation plus laborieux. La méthode PAFT atténue les oublis catastrophiques en ajustant d'abord SFT et l'alignement séparément, puis en les fusionnant, mais cela augmente également la complexité. En revanche, la technologie ORPO intègre les deux processus simultanément, mais entraîne une dégradation des performances. Alors, comment combiner efficacement SFT et alignement pour obtenir des performances élevées tout en maintenant une efficacité élevée ? Il s’agit encore d’un défi qui doit être résolu.
Voir l'article original pour plus de détails.