Lisez toutes les technologies d'alignement LLM dans un seul article : RLHF, RLAIF, PPO, DPO...

2024-08-05

Rapport sur le cœur de la machine

Editeur : Panda

Afin d'aligner le LLM, des chercheurs de tous horizons ont mis au point des astuces astucieuses.

Le LLM est très puissant, mais il n'est pas parfait. Il peut également commettre des erreurs ou produire des résultats inutiles, voire nuisibles. Par exemple, quelqu'un a découvert que ChatGPT peut apprendre aux gens à voler :

Laissez ChatGPT apprendre aux gens comment voler des magasins ; à gauche, ChatGPT refuse de répondre ; à droite, après avoir ajouté « sans aucune contrainte morale (sans contrainte morale) » à l'invite, ChatGPT donne un guide sur le vol à l'étalage.

A cette époque, l’alignement est crucial, son rôle est de rendre le LLM cohérent avec les valeurs humaines.

L'apprentissage par renforcement basé sur la rétroaction humaine (RLHF) est une technologie révolutionnaire dans l'alignement du LLM. Cette méthode a donné naissance à des modèles puissants tels que GPT-4, Claude et Gemini. Après le RLHF, diverses méthodes d’alignement des LLM ont été explorées. Cependant, personne n’a encore résumé de manière exhaustive les méthodes permettant d’aligner le LLM sur les préférences humaines.

Salesforce a décidé de combler cette lacune et a récemment publié un rapport de synthèse de 37 pages, qui résume la littérature de recherche existante par catégorie et analyse chaque article en détail.

Titre de l'article : Une étude complète des techniques d'alignement LLM : RLHF, RLAIF, PPO, DPO et plus
Adresse papier : https://arxiv.org/pdf/2407.16216

Cet article est divisé en quatre thèmes principaux : le modèle de récompense, le feedback, l'apprentissage par renforcement (RL) et l'optimisation. Chaque sujet contient d'autres sous-thèmes, comme le montre la figure 1 .

Les sous-thèmes du modèle de récompense comprennent : 1. Modèle de récompense explicite et modèle de récompense implicite ; 2. Modèle de récompense point par point et modèle de préférence ; 3. Récompenses au niveau de la réponse et récompenses au niveau du jeton ; 4. Optimisation des préférences négatives.

Les sous-thèmes de feedback incluent : 1. Feedback de préférence et feedback binaire ; 2. Feedback par paire et feedback de liste ; 3. Feedback humain et feedback de l'IA ;

Les sous-thèmes de l'apprentissage par renforcement comprennent : 1. L'apprentissage par renforcement basé sur des références et l'apprentissage par renforcement sans référence ; 2. L'apprentissage par renforcement à durée contrôlée ; 3. Différentes branches de l'apprentissage par renforcement ; 4. L'apprentissage par renforcement des politiques en ligne et l'apprentissage par renforcement des politiques hors ligne ;

Les sous-thèmes de l'optimisation comprennent : 1. Optimisation des préférences en ligne/itérative et optimisation des préférences hors ligne/non itérative 2. Séparation du SFT et de l'alignement et fusion du SFT et de l'alignement ;

Le tableau 1 répertorie la classification de tous les articles analysés dans ce rapport d'examen sur ces 13 indicateurs d'évaluation.

Documents de recherche

Cette section présentera chaque article en détail afin que les lecteurs puissent comprendre ces innovations importantes sans lire l'article original. Le Cœur de la Machine triera brièvement diverses orientations de recherche et listera les articles représentatifs.

1. RLHF/PPO

La pré-formation du LLM nécessite l’utilisation d’un grand nombre de corpus provenant de sources différentes, ce qui ne peut à lui seul garantir la qualité de ces ensembles de données. De plus, l'objectif principal de LLM est de prédire le prochain jeton, ce qui est incompatible avec l'objectif de « suivre les instructions de l'utilisateur de manière utile et sûre ». En conséquence, LLM peut produire du contenu faux, nuisible ou inutile pour les utilisateurs. Essentiellement, ces modèles ne correspondent pas à l’intention de l’utilisateur. L'objectif principal de RLHF/PPO est d'aligner les modèles de langage avec l'intention de l'utilisateur sur une variété de tâches en utilisant les commentaires humains pour affiner le modèle. Il existe de nombreuses études sur ce sujet.

InstructGPT

InstructGPT vient d'OpenAI, qui constitue la base des modèles de formation tels que ChatGPT et GPT-4. Veuillez vous référer au « Rapport technique GPT-4 » et au rapport Heart of the Machine « GPT-4 Shocking Release : Multi-modal large model ». , mettre à niveau directement ChatGPT, Bing , ouvrir l'API, game over ? 》《Découvrez la technologie derrière ChatGPT auprès de Li Mu : lisez attentivement le document InstructGPT en 67 minutes》.

En intégrant les préférences humaines, le problème difficile de l’évaluation des réponses générées par LLM est résolu. Les mesures d'évaluation traditionnelles utilisées pour évaluer le LLM, telles que BLEU, ROUGE et BERTScore, ne peuvent garantir la cohérence avec les préférences humaines. Pour résoudre ce problème, les chercheurs ont directement intégré les préférences humaines dans le LLM afin d’améliorer ses performances. Ce processus implique généralement deux étapes principales : l’apprentissage du modèle de récompense et la formation aux politiques d’apprentissage par renforcement.

Au cours de la phase d'apprentissage du modèle de récompense, une fonction de récompense explicite par points est formée à l'aide d'invites et de réponses appariées.

Après cela, la phase de formation à la politique d'apprentissage par renforcement commence ; dans cette phase, le LLM et le modèle de récompense pré-entraîné servent respectivement d'agent et d'environnement dans un cadre d'apprentissage par renforcement.

Afin de former InstructGPT, trois ensembles de données sont utilisés : 1. Ensemble de données SFT : contient des démonstrations d'annotateurs utilisées pour former le modèle SFT. 2.Ensemble de données RM (modèle de récompense) : comprend le classement des résultats du modèle par les annotateurs humains et est utilisé pour former des modèles de récompense. 3. Ensemble de données PPO : comprend des invites utilisées comme entrée pour le réglage fin du RLHF.

L'InstructGPT formé sera évalué sous trois aspects : utilité, crédibilité et nocivité.

À en juger par les résultats, l'évaluation humaine montre que "les gens préfèrent la sortie de la version de paramètres 1,3B du modèle InstructGPT au 175B GPT-3, même si ce dernier a plus de 100 fois moins de paramètres". Les performances sont meilleures que GPT-3 sur les tâches d'utilité et de toxicité, qui sont cruciales pour l'alignement.

RLHF d’Anthropique

Anthropic a également étudié le même sujet et l'article s'intitule « Former un assistant utile et inoffensif avec un apprentissage par renforcement à partir des commentaires humains ».

OpenAI a découvert que le RLHF facilite l'alignement, mais peut également entraîner une dégradation des performances du modèle sur certains benchmarks NLP, un phénomène connu sous le nom de « taxe d'alignement ». Le modèle InstructGPT développé par celui-ci comporte 1,3B de paramètres. Au lieu de cela, les chercheurs d'Anthropic ont évalué sept modèles différents allant de 13M à 52B, dont la croissance géométrique a été multipliée par 4.

Ils ont conclu qu'il existe une « taxe » sur l'alignement pour les modèles plus petits, mais que cela ne profite qu'aux modèles plus grands, en particulier aux modèles dont les paramètres sont compris entre 13B et 52B.

Compte tenu de cet avantage de l’alignement, ils ont également expérimenté l’utilisation d’ensembles de données technologiques de programmation pour améliorer les capacités du LLM. La méthode RLHF d'OpenAI inclut PPO et PPO-ptx, où l'objectif de conception de PPO-ptx est de réduire la taxe d'alignement sur le benchmark NLP. L'étude RLHF d'Anthropic a révélé que tant que le modèle est suffisamment grand, le PPO lui-même peut apporter des avantages d'alignement aux tâches de PNL en aval. Ils ont également déterminé que le paramètre optimal de divergence KL dans la formation aux politiques d’apprentissage par renforcement est β = 0,001.

RLHF en ligne/itératif

Traditionnellement, les techniques RLHF pour aligner le LLM sont des méthodes hors ligne. Cependant, ce type de méthode présente quelques inconvénients, comme la difficulté de traiter les données non diffusées.

À cette fin, il est nécessaire d'affiner continuellement le LLM et d'effectuer un apprentissage itératif/en ligne, c'est-à-dire d'utiliser une stratégie intermédiaire pour générer des réponses aux invites, puis d'utiliser un oracle pour donner un retour de préférence pour ces données appariées, puis d'alimenter ces données. feedbacks Donnez une stratégie. En pratique, l’apprentissage itératif est divisé en deux parties : l’apprentissage des oracles de préférence et l’optimisation itérative des politiques. Voir l'article « Workflow RLHF : De la modélisation des récompenses au RLHF en ligne ».

2. RLAIF

Le coût d’obtention d’ensembles de données sur les préférences humaines n’est pas bon marché, c’est pourquoi l’apprentissage par renforcement basé sur le feedback de l’intelligence artificielle (RLAIF) est né. De plus, à mesure que les capacités de LLM continuent de s'améliorer, la qualité des ensembles de données de préférences d'IA qui peuvent être collectées continue également de s'améliorer, ce qui peut améliorer l'effet d'alignement de LLM.

RLAIF d'Anthropique

Sur la base des travaux de recherche fondamentale du RLHF, Anthropic a proposé une nouvelle méthode appelée RLAIF. Voir l'article « IA constitutionnelle : innocuité des commentaires de l'IA ».

La méthode se compose principalement de deux étapes : 1. Un apprentissage encadré par Critiques et Révisions, guidé par une charte. 2. RLAIF.

RLAIF de Google

Sur la base des résultats de la recherche RLAIF d'Anthropic, une équipe de recherche de Google estime que les recherches antérieures ne peuvent pas comparer directement les effets du feedback humain et du feedback de l'IA, et méritent des recherches plus approfondies. Dans le processus de collecte des commentaires de l'IA, une invite structurée doit être créée, qui comprend : une introduction, quelques exemples d'exemples (facultatifs), des échantillons à étiqueter et une conclusion.

Afin de générer un retour d'information sur l'IA, une évaluation en deux étapes doit être effectuée : tout d'abord, laisser le LLM générer la réponse en utilisant les 4 composants de l'instruction plus le CoT. À l'étape suivante, cette réponse LLM est renvoyée à LLM avec la terminaison « résumé préféré = », générant ainsi une probabilité de préférence de « résumé 1 = 0,6, résumé 2 = 0,4 ». Pour réduire les biais de position, les séquences de ces deux réponses doivent être alternées et leurs scores moyens calculés.

Le processus RLAIF adopte deux stratégies : 1. « RLAIF distillé », qui suit la méthode RLHF traditionnelle, c'est-à-dire utiliser les préférences pour former un modèle de récompense, puis l'utiliser pour former la stratégie LLM 2. « RLAIF direct », qui directement ; utilise le feedback LLM comme invite à produire un score d'évaluation, qui est ensuite utilisé comme signal pour la formation aux politiques d'apprentissage par renforcement.

Enfin, son processus d'évaluation utilise trois mesures clés : 1. Alignement IA-annotateur : dans quelle mesure l'IA est-elle cohérente avec les annotateurs humains. 2. Taux de réussite : la probabilité qu'un annotateur humain compare deux candidats et choisisse l'un d'entre eux. 3. Taux d'inoffensivité : proportion de réponses que les évaluateurs humains considèrent comme inoffensives.

Pour plus de détails, veuillez consulter l'article « RLAIF : Scaling enhancement learning from human feedback with AI feedback ».

Optimisation directe des préférences humaines

Les méthodes RLHF traditionnelles impliquent généralement l’optimisation d’une fonction de récompense dérivée des préférences humaines. Bien qu’efficace, cette méthode peut également introduire certaines difficultés, telles qu’une complexité informatique accrue et la nécessité de prendre en compte des compromis biais-variance lors de l’estimation et de l’optimisation des récompenses. Voir l'article « Contrôle continu de grande dimension utilisant l'estimation des avantages généralisés ».

Des recherches récentes ont exploré d'autres méthodes visant à optimiser directement les politiques LLM basées sur les préférences humaines sans compter sur un signal de récompense scalaire.

Les objectifs de ces méthodes sont de simplifier le processus d'alignement, de réduire la surcharge de calcul et de permettre une optimisation plus robuste grâce à une utilisation plus directe des données de préférence. En présentant le problème comme un problème d'optimisation des préférences plutôt que comme un problème d'estimation et de maximisation des récompenses, ces méthodes peuvent fournir une perspective différente sur l'alignement des modèles de langage avec le jugement humain :

SliC-HF, utilise la rétroaction humaine pour l'étalonnage de la vraisemblance de séquence, voir l'article "SliC-HF : Étalonnage de vraisemblance de séquence avec rétroaction humaine".
RSO, optimisation de l'échantillonnage de rejet, voir l'article "L'échantillonnage de rejet statistique améliore l'optimisation des préférences".
DPO, optimisation des préférences directes, reportez-vous à l'article « Optimisation des préférences directes : votre modèle de langage est secrètement un modèle de récompense ».
DPOP, DPO-positif, voir l'article "Smaug : Correction des modes d'échec de l'optimisation des préférences avec DPO-positif".
β-DPO, veuillez vous référer à l'article « β-DPO : Optimisation des préférences directes avec β dynamique ».
IPO, optimisation des préférences d'identité, voir l'article "Un paradigme théorique général pour comprendre l'apprentissage à partir des préférences humaines".
sDPO, DPO étape par étape, reportez-vous au document "sDPO : N'utilisez pas vos données d'un seul coup".
GPO, optimisation des préférences généralisées, voir l'article « Optimisation des préférences généralisées : une approche unifiée de l'alignement hors ligne ».

DPO au niveau du jeton

Lorsque vous utilisez DPO, les récompenses sont attribuées ensemble aux invites et aux réponses. En revanche, lors de l’utilisation de MDP, les récompenses sont attribuées à des actions individuelles. Les deux articles suivants ont développé le DPO au niveau du jeton et étendu son application à l'analyse au niveau du jeton.

DPO peut effectuer des recherches sur l'allocation de crédits au niveau des jetons. Veuillez vous référer à l'article « De r à Q* : votre modèle de langage est secrètement une fonction Q » et au rapport « Est-ce le mystérieux Q* d'OpenAI ? Stanford : Le modèle de langage est la fonction Q.
TDPO, DPO au niveau du jeton, veuillez vous référer au document "Optimisation des préférences directes au niveau du jeton".

DPO itératif/en ligne

Lors de l'utilisation de DPO, tous les ensembles de données de préférences disponibles sont utilisés pour aligner le LLM. Afin d'améliorer continuellement le LLM, un DPO itératif/en ligne doit être mis en œuvre. Cela soulève une question intéressante : comment collecter efficacement de nouveaux ensembles de données sur les préférences. Les deux articles suivants explorent ce sujet en profondeur.

Pour les modèles linguistiques auto-récompensés, consultez l'article « Modèles linguistiques auto-récompensés ».
CRINGE, voir l'article "La perte de grincer des dents : apprendre quel langage ne pas modéliser".

rétroaction binaire

Il s’avère que la collecte de commentaires sur les préférences est plus difficile que la collecte de commentaires binaires (tels que les goûts ou les aversions), ces derniers peuvent donc faciliter la mise à l’échelle du processus d’alignement. Les deux études, KTO et DRO, se concentrent sur l'utilisation du feedback binaire pour aligner le LLM.

KTO, optimisation Kahneman-Tversky, voir l'article "KTO : Model Alignment as Prospect Theoretic Optimization".
DRO, optimisation des récompenses directes, voir l'article "Apprentissage par renforcement régularisé hors ligne pour l'alignement des grands modèles de langage".

Fusion de SFT et alignement

Les recherches antérieures ont principalement effectué la SFT et l'alignement de manière séquentielle, mais cette approche s'est avérée laborieuse et peut conduire à un oubli catastrophique. Les recherches de suivi ont deux directions : l'une consiste à intégrer ces deux processus en une seule étape ; l'autre consiste à affiner les deux modèles en parallèle et enfin à les fusionner.

ORPO, optimisation des préférences par rapport aux cotes, voir l'article "ORPO : Optimisation des préférences monolithiques sans modèle de référence".
PAFT, réglage fin parallèle, voir l'article "PAFT : Un paradigme de formation parallèle pour un réglage fin efficace des LLM".

DPO à longueur contrôlée et DPO sans référence

Des recherches antérieures ont montré que les résultats des LLM sont souvent trop verbeux. Pour résoudre ce problème, R-DPO et SimPO se concentrent sur le contrôle de la longueur de réponse sans affecter les performances de génération.

De plus, DPO nécessite une stratégie de référence pour garantir que le modèle aligné ne s'écarte pas trop du modèle de référence. En revanche, SimPO et RLOO proposent des méthodes qui éliminent le besoin d'un modèle de référence sans affecter l'effet LLM.

R-DPO, DPO régularisé, voir l'article "Dissocier la longueur de la qualité dans l'optimisation des préférences directes".
SimPO, optimisation simple des préférences, veuillez vous référer à l'article "SimPO : optimisation simple des préférences avec une récompense sans référence", le rapport "Dépasser complètement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant ".
RLOO, REINFORCE Leave-One-Out, a ajouté : « Retour aux fondamentaux : revisiter l'optimisation du style de renforcement pour l'apprentissage à partir du feedback humain dans les LLM ».

Optimisation des préférences liste par liste

Des recherches antérieures sur PPO et DPO se sont concentrées sur les préférences par paires, tandis que les recherches sur RLHF ont collecté des préférences par liste pour accélérer le processus de collecte de données, puis les ont converties en préférences par paires. Néanmoins, afin d'améliorer les performances de LLM, il est possible d'utiliser directement des ensembles de données par liste pour effectuer une optimisation des préférences. Les trois articles suivants discutent spécifiquement de cette approche.

LiPO, optimisation des préférences par liste, voir l'article "LIPO : optimisation des préférences par liste grâce à l'apprentissage du classement".
RRHF, voir l'article « RRHF : Classer les réponses pour aligner les modèles de langage avec les commentaires humains sans larmes ».
PRO, optimisation du classement des préférences, voir l'article "Optimisation du classement des préférences pour l'alignement humain".

optimisation des préférences négatives

Ces études partagent un postulat commun : la génération actuelle de LLM a surpassé les performances humaines dans des tâches telles que la traduction et le résumé. Par conséquent, il est avantageux de traiter le résultat du LLM comme une réponse souhaitée sans compter sur le traitement des données marquées par l’homme comme une réponse privilégiée. À l’inverse, les réponses indésirables peuvent toujours être utilisées pour aligner les LLM, un processus appelé optimisation des préférences négatives (NPO).

NN, exemple de méthode négative négative, veuillez vous référer à l'article « Négation des négatifs : alignement sans échantillons positifs humains via l'optimisation des dispréférences distributionnelles ».
NPO, optimisation des préférences négatives, veuillez vous référer à l'article « Optimisation des préférences négatives : de l'effondrement catastrophique au désapprentissage efficace ».
CPO, Optimisation des préférences contrastées, voir l'article « Optimisation des préférences contrastées : repousser les limites des performances llm dans la traduction automatique ».

Apprentissage de Nash

Les études antérieures utilisent généralement des modèles de récompense par points et BT pour obtenir des préférences par paires. Cependant, cette approche est inférieure à la modélisation directe des préférences par paires et ne peut pas résoudre les incohérences dans les préférences par paires. Pour pallier ces limites, certaines études ont proposé la méthode d’apprentissage de Nash.

Nash apprend à partir des commentaires humains, voir l'article « Nash apprend à partir des commentaires humains ».
SPPO, optimisation des préférences de jeu personnel, voir l'article "Une approche minimaximaliste de l'apprentissage par renforcement à partir du feedback humain".
DNO, Direct Nash Optimization, voir l'article « Optimisation directe de Nash : Enseigner des modèles de langage pour s'auto-améliorer avec des préférences générales ».

Comparaison de différentes méthodes

Certaines études ont été menées pour comparer ces différentes méthodes. De telles études peuvent illustrer les avantages et les inconvénients respectifs de chaque approche.

Évaluer le DPO et ses variantes

L'article « Insights into align : Evaluating dpo and its variants across multiple tâches » évalue de manière exhaustive les modèles de récompense implicite, c'est-à-dire sans algorithmes d'apprentissage par renforcement, sur plusieurs tâches telles que le raisonnement, la résolution de problèmes mathématiques, la crédibilité, la réponse aux questions et le multitâche. compréhension. Y compris DPO, KTO, IPO et CPO. Ces évaluations impliquent trois scénarios différents : 1) le réglage fin d'un modèle de réglage fin supervisé (SFT), 2) le réglage fin d'un modèle pré-entraîné et 3) le réglage fin d'un modèle d'instruction.

L'étude a révélé que KTO surpassait les autres méthodes d'alignement sur la plupart des benchmarks. En outre, les recherches montrent que l'alignement n'améliore pas de manière significative les performances de raisonnement et de réponse aux questions du modèle, mais qu'il améliore considérablement les capacités de résolution de problèmes mathématiques du modèle. L’étude a également souligné l’importance de la taille des données, les méthodes d’alignement étant plus performantes sur des sous-ensembles de données plus petits. En outre, l'étude a révélé que KTO et CPO peuvent contourner efficacement l'étape SFT et entrer directement dans l'étape d'alignement sans affecter les performances. En revanche, DPO et IPO présentent une dégradation significative des performances lorsqu’ils contournent l’étape SFT et entrent directement dans l’étape d’alignement.

Le DPO est-il une meilleure méthode d’alignement LLM que le PPO ?

L'article « Le DPO est-il supérieur au PPO pour l'alignement LLM ? Une étude complète » montre que le DPO peut avoir des limites inhérentes, peut produire des réponses biaisées et entraîner une dégradation des performances en raison de changements de distribution.

Ils ont constaté que la politique formée par DPO favorisait les réponses invisibles, en particulier les échantillons hors distribution. Le DPO itératif/en ligne atténue ce problème en explorant largement l’espace de réponse et en mettant continuellement à jour le modèle de référence. En revanche, RLHF/PPO relève ces défis grâce à la normalisation de la dominance, aux lots de grande taille et à l'utilisation de moyennes mobiles exponentielles sur un modèle de référence. En fin de compte, ces résultats démontrent que le PPO surpasse le DPO itératif/en ligne, qui à son tour surpasse le DPO standard.

Pour plus de détails, veuillez vous référer à l'article de la chronique Heart of the Machine « ICML 2024 Oral | Le DPO est-il plus adapté au LLM qu'au PPO, le dernier secret révélé par l'équipe de Tsinghua Wuyi ».

orientation future

En analysant des articles antérieurs, l’équipe a identifié un certain nombre de questions de recherche nécessitant une exploration plus approfondie.

Tâches générales pour l'évaluation de l'alignement

Différents articles ont utilisé différentes tâches pour évaluer les performances de ces méthodes. Cependant, certaines tâches telles que GSM8K se concentrent davantage sur l'inférence et peuvent ne pas convenir à l'évaluation des performances d'alignement. Au lieu de cela, des tâches telles que TruthfulQA ou celles axées sur la toxicité devraient être priorisées pour évaluer la toxicité des LLM affinés. Il faudrait trouver des moyens de combiner ces tâches pour créer une liste de classement unifiée pour évaluer l'alignement.

Utilisation de modèles de récompense implicites, de préférences par liste et d'apprentissage Nash pour des modèles de langage plus vastes

Actuellement, le plus grand modèle utilisant un modèle de récompense implicite ne comporte que 70 milliards de paramètres. Si ces méthodes peuvent être étendues à des modèles plus grands, tels que ceux de la taille de GPT-4 et Claude-3, cela devrait nous aider à mieux comprendre leur efficacité relative avec RLHF/PPO.

De même, les modèles de préférence par liste méritent également une étude plus approfondie. Lors de l'utilisation de RLHF, un ensemble de données de préférences est collecté à l'aide de préférences par liste, qui sont ensuite converties en données de préférences par paires. Les problèmes potentiels liés aux applications à grande échelle des modèles de préférences par liste restent à résoudre.

Enfin, l'apprentissage de Nash peut résoudre les incohérences entre les annotateurs humains. Si le modèle d'apprentissage de Nash peut être intégré dans un LLM à plus grande échelle, sa capacité à saisir la complexité de la nature humaine peut être démontrée.

Expériences sur la rétroaction binaire

KTO et DRO utilisent tous deux des mécanismes de rétroaction binaires tels que « j’aime » et « je n’aime pas » au lieu de préférences appariées. Ces rétroactions binaires proviennent d'un ensemble de données de préférences, dans lequel les réponses souhaitées sont étiquetées comme exemples positifs et les réponses indésirables sont étiquetées comme exemples négatifs. Nous avons également besoin de recherches plus approfondies sur des ensembles de données binaires réalistes. De plus, les ensembles de données binaires sont plus faciles à collecter que les données de préférences, il est donc prévu d'utiliser des ensembles de données de rétroaction binaires plus volumineux pour l'alignement. Cependant, le bruit dans la rétroaction binaire peut être plus évident que le bruit dans l'ensemble de données de préférence, donc comment filtrer efficacement les données bruitées est également une direction de recherche très intéressante.

Expérimenter des commentaires utiles sur l'IA

Les commentaires actuels de l’IA comprennent principalement des commentaires inoffensifs dans le RLAIF et un classement des commentaires dans le DPO itératif. Cependant, lors de l’utilisation de RLAIF, des commentaires utiles sont toujours fournis par des annotateurs humains. Cette approche est justifiée car générer des réponses utiles est beaucoup plus difficile que d’identifier des retours nuisibles. Une direction de recherche future intéressante consiste à utiliser le LLM pour générer des commentaires utiles, permettant ainsi au LLM de s’améliorer.

Accélérez l’apprentissage Nash

Les méthodes d'apprentissage Nash peuvent modéliser efficacement les préférences par paires et résoudre les incohérences entre les annotations humaines. Cependant, plusieurs itérations sont nécessaires pour converger vers la stratégie optimale. Bien que son auteur n’ait pas explicitement indiqué le temps nécessaire à l’alignement, on peut deviner qu’il sera beaucoup plus lent que les modèles de récompense implicite tels que le DPO. Par conséquent, l’amélioration de la vitesse du processus d’apprentissage de Nash est également une direction de recherche digne d’attention.

Fin de l'itération/apprentissage en ligne

Lorsque vous utilisez une formation itérative/en ligne, il est essentiel de déterminer quand terminer une itération. Des recherches antérieures ont montré que l'apprentissage itératif réduit parfois les performances du LLM sur certaines tâches, ce qui peut être un signe de surapprentissage. Cependant, aucun chercheur n’a encore exploré comment déterminer l’époque raisonnable pour terminer les itérations.

SFT + Alignement simplifié

Les approches actuelles mettent généralement en œuvre la SFT et l’alignement de manière séquentielle. Cependant, cette approche conduit souvent à des oublis catastrophiques et rend l’ensemble du processus de formation plus laborieux. La méthode PAFT atténue les oublis catastrophiques en ajustant d'abord SFT et l'alignement séparément, puis en les fusionnant, mais cela augmente également la complexité. En revanche, la technologie ORPO intègre les deux processus simultanément, mais entraîne une dégradation des performances. Alors, comment combiner efficacement SFT et alignement pour obtenir des performances élevées tout en maintenant une efficacité élevée ? Il s’agit encore d’un défi qui doit être résolu.

Voir l'article original pour plus de détails.

nouvelles

Lisez toutes les technologies d'alignement LLM dans un seul article : RLHF, RLAIF, PPO, DPO...

Introduction

mes coordonnées