nouvelles

Quelle est l’importance de la post-formation ? Un chercheur d'AI2 explique en détail les secrets post-formation des modèles de pointe dans un long article

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Qiao Yang

[Introduction à la nouvelle sagesse]De plus en plus d’études ont montré que la post-formation est tout aussi importante pour modéliser les performances. Nathan Lambert, chercheur en apprentissage automatique chez Allen AI, a récemment publié un article de blog technique résumant les recettes de formation post-modèle utilisées par les géants de la technologie.

Avec le développement rapide des cercles académiques et industriels LLM, non seulement la puissance de calcul et les données utilisées pour la pré-formation sont déployées de manière folle, mais les méthodes d'alignement et de réglage fin de la post-formation sont également constamment mises à jour.

Les modèles publiés précédemment tels que InstructGPT et WebGPT utilisent des méthodes RLHF standard, et le style et l'échelle de gestion des données semblent obsolètes.

Ces derniers mois, des géants de l'IA tels que Meta, Google et NVIDIA ont publié des modèles open source, accompagnés d'articles ou de rapports détaillés, notamment , , , , et le rapport sur le modèle de base d'Apple Intellegence.

À partir de ces informations divulguées, nous pouvons voir certaines tendances de pointe dans les méthodes post-formation. Nathan Lambert, chercheur chez Allen AI, a récemment publié un article sur ce sujet.


Adresse d'origine : https://www.interconnects.ai/p/frontier-model-post-training


Le Dr Nathan Lambert est diplômé de l'UC Berkeley, a dirigé l'équipe RLHF chez HuggingFace et est actuellement chercheur en apprentissage automatique chez Allen AI.

Dans son article, il souligne que les données synthétiques, la formation itérative, les étiquettes de préférences humaines et le filtrage étendu sont des caractéristiques communes des méthodes post-formation utilisées dans ces modèles. Plus précisément, la nouvelle recette post-entraînement est construite sur les préréglages suivants :

-Les données synthétiques peuvent être de meilleure qualité que les données humaines, en particulier pour les tâches difficiles

- RLHF peut évoluer à des échelles plus grandes que le réglage fin des instructions

- Plusieurs cycles de formation et de génération sont nécessaires pour obtenir le meilleur modèle

- Le filtrage des données est la partie la plus importante de la formation

Ces hypothèses sont largement liées pour former un programme de formation pouvant être étendu à de grandes équipes, ce qui le rend idéal pour les géants de la technologie. Le contenu spécifique de l'article fournit une explication détaillée des quatre points ci-dessus.

Le nouveau Pipeline standard

Si l’on considère que le score ChatBot Arena mesure les performances post-formation du modèle, qui sont largement liées au style et à la robustesse, presque tous les grands laboratoires ont réalisé des gains significatifs grâce à la formation itérative.

Nous n'avons pas encore vu la sortie de Gemini 2 ou GPT-5, qui pourraient réinitialiser le paradigme post-formation actuel et potentiellement débloquer un contrôle plus approfondi sur nos modèles.

Mais du point de vue actuel, les méthodes utilisées par les différents grands laboratoires convergent évidemment, et cette tendance est bien plus nette que prévu.

Données de préférence humaine

Le pipeline RLHF initial se concentre sur les données humaines, qui se présentent sous deux formes principales : 1) des données humaines pour affiner les instructions pour des tâches spécialisées ; 2) des données sur les préférences humaines concernant l'exécution des tâches.

De tels ensembles de données de réglage fin sont coûteux et strictement protégés. À ma connaissance, le seul public est No Robots, que Lambert a publié lorsqu'il faisait partie de l'équipe HuggingFace.


Adresse de l'entrepôt : https://huggingface.co/datasets/HuggingFaceH4/no_robots

Les données sur les préférences humaines sont largement liées aux améliorations apportées à des modèles spécifiques. Mais même lorsque les données peuvent être rendues ouvertes, il n’y a aucune certitude que les préférences d’un modèle puissent être transférées à un autre.

Lambert et son équipe ont fait une tentative similaire sur HuggingFace, mais celle-ci a échoué avec un petit contrat de données payant.

À l’heure actuelle, le seul aspect dans lequel les données humaines sont utilisées sont les données de préférences. À en juger par les données révélées par Llama 2 et d'autres rumeurs, Meta pourrait avoir dépensé entre 10 et 20 millions de dollars en données de préférences, voire plus. Ceci est également limité au modèle final publié et n'inclut pas d'expériences et d'évaluations plus larges.

Nemotron utilise une grande quantité de données synthétiques pour remplacer les données humaines, mais relativement parlant, la mise au point de ce modèle n'est pas si bonne.

Il existe un défi urgent, mais aussi une opportunité, pour la communauté ouverte : déterminer l'étendue de l'intervention humaine dans ce type de données et si elle peut être remplacée par des méthodes telles que le LLM-as-a-Judge ou des modèles de récompense.

RLHF étendu

Thomas Scialom, responsable de l'alignement chez Llama 3, a déclaré sur le podcast Latent Space :

RLHF est beaucoup plus évolutif. C'est moins cher, plus facile à utiliser et donne généralement de meilleures performances.


Il a également déclaré qu'il utiliserait « 100 % du budget des données d'alignement pour les données d'alignement requises dans l'étape RL, plutôt que de consacrer plus de temps aux instructions ».

La plupart des efforts d’alignement open source se concentrent sur le réglage fin des instructions étendues (IFT ou SFT). IFT est facile à utiliser, adapté à une variété de tâches et facile à utiliser avec des données synthétiques.

Mais il est clair que l’industrie n’utilise l’IFT que comme point de départ pour développer le RLHF. Les données SFT se concentrent principalement sur des domaines spécifiques que les modèles précédents n'ont pas réussi à couvrir, puis étendent le RLHF sur cette base.

Le RLHF est un processus itératif et le processus de génération de modèles lui permet de continuer à s'améliorer. L'entraînement en 5 tours est détaillé dans les articles Llama 2 et Nemotron, mais nous ne savons pas s'il y a une limite supérieure à ce nombre.

Llama 3.1 a été entraîné avec 6 séries de données de préférence, Llama 2 a été entraîné avec 5 rondes, Nemotron a été entraîné avec 4 rondes et il y a eu plusieurs séries de réglages précis des instructions auparavant.

Pour les données de préférences humaines, plusieurs itérations peuvent être motivées principalement par des considérations de faisabilité :

1. Les données sont transférées de la société d'annotation au laboratoire par lots

2. Organiser plusieurs séries de formations à petite échelle peut réduire le risque de livraison du produit final. Au lieu d'attendre que toutes les données soient disponibles avant de commencer l'entraînement, laissez le modèle se mettre progressivement sur la bonne voie.

De tels facteurs pratiques peuvent sembler sans conséquence, mais ils déclenchent souvent certaines normes industrielles.

L'image ci-dessous est tirée de l'article Llama 2, qui enregistre les données liées à 5 cycles d'échantillonnage de rejet et de PPO.


Nemotron effectue également la garniture SFT à 2 roues et l'alignement des 4 roues. Parmi eux, le RPO est un modèle de récompense pondéré par l’optimiseur DPO.


Des méthodes RLHF itératives similaires remontent à « l’Intelligence Artificielle Constitutionnelle » proposée par Anthropic, mais la communauté open source ne semble pas avoir reproduit ce résultat à grande échelle.


Actuellement, la communauté universitaire s'intéresse à la « formation en ligne des DPO », qui va dans le même sens, mais n'accorde pas autant d'attention aux données entre les cycles. Cette approche nécessite encore aujourd’hui beaucoup de travail manuel, mais une fois le processus automatisé, le DPO en ligne sera l’avenir.

En fait, la sélection des algorithmes de chaque équipe pour la phase post-formation ne devrait pas être aussi rigide. Le DPO et le PPO ont chacun leurs propres avantages et inconvénients. Le premier est plus facile à mettre à l’échelle, mais les méthodes inspirées du PPO (telles que le RL en ligne) ont une limite supérieure de performances plus élevée.

Ces approches sont actuellement motivées principalement par la simplicité, car ces équipes sont encore relativement nouvelles et construisent des systèmes modulaires, et un membre de l'équipe post-formation de Llama 3 a confirmé cette approche de la simplicité de l'ingénierie.


Llama 3 a une boucle post-formation simple : échantillonnage par rejet, SFT et DPO. Cela se traduit non seulement par des performances optimales à un niveau empirique, mais permet également la reproductibilité. De plus, les équipes peuvent explorer de nombreux flux de travail différents (par exemple, codage, mathématiques) de manière asynchrone, rassemblant ainsi les données dans une même boucle simple.
données synthétiques

Une partie importante de ce nouveau cycle RLHF concerne les données de commande synthétiques qui dépassent les capacités humaines sur la plupart des tâches.

Si vous pouvez améliorer un peu le modèle et générer de meilleures instructions, alors « recommencez » et mettez à jour les points de contrôle.

Meta déclare explicitement dans le document qu'ils "utilisent le modèle 405B pour améliorer la qualité post-formation de nos plus petits modèles" ; Google le fait en distillant Gemini Flash, mais en fait, la plupart des modèles de pointe incluent probablement des étapes similaires.

J'ai entendu dire qu'OpenAI utilise 50 000 milliards de jetons de données pour former le modèle de nouvelle génération, dont la plupart sont des données synthétiques. Il y a eu une rumeur l'année dernière selon laquelle Anthropic disposait d'un « corpus Constitution AI à l'échelle de pré-formation », ce qui semble désormais raisonnable.

Ces sociétés d’IA ont pris conscience de l’importance des données synthétiques il y a 12 à 18 mois, lorsqu’elles n’utilisaient plus les résultats du modèle pour la formation par auto-itération. Mais Meta est différent car il bénéficie d’autres modèles ouverts meilleurs.

Un regard sur la post-formation d’aujourd’hui montre clairement que le problème des plantages de modèles sur des données synthétiques est grandement exagéré. L'effondrement du modèle ne se produit que lorsque les données d'origine sont supprimées et que seules les nouvelles données générées sont laissées dans un environnement artificiellement configuré.

La qualité des données est reine

Une grande partie du rapport Llama 3.1 porte sur les détails de la gestion des données, chaque sous-domaine pertinent nécessitant des instructions de gestion larges et spécifiques.

Ceci est cohérent avec ce que je sais de l'équipe post-formation dirigée par John Schulman chez OpenAI et d'autres équipes similaires : spécifiez un domaine spécifique, obtenez des données pertinentes et le modèle s'améliore.

Mais sans un filtrage et une gestion approfondis des données, aucune des méthodes RLHF ci-dessus ne fonctionnera.

Chez Allen AI, nous avons commencé à donner davantage la priorité aux données dans le processus post-formation, et vous pouvez immédiatement ressentir le changement dans la vitesse d'amélioration du modèle.

Étude de cas - Nemotron et Lama

Le processus post-formation de Llama est le suivant :


Cette image de Nemotron est relativement simple :


Ensemble, nous pouvons voir ce que la plupart des méthodes ont en commun.

Mais le graphique ci-dessous, ainsi que la plupart des documents de recherche du secteur, ignorent les données.


Des modèles tels que Llama 3.1 ont mentionné de nombreux détails dans le rapport, tels que la régularisation, l'ajustement de la fonction de perte, la moyenne du modèle, etc., mais il s'agit de gains marginaux dans les performances du modèle et dépassent largement la portée du cycle de réglage fin de base. .

À un moment donné, ces détails deviendront insignifiants.

Références :

https://www.interconnects.ai/p/frontier-model-post-training