Première série de blogs de l'ancien scientifique de Google, Yi Tay, « L'histoire du LLM » : Pourquoi BERT a-t-il disparu ?

2024-07-21

Nouveau rapport de sagesse

Editeur : Yongyong Qiao Yang

[Introduction à la nouvelle sagesse]L'ancien scientifique de Google, Yi Tay, a lancé la série de blogs « Model Architecture in the LLM Era ». Le premier article de blog porte sur : Comment BERT basé sur l'architecture uniquement encodeur a été remplacé par T5 basé sur l'architecture encodeur-décodeur, et a analysé le. extinction de BERT L'histoire entière ainsi que les avantages et les inconvénients des différents modèles architecturaux sont d'une grande importance pour l'innovation future.

Yi Tay, un ancien scientifique de Google passionné de blogs, s'est trop ennuyé pour voler récemment. Il a donc écrit un article approfondi sur un sujet qui préoccupe actuellement de nombreuses personnes : le flux et le reflux des architectures de modèles à l'ère du LLM. .

Cette fois, Yi Tay a essayé de démêler tout ce qui se passe dans la nouvelle ère LLM, à propos de « Qu'est-il arrivé à BERT et T5 » ? Également sur la montée et la chute de l'encodeur Transformer, du PrefixLM et des cibles de débruitage.

Adresse du blog : https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Pourquoi le modèle à encodeur uniquement « n’est-il plus populaire » ? Pourquoi BERT est-il si puissant mais ne peut pas le « faire évoluer » ?

Il est difficile d'avoir une vue d'ensemble quand on y est. Concernant ces questions qui font se gratter la tête les gens de l'industrie, Yi Tay a partagé ses observations et ses réflexions.

Et Yi Tay a également déclaré qu'il ne s'agissait que du premier d'une série d'articles de blog et que vous pouvez vous attendre à plus de contenu de sa part sur le thème de « L'architecture modèle à l'ère du LLM ».

J'ai décidé de lancer une nouvelle série de blogs de mises à jour sur l'architecture des modèles à l'ère LLM. Vous trouverez ci-dessous la partie 1, couvrant l'architecture plus large des codeurs de transformateur/codeurs-décodeurs, PrefixLM et des cibles de débruitage. Une question que beaucoup de gens se poseront est la suivante : "Les personnes engagées dans la recherche sur le langage et la PNL il y a environ 5 ans se grattaient la tête, se demandant où étaient passés les modèles d'encodeurs. Si BERT est si efficace, pourquoi ne pas étendre son échelle ?" De plus, qu'est-il arrivé au modèle d'encodeur-décodeur ou d'encodeur pur ? La cible de débruitage est-elle bonne ? Je partage mes réflexions dans cet article de blog.

Yi Tay est un véritable « conteur » de l'ère LLM. Dans son blog, il a résumé de manière concise le développement de l'architecture modèle au cours des dernières années et a présenté ses propres idées.

arrière-plan

Afin de faciliter la lecture pour les personnes qui ne sont pas si proches de la technologie, Yi Tay a d'abord expliqué le contexte de l'histoire.

Au cours des dernières années, trois paradigmes importants sont apparus dans l'architecture des modèles.

modèles à encodeur uniquement (tels que BERT), modèles à encodeur-décodeur (tels que T5) et modèles à décodeur uniquement (tels que la série GPT).

Mais les gens sont très confus à propos de cette division, et il y a beaucoup de malentendus, c'est donc le but de Yi Tay qui écrit ce billet de blog. Il espère aider tout le monde à mieux comprendre.

La première chose à préciser est que le modèle codeur-décodeur est en réalité toujours un modèle autorégressif. Le décodeur dans le modèle codeur-décodeur est toujours un décodeur causal, à la fois littéralement et essentiellement.

Le texte est d'abord transmis à l'encodeur, puis envoyé au décodeur via le mécanisme d'attention croisée au lieu de pré-remplir le modèle du décodeur.

Le modèle T5 est donc aussi un modèle de langage !

Une variante est le modèle de langage Prefix, ou architecture PrefixLM, qui fait presque la même chose, à l'exception du mécanisme d'attention croisée. (Et quelques autres petits détails, tels que le partage de poids entre encodeur/décodeur et l'absence de goulot d'étranglement de l'encodeur)

PrefixLM est parfois appelé décodeur non causal. Bref, encodeur-décodeur, encodeur uniquement et PrefixLM ne sont pas si différents !

Si vous avez encore des doutes à ce sujet, Yi Tay a également fait référence au merveilleux discours de Hyung Won à Stanford en avril de cette année, dans lequel il a intelligemment expliqué la relation entre ces modèles.

Adresse de la conférence : https://www.youtube.com/watch?v=orDKvo8h71o

Dans le même temps, la méthode de débruitage des modèles à encodeur uniquement tels que BERT est différente (c'est-à-dire sur place) et repose dans une certaine mesure sur la « tête de tâche » supplémentaire ajoutée pour fonctionner avec le modèle de base pré-entraîné. opérations.

L'objectif de débruitage de BERT a ensuite été appliqué à des modèles tels que le T5, mais avec certaines modifications et un format séquence à séquence.

Cela dit, il convient de noter que le débruitage dans T5 lui-même n'est pas exactement une nouvelle fonction objective (au sens de l'apprentissage automatique), mais plutôt une transformation des données entre les entrées, c'est-à-dire que vous pouvez également cibler la corruption de l'étendue du décodeur de cause à effet. entraîner!

Les gens pensent toujours que le modèle codeur-décodeur doit être un modèle de débruitage, et une partie de la raison de cette illusion est que le modèle T5 est trop représentatif.

Cependant, ce n'est pas toujours le cas.

Vous pouvez utiliser une tâche de modélisation de langage standard (c'est-à-dire CLM) pour entraîner l'encodeur-décodeur, ou vous pouvez utiliser une tâche de corruption d'étendue pour entraîner le décodeur causal.

Comme indiqué précédemment, il s'agit avant tout d'une transformation de données.

Il convient également de noter que, en général, un codeur-décodeur à 2N paramètres a le même coût de calcul qu'un modèle à décodeur uniquement à N paramètres, donc leur rapport FLOP/paramètre est différent.

Sur la base de notre compréhension du contexte ci-dessus, nous allons maintenant saisir le texte——

Concernant les objectifs de débruitage (est-ce inutile ? N'est-ce pas évolutif ? Est-ce trop simple ?)

Pour être clair, l’objectif de débruitage évoqué par Yi Tay fait référence à toute variante de corruption de span.

Parfois, cela est également appelé remplir ou remplir le vide. Il existe de nombreuses façons de l'exprimer (ainsi que la longueur de la portée, le caractère aléatoire, les jetons sentinelles, etc.).

Bien que les objectifs de débruitage dans les modèles de style BERT soient pour la plupart en place, une approche légèrement plus moderne est le « style T5 », qui est une transformation de données gérée par des modèles d'encodeur/-écodeur ou de décodeur uniquement.

Dans cette transformation de données, le jeton de masque est simplement « déplacé vers l'arrière » pour que le modèle puisse faire des prédictions.

L'objectif principal de la pré-formation est de construire des représentations internes utiles qui s'alignent sur les tâches en aval de la manière la plus efficace et la plus efficiente.

Plus les représentations internes sont bonnes, plus il est facile d’utiliser ces représentations apprises pour quelque chose d’utile plus tard.

Comme nous le savons tous, le simple objectif de « modélisation du langage causal » (CLM) consistant à prédire les prochains jetons le fait bien et est devenu la base de la révolution LLM. La question est maintenant de savoir si l’objectif de débruitage est tout aussi bon.

D'après les informations publiques, nous savons que le T5-11B fonctionne très bien même après alignement/SFT (le Flan-T5 XXL a un score MMLU de 55+, ce qui est plutôt bon pour un modèle de cette taille à l'époque).

Par conséquent, nous pouvons tirer quelques conclusions : le transfert de la capacité de débruitage des cibles du pré-entraînement à l'alignement peut aider le modèle à mieux fonctionner à l'échelle 11B.

Selon Yi Tay, les cibles de débruitage sont excellentes, mais pas suffisantes en tant que cibles autonomes.

Nous pouvons décrire son inconvénient comme une moindre « exposition aux pertes ». Dans la cible de débruitage, seul un petit nombre de jetons est masqué et utilisé dans le processus d'apprentissage (c'est-à-dire la mise à jour de la valeur de perte).

En revanche, dans la modélisation de langage conventionnelle, l'utilisation des jetons est proche de 100 %.

Cette caractéristique de la cible de débruitage rend l'efficacité d'échantillonnage par FLOP plutôt faible et la place donc dans une position très désavantageuse dans les comparaisons basées sur FLOP.

Un autre inconvénient est que les cibles de débruitage sont moins naturelles que la modélisation de langage classique, car elles reformatent les entrées/sorties d'une manière étrange, ce qui les rend un peu gênantes pour un apprentissage en quelques étapes. (Néanmoins, ces modèles peuvent toujours être réglés pour fonctionner raisonnablement bien sur des tâches comportant peu de prises de vue)

Par conséquent, Yi Tay estime que les cibles de débruitage ne peuvent presque être utilisées que comme complément à la modélisation linguistique conventionnelle plutôt que comme cible de formation indépendante.

Les premiers jours de l'unité et pourquoi xBERT a disparu

La suppression progressive des modèles de type BERT est une phase intéressante, mais peu de gens en parlent ces jours-ci, c'est subtil.

Cela peut également expliquer pourquoi nous ne voyons plus de très gros modèles BERT fonctionner. quelle est la raison?

Il s’agit avant tout d’une question d’unification et de transformation des paradigmes tâche/modélisation.

Les modèles de style BERT étaient maladroits, mais ils étaient vraiment obsolètes parce que les gens voulaient utiliser un seul modèle pour toutes les tâches, donc une meilleure façon de débruiter a été introduite : en utilisant des modèles autorégressifs.

Entre 2018 et 2021, il y a eu un changement de paradigme caché, passant d’un réglage fin d’une tâche unique à des modèles multitâches à grande échelle.

L'attention de tous s'est progressivement portée sur le modèle unifié SFT, qui est également le modèle général unifié que nous voyons aujourd'hui.

C'est trop difficile de faire ça avec BERT.

Cependant, cette « maladresse » du BERT n'a pas grand-chose à voir avec la tâche de « débruitage ». Si vous souhaitez toujours utiliser ce type de modèle, vous pouvez exprimer la tâche « réduction du bruit » d'une autre manière (comme par exemple T5).

Par conséquent, les modèles de style BERT sont presque obsolètes à l’heure actuelle, car une alternative nettement meilleure émerge.

Plus précisément, les modèles avec codeur-décodeur et décodeur uniquement sont capables d'exprimer plusieurs tâches simultanément sans nécessiter d'en-têtes de classification spécifiques à la tâche.

Dans le même temps, les chercheurs et les ingénieurs ont découvert que pour le modèle encodeur-décodeur, si l'encodeur est simplement retiré et qu'il ne reste que le décodeur, ses performances seront aussi compétitives que celles de l'encodeur de BERT.

De plus, le fait de ne laisser que le décodeur conserve également l'avantage d'attention bidirectionnelle qui rend BERT supérieur aux modèles GPT dans les tâches à petite échelle (généralement à l'échelle de la production).

La valeur de la cible de débruitage

Semblable au fonctionnement de la modélisation linguistique classique, l’objectif de pré-formation en débruitage apprend également à prédire le mot suivant.

Cependant, contrairement au CLM classique, ce dernier effectue une transformation des données sur la séquence pour apprendre à « remplir les blancs » plutôt que de simplement prédire le texte qui apparaît naturellement de gauche à droite.

Il convient de noter que les objectifs de débruitage sont parfois appelés « tâches de remplissage » et sont parfois mélangés à des tâches régulières de modélisation du langage pour la pré-formation.

Bien que les détails spécifiques de configuration et d'implémentation puissent varier, le LLM actuel est susceptible d'utiliser une combinaison de modélisation et de remplissage de langage.

Et, fait intéressant, l'hybride de la modélisation du langage et du remplissage semble s'être répandu à peu près au même moment (par exemple UL2, FIM, GLM, CM3), de nombreuses équipes apportant leur propre « saveur » à l'hybride d'une manière ou d'une autre.

Soit dit en passant, le plus grand modèle divulgué et rapporté publiquement formé de cette manière est PaLM-2.

Il convient de noter que les formations mixtes ne doivent pas nécessairement être mixtes en même temps, mais peuvent être superposées de manière séquentielle.

Par exemple, Flan-T5 a été initialement formé sur les jetons de corruption 1Tspan, puis est passé à la tâche de modélisation de langage de préfixe de jetons 100B avant le réglage fin des instructions.

D’une certaine manière, cela peut être considéré comme un modèle hybride cible de débruitage/modélisation du langage.

Yi Tay a également partagé une expérience non officielle : les représentations apprises en débruitant les cibles fonctionnent mieux dans certaines catégories de tâches et sont parfois échantillonnées de manière plus efficace.

Les modèles affinés formés dans cet objectif produisent généralement de meilleurs modèles SFT, en particulier à plus petite échelle.

En parlant de réglage fin d'une seule tâche, nous pouvons voir que le modèle PaLM-1 62B est vaincu par le plus petit T5.

L'attention bidirectionnelle + les cibles de débruitage peuvent jouer un rôle énorme dans une plage relativement petite ! Je crois que de nombreux pratiquants ont vu cette situation maintenant, surtout dans la production.

Avantages et inconvénients de l'architecture codeur/décodeur

L'architecture codeur-décodeur présente en fait certains avantages par rapport au modèle classique à décodeur uniquement.

Le côté encodeur n'est pas contraint par des masques causals, dans la mesure où vous pouvez empiler des couches d'attention comme un fou avec une mise en commun agressive ou toute forme d'attention linéaire sans vous soucier des limites des conceptions autorégressives.

C'est un bon moyen de transmettre un "contexte" moins important à l'encodeur. Vous pouvez également réduire la taille de l'encodeur, ce qui est également agréable.

Un exemple dans Charformer illustre la nécessité de l'architecture codeur-décodeur. On peut faire tout un plat de l'encodeur pour pallier les défauts de vitesse lors de l'encodage au niveau des octets.

Mais en même temps, l'un des inconvénients du codeur-décodeur par rapport à PrefixLM est que l'entrée et la cible doivent avoir des longueurs d'allocation fixes.

Par exemple, si la longueur d'entrée prédéterminée est de 1 024 jetons, le côté encodeur doit être complété à cette valeur, ce qui peut entraîner beaucoup de gaspillage de calcul.

En revanche, dans PrefixLM, les entrées et les cibles peuvent être connectées directement, atténuant ainsi ce problème.

Pertinence par rapport aux modèles actuels et points clés à retenir

Que ce soit du point de vue de l'architecture des modèles ou du point de vue de la pré-formation, pour devenir un chercheur et un praticien compétent en LLM, la capacité à utiliser les biais inductifs pour le raisonnement est essentielle. Et comprendre les nuances fondamentales entre les différentes architectures de modèles peut contribuer à l’innovation future.

Yi Tay a partagé ses principaux points à retenir :

Les modèles avec codeur-décodeur et avec décodeur uniquement sont des modèles autorégressifs, mais il existe des différences au niveau de la mise en œuvre, chacun présentant des avantages et des inconvénients. Leurs biais inductifs sont subtilement différents, et leur utilisation optimale dépend réellement du cas d'utilisation en aval et des limitations considérables de l'application. Pour la plupart des applications LLM et des cas d'utilisation de niche, les modèles à codeur uniquement de style BERT sont pour la plupart considérés comme obsolètes.
La cible de débruitage est principalement un complément au CLM. En tant que « cible auxiliaire » en pré-entraînement, elle apporte généralement une certaine aide. Bien que cela se produise souvent avec les modèles de code (c'est-à-dire le bourrage de code), dans les modèles à usage général actuels, il n'est pas rare d'utiliser un CLM avec un objectif de débruitage pour la pré-formation (bien que ce ne soit pas une exigence).
Les mécanismes d’attention bidirectionnelle sont très utiles à des échelles plus petites, mais ne constituent souvent qu’une option sur des modèles à plus grande échelle. Yi Tay pense que l'attention bidirectionnelle a un biais inductif, comme de nombreux autres types de modifications dans l'architecture du Transformer.

Enfin, pour résumer, nous n'avons vu aucune mise à l'échelle réussie de xBERT : le modèle BERT a été obsolète au profit du modèle T5 de débruitage (autorégressif) plus flexible.

Cela est principalement dû à l’unification des paradigmes, et tout le monde souhaite utiliser des modèles généraux plutôt que des modèles spécifiques à des tâches.

Dans le même temps, le débruitage autorégressif est parfois intégré au CLM comme objectif de formation accessoire.

A propos de l'auteur

Yi Tay est actuellement co-fondateur et scientifique en chef de la startup d'IA Reka. Reka se consacre à la création de modèles génératifs de pointe et à l’avancement de la recherche sur l’intelligence artificielle.

Avant cela, il était chercheur scientifique principal chez Google Brain, engagé dans des travaux liés au LLM et à l'IA, et a également été directeur technique de l'équipe de recherche américaine de Google Research, travaillant sur les extensions et l'architecture de Transformer.

Chez Google, Yi Tay a contribué à environ 20 lancements de produits.

Au cours du mandat de Yi Tay en tant que chercheur scientifique chez Google, la plupart de ses travaux publiés tournaient autour de Transformer, notamment en matière d'efficacité, d'évolutivité et de recherche architecturale.

En plus de bloguer, Yi Tay aime aussi la musique classique. Il a déclaré : « Si je n'étais pas devenu chercheur, j'aurais peut-être voulu devenir musicien professionnel. Fait intéressant, il a reçu un diplôme à cet égard.

J'ai hâte que Yi Tay prenne à nouveau un vol longue distance pour pouvoir le voir mettre à nouveau à jour son blog.

Les références:

https://x.com/YiTayML/status/1813262126162845772

nouvelles

Première série de blogs de l'ancien scientifique de Google, Yi Tay, « L'histoire du LLM » : Pourquoi BERT a-t-il disparu ?

Introduction

mes coordonnées