La prima serie di blog dell'ex scienziato di Google Yi Tay "The Story of LLM": perché BERT è scomparso?

2024-07-21

Nuovo rapporto sulla saggezza

Editore: Yongyong Qiao Yang

[Introduzione alla Nuova Saggezza]L'ex scienziato di Google Yi Tay ha lanciato la serie di blog "Model Architecture in the LLM Era". Il primo post sul blog riguarda: Come BERT basato sull'architettura solo codificatore è stato sostituito da T5 basato sull'architettura codificatore-decodificatore e ha analizzato il. estinzione del BERT Tutta la storia e i vantaggi e gli svantaggi dei diversi modelli architettonici Prendere la storia come una lezione è di grande significato per l'innovazione futura.

Yi Tay, un ex scienziato di Google appassionato di blogging, recentemente era troppo annoiato per volare, quindi ha scritto un articolo approfondito discutendo un argomento di cui molte persone sono attualmente preoccupate: il flusso e riflusso delle architetture modello nell'era LLM .

Questa volta Yi Tay ha cercato di svelare tutto ciò che sta accadendo nella nuova era LLM, su "Cosa è successo a BERT e T5"? Anche sull'ascesa e la caduta del codificatore Transformer, PrefixLM e obiettivi di denoising.

Indirizzo del blog: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Perché il modello solo encoder “non è più popolare”? Perché BERT è così potente ma non riesce a “scalarlo”?

È difficile vedere il quadro completo quando ci sei dentro. Riguardo a questi problemi che fanno grattare la testa alle persone del settore, Yi Tay ha condiviso le sue osservazioni e pensieri.

E Yi Tay ha anche detto che questo è solo il primo di una serie di post sul blog, e puoi aspettarti altri contenuti da lui sull'argomento "Model Architecture in the LLM Era".

Ho deciso di avviare una nuova serie di aggiornamenti sul blog sull'architettura dei modelli nell'era LLM. Di seguito è riportata la Parte 1, che copre l'architettura più ampia di Transformer Encoder/Encoder-Decoder, PrefixLM e target di denoising. Una domanda che molte persone si faranno è: "Le persone impegnate nella ricerca sul linguaggio e sulla PNL circa 5 anni fa si grattavano la testa, chiedendosi dove fossero finiti i modelli di codifica. Se BERT è così efficace, perché non espanderne la portata?" Inoltre, cosa è successo al modello encoder-decoder o encoder puro? L’obiettivo del denoising è buono? Condivido i miei pensieri in questo post del blog.

Yi Tay è un vero e proprio "narratore" nell'era LLM. Nel suo blog ha riassunto in modo conciso lo sviluppo dell'architettura modello negli ultimi anni e ha presentato le proprie intuizioni.

sfondo

Per facilitare la lettura alle persone che non sono così vicine alla tecnologia, Yi Tay ha prima spiegato il contesto della storia.

Negli ultimi anni ci sono stati tre importanti paradigmi nell’architettura dei modelli.

modelli solo encoder (come BERT), modelli encoder-decoder (come T5) e modelli solo decoder (come la serie GPT).

Ma le persone sono molto confuse su questa divisione e ci sono molti malintesi, quindi questo è lo scopo di Yi Tay che scrive questo post sul blog. Spera di aiutare tutti a stabilire una comprensione più chiara.

La prima cosa da chiarire è che il modello codificatore-decodificatore è in realtà ancora un modello autoregressivo. Il decodificatore nel modello codificatore-decodificatore è ancora un decodificatore causale, sia letteralmente che essenzialmente.

Il testo viene prima passato al codificatore e quindi inviato al decodificatore tramite il meccanismo di attenzione incrociata invece di precompilare il modello di decodificatore.

Pertanto il modello T5 è anche un modello linguistico!

Una sua variante è il Prefix Language Model, o architettura PrefixLM, che fa quasi la stessa cosa tranne il meccanismo di attenzione incrociata. (E alcuni altri piccoli dettagli, come la condivisione del peso tra codificatore/decodificatore e l'assenza di colli di bottiglia nel codificatore)

PrefixLM è talvolta chiamato decodificatore non causale. In breve, encoder-decoder, solo encoder e PrefixLM non sono così diversi!

Se avete ancora dei dubbi a riguardo, Yi Tay ha fatto riferimento anche al meraviglioso discorso di Hyung Won a Stanford nell'aprile di quest'anno, in cui ha abilmente spiegato la relazione tra questi modelli.

Indirizzo della conferenza: https://www.youtube.com/watch?v=orDKvo8h71o

Allo stesso tempo, il metodo di denoising dei modelli solo codificatori come BERT è diverso (ovvero, sul posto) e si basa in una certa misura sul "task head" aggiuntivo aggiunto per funzionare con il modello base pre-addestrato operazioni.

L'obiettivo di denoising di BERT è stato successivamente applicato a modelli come T5, ma con alcune modifiche e un formato da sequenza a sequenza.

Detto questo, vale la pena notare che il denoising in T5 stesso non è esattamente una nuova funzione obiettivo (nel senso dell'apprendimento automatico), ma piuttosto una trasformazione dei dati tra gli input, ovvero è possibile anche Nel decodificatore causa ed effetto span target di corruzione al treno!

Le persone pensano sempre che il modello codificatore-decodificatore debba essere un modello di denoising, e parte della ragione di questa illusione è che il modello T5 è troppo rappresentativo.

Tuttavia, non è sempre così.

È possibile utilizzare una normale attività di modellazione del linguaggio (ad esempio CLM) per addestrare il codificatore-decodificatore oppure è possibile utilizzare un'attività di corruzione dello span per addestrare il decodificatore causale.

Come affermato in precedenza, si tratta principalmente di una trasformazione dei dati.

Va inoltre notato che, in generale, un codificatore-decodificatore a 2N parametri ha lo stesso costo computazionale di un modello con solo decodificatore a N parametri, quindi il loro rapporto FLOP/parametro è diverso.

Sulla base della nostra comprensione del contesto di cui sopra, ora inseriremo il testo——

Per quanto riguarda gli obiettivi di denoising (è inutile? Non è scalabile? È troppo semplice?)

Per essere chiari, l’obiettivo di denoising menzionato da Yi Tay si riferisce a qualsiasi variante di corruzione dello span.

A volte viene anche chiamato riempimento o riempimento dello spazio vuoto. Esistono molti modi per esprimerlo (oltre alla lunghezza dell'intervallo, alla casualità, ai token sentinella, ecc.), purché tu capisca, significano tutti la stessa cosa.

Sebbene gli obiettivi di denoising nei modelli in stile BERT siano per lo più presenti, un approccio leggermente più moderno è lo "stile T5", che prevede la trasformazione dei dati gestita da modelli codificatore/codificatore o solo decodificatore.

In questa trasformazione dei dati, il token della maschera viene semplicemente "spostato sul retro" affinché il modello possa effettuare previsioni.

L'obiettivo principale della pre-formazione è costruire rappresentazioni interne utili che si allineino con le attività a valle nel modo più efficiente ed efficace.

Migliori sono le rappresentazioni interne, più facile sarà utilizzare queste rappresentazioni apprese per qualcosa di utile in seguito.

Come tutti sappiamo, il semplice obiettivo del "modellazione del linguaggio causale" (CLM) di prevedere i prossimi token funziona bene ed è diventato la base della rivoluzione LLM. La domanda ora è se l’obiettivo del denoising sia altrettanto valido.

Dalle informazioni pubbliche, sappiamo che il T5-11B funziona molto bene anche dopo l'allineamento/SFT (il Flan-T5 XXL ha un punteggio MMLU di 55+, che è abbastanza buono per un modello di queste dimensioni in quel momento).

Pertanto, possiamo trarre alcune conclusioni: il trasferimento della capacità di denoising degli obiettivi dal pre-addestramento all’allineamento può supportare il modello per funzionare meglio alla scala 11B.

L'opinione di Yi Tay è che gli obiettivi di denoising siano ottimi, ma non sufficienti come obiettivo a sé stante.

Possiamo descrivere il suo svantaggio come una minore "esposizione alle perdite". Nel target di denoising, solo un piccolo numero di token viene mascherato e utilizzato nel processo di apprendimento (ovvero, aggiornando il valore della perdita).

Al contrario, nella modellazione linguistica convenzionale, l’utilizzo dei token è vicino al 100%.

Questa caratteristica del target di denoising rende l'efficienza di campionamento per FLOP piuttosto bassa e quindi la pone in una posizione molto svantaggiata nei confronti basati su FLOP.

Un altro svantaggio è che la rimozione dei bersagli è meno naturale della normale modellazione linguistica perché riformatta l'input/output in un modo strano, il che li rende un po' scomodi per l'apprendimento in poche riprese. (Tuttavia, questi modelli possono ancora essere regolati per funzionare ragionevolmente bene in attività con pochi colpi)

Pertanto, Yi Tay ritiene che gli obiettivi di denoising possano essere utilizzati quasi solo come supplemento alla modellazione linguistica convenzionale piuttosto che come obiettivo di formazione indipendente.

I primi giorni dell'unità e perché xBERT si è estinto

L'eliminazione graduale dei modelli simili a BERT è una fase interessante, ma al giorno d'oggi non molte persone ne parlano, è una cosa subdola.

Ciò potrebbe anche spiegare perché non vediamo più alcun modello BERT molto grande in funzione. qual è il motivo?

Si tratta principalmente di unificazione e trasformazione dei paradigmi compito/modellazione.

I modelli in stile BERT erano goffi, ma erano davvero deprecati perché le persone volevano utilizzare un modello per tutte le attività, quindi è stato introdotto un modo migliore per eliminare il rumore: utilizzare modelli autoregressivi.

Tra il 2018 e il 2021, si è verificato un cambio di paradigma nascosto, dalla messa a punto di un singolo compito a modelli multi-task su larga scala.

L'attenzione di tutti è stata lentamente attirata dal modello SFT unificato, che è anche il modello generale unificato che vediamo oggi.

È troppo difficile farlo con BERT.

Tuttavia, questa “goffaggine” di BERT ha poco a che fare con il compito di “denoising”. Se desideri comunque utilizzare questo tipo di modello, puoi esprimere l'attività di "riduzione del rumore" in un altro modo (ad esempio T5).

Pertanto, i modelli in stile BERT sono quasi deprecati in questo momento poiché emerge un’alternativa strettamente migliore.

Più specificamente, i modelli codificatore-decodificatore e solo decodificatore sono in grado di esprimere più attività contemporaneamente senza richiedere intestazioni di classificazione specifiche dell'attività.

Allo stesso tempo, ricercatori e ingegneri hanno scoperto che per il modello codificatore-decodificatore, se il codificatore viene semplicemente rimosso e rimane solo il decodificatore, le sue prestazioni saranno competitive quanto quelle del codificatore BERT.

Non solo, lasciando solo il decodificatore si conserva anche il vantaggio dell’attenzione bidirezionale che rende BERT superiore ai modelli GPT in attività su piccola scala (solitamente su scala di produzione).

Il valore del target di riduzione del rumore

Similmente a come funziona la normale modellazione linguistica, l'obiettivo pre-formazione di denoising impara anche a prevedere la parola successiva.

Tuttavia, a differenza del CLM convenzionale, quest'ultimo esegue la trasformazione dei dati sulla sequenza per imparare a "riempire gli spazi vuoti" anziché semplicemente prevedere il testo che appare naturalmente da sinistra a destra.

Vale la pena notare che gli obiettivi di denoising sono talvolta chiamati “compiti di riempimento” e talvolta sono mescolati con normali compiti di modellazione linguistica per la pre-formazione.

Sebbene i dettagli specifici di configurazione e implementazione possano variare, è probabile che l'LLM di oggi utilizzi una combinazione di modellazione e riempimento del linguaggio.

E, cosa interessante, l'ibrido di modellazione e riempimento del linguaggio sembra essersi diffuso nello stesso periodo (ad esempio UL2, FIM, GLM, CM3), con molti team che in qualche modo apportano il proprio "sapore" all'ibrido.

Per inciso, il più grande modello divulgato e segnalato pubblicamente addestrato in questo modo è PaLM-2.

Vale la pena notare che la formazione mista non deve necessariamente essere mista allo stesso tempo, ma può essere accumulata in sequenza.

Ad esempio, Flan-T5 è stato inizialmente addestrato su token di corruzione da 1Tspan e poi è passato all'attività di modellazione del linguaggio del prefisso di token da 100B prima della messa a punto delle istruzioni.

In un certo senso, si può dire che questo sia un modello ibrido target di denoising/modellazione del linguaggio.

Yi Tay ha anche condiviso un'esperienza non ufficiale: le rappresentazioni apprese mediante la denoising degli obiettivi funzionano meglio in determinate categorie di compiti e talvolta vengono campionate in modo più efficiente.

I modelli perfezionati addestrati con questo obiettivo generalmente producono modelli SFT migliori, soprattutto su scale più piccole.

Parlando di messa a punto del singolo compito, possiamo vedere che il modello PaLM-1 62B è sconfitto dal più piccolo T5.

L'attenzione bidirezionale + i bersagli denoising possono svolgere un ruolo enorme in un raggio relativamente piccolo! Credo che molti professionisti abbiano visto questa situazione adesso, specialmente nella produzione.

Vantaggi e svantaggi dell'architettura encoder/decoder

L'architettura codificatore-decodificatore presenta in realtà alcuni vantaggi rispetto al normale modello esclusivamente decodificatore.

Il lato del codificatore non è vincolato da maschere causali, nella misura in cui è possibile impilare i livelli di attenzione come un matto con un pooling aggressivo o qualsiasi forma di attenzione lineare senza preoccuparsi delle limitazioni dei progetti autoregressivi.

Questo è un buon modo per passare il "contesto" meno importante al codificatore. Puoi anche rimpicciolire l'encoder, il che è anche carino.

Un esempio in Charformer illustra la necessità dell'architettura codificatore-decodificatore. Possiamo fare un grande sforzo riguardo al codificatore per alleviare i difetti di velocità durante la codifica a livello di byte.

Ma allo stesso tempo, uno svantaggio del codificatore-decodificatore rispetto a PrefixLM è che l'input e la destinazione devono avere lunghezze di allocazione fisse.

Ad esempio, se la lunghezza di input predeterminata è 1024 token, il lato codificatore deve essere riempito su questo valore, il che potrebbe causare molti sprechi computazionali.

Al contrario, in PrefixLM, input e target possono essere collegati direttamente, alleviando così questo problema.

Rilevanza rispetto ai modelli odierni e punti chiave

Sia dal punto di vista dell'architettura del modello che da quello della pre-formazione, per diventare un ricercatore e professionista LLM competente, la capacità di utilizzare il bias induttivo per il ragionamento è essenziale. E comprendere le sfumature fondamentali tra le diverse architetture di modelli può aiutare l’innovazione futura.

Yi Tay ha condiviso i suoi punti chiave:

Sia i modelli codificatore-decodificatore che quelli solo decodificatore sono modelli autoregressivi, ma esistono differenze a livello di implementazione, ciascuno con vantaggi e svantaggi. I loro bias induttivi sono leggermente diversi e l'utilizzo ottimale dipende in realtà dal caso d'uso a valle e da notevoli limitazioni applicative. Per la maggior parte delle applicazioni LLM e dei casi d'uso di nicchia, i modelli solo encoder in stile BERT sono per lo più considerati obsoleti.
L'obiettivo di denoising è principalmente un supplemento al CLM Come "obiettivo ausiliario" nella pre-formazione, di solito apporta un certo aiuto. Sebbene ciò accada spesso con i modelli di codice (ovvero il code stuffing), nei modelli generici di oggi non è raro utilizzare un CLM con qualche obiettivo di denoising per la pre-formazione (sebbene questo non sia un requisito).
I meccanismi di attenzione bidirezionale aiutano molto su scala più piccola, ma spesso sono solo un’opzione su modelli su scala più grande. Yi Tay ritiene che l'attenzione bidirezionale abbia un pregiudizio induttivo, come molti altri tipi di modifiche nell'architettura Transformer.

Infine, per riassumere, non abbiamo riscontrato alcun ridimensionamento riuscito di xBERT: il modello BERT è stato deprecato a favore del modello T5 di denoising (autoregressivo) più flessibile.

Ciò è dovuto principalmente all’unificazione dei paradigmi e tutti vogliono utilizzare modelli generali piuttosto che modelli specifici per attività.

Allo stesso tempo, il denoising autoregressivo viene talvolta inserito nel CLM come obiettivo formativo incidentale.

Circa l'autore

Yi Tay è attualmente il cofondatore e capo scienziato della startup AI Reka. Reka si dedica alla costruzione di modelli generativi all’avanguardia e al progresso della ricerca sull’intelligenza artificiale.

In precedenza, è stato ricercatore senior presso Google Brain, impegnato in lavori relativi al LLM e all'intelligenza artificiale, e ha anche ricoperto il ruolo di direttore tecnico del gruppo di ricerca statunitense presso Google Research, lavorando sulle estensioni e sull'architettura di Transformer.

Mentre lavorava in Google, Yi Tay ha contribuito a circa 20 rilasci di prodotti.

Durante il mandato di Yi Tay come ricercatore presso Google, la maggior parte dei suoi lavori pubblicati ruotavano attorno a Transformer, in particolare legati all'efficienza, alla scalabilità e alla ricerca architettonica.

Oltre al blogging, Yi Tay ama anche la musica classica. Ha detto: "Se non fossi diventato un ricercatore, avrei potuto diventare un musicista professionista". È interessante notare che ha ricevuto un diploma in questo senso.

Non vedo l'ora che Yi Tay prenda di nuovo un volo a lunga distanza in modo da poterlo vedere aggiornare di nuovo il suo blog.

Riferimenti:

https://x.com/YiTayML/status/1813262126162845772

notizia

La prima serie di blog dell'ex scienziato di Google Yi Tay "The Story of LLM": perché BERT è scomparso?

introduzione

le mie informazioni di contatto