Le mie informazioni di contatto
Posta[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Rapporto sul cuore della macchina
Anche gli esperti misti hanno specializzazioni nella loro professione.
Per gli attuali modelli di base a modalità mista, un progetto architettonico comune consiste nel fondere codificatori o decodificatori di modalità specifiche. Tuttavia, questo metodo presenta delle limitazioni: non può integrare informazioni provenienti da modalità diverse ed è difficile produrre contenuti contenenti più modalità.
Per superare questa limitazione, il team Chameleon di Meta FAIR ha proposto una nuova singola architettura Transformer nel recente articolo "Chameleon: Mixed-modal early-fusion Foundation models", che può prevedere il token successivo in base alle sequenze modali miste previste composti da token di immagine e testo discreti sono modellati per consentire il ragionamento e la generazione senza soluzione di continuità tra diverse modalità.
Dopo aver completato la pre-formazione su circa 10 trilioni di token a modalità mista, Chameleon ha dimostrato la capacità di adattarsi a un'ampia gamma di visioni e linguaggi e di gestire bene una varietà di compiti a valle diversi. Le prestazioni di Chameleon sono particolarmente impressionanti nel compito di generare risposte lunghe in modalità mista. Batte anche modelli commerciali come Gemini 1.0 Pro e GPT-4V. Tuttavia, per un modello come Chameleon in cui varie modalità vengono mescolate nelle prime fasi dell’addestramento del modello, espandere le sue capacità richiede investire molta potenza di calcolo.
Sulla base dei problemi di cui sopra, il team Meta FAIR ha condotto alcune ricerche ed esplorazioni sull'architettura sparsa instradata e ha proposto MoMa: un'architettura ibrida esperta consapevole delle modalità.
Titolo dell'articolo: MoMa: pre-formazione efficiente sulla fusione precoce con un mix di esperti consapevoli della modalità
Indirizzo del documento: https://arxiv.org/pdf/2407.21770
Precedenti ricerche hanno dimostrato che questo tipo di architettura può effettivamente espandere le capacità dei modelli di base monomodali e anche migliorare le prestazioni dei modelli di apprendimento contrastivo multimodali. Tuttavia, utilizzarlo per la formazione iniziale di modelli che integri varie modalità è ancora un argomento con opportunità e sfide, e poche persone lo hanno studiato.
La ricerca del team si basa sulla consapevolezza che le diverse modalità sono intrinsecamente eterogenee: i token di testo e immagine hanno densità di informazioni e modelli di ridondanza diversi.
Integrando questi token in un'architettura di fusione unificata, il team ha anche proposto di ottimizzare ulteriormente il quadro integrando moduli per modalità specifiche. Il team chiama questo concetto “modely-aware sparsity”, o in breve MaS; consente al modello di catturare meglio le caratteristiche di ciascuna modalità utilizzando anche meccanismi di condivisione e attenzione parziali dei parametri. Mantenere forti prestazioni di integrazione intermodale.
Studi precedenti come VLMo, BEiT-3 e VL-MoE hanno adottato il metodo degli esperti di modalità mista (MoME/mixture-of-modality-experts) per addestrare i codificatori del linguaggio visivo e la modellazione del linguaggio mascherato, da FAIR. ambito utilizzabile del Ministero un ulteriore passo avanti.
Architettura del modello
fusione precoce
Il nuovo modello proposto in questo articolo si basa sulla prima architettura di fusione di Chameleon, che rappresenta immagini e testo come una serie di token discreti in un Transformer unificato. Il nucleo di Chameleon è un modello basato su Transformer che applica un meccanismo di auto-attenzione a una sequenza combinata di token di immagine e testo. Ciò consente al modello di acquisire correlazioni complesse all'interno e tra le modalità. Il modello viene addestrato con l'obiettivo della previsione del token successivo, generando token di testo e immagine in modo autoregressivo.
In Chameleon, lo schema di tokenizzazione dell'immagine utilizza un tokenizzatore di immagini di apprendimento, che codifica un'immagine 512 × 512 in 1024 token discreti basati su un codebook di dimensione 8192. Per la segmentazione del testo verrà utilizzato un tokenizzatore BPE con una dimensione del vocabolario di 65.536, che contiene token immagine. Questo metodo di segmentazione delle parole unificato consente al modello di gestire senza problemi qualsiasi sequenza di token di immagini e testo intrecciati.
Con questo metodo, il nuovo modello eredita i vantaggi della rappresentazione unificata, della buona flessibilità, dell’elevata scalabilità e del supporto per l’apprendimento end-to-end.
Su questa base (Figura 1a), al fine di migliorare ulteriormente l'efficienza e le prestazioni del modello di fusione iniziale, il team ha anche introdotto la tecnologia di scarsità consapevole della modalità.
Estensione della larghezza: esperti ibridi consapevoli della modalità
Il team propone un approccio su vasta scala: estendere l'architettura standard a esperti misti (MoE) integrando la scarsità dei moduli in grado di riconoscere la modalità nei moduli avanzati.
Questo metodo si basa sulla consapevolezza che i token di diverse modalità hanno caratteristiche e densità di informazioni diverse.
Costruendo diversi gruppi di esperti per ciascuna modalità, il modello può sviluppare percorsi di elaborazione specializzati pur mantenendo la capacità di integrare le informazioni tra le modalità.
La Figura 1b illustra i componenti chiave di questa miscela esperta consapevole della modalità (MoMa). Per dirla semplicemente, gli esperti di ciascuna modalità specifica vengono prima raggruppati, quindi viene implementato il routing gerarchico (diviso in routing consapevole della modalità e routing intramodale) e infine vengono selezionati gli esperti. Si prega di fare riferimento al documento originale per il processo dettagliato.
In generale, per un token di input x, la definizione formale del modulo MoMa è:
Dopo i calcoli MoMa, il team ha utilizzato ulteriormente le connessioni residue e la normalizzazione del trasformatore Swin.
Miscela di profondità (MoD)
Precedenti ricercatori hanno anche esplorato l’introduzione della scarsità nella dimensione della profondità. Il loro approccio consisteva nello scartare casualmente determinati strati o nell’utilizzare router apprendibili.
L'approccio del team si basa sul secondo approccio, integrando la tecnologia Hybrid Depth (MoD) recentemente proposta. Per ulteriori informazioni su MoD, fare riferimento al rapporto Heart of Machine "DeepMind aggiorna Transformer, i FLOP dei passaggi in avanti possono essere ridotti fino alla metà."
Nello specifico, come mostrato nella figura seguente, l'approccio del team è quello di integrare il MoD prima del routing degli esperti ibridi (MoE) in ciascun livello MoD, garantendo così che il MoD possa essere applicato all'intero batch di dati prima della separazione modale.
ragionamento
Nella fase di inferenza, non possiamo utilizzare direttamente il routing di selezione degli esperti del MoE o il routing di selezione dei livelli del MoD, perché le selezioni top-k (selezionando i primi k) in un batch di dati distruggeranno la relazione causale.
Per garantire la relazione causale del ragionamento, ispirato al suddetto documento del Ministero della Difesa, il gruppo di ricerca ha introdotto un router ausiliario, il cui ruolo è quello di prevedere la possibilità che il token venga selezionato da un determinato esperto o livello basandosi solo sulle informazioni nascoste rappresentazione del gettone.
Riciclo
Esiste una difficoltà unica per un’architettura del MoE addestrata da zero in termini di ottimizzazione dello spazio di rappresentazione e del meccanismo di routing. Il team ha scoperto che il router del MoE è responsabile della divisione dello spazio di rappresentazione per ciascun esperto. Tuttavia, nelle prime fasi dell'addestramento del modello, questo spazio di rappresentazione non è ottimale, il che porterà a una funzione di instradamento ottenuta dall'addestramento non ottimale.
Per superare questa limitazione, hanno proposto un metodo di aggiornamento basato sul documento "Sparse upcycling: Training mix-of-experts from dense checkpoints" di Komatsuzaki et al.
Nello specifico, viene prima addestrata un'architettura con un esperto FFN per ciascuna modalità. Dopo alcuni passaggi preimpostati, il modello viene aggiornato e trasformato. Il metodo specifico è: convertire il FFN di ciascuna modalità specifica in un modulo MoE selezionato dagli esperti e inizializzare ciascun esperto alla prima fase della formazione degli esperti. Ciò ripristinerà il programmatore della velocità di apprendimento mantenendo lo stato del caricatore dati della fase precedente per garantire che i dati aggiornati possano essere utilizzati nella seconda fase dell'addestramento.
Per promuovere la specializzazione degli esperti, il team ha utilizzato anche il rumore Gumbel per migliorare la funzione di routing MoE, consentendo al nuovo router di campionare gli esperti in modo differenziabile.
Questo metodo di aggiornamento abbinato alla tecnologia Gumbel-Sigmoid può superare i limiti dei router appresi e quindi migliorare le prestazioni dell'architettura sparsa sensibile alla modalità recentemente proposta.
Ottimizzazione dell'efficienza
Per facilitare la formazione distribuita del MoMa, il team ha adottato il Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel). Tuttavia, rispetto al MoE convenzionale, questo metodo presenta alcuni problemi di efficienza unici, tra cui problemi di bilanciamento del carico e problemi di efficienza dell’esecuzione da parte di esperti.
Per il problema del bilanciamento del carico, il team ha sviluppato un metodo di mixaggio dei dati bilanciato che mantiene il rapporto dati testo-immagine su ciascuna GPU coerente con il rapporto esperto.
Per quanto riguarda l’efficienza dell’esecuzione da parte degli esperti, il team ha esplorato alcune strategie che possono aiutare a migliorare l’efficienza dell’esecuzione degli esperti in diverse modalità:
Limitare gli esperti in ciascuna modalità agli esperti isomorfi e vietare l'indirizzamento dei token di testo agli esperti di immagini e viceversa;
Utilizzare la scarsità dei blocchi per migliorare l'efficienza dell'esecuzione;
Quando il numero di modalità è limitato, gli esperti sulle diverse modalità vengono eseguiti in sequenza.
Poiché ciascuna GPU nell'esperimento ha elaborato un numero sufficiente di token, l'utilizzo dell'hardware non è stato un grosso problema anche se sono state utilizzate più moltiplicazioni di matrici in batch. Pertanto, il team ritiene che il metodo di esecuzione sequenziale sia una scelta migliore per l’attuale scala dell’ambiente sperimentale.
Altre ottimizzazioni
Per migliorare ulteriormente la produttività, il team ha utilizzato anche diverse altre tecniche di ottimizzazione.
Questi includono operazioni di ottimizzazione generale come la riduzione del volume di comunicazione del gradiente e la fusione automatizzata dei core della GPU. Il team di ricerca ha anche implementato l'ottimizzazione dei grafici tramite torch.compile.
Inoltre, hanno sviluppato alcune tecniche di ottimizzazione per MoMa, incluso il multiplexing di indici di token modali su diversi livelli per sincronizzare in modo più efficiente i dispositivi tra CPU e GPU.
sperimentare
impostare
Il set di dati di pre-addestramento e il processo di pre-elaborazione utilizzati nell'esperimento sono gli stessi di Chameleon. Per valutare le prestazioni di scalabilità, hanno addestrato il modello utilizzando più di 1 trilione di token.
La tabella 1 fornisce la configurazione dettagliata dei modelli densi e sparsi.
Scalabilità delle prestazioni a diversi livelli di elaborazione
Il team ha analizzato le prestazioni di ridimensionamento di diversi modelli a diversi livelli computazionali (FLOP) equivalenti a tre dimensioni di modelli densi: 90M, 435M e 1,4B.
I risultati sperimentali mostrano che un modello sparso che utilizza solo 1/η dei FLOP totali può eguagliare la perdita pre-addestramento di un modello denso di FLOP equivalenti (η rappresenta il fattore di accelerazione pre-addestramento).
Disaggregazione modale
L'introduzione di gruppi di esperti specifici per modalità può migliorare l'efficienza di pre-addestramento di modelli di diverse dimensioni, il che è particolarmente vantaggioso per le modalità di immagine. Come mostrato nella Figura 3, la configurazione moe_1t1i che utilizza 1 esperto di immagini e 1 esperto di testo supera significativamente il corrispondente modello denso.
L'espansione del numero di esperti per gruppo modale può migliorare ulteriormente le prestazioni del modello.
Mescola profondità e competenza
Il team ha osservato che la velocità di convergenza della perdita di addestramento migliora quando si utilizzano MoE, MoD e le loro combinazioni. Come mostrato nella Figura 4, l'aggiunta di MoD (mod_moe_1t1i) all'architettura moe_1t1i può migliorare significativamente le prestazioni del modello su diverse dimensioni del modello.
Inoltre, mod_moe_1t1i può eguagliare o addirittura superare moe_4t4i in diverse dimensioni e modalità del modello, il che dimostra che l'introduzione della scarsità nella dimensione della profondità può anche migliorare efficacemente l'efficienza dell'addestramento.
D’altra parte, puoi anche vedere che i vantaggi di impilare MoD e MoE diminuiranno gradualmente.
Ampliare il numero degli esperti
Per studiare l'impatto dell'espansione del numero di esperti, il team ha condotto ulteriori esperimenti di ablazione. Hanno esplorato due scenari: assegnare un numero uguale di esperti a ciascuna modalità (bilanciato) e assegnare un numero diverso di esperti a ciascuna modalità (sbilanciato). I risultati sono mostrati nella Figura 5.
Per l'impostazione bilanciata, dalla Figura 5a si può vedere che all'aumentare del numero di esperti, la perdita di formazione diminuirà in modo significativo. Ma le perdite di testo e immagini mostrano modelli di ridimensionamento diversi. Ciò suggerisce che le caratteristiche intrinseche di ciascuna modalità portano a diversi comportamenti di modellazione sparsa.
Per l'impostazione sbilanciata, la Figura 5b confronta tre diverse configurazioni con un numero totale equivalente di esperti (8). Si può vedere che maggiore è il numero di esperti in una modalità, migliori sono le prestazioni generali del modello in quella modalità.
Aggiornamento
Il team ha ovviamente verificato anche l'effetto dei suddetti upgrade. La Figura 6 mette a confronto le curve di addestramento di diverse varianti del modello.
I risultati mostrano che l’aggiornamento può effettivamente migliorare ulteriormente l’addestramento del modello: quando la prima fase prevede 10.000 passaggi, l’aggiornamento può apportare 1,2 volte il vantaggio in termini di FLOP e quando il numero di passaggi è 20.000, si ottiene anche un vantaggio di 1,16 volte in termini di FLOP;
Inoltre, si può osservare che con il progredire dell'addestramento, il divario prestazionale tra il modello aggiornato e il modello addestrato da zero aumenta.
Analisi del rendimento
I modelli sparsi spesso non forniscono miglioramenti immediati delle prestazioni perché i modelli sparsi aumentano la dinamica e i problemi di bilanciamento dei dati associati. Per quantificare l'impatto del nuovo metodo proposto sull'efficienza dell'addestramento, il team ha confrontato il rendimento dell'addestramento di diverse architetture in esperimenti con variabili solitamente controllate. I risultati sono mostrati nella Tabella 2.
Si può vedere che, rispetto ai modelli densi, le prestazioni sparse basate sulla modalità raggiungono migliori compromessi tra qualità e rendimento e possono dimostrare una ragionevole scalabilità man mano che il numero di esperti cresce. D’altra parte, sebbene le varianti MoD raggiungano le migliori perdite assolute, tendono anche ad essere più costose dal punto di vista computazionale a causa di dinamiche e squilibri aggiuntivi.
Prestazioni del tempo di inferenza
Il team ha inoltre valutato le prestazioni del modello sui dati di modellazione del linguaggio conservati e sulle attività a valle. I risultati sono mostrati nelle tabelle 3 e 4.
Come mostrato nella Tabella 3, utilizzando più esperti di immagini, il modello 1.4B MoMa 1t1i supera il corrispondente modello denso sulla maggior parte dei parametri, ad eccezione dei parametri di perplessità condizionale da immagine a testo su COCO e Flickr. Un'ulteriore espansione del numero di esperti può anche migliorare le prestazioni, con 1,4 miliardi di MoE 8x che raggiungono le migliori prestazioni da immagine a testo.
Inoltre, come mostrato nella Tabella 4, il modello 1.4B MoE 8x è molto efficace anche nelle attività di conversione testo-testo. 1,4B MoMa 4t4i offre le migliori prestazioni su tutti i parametri di perplessità condizionale dell'immagine, mentre anche la sua perplessità del testo sulla maggior parte dei benchmark è molto vicina a 1,4B MoE 8x.
Nel complesso, il modello 1.4B MoMa 4t4i offre i migliori risultati di modellazione su modalità miste di testo e immagine.
Per maggiori dettagli si prega di leggere il documento originale.