notizia

118 volte più economico della Diffusione Stabile! $ 1.890 per addestrare un modello grafico vincenziano di alta qualità con 1,16 miliardi di parametri

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Redattore: Alan

[Introduzione alla Nuova Saggezza]Recentemente, i ricercatori dell’Università della California, Irvine e altre istituzioni hanno ridotto il costo di formazione del modello di diffusione a 1.890 dollari utilizzando strategie come il mascheramento ritardato, il MoE e l’espansione gerarchica.

Quanto costa addestrare un modello di diffusione?

Il precedente metodo più economico (Wuerstchen) costava $ 28.400 e modelli come Stable Diffusion sono molto più costosi.

Nell'era dei modelli di grandi dimensioni, la maggior parte delle persone semplicemente non può permettersi di giocarci. Se vuoi tutti i tipi di donne vincenziane, devi fare affidamento sui produttori per portare avanti il ​​loro peso.

Per ridurre questo enorme costo, i ricercatori hanno provato varie soluzioni.


Ad esempio, il modello di diffusione originale impiega circa 1.000 passaggi per passare dal rumore all'immagine, ma è stato ridotto a circa 20 passaggi o anche meno.

Quando il modulo base nel modello di diffusione è stato gradualmente sostituito da DiT (Transformer) di Unet (CNN), sono seguite anche alcune ottimizzazioni basate sulle caratteristiche di Transformer.


Ad esempio, la quantificazione, come saltare alcuni calcoli ridondanti in Attenzione, come la pipeline.

Recentemente, i ricercatori dell'Università della California, Irvine e altre istituzioni hanno fatto un grande passo avanti con l'obiettivo di "risparmiare denaro":


Indirizzo del documento: https://arxiv.org/abs/2407.15811

——Addestra da zero un modello di diffusione di 1,16 miliardi di parametri per soli $ 1.890!

Rispetto a SOTA, è stato migliorato di un ordine di grandezza, consentendo alla gente comune di vedere la speranza di avere un assaggio del pre-allenamento.

Ancora più importante, la tecnologia di riduzione dei costi non influisce sulle prestazioni del modello. 1,16 miliardi di parametri danno i seguenti ottimi risultati.



Oltre all'aspetto grafico, anche gli indicatori dei dati del modello sono eccellenti. Ad esempio, il punteggio FID riportato nella tabella seguente è molto vicino a Diffusione Stabile 1.5 e DALL·E 2.

Al contrario, il piano di riduzione dei costi di Wuerstchen ha prodotto punteggi nei test tutt’altro che ideali.


Suggerimenti per risparmiare denaro

Con l'obiettivo di "Stretching Each Dollar", i ricercatori hanno iniziato con DiT, il modulo base del modello di diffusione.

Innanzitutto, la lunghezza della sequenza è nemica del costo computazionale di Transformer e deve essere eliminata.

Per le immagini, è necessario ridurre al minimo il numero di patch che partecipano ai calcoli (e anche ridurre il sovraccarico della memoria) senza influire sulle prestazioni.


Esistono due modi per ridurre il numero di riquadri immagine. Uno è aumentare la dimensione di ciascun blocco e l'altro è rimuovere parte della patch (maschera).


Poiché il primo ridurrà significativamente le prestazioni del modello, consideriamo il metodo del mascheramento.

La maschera più ingenua (Naive token masking) è simile all'addestramento ritagliato casualmente in UNet convoluzionale, ma consente l'addestramento su aree non contigue dell'immagine.


Il precedente metodo più avanzato (MaskDiT) aggiunge una struttura di ripristino e ricostruzione prima dell'output e lo addestra attraverso un'ulteriore funzione di perdita, sperando di compensare le informazioni perse attraverso l'apprendimento.


Entrambe le maschere eliminano la maggior parte delle patch all'inizio per ridurre i costi di calcolo. La perdita di informazioni riduce significativamente le prestazioni complessive del Transformer. Anche se MaskDiT cerca di compensare, non ottiene molti miglioramenti.

——Non è consigliabile perdere informazioni, quindi come possiamo ridurre l'input senza perdere informazioni?

maschera di ritardo

Questo articolo propone una strategia di mascheramento differita, che utilizza un mixer di patch per la preelaborazione prima della maschera e incorpora le informazioni delle patch scartate nelle patch sopravvissute, riducendo così in modo significativo l'impatto delle maschere elevate che degradano le prestazioni.


In questa architettura, il patch-mixer viene implementato attraverso una combinazione di livello di attenzione e livello di feed-forward. La maschera binaria viene utilizzata per il mascheramento. La funzione di perdita dell'intero modello è:

Rispetto a MaskDiT, qui non è richiesta alcuna funzione di perdita aggiuntiva e la progettazione e la formazione complessive sono più semplici.

Il mixer stesso ha una struttura molto leggera e soddisfa i criteri di risparmio di denaro.

ritocchi

Poiché un rapporto di mascheramento molto elevato ridurrà significativamente la capacità del modello di diffusione di apprendere la struttura globale dell'immagine e introdurrà uno spostamento della distribuzione dall'addestramento al test, l'autore ha eseguito una piccola quantità di regolazione fine (smascheramento) dopo l'addestramento preliminare (maschera)).

Inoltre, la messa a punto può mitigare eventuali artefatti di generazione indesiderati causati dall'uso delle maschere.

MoE ed estensioni stratificate

Il MoE può aumentare i parametri e le capacità espressive del modello senza aumentare significativamente i costi di formazione.

Gli autori utilizzano un livello MoE semplificato basato sul routing selezionato dagli esperti, in cui ciascun esperto determina il percorso verso il proprio token senza la necessità di alcuna funzione di perdita ausiliaria aggiuntiva per bilanciare il carico tra gli esperti.


Inoltre, gli autori hanno anche considerato un metodo di ridimensionamento gerarchico che aumenta linearmente la larghezza del blocco Transformer (ovvero, la dimensione dello strato nascosto nello strato di attenzione e nello strato feed-forward).

Poiché gli strati più profondi nei modelli di visione tendono ad apprendere funzionalità più complesse, l'utilizzo di più parametri negli strati più profondi porterà a prestazioni migliori.

Configurazione sperimentale

L'autore utilizza due varianti di DiT: DiT-Tiny/2 e DiT-Xl/2, con una dimensione della patch di 2.

Tutti i modelli sono stati addestrati utilizzando l'ottimizzatore AdamW con decadimento della velocità di apprendimento del coseno e decadimento del peso elevato.


Il front-end del modello utilizza l'autoencoder variazionale (VAE) a quattro canali nel modello Stable-Diffusion-XL per estrarre le caratteristiche dell'immagine. Inoltre, le prestazioni dell'ultimo VAE a 16 canali nell'addestramento su larga scala (versione di salvataggio ) è stato anche testato.


Gli autori utilizzano il framework EDM come impostazione di formazione unificata per tutti i modelli di diffusione e utilizzano i punteggi FID e CLIP per misurare le prestazioni del modello di generazione delle immagini.

Per il codificatore di testo è stato selezionato il modello CLIP più comunemente utilizzato. Sebbene i modelli più grandi come T5-xxl funzionino meglio in compiti impegnativi come la sintesi del testo, non vengono utilizzati qui allo scopo di risparmiare denaro.

set di dati di addestramento

Vengono utilizzati tre set di dati di immagini reali (Conceptual Captions, Segment Anything, TextCaps), contenenti 22 milioni di coppie immagine-testo.

Poiché SA1B non fornisce sottotitoli reali, qui vengono utilizzati i sottotitoli sintetici generati dal modello LLaVA. Gli autori hanno anche aggiunto due set di dati di immagini sintetiche contenenti 15 milioni di coppie immagine-testo alla formazione su larga scala: JourneyDB e DiffusionDB.

Per l’ablazione su piccola scala, i ricercatori hanno costruito un set di dati da testo a immagine chiamato cifar-captions sottocampionando immagini di 10 classi CIFAR-10 dal set di dati COYO-700M più grande.

Valutare

Tutti gli esperimenti di valutazione sono stati eseguiti utilizzando il modello DiT-Tiny/2 e il set di dati cifar-captions (risoluzione 256 × 256).

Ciascun modello è stato addestrato per 60.000 passaggi di ottimizzazione utilizzando l'ottimizzatore AdamW e la media mobile esponenziale (coefficiente di livellamento di 0,995 per gli ultimi 10.000 passaggi).

maschera di ritardo

La linea di base dell'esperimento ha scelto il mascheramento Naive menzionato sopra, mentre il mascheramento di ritardo in questo articolo ha aggiunto un mixer di patch leggero, con un numero di parametri inferiore al 10% della rete backbone.

In generale, più patch vengono perse (rapporto di mascheramento elevato), peggiore sarà la prestazione del modello. Ad esempio, le prestazioni di MaskDiT diminuiscono significativamente dopo aver superato il 50%.

L'esperimento di confronto qui utilizza gli iperparametri predefiniti (velocità di apprendimento 1,6×10e-4, decadimento del peso di 0,01 e velocità di apprendimento coseno) per addestrare due modelli.


I risultati nella figura sopra mostrano che il metodo di mascheramento del ritardo è migliorato nei tre indicatori di FID, Clip-FID e punteggio Clip.

Inoltre, il divario prestazionale rispetto allo scenario di base si allarga all’aumentare del tasso di mascheramento. Quando il tasso di mascheramento è del 75%, il mascheramento ingenuo ridurrà il punteggio FID a 16,5, mentre il nostro metodo raggiunge 5,03, che è più vicino al punteggio FID senza mascheramento (3,79).

iperparametri

Seguendo l'idea generale della formazione LLM, qui confrontiamo la selezione degli iperparametri dei due compiti.

Innanzitutto, nel livello feedforward, la funzione di attivazione di SwiGLU è migliore di GELU. In secondo luogo, una maggiore attenuazione del peso porta a migliori prestazioni di generazione delle immagini.


Inoltre, a differenza dell'addestramento LLM, il modello di diffusione in questo articolo può ottenere prestazioni migliori quando si utilizza un coefficiente medio corrente più elevato per il momento del secondo ordine di AdamW (β).

Infine, gli autori hanno scoperto che l’utilizzo di un numero limitato di passaggi di addestramento e l’aumento del tasso di apprendimento al massimo valore possibile (fino a quando l’addestramento diventa instabile) ha anche migliorato significativamente le prestazioni di generazione delle immagini.

Progettazione del miscelatore

Di solito è giusto lavorare sodo per ottenere miracoli e l'autore ha anche osservato che le prestazioni del modello continuano a migliorare dopo l'utilizzo di un mixer di patch più grande.

Tuttavia, per risparmiare, qui viene ancora scelto un piccolo mixer.

Gli autori hanno modificato la distribuzione del rumore in (−0,6, 1,2), migliorando l'allineamento tra i sottotitoli e l'immagine generata.

Come mostrato nella figura seguente, con un rapporto di mascheramento del 75%, l'autore ha anche studiato l'impatto dell'utilizzo di patch di dimensioni diverse.


Quando il numero di regioni continue aumenta (le patch diventano più grandi), le prestazioni del modello diminuiscono, quindi viene mantenuta la strategia originale di mascherare casualmente ciascuna patch.

ridimensionamento a strati

Questo esperimento ha addestrato due varianti dell'architettura DiT-Tiny, una con larghezza costante e l'altra con una struttura scalata gerarchicamente.

Entrambi i metodi utilizzano il mascheramento Naive e regolano le dimensioni del Transformer per garantire che la potenza di calcolo del modello nei due casi sia la stessa, eseguendo gli stessi passaggi e tempi di addestramento.


Dai risultati nella tabella sopra, si può vedere che il metodo di ridimensionamento gerarchico è migliore del metodo di larghezza costante di base su tutti e tre gli indicatori di prestazione, il che indica che il metodo di ridimensionamento gerarchico è più adatto per mascherare l'addestramento di DiT.

Riferimenti:

https://arxiv.org/abs/2407.15811