il traffico della formazione llm è 10.000 volte inferiore! nuovo ottimizzatore distribuito, che integra la potenza di calcolo del mondo per addestrare potenti ai

il traffico della formazione llm è 10.000 volte inferiore! un nuovo ottimizzatore distribuito, che integra la potenza di calcolo del mondo per addestrare una potente intelligenza artificiale

2024-09-10

nuovo rapporto sulla saggezza

redattore: alan

[introduzione alla nuova saggezza]recentemente, nous research ha annunciato un importante passo avanti utilizzando un ottimizzatore distribuito indipendente dall'architettura e dalla rete, i ricercatori sono riusciti a ridurre il volume di comunicazione tra le gpu durante l'addestramento di llm da 1.000 a 10.000 volte!

e se tutta la potenza di calcolo del mondo potesse essere utilizzata per addestrare modelli di intelligenza artificiale?

recentemente nous research, che ha attirato l'attenzione di molti con il rilascio del software open source hermes 3 (basato su llama 3.1), ha annunciato ancora una volta un importante passo avanti: distro (distributed internet training).

utilizzando un ottimizzatore distribuito indipendente dall'architettura e dalla rete, i ricercatori sono riusciti a ridurre con successo la comunicazione tra gpu da 1.000 a 10.000 volte durante l'addestramento di llm!

con miglioramenti così esagerati, l'importante costo e collo di bottiglia dell'addestramento di modelli di grandi dimensioni, ovvero la larghezza di banda, non è più un problema.

utilizzando il metodo di distro, puoi distribuire il carico di formazione su internet e l'intero mondo online diventa un enorme cluster di server ai eterogeneo.

——qualsiasi dispositivo con potenza di calcolo rilevante può partecipare al processo di formazione.

gli esperimenti hanno dimostrato che il metodo descritto in questo articolo sostanzialmente non provoca una diminuzione delle prestazioni del modello. allo stesso tempo, distro-adamw è equivalente allo standard adamw+all-reduce in termini di velocità di convergenza.

formazione distribuita su internet

in generale, l’addestramento di reti neurali su larga scala comporta un notevole sovraccarico di comunicazione.

ad esempio, quando si esegue il parallelismo dei dati, diversi dati di allenamento vengono calcolati in avanti e all'indietro su hardware diverso (schede grafiche, ecc.). successivamente, i gradienti calcolati dallo stesso batch di dati devono essere sincronizzati tra le schede grafiche prima di entrare nel file passo successivo.

se il modello è parallelo, i dati intermedi devono essere uniti o accumulati tramite all-reduce.

se questi costi generali di comunicazione dei dati non possono essere sovrapposti, diventeranno un collo di bottiglia nell'addestramento del modello.

si dà il caso che la memoria video e la larghezza di banda di laohuang siano molto costose, e anche l'hardware richiesto quando si configurano più schede è molto costoso.

per risolvere questo problema, i ricercatori hanno sviluppato distro, che riduce i requisiti di comunicazione tra gpu di quattro o cinque ordini di grandezza senza fare affidamento sull’analisi ammortizzata, consentendo l’addestramento a bassa latenza di grandi reti neurali su reti lente.

distro è generale, scalabile e sincronizzato con l'orologio (simile a sgd, adam, ecc., ogni fase di training utilizza le stesse operazioni aritmetiche e richiede lo stesso tempo).

inoltre, rispetto ai precedenti ottimizzatori ad hoc a bassa comunicazione, distro è insensibile alla topologia e all'architettura della rete neurale delle reti di telecomunicazioni e può supportare in modo nativo il training parallelo dei dati distribuiti (ddp) con un sovraccarico minimo.

pre-formazione llm

i ricercatori hanno utilizzato nanotron come struttura di pre-addestramento e hanno funzionato solo con la strategia ddp (ogni gpu carica l'intero modello nella vram).

llm seleziona llama 2 di dimensione 1,2b. gli iperparametri utilizzati nel modello e nell'addestramento sono i seguenti:

i dati di addestramento utilizzano il set di dati dolma v1.7 e il 10% di campioni rappresentativi (i primi token da 105 miliardi) vengono selezionati casualmente.

l'ottimizzatore utilizza adamw, β1=0,9, β2=0,95, il tasso di apprendimento di picco è 4×10e-4, viene utilizzato lo schema di decadimento del coseno e il decadimento del peso è impostato su 0,1.

come altra serie di esperimenti di confronto, adamw è stato sostituito con distro-adamw senza modificare gli iperparametri e disabilitando l'operazione all-reduce in nanotron.

a differenza dei precedenti metodi di training distribuito, distro non sincronizza lo stato dell'ottimizzatore (può anche essere stateless).

la figura seguente è la curva della perdita di allenamento di due serie di esperimenti, utilizzando dati 105b per 25.000 passi. si può vedere che la capacità di convergenza di distro è la stessa di all-reduce.

è importante sottolineare che, senza influenzare l'effetto dell'allenamento, distro ha ridotto direttamente il volume delle comunicazioni da 74,4 gb a 86,8 mb! ciò equivale a una riduzione di 857 volte della pressione sulla larghezza di banda.

l'autore ha inoltre affermato che questo 857 volte è solo un test iniziale e non sarà un problema modificare successivamente gli iperparametri e ridurli da 1000 a 3000 volte.

se è post-allenamento e messa a punto, può anche ottenere un'ottimizzazione della comunicazione fino a 10.000 volte senza influenzare sostanzialmente l'effetto dell'allenamento.

infine, per verificare l’effetto dell’addestramento, l’autore ha eseguito il test benchmark zero-shot gpt4all sul modello addestrato e lo ha confrontato con tinyllama (checkpoint) addestrato sullo stesso numero di token.

i risultati sono mostrati nella tabella sopra. l'architettura e il processo di training di tinyllama sono molto simili agli esperimenti in questo articolo e possono essere utilizzati come misura per verificare l'integrità dei risultati.

future applicazioni

flusso di dati

nello scenario di questo esperimento, 32 nodi utilizzano la più semplice all-reduce (connessione completa) e ciascun nodo trasmette in media 86,8 mb (2,8 mb×31) e riceve la stessa quantità di dati.

se per l'aggregazione dei dati viene utilizzato un server dedicato, ogni nodo deve caricare solo 2,8 mb di dati (i dati ricevuti rimangono invariati) e il volume di comunicazione viene ulteriormente ridotto.

inoltre, l’asimmetria è vantaggiosa perché la larghezza di banda della maggior parte di internet consumer è fortemente sbilanciata verso velocità di download più elevate.

supponendo che la velocità di rete stabile sia di 100 mbps in download e 10 mbps in upload, il ritardo nel caso peggiore è di soli 6,94 secondi per il download e 2,24 secondi per il caricamento. se sovrapposto, il ritardo per ogni passaggio è di 6,94 secondi.

ps: la trasmissione dei dati di cui sopra è tutta vettoriale originale e può essere più veloce se viene utilizzata la tecnologia di compressione.

larghezza di banda

gli autori hanno affermato che gli esperimenti e la ricerca attuali sono relativamente limitati ed è impossibile concludere se il tasso di riduzione della larghezza di banda aumenterà, diminuirà o rimarrà lo stesso man mano che il modello diventa più grande.

tuttavia, l’attuale 1,2 miliardi sembra essere la dimensione minima alla quale distro può funzionare bene (non importa quanto piccolo sia, non convergerà), quindi si può presumere che all’aumentare della dimensione del modello, relativamente sempre meno comunicazioni saranno disponibili. essere richiesto.

tuttavia, è anche possibile che il volume di comunicazione non sia correlato alla dimensione del modello. in questo caso, la dimensione del modello può essere aumentata senza aumentare la larghezza di banda della comunicazione per osservare se un modello più grande migliorerà gli effetti di formazione e apprendimento.

se quest’ultimo scenario è vero, allora il paradigma della futura progettazione e produzione delle gpu verrà modificato (vram più grande e larghezza di banda più stretta).

si dà il caso che preferiamo anche carichi di lavoro ad alta intensità di calcolo (rispetto a quelli ad alta intensità di i/o), poiché al giorno d'oggi la larghezza di banda è molto più costosa del calcolo.

apprendimento federato

oltre alla formazione llm, a cos'altro può servire distro?

fare formazione distribuita su internet fa immediatamente pensare all'apprendimento federato.

pur consentendo un modello di formazione collaborativa, mantenere la privacy e la decentralizzazione dei dati di ciascun partecipante sta diventando sempre più importante ora che llm è controllato da grandi aziende.

fino ad ora, l’apprendimento federato non disponeva di metodi efficaci per addestrare modelli di grandi dimensioni su una larghezza di banda internet limitata.

distro non ha alcun requisito su come elaborare i dati o distribuirli ai singoli nodi gpu e può essere senza stato (simile alla media federata), quindi è adatto per il futuro dell'apprendimento federato.

cluster gpu virtuale eterogeneo

inoltre, distro può creare una rete completamente decentralizzata e senza autorizzazione per collaborare e condividere risorse.

gli esperimenti mostrano che distro è significativamente resiliente a un numero limitato di nodi che vengono declassati o eliminati durante l'addestramento e può adattarsi facilmente all'aggiunta di nuovi nodi.

con la benedizione di questa capacità, da un lato, può garantire la sicurezza dell’intero sistema e ridurre il rischio che nodi non attendibili utilizzino attacchi avversari per interrompere le operazioni.

d’altro canto, anche le istituzioni e i singoli individui possono essere incoraggiati a contribuire in modo flessibile con le proprie risorse informatiche e a liberare potenziale potenza di calcolo.

anche alcune vecchie carte con memoria o potenza di calcolo insufficienti possono unirsi per guadagnare qualche soldo extra, utilizzando strategie come fsdp e swarm parallelism per lavorare con distro.

energia

un’ulteriore applicazione su larga scala di distro potrebbe alleviare il consumo energetico, i costi infrastrutturali e i problemi legati all’uso del territorio causati dalla costruzione di grandi data center.

il progetto llama 3.1 ha richiesto la costruzione di due grandi superammassi monolitici, ciascuno contenente 24.000 gpu h100, e il solo processo di addestramento ha prodotto l’equivalente di 11.000 tonnellate di emissioni di co2.

nell'attuale llm, oltre all'aumento delle dimensioni dei parametri del modello, aumenta anche la quantità di dati di addestramento, facendo sì che i data center legati all'intelligenza artificiale raggiungano i limiti delle moderne reti elettriche.

distro può essere utilizzato per bilanciare in modo adattivo più piccoli data center modulari utilizzando la capacità in eccesso, utilizzando l'infrastruttura esistente attraverso la tecnologia di formazione del bilanciamento dinamico per ridurre l'impatto negativo della formazione sull'ambiente.

al momento, la teoria alla base di distro necessita ancora di ulteriore esplorazione e in futuro verranno rilasciati documenti accademici e codici completi più rigorosi e dettagliati.

notizia

il traffico della formazione llm è 10.000 volte inferiore! un nuovo ottimizzatore distribuito, che integra la potenza di calcolo del mondo per addestrare una potente intelligenza artificiale

nuovo rapporto sulla saggezza

pre-formazione llm

introduzione

le mie informazioni di contatto