ACL2024: Presentato il motore Yuntian Lifei SPACE, il ragionamento del modello di grandi dimensioni potrebbe entrare in una nuova fase

ACL2024: Svelato il motore Yuntian Lifei SPACE, il ragionamento dei modelli di grandi dimensioni potrebbe entrare in una nuova fase

2024-08-14

Dall'11 al 16 agosto si è tenuto a Bangkok, in Tailandia, il 62esimo incontro annuale dell'Associazione per la Linguistica Computazionale (ACL).

Il documento "La generazione incontra la verifica: accelerazione dell'inferenza del modello linguistico di grandi dimensioni con la decodifica automatica parallela intelligente" del grande team di modelli di Yuntian Lifei è stato accettato come documento lungo sui risultati ACL24. Questa è una visualizzazione graduale di alcuni dei risultati della ricerca del grande modello di Yuntian Lifei.

La conferenza annuale ACL è la conferenza accademica numero uno al mondo nel campo della linguistica computazionale e dell'elaborazione del linguaggio naturale. È organizzata dall'Associazione internazionale per la linguistica computazionale e si tiene ogni anno. È elencata come conferenza di Classe A nella conferenza consigliata elenco della China Computer Federation (CCF).

L'articolo selezionato di Yuntian Lifei propone il motore SPACE, una soluzione innovativa per ottenere un'accelerazione senza perdite dell'inferenza di modelli di grandi dimensioni. Lo dimostrano i risultati dei test su diversi tipi di modelli di grandi dimensioniDopo aver utilizzato il motore SPACE, la velocità di inferenza del modello sul set di test HumanEval è aumentata del 270%-400%., la qualità dei risultati dell'inferenza rimane invariata e può ottenere sia un "calcolo rapido" che un "calcolo accurato".

Documenti selezionati del team di modelli di grandi dimensioni di Yuntian Lifei

È difficile che le soluzioni del ragionamento tradizionale raggiungano “sia i bisogni che i desideri”

Lo SPAZIO èSmercatoParalleloUNuto-Ccorretto DeL'abbreviazione di coding significa "decodifica parallela intelligente per la correzione automatica degli errori".

Questo schema di ragionamento ha due caratteristiche principali: in primo luogo, adottasemi-autoregressivomodello di ragionamento, che accelera notevolmente il ragionamento; il secondo è quello di aggiungereverificareQuesto metodo può migliorare la velocità del ragionamento garantendo al contempo l'accuratezza del ragionamento.

Cos'è il "semi-autoregressivo"? Perché dovremmo aggiungere la verifica Prima di spiegare questi problemi, dobbiamo prima capire come "funziona" l'attuale modello di grandi dimensioni?

Apri l'APP del grande modello linguistico, inserisci "Qual è il grande modello?" nella finestra di dialogo e il grande modello restituirà la sua risposta parola per parola: "Il grande modello è un modello di deep learning con decine di milioni di parametri." Il processo di questa risposta può essere visto Sembra molto semplice. Ma in realtà, i modelli di grandi dimensioni hanno sperimentato molteplici cicli “autoregressivi” dietro le quinte.

Innanzitutto, il modello grande predice prima la prima parola dell'output - "big" in base al contenuto immesso, quindi riporta la parola "big" all'estremità dell'input e prevede quale dovrebbe essere la parola successiva in output in base al parola "grande". Naturalmente, questa "previsione" non è una "ipotesi cieca" improvvisata, ma il modello emetterà un giudizio globale basato sui dati visualizzati nel processo di addestramento precedente e selezionerà la parola con la probabilità più alta come parola di output successiva. .

In questo caso, la seconda parola di output è "modulo". Dopo aver emesso la seconda parola, il modello grande riporterà nuovamente le parole "grande modulo" al terminale di ingresso e predirà la terza parola generata. Questo ciclo continua fino alla fine della frase completa.

Questo processo è "autoregressivo".

Attualmente, l'autoregressione è la soluzione principale utilizzata per l'inferenza di modelli di grandi dimensioni.Che si tratti di ChatGPT, dell’open source Llama o di molti grandi modelli domestici, utilizzano principalmente soluzioni di inferenza autoregressiva.

Diagramma schematico dello schema autoregressivo

Anche i vantaggi e gli svantaggi dello schema autoregressivo sono molto evidenti. Il vantaggio è che garantisce che il contenuto generato sia accurato, significativo e contestualmente coerente. Gli svantaggi sono l’alto costo computazionale e il lungo ritardo di inferenza.

Per superare questi problemi, le soluzioni proposte dall'industria sono"Semi-autoregressivo"E"Decodificazione della speculazione"。

"Semi-autoregressivo" è un compromesso tra "autoregressivo" e "non autoregressivo". menzionato sopra,"Autoregressivo"Utilizza le parole generate per prevedere la parola successiva;"Non autoregressivo"È l'opposto di "autoregressivo", prevedendo l'intera frase in una volta."Non autoregressivo"La soluzione può migliorare l’efficienza del ragionamento, ma la precisione dell’output è notevolmente ridotta. La soluzione "semi-autoregressiva" considera in modo completo i vantaggi e gli svantaggi di "autoregressivo" e "non autoregressivo" per bilanciare i requisiti di velocità e precisione del ragionamento su modelli di grandi dimensioni.

Tuttavia, l'uso della soluzione "semi-autoregressiva" ha causato nuovi problemi: in primo luogo, non è possibile utilizzare la maggior parte dei modelli di grandi dimensioni e, in secondo luogo, la precisione non è in grado di soddisfare i requisiti del settore.I modelli di grandi dimensioni tradizionali vengono creati in base alla modalità di inferenza autoregressiva. Se si desidera utilizzare una soluzione semi-autoregressiva, è necessario riqualificare il modello di grandi dimensioni da zero. L'addestramento di un modello di grandi dimensioni richiede molta elettricità, potenza di calcolo e manodopera. Quasi nessuno rovescerà il modello di grandi dimensioni che è stato finalmente addestrato e ricomincerà da capo per modificare lo schema di inferenza.

Un'altra opzione è la "decodifica speculativa".Questo piano è basato su"Bozza - Convalida"Per il lavoro del processo, è necessario prima introdurre un modello ausiliario con un numero relativamente piccolo di parametri. Il modello piccolo prima "abbozza" le risposte del candidato, quindi il modello grande verifica se le risposte del candidato sono corrette o meno. Grazie al fatto che i modelli piccoli sono più veloci nel ragionamento rispetto ai modelli grandi e i modelli grandi possono verificare più risposte dei candidati contemporaneamente, questo metodo di decodifica non solo può garantire l'accuratezza dei risultati di output, ma anche accelerare il ragionamento.

Ma questa soluzione presenta anche degli inconvenienti. Innanzitutto è necessario realizzare prima un piccolo modello molto "affidabile" ed essere in grado di "abbozzare" la risposta in modo rapido e accurato, il che di per sé è difficile. In secondo luogo, i due modelli devono avere "lo stesso testo, la stessa traccia e lo stesso sistema" tra i due modelli. Solo raggiungendo un elevato grado di coerenza in termini di segmentatori di parole ed elenchi di parole è possibile garantire i risultati della verifica.

Motore di inferenza SPACE: piccole modifiche, grande accelerazione

Poiché diverse soluzioni non possono soddisfare "sia i bisogni che i desideri", esiste una soluzione che possa solo mantenere i loro vantaggi ed evitare i loro difetti? Questo è il motore di inferenza SPACE proposto dal team del modello di grandi dimensioni di Yuntian Lifei? SPACE combina le due soluzioni di "messa a punto supervisionata semi-autoregressiva" e "decodifica di correzione automatica" per consentire a modelli di grandi dimensioni di generare più risultati in un'unica inferenza e di completare la verifica dei risultati simultaneamente per garantire la qualità dei risultati generati. allo stesso tempo,Questo motore di inferenza è adatto a qualsiasi modello di grandi dimensioni. Attraverso la messa a punto e l'ottimizzazione del modello, quando qualsiasi modello di grandi dimensioni adotta questo motore di inferenza, non solo non ha bisogno di addestrare modelli ausiliari aggiuntivi, ma migliora anche l'efficienza dell'inferenza, sfrutta appieno le risorse di calcolo parallelo come GPU e raggiunge un elevato utilizzo della potenza di calcolo.

La differenza tra lo schema autoregressivo (a sinistra) e lo schema SPACE (a destra)

Come accennato in precedenza, la maggior parte dei modelli linguistici di grandi dimensioni ha le proprie proprietà "autoregressive" e non può applicare direttamente la soluzione "semi-autoregressiva". A questo proposito, SPACE adotta il metodo del "fine tuning supervisionato semi-autoregressivo". Attraverso l'addestramento supervisionato, il modello impara a proporre una serie di possibili parole candidate quando incontra il segno speciale [MASK] (come mostrato nella figura sopra). . Ciò consente al modello di eseguire operazioni simili a "indovinare" durante il ragionamento e di produrre diverse parole candidate molto probabilmente corrette, avendo così la capacità di ragionamento semi-autoregressivo.

Per dirla semplicemente, con il supporto dello schema di "ottimizzazione supervisionata semi-autoregressiva", il modello di grandi dimensioni può fare "ipotesi" da solo durante il ragionamento e produrre più parole che probabilmente saranno corrette come risposte dei candidati.

Tuttavia, proprio come l'esame, nella bozza è possibile elencare una grande quantità di contenuti, ma le risposte corrette devono essere inserite nel foglio d'esame. Come assicurarsi che sia corretto? Ciò richiede la verifica dei risultati, e questo è ciò che fa la "decodifica della correzione automatica".

Nello specifico, durante il ragionamento, inseriamo nel modello anche le parole candidate generate dal modello grande nella fase precedente del ragionamento, consentendo al modello di autocontrollarsi e determinare se queste risposte candidate sono corrette.

Anche il metodo di giudizio è molto semplice. Se la parola generata dal modello corrisponde alla risposta del candidato precedente, la parola candidata è considerata corretta. Per rivedere, nel ragionamento autoregressivo tradizionale, se una parola è corretta, è necessario reinserirla nel modello linguistico per dedurre la parola successiva.

Ma questo non è richiesto qui a SPACE. Poiché abbiamo inserito in anticipo la parola candidata nel modello e la parola candidata è stata verificata come corretta, in questo momento possiamo ottenere direttamente la nuova risposta dalla parola candidata corretta, evitando così la necessità di reinserire la risposta nel modello e poi procedere. Pertanto, il vantaggio di questo meccanismo è che quando viene verificata la correttezza di una parola candidata, non è necessario restituirla al modello per generare la risposta successiva, riducendo così il tempo di ragionamento.

Per analogia, il ragionamento autoregressivo tradizionale può essere paragonato a una staffetta 4×100 metri: in una competizione regolare, quattro atleti devono prendere il testimone uno per uno per completare l'intera gara. Questo è come uno schema autoregressivo e richiede un ragionamento letterale. Nel piano di SPACE, i quattro atleti hanno iniziato a correre simultaneamente Quando il primo atleta ha corso i 100 metri e ha raggiunto il punto finale, anche gli altri atleti hanno raggiunto il punto finale della rispettiva tappa di 100 metri. Tuttavia, il primo atleta deve essere verificato dopo aver raggiunto il traguardo. Se la verifica viene superata, il punteggio del secondo atleta può essere confermato, quindi può essere verificato il secondo atleta e così via.

Se un atleta non supera la verifica, dovrà tornare alla linea di partenza dei 100 metri e ripartire per completare la gara. Nel migliore dei casi, se ciascuno dei quattro atleti riesce a superare la verifica, allora questo gruppo dovrà trascorrere solo 1/4 del tempo in una partita regolare per completare il gioco, ottenendo così un effetto di accelerazione nel caso peggiore, If ogni atleta non supera la verifica, quindi il tempo richiesto sarà lo stesso di una gara regolare. Se riuscirà a superare la verifica dipende principalmente dall'accuratezza delle risposte del candidato.

Allo stesso tempo, durante il processo di inferenza del modello SPACE, inseriamo anche uno speciale identificatore [MASK] nell'input per guidare il modello di grandi dimensioni a generare una versione aggiornata della risposta candidata. In base a questo meccanismo, ciascun modello di ciclo di ragionamento non solo verifica l'accuratezza delle parole candidate generate nel ciclo precedente, ma fornisce anche nuove parole candidate per il ragionamento successivo.

Questo disegno è destinato aMigliora la precisione delle parole candidate, perché ogni volta che appare una nuova risposta, le parole candidate originali diventeranno più precise attraverso l'aggiornamento. Questo processo è come le previsioni del tempo: ogni giorno facciamo previsioni sulle condizioni meteorologiche per la settimana successiva e, col passare del tempo, la precisione delle previsioni del tempo per un giorno specifico nel futuro aumenta gradualmente. Questo perché accumuliamo più dati dai sensori nel tempo, il che ci consente di fornire previsioni meteorologiche più accurate.

Il metodo tradizionale di verifica e correzione è la "decodifica speculativa" menzionata sopra, il che significa che è necessario addestrare prima un modello piccolo affidabile e quindi utilizzare un modello grande per verificarlo. La qualità di generazione del modello piccolo influisce notevolmente sul risultato finale.

Tuttavia, SPACE ha proposto una nuova soluzione in grado di raggiungere lo scopo di generazione e verifica senza utilizzare modelli di piccole dimensioni e il lavoro di verifica e il lavoro di generazione possono essere eseguiti simultaneamente. In questo modo, l’efficienza e l’accuratezza del ragionamento possono essere notevolmente migliorate.

Torniamo all'esempio iniziale. Quando inseriamo "Cos'è un modello di grandi dimensioni?", in modalità di inferenza SPACE, il modello di grandi dimensioni genererà prima le parole "I modelli di grandi dimensioni hanno decine di milioni di parametri" contemporaneamente e automaticamente. correggerli allo stesso tempo L'algoritmo di decodifica verificherà immediatamente le parole generate una per una e conserverà solo le parole con risultati di verifica corretti come risposta finale, ottenendo così l'effetto di generare più parole nel processo di ragionamento in avanti di un. modello di grandi dimensioni, raggiungendo lo scopo di accelerazione.

Infine, diamo un'occhiata agli effetti dello SPAZIO.

Abbiamo condotto esperimenti su una serie di modelli linguistici di grandi dimensioni open source, coprendo i modelli linguistici di grandi dimensioni tradizionali con dimensioni di parametri diverse da 6 miliardi a 70 miliardi.Come si può vedere dalla tabella seguente, SPACE ha effetti di accelerazione più evidenti sui modelli con parametri più grandi.。

Inoltre, SPACE può essere utilizzato anche insieme ad altre tecnologie di accelerazione dell'inferenza, come batch continuo, attenzione flash, cache KV, quantizzazione, ecc., per aumentare la velocità di inferenza.

Per verificare questo punto di vista, abbiamo implementato SPACE su un framework di inferenza tradizionale TGI. Gli esperimenti hanno dimostrato che, se combinato con altre tecnologie di accelerazione dell'inferenza, anche l'effetto di accelerazione portato da SPACE è eccezionale.

I modelli di grandi dimensioni sono entrati in migliaia di settori e il “ragionamento” è fondamentale

La formazione e l'inferenza sono le due fasi fondamentali del ciclo di vita dei modelli di grandi dimensioni. La formazione risolve il problema di "creare un modello di grandi dimensioni da zero", mentre l'inferenza risolve il problema di come applicare modelli di grandi dimensioni a migliaia di settori.

Se l'anno scorso è definito come il primo anno dell'esplosione dei modelli di grandi dimensioni, quest'anno è il primo anno dell'implementazione delle applicazioni dei modelli di grandi dimensioni. Pertanto, le capacità di ragionamento dei modelli di grandi dimensioni hanno ricevuto un'attenzione crescente.

Yuntian Lifei ha compiuto molti sforzi per accelerare l'applicazione di modelli di grandi dimensioni. In termini di potenza di calcolo, l'anno scorso l'azienda ha lanciato DeepEdge10, un chip di inferenza edge per modelli di grandi dimensioni, e recentemente ha lanciato la scheda acceleratore IPU-X6000, che può essere applicata all'accelerazione di inferenza di vari modelli di grandi dimensioni come linguaggio, visione e multi-apprendimento. modalità.

In termini di algoritmi, Yuntian Lifei ha proposto il motore di inferenza SPACE, che migliora notevolmente la velocità di inferenza di modelli di grandi dimensioni. In termini di applicazione, il modello su larga scala autosviluppato di Yuntian Lifei, Yuntian Tianshu, è stato applicato in molti settori come affari governativi intelligenti, governance urbana, sicurezza intelligente, trasporti intelligenti, affari intelligenti, istruzione intelligente, ecc., esplorando e creando industria parametri di riferimento.

In futuro, Yuntian Lifei continuerà a lavorare sodo e a dare un contributo maggiore alla ricerca e allo sviluppo, all'applicazione e alla promozione di grandi tecnologie legate ai modelli.

Segnalazione/feedback

notizia

ACL2024: Svelato il motore Yuntian Lifei SPACE, il ragionamento dei modelli di grandi dimensioni potrebbe entrare in una nuova fase

Introduzione

Le mie informazioni di contatto