notizia

I dati di allineamento LLM vengono sintetizzati in modo completamente automatico! Il dottorando cinese della UW propone il metodo Magpie, Macbook Air può eseguirlo

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Editore: Qiao Yang

[Introduzione alla Nuova Saggezza] Un recente articolo dell’Università di Washington e Allen AI propone un approccio nuovo e interessante alla sintesi dei dati. Hanno scoperto che sfruttare appieno le caratteristiche autoregressive di LLM può guidare il modello a generare automaticamente dati di messa a punto delle istruzioni di alta qualità.

I dati sono cruciali per la formazione LLM, ma la nostra attenzione è spesso concentrata sui dati di formazione e valutazione, mentre i dati di perfezionamento vengono ignorati.

Ad esempio, sebbene i modelli della serie Llama abbiano pesi aperti (come Llama-3-Instruct), il set di dati di fine tuning è ancora privato.

Gran parte del successo del LLM dipende dalla messa a punto delle istruzioni, un processo che consente al modello di generalizzarsi meglio ai compiti a cui non è stato esposto durante la formazione.

Proprio come l’efficacia della formazione dipende dalla qualità del corpus formativo, l’efficacia della messa a punto dell’istruzione dipende anche dalla disponibilità di set di dati didattici di alta qualità.

Tuttavia, rispetto al corpus di formazione auto-supervisionata senza etichetta, i set di dati di messa a punto e allineamento di alta qualità sono più difficili da creare ed espandere perché sono necessarie più annotazioni manuali e ci sono intervalli di suggerimenti predefiniti.

Persino le aziende specializzate nella fornitura di dati ai giganti della tecnologia AI non sono in grado di realizzare annotazioni automatizzate nella fase attuale e devono persino assumere professionisti con stipendi elevati per partecipare alla messa a punto e alla costruzione di set di dati allineati.

Alexandr Wang, CEO di Scale AI, una volta disse:

Recentemente, un articolo pubblicato congiuntamente dall’Università di Washington e dall’istituto di ricerca Allen AI si concentra su come sintetizzare dati di messa a punto di alta qualità con LLM allineati.


Indirizzo del documento: https://arxiv.org/abs/2406.08464

Il metodo proposto nel documento realizza l'automazione dell'intero processo e non richiede alcun problema di seed. Ciò che è ancora più sorprendente è che il codice non solo può essere eseguito localmente, ma utilizza anche LLM per generare automaticamente dati molto affidabili e di alta qualità.

Dopo aver utilizzato il modello base di Llama-3-8B per mettere a punto il set di dati SFT generato, hanno ottenuto un modello con prestazioni migliori rispetto alla versione ufficiale ottimizzata Llama-3-Instruct.


Il documento è stato inoltrato e approvato da Sebastian Raschka, una grande figura nel circolo dell’AI.


All'inizio non credeva che questo metodo potesse davvero funzionare localmente sul MacBook Air, ma dopo averlo provato lui stesso, è rimasto piacevolmente sorpreso di scoprire che era davvero possibile.


Raschka è autore di numerosi libri tecnici di successo, tra cui "Building Large Language Models from Scratch", "Python Machine Learning", ecc. Attualmente lavora come ingegnere di ricerca presso Lightning AI.



Il primo autore dell'articolo, Zhangchen Xu, è uno studente di dottorato al secondo anno presso il Network Security Laboratory dell'Università di Washington, studia con la professoressa Radha Poovendran. I suoi interessi di ricerca sono la sicurezza, la privacy e l'equità dell'apprendimento automatico, e lo sta facendo attualmente concentrandosi su come costruire un LLM affidabile.


Diamo quindi uno sguardo più da vicino a come viene implementato questo efficiente metodo di sintesi dei dati.

Panoramica del metodo

Un tipico input LLM è generalmente composto da 3 parti:

- modello di pre-query

- Contenuto della query (query)

- Modello post-query

Due dei modelli sono generalmente predefiniti dallo sviluppatore del modello per garantire che il modello venga richiesto correttamente.

Ad esempio, il modulo di input di Llama-2-chat è:

[INST] Ciao! [/INST]

Negli studi precedenti, di solito esistono due metodi per costruire set di dati di ottimizzazione. Uno è lasciare che gli esseri umani lo facciano manualmente, il che ovviamente consuma tempo e risorse. Il secondo consiste nell'iniziare con un numero limitato di istruzioni seed annotate manualmente e chiamare LLM tramite prompt per sintetizzare più istruzioni.

Sebbene il secondo metodo consenta di risparmiare manodopera, mette alla prova il livello di tempestività ingegneristica e la selezione dei problemi iniziali. In altre parole, è difficile ottenere un’espansione controllabile su larga scala.

Un problema ancora più fatale è che le istruzioni sintetizzate sono spesso molto vicine alle istruzioni seed, il che influenzerà seriamente la diversità dei set di dati su larga scala. La creazione di set di dati di istruzioni diversificati e di alta qualità in modo scalabile rimane un problema impegnativo nel campo LLM.

Tuttavia, l'autore ha fatto un'interessante scoperta nei primi esperimenti: a causa delle caratteristiche autoregressive di LLM, quando viene immesso solo il modello pre-query, il modello sintetizzerà automaticamente la query e, dal punto di vista del contenuto, sembra avere buona qualità e diversità. Ciò dimostra che può sfruttare efficacemente le capacità apprese durante il processo di allineamento.

Ispirato da ciò, l'autore ha proposto la seguente idea per costruire un set di dati di istruzioni: utilizzare il modello di pre-query come prompt, inserirlo nell'LLM allineato e generare automaticamente i dati di istruzione.

Come mostrato nella figura seguente, ciascuna istanza di dati di istruzione contiene una o più coppie istruzione-risposta e sono specificati i ruoli di fornitore di istruzioni e follower.


La Figura 1 descrive la pipeline generata automaticamente dall'intero dato, che è approssimativamente divisa in due passaggi.

Il primo è la generazione di istruzioni. Il metodo MAGPIE costruisce il contenuto della query nel formato del modello di istruzioni predefinito LLM, ma include solo il fornitore di istruzioni (come l'utente) e non include il contenuto dell'istruzione specifico.

Utilizzandolo come input LLM, il modello genererà istruzioni in modo autoregressivo. Questo processo garantisce la diversità delle istruzioni generate poiché non sono richieste competenze specifiche di ingegneria dei suggerimenti e non vengono utilizzate domande di seeding.

Nella seconda fase, MAGPIE inserisce le istruzioni precedentemente generate in LLM per ottenere il contenuto della risposta.

Iterando ripetutamente i due passaggi precedenti, è possibile ottenere più cicli di dati di istruzioni. Se desideri generare dati per un campo specifico, puoi farlo aggiungendo i prompt corrispondenti.


Dopo aver ottenuto i risultati della generazione originale, l'autore li ha anche filtrati in base alla lunghezza del testo, alla categoria del compito, alla qualità dell'input, alla difficoltà dell'input e ad altri indicatori.


Il documento utilizza due modelli, Llama-3-8B-Instruct e Llama-3-70B-Instruct rispettivamente, per costruire due set di dati MAGPIE-Air e MAGPIE-Pro e fornisce esempi di istruzioni generate nell'appendice:


Come puoi vedere, la qualità del testo è davvero buona ed è completamente paragonabile alle istruzioni scritte da esseri umani.

Tuttavia, per valutare la qualità di dati su così larga scala, non possiamo fare affidamento esclusivamente su sensazioni soggettive, quindi l'autore ha condotto un'analisi quantitativa sul set di dati di istruzioni generato MAGPIE-Pro.

Analisi del set di dati

Copertura

Per considerare la diversità dei testi di istruzioni, una metrica efficace è la copertura degli incastri di testo nello spazio semantico.

L'autore ha campionato in modo casuale il testo delle istruzioni da MAGPIE-Pro, lo ha codificato in vettori di incorporamento e lo ha proiettato in uno spazio bidimensionale utilizzando il metodo t-SNE. Per il confronto sono stati utilizzati tre set di dati di base, tra cui Alpaca, Evol Instruct e UltraChat.

Ciascun punto di proiezione t-SNE nella figura seguente rappresenta 10.000 istruzioni selezionate casualmente. Si può vedere che la proiezione di MAGPIE-Pro copre sostanzialmente l’ambito degli altri tre set di dati, il che dimostra che fornisce un argomento più ampio e diversificato.


Attributi del comando

Il documento utilizza il modello Llama-3-8B-Instruct per valutare vari attributi dei dati delle istruzioni MAGPIE, come la categoria del compito, la qualità, la difficoltà, la somiglianza e la qualità della risposta dell'istruzione.

Le categorie di compiti per generare istruzioni sono principalmente il recupero di informazioni, che rappresenta più della metà, e includono anche la scrittura creativa, la ricerca di consigli, la pianificazione, la matematica, il ragionamento, il brainstorming e l'editing, ecc., che sono sostanzialmente coerenti con le esigenze tradizionali degli utenti umani .


Anche la qualità e la difficoltà delle istruzioni vengono valutate automaticamente utilizzando il modello Llama-3-8B-Instruct.

Si può vedere che in entrambi i set di dati, la maggior parte dei casi è giudicata nella media o superiore e la qualità complessiva di MAGPIE-Pro è migliore di MAGPIE-Air.

La distribuzione della difficoltà di istruzione del set di dati è sostanzialmente simile, con oltre il 60% concentrato nel livello "facile", e il set di dati Pro è leggermente più impegnativo di Air.


Calcolando la somiglianza delle istruzioni, il grado di diversificazione può essere valutato da un altro aspetto. L'articolo utilizza FAISS per cercare i vicini più prossimi di ciascun testo incorporato e calcolare la distanza tra loro per misurare il grado di somiglianza.

In termini di qualità della risposta, FsfairX-LLaMA3-RM-v0.1 viene utilizzato come modello di valutazione della ricompensa e URIAL viene utilizzato come modello di base per il confronto. Una differenza di ricompensa positiva indica una qualità superiore, il che è vantaggioso per il processo di perfezionamento delle istruzioni.

Come si può vedere nella Figura 5b, la distribuzione dei dati di MAGPIE è spostata complessivamente a destra e presenta un valore di picco inferiore rispetto al modello di base, indicando che la qualità complessiva della risposta è migliore.


sicurezza

Inoltre, in termini di sicurezza dei comandi, l’autore ha utilizzato Llama-guard-2 per la valutazione automatica e ha scoperto che la maggior parte del set di dati MAGPIE è sicuro, ma contiene ancora meno dell’1% di comandi o risultati di risposte dannosi.


Valutazione dei risultati

Uno dei maggiori punti salienti di questa ricerca sono i costi di gestione efficienti e la pipeline completamente automatizzata senza alcun intervento manuale.

Durante la creazione del set di dati 3M MAGPIE-Air, sono state utilizzate quattro GPU A100 per completare la generazione di comando/risposta in 1,55 ore/50 ore. La generazione del set di dati 1M MAGPIE-Pro richiede rispettivamente 3,5 ore/150 ore.

Se eseguito su un server cloud, anche il costo è molto considerevole. Il costo è di $ 0,12 o $ 1,10 per 1.000 istanze generate, a seconda del set di dati Air o Pro.

Per riflettere realmente i vantaggi del metodo MAGPIE, il documento applica effettivamente il set di dati alla messa a punto del modello base e lo confronta con la versione ottimizzata rilasciata ufficialmente.

L'autore ha selezionato i 6 set di dati di perfezionamento delle istruzioni open source più avanzati come ShareGPT ed Evol Instruct come linee di base. Tra questi, ShareGPT e WildChat sono scritti da esseri umani, mentre Evol Instruct e UltraChat sono set di dati sintetici.

I modelli base ottimizzati includono Llama-3 e Qwen-1.5 e due indicatori ampiamente utilizzati, AlpacaEval e Arena-Hard, vengono selezionati per valutare le prestazioni.

Dal confronto dettagliato dei dati tra le due tabelle, si può scoprire che, indipendentemente dal modello di base utilizzato, il set di dati generato dal metodo MAGPIE ha una qualità superiore, è migliore di tutti i set di dati di base ed è migliore dei dati ufficiali. impostato nella maggior parte degli indicatori. Modello ottimizzato rilasciato.



Mentre la legge di scalabilità del LLM tocca gradualmente il muro dei dati, il metodo di questo articolo apre un’altra porta di speranza per i dati sintetici. Forse utilizzando algoritmi e tecniche attentamente progettati, i dati sintetici LLM possono gradualmente diventare il "pilastro" dei set di dati pubblici.

Riferimenti:

https://arxiv.org/abs/2406.08464