notizia

L'Università di Scienza e Tecnologia della Cina ha collaborato con Huawei Noah Entropy Law per rivelare le prestazioni e il tasso di compressione dei dati di modelli di grandi dimensioni

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Questo lavoro è stato completato dal team formato dal membro dell'IEEE Chen Enhong del National Key Laboratory of Cognitive Intelligence presso l'Università di Scienza e Tecnologia della Cina e dal Laboratorio dell'Arca di Noè di Huawei. Il team del professor Chen Enhong è profondamente impegnato nei campi del data mining e dell'apprendimento automatico e ha pubblicato numerosi articoli nelle principali riviste e conferenze di Google Scholar, citati più di 20.000 volte. Il Laboratorio dell'Arca di Noè è il laboratorio di Huawei impegnato nella ricerca di base sull'intelligenza artificiale. Aderisce al concetto di uguale enfasi sulla ricerca teorica e sull'innovazione applicativa e si impegna a promuovere l'innovazione tecnologica e lo sviluppo nel campo dell'intelligenza artificiale.

I dati sono la pietra angolare del successo dei modelli linguistici di grandi dimensioni (LLM), ma non tutti i dati sono utili per l’apprendimento dei modelli. Intuitivamente, ci si aspetta che campioni di alta qualità siano più efficienti nell'insegnamento del LLM. Pertanto, i metodi esistenti si concentrano solitamente sulla selezione dei dati basata sulla qualità. Tuttavia, la maggior parte di questi metodi valutano diversi campioni di dati in modo indipendente, ignorando i complessi effetti combinatori tra i campioni. Come mostrato nella Figura 1, anche se ciascun campione ha una qualità perfetta, la loro combinazione potrebbe comunque non essere ottimale a causa della ridondanza o incoerenza delle informazioni reciproche. Sebbene il sottoinsieme basato sulla qualità sia costituito da tutti e tre i campioni di qualità, la conoscenza che essi codificano è in realtà ridondante e conflittuale. Al contrario, un altro sottoinsieme di dati costituito da diversi campioni di qualità relativamente inferiore ma diversificati può fornire più informazioni nell’insegnamento del LLM. Pertanto, la selezione dei dati basata sulla qualità non è pienamente coerente con l’obiettivo di massimizzare la conoscenza LLM.

Questo articolo mira a rivelare la relazione intrinseca tra prestazioni LLM e selezione dei dati. Ispirati dalla natura della compressione delle informazioni LLM, abbiamo scoperto una legge dell'entropia, che collega le prestazioni LLM al tasso di compressione dei dati e alla perdita dei passaggi precedenti dell'addestramento del modello, che riflette rispettivamente il grado di ridondanza delle informazioni del set di dati e l'effetto intrinseco di LLM sul set di dati. Il grado di padronanza della conoscenza. Attraverso la derivazione teorica e la valutazione empirica, scopriamo che le prestazioni del modello sono inversamente correlate al rapporto di compressione dei dati di addestramento, che di solito si traduce in una minore perdita di addestramento. Sulla base dei risultati della legge dell'entropia, proponiamo un metodo di selezione dei dati molto efficiente e generale per l'addestramento di LLM, denominato ZIP, che mira a dare priorità ai sottoinsiemi di dati con bassi tassi di compressione. ZIP seleziona avidamente dati diversi in più fasi, ottenendo infine un sottoinsieme di dati con una buona diversità.



Team: il team di Chen Enhong presso il National Key Laboratory of Cognitive Intelligence dell’Università della Scienza e della Tecnologia della Cina, Laboratorio dell’Arca di Noè di Huawei

Link al documento: https://arxiv.org/pdf/2407.06645

Collegamento al codice: https://github.com/USTC-StarTeam/ZIP



Figura 1

Legge dell'entropia

Eseguiamo un'analisi teorica della relazione tra compressione dei dati e prestazioni LLM. Intuitivamente, la correttezza e la diversità dei dati di addestramento influenzeranno le prestazioni del modello finale. Allo stesso tempo, le prestazioni LLM potrebbero non essere ottimali se i dati presentano gravi conflitti intrinseci o se il modello ha una scarsa comprensione delle informazioni codificate nei dati. Sulla base di queste ipotesi, denotiamo la performance di LLM come Z, che dovrebbe essere influenzata da:

Rapporto di compressione dei dati R: intuitivamente, un set di dati con un rapporto di compressione inferiore indica una maggiore densità di informazioni.

Perdita di addestramento L: indica se i dati sono difficili da ricordare per il modello. Nello stesso modello base, un'elevata perdita di addestramento è solitamente dovuta alla presenza di rumore o informazioni incoerenti nel set di dati.

Coerenza dei dati C: la coerenza dei dati si riflette nell'entropia della probabilità del token successivo data la situazione precedente. Una maggiore coerenza dei dati di solito porta a una minore perdita di addestramento.

Qualità media dei dati Q: riflette la qualità media dei dati a livello di campione, che può essere misurata attraverso vari aspetti oggettivi e soggettivi.



Basandosi sulla legge dell’entropia, proponiamo due inferenze:

Se C viene trattata come una costante, la perdita di allenamento è direttamente influenzata dal rapporto di compressione. Pertanto, le prestazioni del modello sono controllate dal rapporto di compressione: se il rapporto di compressione dei dati R è maggiore, allora Z è solitamente peggiore, cosa che verrà verificata nei nostri esperimenti.

Allo stesso rapporto di compressione, una maggiore perdita di addestramento significa una minore coerenza dei dati. Pertanto, la conoscenza effettiva appresa dal modello potrebbe essere più limitata. Questo può essere utilizzato per prevedere le prestazioni di LLM su dati diversi con rapporto di compressione e qualità del campione simili. Mostreremo più avanti l’applicazione pratica di questo ragionamento.

ZIP: un algoritmo di selezione dei dati altamente leggero

Sotto la guida della legge dell'entropia, abbiamo proposto ZIP, un metodo di selezione dei dati che seleziona campioni di dati attraverso il tasso di compressione dei dati, con l'obiettivo di massimizzare la quantità di informazioni effettive con un budget di dati di addestramento limitato. Per ragioni di efficienza, adottiamo un paradigma greedy iterativo multistadio per ottenere in modo efficiente soluzioni approssimate con tassi di compressione relativamente bassi. In ogni iterazione, utilizziamo innanzitutto una fase di selezione globale per selezionare un pool di campioni candidati con un basso rapporto di compressione per trovare campioni con un'elevata densità di informazioni. Utilizziamo quindi una fase di selezione locale a grana grossa per selezionare una serie di campioni più piccoli che hanno la ridondanza più bassa con i campioni selezionati. Infine, utilizziamo una fase di selezione locale a grana fine per ridurre al minimo la somiglianza tra i campioni da aggiungere. Il processo di cui sopra continua finché non vengono ottenuti dati sufficienti. L'algoritmo specifico è il seguente:



Risultati sperimentali

1. Efficacia dell'algoritmo di selezione ZIP per diversi LLM e in diverse fasi di allineamento LLM

Confrontando diversi algoritmi di selezione dei dati SFT, il modello addestrato sulla base dei dati di selezione ZIP mostra vantaggi in termini di prestazioni ed è anche superiore in termini di efficienza. Consulta la tabella seguente per i risultati specifici:



Grazie alle caratteristiche indipendenti dal modello e dal contenuto di ZIP, può essere applicato anche alla selezione dei dati nella fase di allineamento delle preferenze. I dati selezionati da ZIP mostrano anche grandi vantaggi. Consulta la tabella seguente per i risultati specifici:



2. Verifica sperimentale della legge dell'Entropia

Sulla base dell'esperimento di selezione dei dati SFT, adattiamo più curve di relazione in base all'effetto del modello, al tasso di compressione dei dati e alla perdita del modello nelle fasi precedenti dell'addestramento. I risultati sono mostrati nella Figura 2 e nella Figura 3, dalle quali possiamo osservare la stretta correlazione tra i tre fattori. Prima di tutto, i dati a basso tasso di compressione di solito portano a risultati del modello migliori. Questo perché il processo di apprendimento degli LLM è fortemente correlato alla compressione delle informazioni. Possiamo pensare a LLM come a un compressore di dati, quindi i dati con un tasso di compressione inferiore significano una maggiore quantità conoscenza e quindi più preziosa per il compressore. Allo stesso tempo, si può osservare che rapporti di compressione più bassi sono solitamente accompagnati da perdite di formazione più elevate. Questo perché i dati difficili da comprimere trasportano più conoscenza, ponendo maggiori sfide a LLM per assorbire la conoscenza in essi contenuta.



Figura 2 Mistral-7B



Figura 3 Lama-3-8B

3.Applicazione pratica della legge dell'Entropia

Forniamo un'applicazione di una legge dell'entropia per guidare gli aggiornamenti incrementali dei dati di addestramento LLM in scenari reali. In questo scenario di attività, la quantità di dati di training rimane relativamente stabile e solo una piccola parte dei dati viene modificata.I risultati sono mostrati nella Figura 4, dove



Si tratta di 5 versioni di dati che vengono gradualmente aggiornate in modo incrementale. A causa dei requisiti di riservatezza, viene fornita solo la relazione relativa degli effetti del modello con tassi di compressione diversi. Secondo le previsioni della legge dell’entropia, presupponendo che la qualità dei dati non diminuisca in modo significativo dopo ogni aggiornamento incrementale, ci si può aspettare che le prestazioni del modello migliorino al diminuire del tasso di compressione dei dati.Questa previsione è coerente con la versione dei dati nella figura

I risultati sono coerenti.Tuttavia, la versione dei dati

Presenta aumenti insoliti nella perdita e nella compressione dei dati, che indicano un potenziale degrado delle prestazioni del modello a causa della ridotta coerenza dei dati di training. Questa previsione è stata ulteriormente confermata dalla successiva valutazione delle prestazioni del modello. Pertanto, la legge dell'entropia può essere utilizzata come principio guida per la formazione LLM per prevedere il potenziale rischio di fallimento della formazione LLM senza addestrare il modello sul set di dati completo fino alla convergenza. Ciò è particolarmente importante considerati gli elevati costi di formazione dei LLM.



Figura 4