notizia

Oxbridge non è riuscita ad "avvelenare" l'intelligenza artificiale ed è apparsa sulla copertina di Nature 9 volte, scatenando un acceso dibattito nei circoli accademici

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  Nuovo rapporto sulla saggezza

Redattore: Enea così assonnato
[Introduzione alla Nuova Saggezza] Il documento di Oxford e Cambridge sui nove avvelenamenti che hanno fatto crollare il modello ha ricevuto molte critiche: anche questo può essere incluso in Nature? Di questo si è discusso ulteriormente negli ambienti accademici e tutti hanno lo stesso punto di vista: i dati sintetici sono considerati da molti come una panacea, ma al mondo non c’è niente di gratis.

Nell’era dell’IA, i dati sono il nuovo petrolio. In un’era in cui i dati umani globali vengono gradualmente esauriti, i dati sintetici sono il nostro futuro?
La recente polemica suscitata da un articolo sulla copertina di Nature ci ha fatto capire: l'importante non sono i "dati sintetici", ma "il corretto utilizzo dei dati sintetici".
Giovedì, un articolo di Oxford, Cambridge, Imperial College, Università di Toronto e altre istituzioni è apparso sulla copertina di Nature.
Tuttavia, ciò che le persone non si aspettavano era che, una volta pubblicato, il documento innescasse molte discussioni nella comunità dell’intelligenza artificiale.
Alcuni credono che il nocciolo del problema non siano i “dati sintetici” ma la “qualità dei dati”.
Anche se vengono utilizzati tutti i dati artificiali, se la qualità è troppo scarsa, il risultato sarà "garbage in, garbage out".
Alcuni pensano addirittura che i ricercatori abbiano deliberatamente adottato metodi che non corrispondono all'operazione reale e che siano in realtà "eccezionali".
A questo proposito, il professor Ma Yi ha affermato che ora siamo entrati in un’era in cui mancano idee e metodi scientifici.
Molti studi non sono altro che la riscoperta di un certo buon senso scientifico.

Come evitare il crash del modello?


Quindi la domanda è: come possiamo evitare il collasso del modello quando utilizziamo l’intelligenza artificiale per sintetizzare i dati?

I dati ibridi sono il futuro

Per questo articolo sulla copertina di Nature, Alexandr Wang, CEO di Scale AI, è profondamente d'accordo.
Ha affermato che l’utilizzo di dati puramente sintetici per addestrare i modelli non porterà alcun guadagno di informazioni.
Di solito, quando un parametro di valutazione aumenta a causa dell’auto-distillazione, è molto probabilmente a causa di alcuni compromessi più sottili:
  • I dati sintetici possono migliorare le stime nel breve termine, ma poi si paga il prezzo del collasso del modello
  • Nel processo di formazione o messa a punto del modello si accumula un debito invisibile che sarà difficile da ripagare

Nello specifico, nelle generazioni successive di allenamento sintetico, gli errori derivano principalmente da tre aspetti:
  • errore di approssimazione statistica
  • errore di espressività funzionale
  • errore di approssimazione funzionale

Cioè, ogni volta che si addestra un nuovo modello utilizzando i dati generati dal modello precedente, si perdono alcune informazioni e accuratezza, facendo sì che il modello diventi sempre più vuoto e alla fine smetta di funzionare correttamente.
Sebbene questi esperimenti siano stati eseguiti su un modello su piccola scala (parametri 100M), gli effetti di base osservati appariranno nel tempo anche su modelli su scala più grande.
Ad esempio, la maggior parte dei modelli oggi non è in grado di generare post di blog in stile Slate Star Codex, sempre a causa di arresti anomali del modello. Mentre addestriamo continuamente i modelli, perdono gradualmente la capacità di fare previsioni su un’ampia distribuzione.
Secondo Wang, i dati ibridi rappresentano la direzione futura dello sviluppo, che può evitare tutti i problemi spinosi legati al collasso del modello.
Cioè, nel processo di sintesi dei dati, questi devono essere generati attraverso una nuova fonte di informazione:

(1) Utilizzare i dati del mondo reale come semi

(2) Partecipano esperti umani

(3) Motore logico formale
Al contrario, gli sviluppatori che addestrano accidentalmente i loro modelli su dati sintetici senza alcun guadagno di informazioni, alla fine scopriranno che i loro modelli diventano sempre più strani e stupidi nel tempo.

L’apprendimento per rinforzo è tutto ciò di cui hai bisogno

I ricercatori della Meta, della New York University e della Peking University hanno proposto un metodo di "feedback di potatura del ranking" attraverso esseri umani o modelli più deboli in grado di ripristinare o addirittura superare le prestazioni originali del modello.
Riguardo a questa ricerca, anche LeCun l'ha trasmessa per esprimere il suo sostegno.
Come tutti sappiamo, è molto più facile per gli esseri umani e le macchine distinguere tra esempi buoni e cattivi piuttosto che generare campioni di alta qualità da zero.
Sulla base di ciò, l'autore propone un metodo completamente nuovo per prevenire il collasso del modello attraverso il feedback di dati sintetici.

Per indagare su questa domanda, gli autori forniscono innanzitutto risultati analitici in un contesto teorico.
Qui, gli autori propongono modelli di miscela gaussiana e modelli lineari nel limite ad alta dimensione come classificatori e lasciano che un verificatore (ad esempio, umano o oracolo) selezioni o elimini i dati generati.
I risultati mostrano che quando il numero di punti dati sintetici si avvicina all’infinito, i modelli addestrati su dati selezionati possono ottenere risultati ottimali paragonabili a quelli addestrati su dati grezzi.
Le simulazioni sui dati sintetici mostrano che la supervisione degli oracoli produce costantemente risultati quasi ottimali rispetto all'utilizzo di annotazioni grezze.
Inoltre, poiché distinguere dati di alta qualità attraverso la supervisione umana è più semplice ed economico rispetto all’annotazione umana diretta, ciò fornisce una forte prova dell’efficacia della supervisione umana.
Un modello misto gaussiano con un generatore lineare e un potatore lineare: il potatore migliora le prestazioni rinforzando selettivamente i dati sintetici
Successivamente, gli autori hanno condotto due esperimenti su larga scala:
1. Addestrare il trasformatore su un compito aritmetico (previsione degli autovalori della matrice) e utilizzare la distanza dal valore reale per eliminare grandi quantità di dati sintetici
2. Riepilogo delle notizie utilizzando un modello linguistico ampio (Llama 2) e dati sintetici limitati
I risultati mostrano che in entrambi i casi, fare affidamento esclusivamente sui dati generati porta a un degrado delle prestazioni e a arresti anomali del modello anche se la quantità di dati aumenta.
Inoltre, selezionare la soluzione migliore dal pool di generazione basandosi solo sulla perplessità non migliora le prestazioni, ovvero il modello stesso non ha la capacità di selezionare la migliore previsione basata sulla perplessità.
Al contrario, sotto la supervisione di un oracolo, è possibile ottenere un set di dati sintetico potenziato dal feedback le cui prestazioni superano quelle del set di dati originale all’aumentare della quantità di dati.

L'aumento umano e del modello migliora le prestazioni e previene gli arresti anomali del modello; il degrado delle prestazioni si verifica senza l'aumento
Pertanto, quando si addestra un nuovo modello con dati sintetici, non solo è necessario concentrarsi sulla qualità del generatore, ma è anche necessario un verificatore di alta qualità per selezionare i dati.
Per riassumerlo in una frase: il rinforzo è tutto ciò di cui hai bisogno!

Dati reali + dati sintetici

Per quanto riguarda le lamentele dei lettori riguardo questo articolo di copertina di Nature, Rylan Schaeffer, uno studente di dottorato presso l'Università di Stanford, ha espresso la sua comprensione.
Ha osservato che il collasso del modello spesso si verifica quando i ricercatori adottano deliberatamente metodi che non corrispondono alla pratica reale.
L’accumulo di dati può crollare o meno, tutto dipende dai dettagli operativi specifici.
你们故意把它弄崩溃,它当然就会崩溃了。😂
Nel documento, scritto in collaborazione da Stanford, Maryland e MIT, Schaeffer esamina come l’accumulo di dati influisce sul collasso del modello.
Dopo gli esperimenti, hanno confermato che la sostituzione dei dati reali originali con dati sintetici in ogni generazione avrebbe effettivamente causato il collasso del modello.
Tuttavia, il collasso del modello può essere evitato se si accumulano generazioni successive di dati sintetici accanto ai dati reali originali.

Indirizzo del documento: https://arxiv.org/abs/2404.01413
In pratica, le future generazioni di LLM verranno addestrate su quantità crescenti di dati nel tempo. Ad esempio, Llama 1 richiede 1,4 trilioni di token, Llama 2 richiede 2 trilioni di token e Llama 3 richiede 15 trilioni di token.
In un certo senso, questa impostazione di accumulo dei dati è estremamente pessimistica——
In questo ipotetico futuro, i dati sintetici vengono scaricati in modo incontrollabile su Internet per essere utilizzati per addestrare la successiva iterazione del modello.

Come mostrato sul lato destro della figura, l’accumulo di dati può evitare il collasso del modello
I ricercatori hanno utilizzato tre diverse impostazioni sperimentali: trasformatore causale, modello di diffusione e codificatore autovariazionale, e si sono addestrati rispettivamente su testo reale, conformazione molecolare e set di dati di immagini.
Hanno scoperto che la sostituzione dei dati causava il collasso del modello per tutti i modelli e per tutti i set di dati, mentre l’accumulo di dati impediva il collasso del modello.
Modellazione del linguaggio causale basata su Transformer
Innanzitutto, hanno addestrato il trasformatore causale sui dati di testo.
Nello specifico, il parametro 9M GPT-2 di una singola epoca e il modello linguistico Llama 2 dei parametri 12M, 42M e 125M sono stati pre-addestrati su TinyS-tories.
Il primo è un set di dati di racconti brevi token da 470 milioni generato da GPT-3.5/4 a livello di lettura della scuola materna.
Per ogni iterazione di adattamento del modello n ≥ 2, campioniamo un nuovo set di dati della stessa dimensione di TinvStories dai tipi linguistici dell'iterazione precedente, quindi sostituiamo o concateniamo il set di dati precedente con il set di dati appena generato.
In ogni iterazione di adattamento del modello, pre-addestrano un nuovo modello inizializzato sul set di dati sostitutivo o concatenato dell'iterazione precedente.
I risultati mostrano che, per tutte le architetture, i conteggi dei parametri e le temperature di campionamento, la sostituzione dei dati porta a un aumento dell'entropia incrociata dei test all'aumentare del numero di iterazioni di adattamento del modello (Figura 2 a sinistra).
Hanno inoltre scoperto che, per tutte le architetture, i conteggi dei parametri e le temperature di campionamento, all'aumentare del numero di iterazioni di adattamento del modello, i dati accumulati determinano un'entropia incrociata del test uguale o inferiore (Figura 2, a destra).
La Figura 3 è la curva di apprendimento per ciascuna iterazione di adattamento del modello quando si sostituiscono ripetutamente i dati (in alto) e si accumulano dati (in basso).
I risultati mostrano che l’accumulo di dati evita il collasso del modello nella modellazione del linguaggio.
Sia il 125M Llama2 che il 9M GPT-2 hanno mostrato un degrado della qualità durante la sostituzione dei dati (R), ma hanno mantenuto una generazione di testo di alta qualità durante l'accumulo di dati (A).
Modelli di diffusione per dati conformazionali molecolari
Successivamente, hanno addestrato una sequenza di modelli di diffusione sui dati della conformazione molecolare.
Nello specifico, i ricercatori hanno addestrato GeoDiff, un modello di diffusione geometrica per la generazione di conformazione molecolare, sul set di dati GEOMDrugs.
Hanno ridotto il campionamento della parte di addestramento del set di dati GEOM-Drugs a 40.000 conformazioni molecolari, l'hanno utilizzata come set di addestramento iniziale e hanno eseguito 50 passaggi di diffusione per ciascuna previsione.
Risultati Dopo 8 iterazioni di adattamento del modello, i ricercatori hanno scoperto che la perdita di test aumentava durante la sostituzione dei dati, il che corrispondeva ai nostri esperimenti sul modello linguistico, e la perdita di test rimaneva relativamente costante durante l'accumulo di dati (Figura 4).
A differenza dei modelli linguistici, hanno scoperto che quando si sostituiscono i dati, le prestazioni peggiorano in modo significativo nella prima iterazione di addestramento sui dati sintetici che si adatta al modello e non diminuiscono ulteriormente in modo significativo nelle iterazioni successive.
Codificatore autovariazionale per dati immagine
Alla fine dell'esperimento, i ricercatori hanno addestrato una sequenza di codificatore variazionale (VAE) su CelebA. Il set di dati contiene 200.000 immagini di volti ed è diviso in un set di addestramento e un set di test.
Questa scelta trova un equilibrio tra set di dati realistici con molti campioni, immagini a colori e risoluzioni e la fattibilità computazionale dell'addestramento del modello per molte iterazioni sui dati accumulati.
Di conseguenza, hanno scoperto che la sostituzione dei dati in ogni iterazione mostrava nuovamente il collasso del modello:
L'errore del test aumenta rapidamente con ogni iterazione aggiuntiva e ogni iterazione produce volti di qualità inferiore e meno diversificati, fino a quando tutta la generazione del modello rappresenta un unico modello.
Al contrario, l’accumulo di dati ad ogni iterazione rallenta significativamente il collasso del modello:
L'errore del test aumenta significativamente più lentamente con ogni ulteriore iterazione.
Sebbene la diversità delle generazioni diminuisca rispetto ai pannelli centrale e destro della Figura 6, rappresenta ancora i principali assi di variazione nel set di dati, come il genere, ma il modello non sembra più generarne altri lungo gli assi più brevi dei dati molteplici dettagli come occhiali e accessori.
Un altro fenomeno interessante è che, a differenza della modellazione linguistica, l'errore del test sui dati accumulati aumenta con il numero di iterazioni (anche se molto più lentamente rispetto ai dati sostitutivi).
Perché esiste questa differenza? Questa direzione di ricerca è lasciata al futuro.
Riferimenti:
https://arxiv.org/abs/2406.07515