notizia

Copertura sulla natura: l'IA addestra l'IA, più si allena, più diventa stupida

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

L'addestramento dell'IA può rendere l'IA stupida? !

Ricercatori di Oxford, Cambridge e altre istituzioni hanno recentemente scoperto che modelli di grandi dimensioni possono collassare se addestrati con dati sintetici.I risultati della sua ricerca sono stati selezionati come gli ultimiCopertina della natura

Uno diretto:SPAZZATURA FUORI!



Sapete, la maggior parte dei grandi modelli di aziende tecnologiche ora utilizza dati sintetici per alleviare la "carenza di dati". Si tratta senza dubbio di un’ondata di acqua fredda che si è riversata sull’intero settore.

Il gruppo di ricerca ha fornito un esempio del genere.

Hanno testato il modello OPT-125m di Meta e hanno chiesto informazioni sull'architettura medievale.



Ogni messa a punto viene addestrata sui dati generati l'ultima volta. Le risposte nei primi turni si sono rivelate piuttosto buone. Di conseguenza, per la nona volta, ho iniziato a dire sciocchezze...

Che diavolo è questa storia dei conigli? !

L’autore principale dell’articolo ha affermato di aver considerato che i dati sintetici potrebbero introdurre errori in modelli di grandi dimensioni, ma non si aspettava che i modelli si deteriorassero così rapidamente.

Tre errori causano il collasso del modello

Innanzitutto, il team ha definito quale fosse il collasso del modello.

Il collasso del modello è un processo di degrado in cui il contenuto generato dal modello contamina la generazione successiva di set di dati di addestramento. Dopo l’addestramento sui dati contaminati, i modelli di nuova generazione sono inclini a fraintendere la realtà.

Questo ciclo continua all’infinito, ogni generazione peggiora rispetto alla successiva.



A seconda del passare del tempo, ci sono principalmente due situazioni: il collasso precoce del modello e il collasso tardivo del modello.

Nel collasso iniziale del modello, il modello inizia a perdere alcune informazioni sulla coda. (Simile ad alcuni eventi a bassa probabilità in una distribuzione di probabilità) E nel crollo tardivo del modello, il modello convergerà per non avere quasi nessuna somiglianza con la distribuzione originale.

Il verificarsi di questo processo è legato alla progettazione del modello, al processo di apprendimento e alla qualità dei dati utilizzati.

Specifico della teoria, include principalmente la deviazione del modello grande dal modello originale causata da questi tre errori.

  • errore di approssimazione statistica . Questo è il principale tipo di errore che si verifica a causa di una dimensione limitata del campione e scompare quando la dimensione del campione diventa infinito. Questo perché le informazioni potrebbero andare perse ad ogni passaggio del ricampionamento, con una probabilità diversa da zero.
  • errore di espressività della funzione . Questo errore è causato dalla capacità di espressione limitata dell'approssimazione della funzione. In particolare, le reti neurali costituiscono un’approssimazione universale solo quando la loro dimensione raggiunge l’infinito. Tuttavia, in assenza degli altri due errori, questo errore si verificherebbe solo nella prima generazione.
  • errore di approssimazione della funzione . Principalmente causato da limitazioni del processo di apprendimento, come pregiudizi strutturali nella discesa del gradiente stocastico o nella scelta degli obiettivi. Questo errore può essere visto come l'errore che si presenta nel caso di dati infiniti e di perfetta forza espressiva in ogni generazione.
Impatto sui modelli linguistici

I ricercatori hanno poi valutato l’impatto del collasso del modello sul modello linguistico. Poiché l'addestramento di un modello di grandi dimensioni da zero è molto costoso, hanno scelto di valutare l'impostazione più comune per i modelli linguistici:Perfezionare le impostazioni

Ogni ciclo di formazione inizia con un modello pre-addestrato con i dati più recenti. I dati di addestramento provengono da un altro modello preaddestrato ottimizzato.

Hanno utilizzato il modello di linguaggio meta causale OPT-125m, che è stato messo a punto su wikitext2.

Per generare dati dal modello addestrato, il team ha utilizzato la ricerca del raggio a cinque vie. Hanno impostato la sequenza di addestramento su una lunghezza di 64 token; quindi, per ciascuna sequenza di token nel set di addestramento, è stato chiesto al modello di prevedere i successivi 64 token.

Esaminano tutti i set di dati di addestramento originali e generano un set di dati artificiale della stessa dimensione.Se l'errore del modello è 0, genera il set di dati wikitext2 originale.

Per percepire ulteriormente la differenza, hanno utilizzato due impostazioni diverse: un gruppo, fatta eccezione per la formazione iniziale, non presenta dati di formazione originali nel processo successivo, l'altro gruppo conserva il 10% dei dati originali;



I risultati hanno mostrato che gli errori prodotti dal modello aumentavano nel tempo. Inoltre, fa sì che il modello dimentichi gli eventi a bassa probabilità nel set di dati e i loro risultati diventino più omogenei, prima che il modello crolli completamente. Alla fine è apparso il fenomeno dell'inizio.

Inoltre, fenomeni simili di collasso del modello sono stati osservati nei modelli VAE e GMM.





La professoressa Emily Wenger della Duke University ha affermato che finora mitigare il problema non è stato facile.

Le principali aziende tecnologiche hanno implementato una tecnologia che incorpora "filigrane" -

Contrassegna i contenuti generati dall'intelligenza artificiale da escludere dai dati di addestramento. La difficoltà è che ciò richiede un coordinamento tra le aziende tecnologiche ed è quindi meno fattibile dal punto di vista commerciale.

In questo modo, le aziende che ottengono dati da Internet possono addestrare modelli più rappresentativi del mondo reale. Pertanto, l’ondata iniziale di modelli di grandi dimensioni ha avuto il vantaggio di fare la prima mossa.

Cosa ne pensi di questo punto di vista?

Link di riferimento:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y