notizia

È finita l’era delle grandi modelle?Il grande capo Qi prevede: potrebbe essere necessario ridimensionare i modelli di intelligenza artificiale prima di poter essere nuovamente ampliati

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Redattore: orecchie

[Introduzione alla Nuova Saggezza]Con l'avvento dei modelli piccoli finirà "l'era dei modelli grandi"?

La "Small Model Week" è passata e l'ultimo campo di battaglia per i piccoli modelli si è appena aperto.

La settimana scorsa sono stati rilasciati in successione GPT-4o mini e Mistral NeMo. I modelli piccoli che "sono piccoli ma hanno tutti gli organi interni" sono diventati una nuova direzione a cui i leader del settore prestano molta attenzione.


Quindi, i grandi modelli stanno per cadere in disgrazia? La legge sullo scaling sta per diventare inefficace?

Andrej Karpathy, ex ricercatore di OpenAI e Tesla AI, è appena entrato nel campo della formazione sull'intelligenza artificiale. "Teacher K" ha recentemente pubblicato un tweet per guidare il settore, rivelando la nuova tendenza dietro lo spostamento dei giganti della tecnologia verso la ricerca e lo sviluppo di piccoli modelli: la concorrenza di grandi modelli di intelligenza artificiale. sta per invertire la rotta.

Prevede che i modelli futuri saranno più piccoli ma comunque più intelligenti.


I giganti dell’intelligenza artificiale e alcuni nuovi unicorni hanno recentemente rilasciato modelli di intelligenza artificiale più compatti, più potenti e più convenienti rispetto ai loro concorrenti. L’ultimo esempio è il GPT-4o mini di OpenAI.

Karpathy prevede che questa tendenza continuerà. “Scommetto che vedremo molti modelli che pensano in modo efficiente e affidabile, e in dimensioni molto ridotte”, ha scritto.

Piccoli modelli: in piedi sulle spalle dei giganti

Nelle prime fasi dello sviluppo LLM, è una tendenza inevitabile elaborare più dati e ingrandire il modello. Ciò si basa principalmente sui seguenti motivi:

Innanzitutto, le esigenze basate sui dati.

In un’era di esplosione dei dati, una grande quantità di dati ricchi e diversificati richiede modelli più potenti per essere elaborati e compresi.

I modelli di grandi dimensioni hanno la capacità di accogliere ed elaborare enormi quantità di dati. Attraverso l’addestramento dei dati su larga scala, possono scoprire modelli e leggi profondi.

In secondo luogo, il miglioramento della potenza di calcolo.

Il continuo progresso della tecnologia hardware e lo sviluppo di apparecchiature informatiche ad alte prestazioni come le GPU forniscono un potente supporto in termini di potenza di calcolo per l'addestramento di modelli di grandi dimensioni. Rende possibile l'addestramento di modelli grandi e complessi.

Inoltre, perseguire prestazioni e precisione più elevate.

I modelli di grandi dimensioni possono solitamente dimostrare prestazioni eccellenti in più campi come la comprensione del linguaggio, la generazione e il riconoscimento delle immagini. Quanto più comprendono, tanto più accurati saranno i risultati che generano.

Infine, la capacità di generalizzazione è più forte.

I modelli di grandi dimensioni possono gestire meglio nuovi problemi e compiti mai visti prima, possono formulare ipotesi e risposte ragionevoli basate su conoscenze precedentemente apprese e avere capacità di generalizzazione più forti.

Insieme alla feroce concorrenza nel campo dell'intelligenza artificiale, vari istituti di ricerca e giganti si impegnano a sviluppare modelli più grandi e più forti per dimostrare la loro forza tecnica e la loro posizione di leader. La dimensione del modello di volume è diventata naturalmente la direzione di sviluppo generale di LLM.

Karpathy ha anche attribuito la portata degli attuali modelli più potenti alla complessità dei dati di addestramento, aggiungendo che i modelli linguistici di grandi dimensioni eccellono nella memoria, superando le capacità della memoria umana.

Per analogia, se devi sostenere un esame a libro chiuso durante la settimana degli esami finali, l'esame richiede che tu reciti un determinato paragrafo del libro basandosi sulle prime parole.

Questo è l’obiettivo del pre-addestramento dei grandi modelli di oggi. Karpathy ha detto che i grandi modelli di oggi sono come serpenti avidi che vogliono solo ingoiare tutti i dati disponibili.

Non solo possono recitare la serie SHA di algoritmi di hashing per i numeri comuni, ma possono anche ricordare la conoscenza di tutti i campi, grandi e piccoli.

Ma questo modo di apprendere è come memorizzare tutto da tutta la biblioteca e da Internet per un test.

È innegabile che coloro che riescono a raggiungere questo tipo di capacità di memoria siano dei geni, ma alla fine durante l'esame è stata utilizzata solo una pagina!

Per studenti così dotati, è difficile per LLM fare meglio perché nel processo di formazione i dati, la dimostrazione del pensiero e la conoscenza sono "intrecciati" insieme.

Inoltre, da un lato, dal punto di vista delle applicazioni pratiche, i modelli di grandi dimensioni affrontano costi elevati e consumo di risorse quando vengono implementati ed eseguiti, comprese le risorse di calcolo, le risorse di archiviazione e il consumo di energia.

I modelli di piccole dimensioni sono più facili da implementare in vari dispositivi e scenari, soddisfacendo i requisiti di facilità d'uso e basso consumo energetico.

D’altra parte, dal punto di vista della maturità tecnologica, dopo che la natura e le leggi del problema sono state completamente esplorate e comprese attraverso modelli di grandi dimensioni, queste conoscenze e modelli possono essere perfezionati e applicati alla progettazione e all’ottimizzazione di piccoli modelli.

Ciò consente ai modelli di piccole dimensioni di ridurre dimensioni e costi mantenendo le stesse o addirittura migliori prestazioni rispetto ai modelli di grandi dimensioni.

Sebbene lo sviluppo di modelli di grandi dimensioni abbia incontrato un collo di bottiglia e i modelli di piccole dimensioni siano gradualmente diventati una nuova tendenza, Karpathy ha sottolineato che i modelli di grandi dimensioni sono ancora necessari, anche se non sono addestrati in modo efficace, ma i modelli piccoli sono condensati da modelli di grandi dimensioni.

Karpathy prevede che ciascun modello continuerà a migliorare, generando dati di addestramento per il modello successivo, finché non sarà disponibile un "set di addestramento perfetto".

Anche un modello pronto all'uso come GPT-2, che ha 1,5 miliardi di parametri, quando si allena GPT-2 con questo set di allenamento perfetto, può diventare un modello molto potente e intelligente per gli standard odierni.

Questo GPT-2, addestrato con un set di formazione perfetto, può ottenere un punteggio leggermente inferiore, ad esempio, nel test Massive Multi-task Language Understanding (MMLU), che copre 57 attività, tra cui matematica elementare, storia degli Stati Uniti, informatica, diritto, ecc., utilizzati per valutare la copertura delle conoscenze di base e la capacità di comprensione di modelli di grandi dimensioni.


Ma in futuro, i modelli di intelligenza artificiale più intelligenti non faranno affidamento sul volume: saranno in grado di recuperare informazioni e verificare i fatti in modo più affidabile.

Proprio come uno studente eccellente che affronta un esame a libro aperto, anche se non tutte le conoscenze sono comprese a fondo, può individuare con precisione la risposta corretta.

Secondo i rapporti, il progetto Strawberry di OpenAI si concentra sulla risoluzione di questo problema.

Il "dimagrimento" del modello grande "gonfio".

Come ha detto Karpathy, la maggior parte dei modelli molto grandi (come GPT-4) addestrati con enormi quantità di dati vengono effettivamente utilizzati per ricordare un gran numero di dettagli irrilevanti, cioè per memorizzare le informazioni a memoria.

Ciò è legato allo scopo del pre-addestramento del modello. Nella fase di pre-addestramento, il modello è tenuto a recitare il seguente contenuto nel modo più accurato possibile, il che equivale a memorizzare il testo punto.

Sebbene il modello possa apprendere conoscenze ricorrenti, a volte ci sono errori e distorsioni nei dati e il modello deve prima ricordarli tutti prima di ottimizzarli.

Karpathy ritiene che se è disponibile un set di dati di addestramento di qualità superiore, è possibile addestrare un modello più piccolo, più capace e più capace.

Con l'aiuto di modelli molto grandi, è possibile generare e pulire automaticamente set di dati di addestramento di qualità superiore.

Simile a GPT-4o mini, viene addestrato utilizzando i dati puliti da GPT-4.

Innanzitutto ingrandisci il modello e poi "ridimensionalo" su questa base. Questa potrebbe essere una nuova tendenza nello sviluppo del modello.

Per fornire una metafora vivida, è come se l’attuale modello di grandi dimensioni avesse il problema di troppi set di dati ed fosse troppo grasso. Dopo la pulizia dei dati e una formazione approfondita, si trasforma in un modello piccolo con muscoli magri.


Questo processo è come un'evoluzione passo dopo passo e ogni generazione di modelli aiuterà a generare la generazione successiva di dati di addestramento finché non otterremo finalmente un "set di addestramento perfetto".

Anche il CEO di OpenAI Sam Altman ha fatto osservazioni simili, dichiarando la “fine dell’era” dei grandi modelli di intelligenza artificiale già nell’aprile 2023.

Inoltre, è sempre più riconosciuto che la qualità dei dati è un fattore chiave di successo nella formazione sull’intelligenza artificiale, siano essi dati reali o dati sintetici.

Altman ritiene che la questione chiave sia come i sistemi di intelligenza artificiale possano imparare di più da meno dati.

I ricercatori di Microsoft hanno espresso lo stesso giudizio durante lo sviluppo del modello Phi. Anche i ricercatori di Hugging Face AI hanno concordato con la ricerca di set di dati di alta qualità e hanno rilasciato set di dati di addestramento di alta qualità.

Ciò significa che l’espansione cieca non è più l’unico obiettivo tecnico dei giganti della tecnologia. Anche i modelli piccoli e di alta qualità possono trarre vantaggio da dati più numerosi, più diversificati e di qualità superiore.

Il ritorno a modelli più piccoli ed efficienti può essere visto come l’obiettivo della prossima fase di integrazione e il rilascio del modello di OpenAI indica chiaramente la direzione dello sviluppo futuro.

Area commenti: corretta, pertinente e sanguinosa

Karpathy ha anche menzionato l'approccio simile di Tesla sulla rete di guida autonoma.


Tesla ha qualcosa chiamato "tracker offline" che genera dati di addestramento più puliti eseguendo un modello precedente più debole.

Non appena ha saputo che si diceva che la tecnologia di Tesla fosse all'avanguardia per i tempi, Musk si è subito precipitato nell'area commenti:


Anche i netizen nell’area commenti hanno espresso il loro apprezzamento per la lungimiranza di Karpathy, e sono d’accordo!

Per la futura intelligenza artificiale generale, modelli di intelligenza artificiale più piccoli e più efficienti potrebbero ridefinire l’”intelligenza” nell’intelligenza artificiale e sfidare il presupposto secondo cui “più grande è meglio”.


Sebastian Raschka, autore di "Python Machine Learning", ritiene che questo sia come una distillazione della conoscenza, distillando un piccolo modello come Gemma-2 da un grande modello 27B.

Ci ha anche ricordato che i test a scelta multipla come MMLU possono testare la conoscenza, ma non possono riflettere pienamente le reali capacità.


Alcuni netizen sono anche molto fantasiosi. Se i piccoli modelli funzionano bene, allora c'è una specializzazione nel campo, perché non utilizzare più piccoli modelli per generare risposte una per una?

Evoca 10 assistenti IA e poi lascia che quello più intelligente faccia il riepilogo finale. È semplicemente la versione IA di un think tank.


Quindi, l’AGI è un modello di grandi dimensioni onnipotente o nasce dalla collaborazione di molti modelli piccoli?

Riferimenti:

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/

https://x.com/karpathy/status/1814038096218083497