notizia

OpenAI lancia una sanguinosa battaglia con piccoli modelli!Il DCLM di Apple fa un debutto forte, schiacciando l'open source completo di Mistral 7B

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Editore: Tao Zi Qiao Yang

[Introduzione alla Nuova Saggezza] È arrivata l'era dei piccoli modelli? OpenAI è entrata per la prima volta nel campo di battaglia dei modellini piccoli con GPT-4o mini e Mistral AI e HuggingFace hanno rilasciato modelli piccoli uno dopo l'altro questa settimana. Oggi, Apple ha anche rilasciato un piccolo modello DCLM da 7 miliardi di parametri, che supera Mistral-7B in termini di prestazioni.

Il campo di battaglia dei piccoli modelli sta per iniziare!

Dopo l'uscita di GPT-4o mini e Mistral NeMo, anche Apple è entrata nel gioco.

Il modello piccolo DCLM contiene due dimensioni di parametri: 7 miliardi e 1,4 miliardi ed è open source al momento del rilascio. Il parametro massimo di 7 miliardi supera Mistral-7B e le sue prestazioni sono vicine a Llama 3 e Gemma.


Secondo Vaishaal Shankar, ricercatore del team ML di Apple (anche lui sviluppatore DCLM), questo è il modello "veramente open source" più performante fino ad oggi, che non solo ha pesi e codice di addestramento, ma è anche basato sull'open source. set di dati DCLM-Baseline.


Rispetto alle prestazioni del modello, il modello “vero open source” di DCLM è più accattivante.

Al contrario, la maggior parte dei giganti della tecnologia si impegna solo in modelli closed-source, o “si aggrappa ancora al pipa e si copre a metà il volto”.


Inoltre, Shankar ha previsto che i checkpoint intermedi del modello e lo stato dell'ottimizzatore continueranno a essere online in futuro.


Potrebbe essere che questa sia la primavera della comunità open source LLM?


La serie DCLM è completamente open source

Attualmente, tutti i pesi dei modelli sono stati pubblicati su HuggingFace e le schede dei modelli contengono sostanzialmente le informazioni chiave.


https://huggingface.co/apple/DCLM-7B

DCLM-7B adotta inoltre un'architettura esclusivamente decoder e utilizza i framework PyTorch e OpenLM per il pre-addestramento.

Il set di dati di base DCLM per un totale di token 4T proviene da un totale di 240T DCLM e il modello DCLM-7B ne filtra ulteriormente 2,5T per l'addestramento.


La lunghezza del contesto è 2048, che è inferiore alla lunghezza di 8k di Mistral 7B e Gemma 2 9B.

In termini di prestazioni, l'autore ha utilizzato direttamente la suite di valutazione LLM Foundry per testare i punteggi del modello su 53 compiti di benchmark.

Confrontando con altri modelli, oltre al punteggio MMLU, l'autore ha anche personalizzato due indicatori: "precisione di base" (core) e "precisione estesa" (estesa).

Il primo è la media della precisione centrale di 22 attività tra cui HellaSwag e ARC-E, mentre il secondo copre tutte le 53 attività.

Sebbene non utilizzi la maggior parte dei dati, rispetto ad altri modelli di dati aperti della stessa dimensione (sia i pesi che i set di dati sono open source), DCLM ottiene le migliori prestazioni in tutti e tre gli indicatori.


Le tre colonne dei punteggi benchmark da sinistra a destra sono: core, MMLU, estensione

Rispetto al precedente modello SOTA MAP-Neo, la precisione del compito MMLU a 5 colpi di DCLM-7B ha raggiunto il 63,7%, con un aumento di 6,6 punti percentuali, mentre la quantità di calcoli richiesti per l'addestramento è stata ridotta del 40%.

Tuttavia, se confrontati con modelli con pesi open source e set di dati closed source, l’effetto non è soddisfacente.

C'è un grande divario tra DCLM e Phi-3 in vari indicatori e i punteggi sono più o meno equivalenti a Mistral-7B-v0.3 o Gemma 8B.


I ricercatori hanno scoperto che durante l'addestramento con ulteriori 100 miliardi di dati dallo stesso set di dati ed estendendo la lunghezza del contesto a 8k, i punteggi del modello sui benchmark core ed estesi sono migliorati ulteriormente, ma i risultati MMLU non sono cambiati.


Questo risultato supera completamente il punteggio di Mistral 7B-v0.3.

Inoltre, HuggingFace ha anche rilasciato una versione di regolazione fine delle istruzioni del modello 7B, che ha ottenuto un miglioramento delle prestazioni su larga scala nel compito di ragionamento matematico GSM8K, con il punteggio che è salito dall'originale 2,1 a 52,5.


https://huggingface.co/apple/DCLM-7B-8k

Oltre alla versione 7B è contemporaneamente online anche la versione 1.4B. Miracolosamente, la quantità di dati di allenamento è aumentata di 0,1 T rispetto alla versione 7B.


https://huggingface.co/TRI-ML/DCLM-1B

Rispetto allo SmolLM recentemente rilasciato da HuggingFace, le prestazioni di DCLM-1B sono significativamente migliori, in particolare il punteggio MMLU a 5 colpi, che è superiore dell'11,9% rispetto a SmolLM.

Non solo, il punteggio MMLU di 41,9 di DCLM-1B è anche superiore al 37,87 di Qwen-1.5B e al 35,90 di Phi-1.5B.


Il modello 7B è rimasto indietro, ma il modello 1.4B lo ha superato. Come previsto, i modelli piccoli sono la specialità di Apple.

Vale la pena notare che il modello 7B è disponibile solo con la Sample Code License (ASCL) di Apple, ma la versione 1.4B è rilasciata con Apache 2.0, consentendo l'uso commerciale, la distribuzione e la modifica.

Ora che parliamo dei modelli della serie DCLM rilasciati questa volta, dobbiamo menzionare la loro importante base: il benchmark DataComp.


Indirizzo del documento: https://arxiv.org/pdf/2406.11794

L'articolo di DataComp è stato pubblicato per la prima volta il 17 giugno. I coautori Jeffrey Li, Alex Fang e il coautore finale Vaishaal Shankar sono anche sviluppatori di Apple DCLM.

L'articolo non solo approfondisce il processo di costruzione del set di dati, ma menziona anche alcuni contenuti relativi al modello DCLM.

Vaishaal Shankar ha affermato che presto verrà rilasciata una versione aggiornata di questo documento per fornire maggiori dettagli tecnici sulla pre-formazione del modello.

Rispetto alla modifica del modello per lo stesso set di dati, l'idea di DataComp è l'opposto: il modello utilizzato per la valutazione è fisso e il compito è filtrare ed elaborare i dati migliori da un totale di 240T pool di dati.

Si può dire che questo approccio è molto coerente con le idee di ricerca e sviluppo dei giganti della tecnologia: per l'esecuzione di LLM, i dati di pre-formazione stanno diventando un fattore più importante dell'architettura e dei pesi del modello.

Dopotutto, una serie di modelli “open source” come Llama, Gemma e Phi rilasciano solo pesi e non pubblicano dati.

Sono necessarie sia la legge di scala che la SLM

Per i giganti della tecnologia AI, a volte più grande è il modello, meglio è.


In effetti, non sono sempre mancati piccoli modelli nella comunità AI, come le molteplici iterazioni dei modelli della serie Phi di Microsoft, e il Gemma 2 7B appena aggiornato da Google a fine giugno.

Questa settimana, OpenAI ha improvvisamente rilasciato GPT-4o mini, Mistral AI ha collaborato con Nvidia per rilasciare Mistral NeMo, SmoLLM di HuggingFace e altri piccoli modelli sono stati rilasciati, aggiungendo nuovamente fuoco al campo dei piccoli modelli.

Come ha affermato un ricercatore di OpenAI: "Anche se preferiamo addestrare modelli di grandi dimensioni più di chiunque altro, OpenAI sa anche come addestrare modelli piccoli".


I modelli di piccole dimensioni hanno il vantaggio di essere economici, veloci e più professionali. Di solito vengono addestrati utilizzando solo una piccola quantità di dati e sono progettati per compiti specifici.

Rimpicciolire i modelli di grandi dimensioni e poi espanderne la scala potrebbe essere una delle tendenze dello sviluppo futuro.


Due giorni fa, quando è stato rilasciato GPT-4o mini, anche Andrej Karpathy ha pubblicato un lungo tweet esprimendo opinioni simili.


Crede che la competizione per le dimensioni dei modelli "aumenterà al contrario", non diventando sempre più grande, ma gareggiando per vedere chi è più piccolo e più leggero.

Il motivo per cui l'attuale LLM è gradualmente diventato un "colosso" è perché il processo di formazione è ancora molto dispendioso. Fondamentalmente chiediamo al modello di ricordare il contenuto dell'intera Internet (e in effetti, la capacità di memoria di LLM è abbastanza buona , e la qualità è migliore di quanto gli Umani siano molto migliori).

Ma per i modelli piccoli gli obiettivi della formazione sono cambiati. La domanda chiave è come i sistemi di intelligenza artificiale possano imparare di più da meno dati.

Abbiamo bisogno che il modello diventi prima più grande, e poi più piccolo, perché abbiamo bisogno che il "colosso" ricostruisca e modelli i dati in una forma sintetica ideale, ottenga gradualmente il "set di addestramento perfetto" e poi lo inserisca nel modello piccolo.

Anche Musk era d’accordo con questo punto di vista. La scala di miglioramento del modello descritta da Karpathy è esattamente il percorso che Tesla ha intrapreso nella realtà.


Nell'aprile 2023, Sam Altman ha annunciato la fine dell'era dei grandi modelli di intelligenza artificiale. In una recente intervista ha inoltre confermato che la qualità dei dati è un fattore chiave di successo per l’ulteriore formazione sull’IA.


I ricercatori Microsoft hanno fatto questo presupposto durante lo sviluppo del modello Phi. Anche i ricercatori di intelligenza artificiale di Hugging Face hanno recentemente confermato questa ipotesi e hanno pubblicato un set di dati di addestramento di alta qualità.

Prendendo come esempio GPT-4, il costo per lo sviluppo e l’utilizzo di più di un trilione di parametri supera i 100 milioni di dollari.

Un modello piccolo, come quello addestrato specificatamente su un set di dati legali, può utilizzare meno di 10 miliardi di parametri e costare meno di 10 milioni di dollari. Utilizza meno potenza di calcolo per rispondere a ciascuna query, quindi il costo è inferiore.

Nadella ha affermato che la serie di modelli piccoli Phi è grande solo 1/100 del modello gratuito dietro OpenAI e le sue prestazioni in molte attività sono quasi altrettanto buone.


Inoltre, quest’anno Google e le startup AI Mistral, Anthropic e Cohere hanno rilasciato anche modelli più piccoli.

A giugno, Apple ha annunciato la propria tabella di marcia per lo sviluppo dell’intelligenza artificiale, prevedendo di utilizzare modelli di piccole dimensioni in modo che il software possa funzionare interamente sul telefono, rendendolo più veloce e sicuro.

Per molte attività, come il riepilogo di documenti o la generazione di immagini, i modelli di grandi dimensioni possono essere eccessivi.

Illia Polosukhin, l'autrice del lavoro pionieristico di Transformer, ha affermato che il calcolo di 2+2 non dovrebbe richiedere un quadrilione di operazioni.

Tuttavia, i giganti della tecnologia non hanno rinunciato ai modelli di grandi dimensioni. Alla conferenza WWDC di quest'anno, Apple ha annunciato l'integrazione di ChatGPT nell'assistente Siri per eseguire attività complesse come la composizione di e-mail.

Dopotutto, portando all’AGI/ASI definitivo, l’espansione della scala dei parametri è direttamente proporzionale alla crescita dell’intelligenza.


Riferimenti:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/