Le mie informazioni di contatto
Posta[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mengchen viene dal Tempio Aofei
Qubit |. Account pubblico QbitAI
Il piccolo modello SOTA che può essere eseguito direttamente nel browser è qui, vincendo rispettivamente ai livelli di 200 milioni, 500 milioni e 2 miliardi, prodotti da Huahuanlian.
Ci sono solo due segreti:
Capo scienziato di HuaqiangTommaso Lupo, riassumendo l'esperienza del team nello sviluppo di piccoli modelli, nell'introduzione di nuove prospettive e nell'attrazione dell'attenzione del settore:
I dati sintetici sono attualmente utili solo in aree specificheLa rete è così ampia e diversificata che il potenziale dei dati reali non è stato ancora pienamente realizzato.
Attualmente la versione del modello 360M è stata rilasciata come demo e può essere giocata online (attenzione al traffico).
Chiama la GPU locale per l'esecuzione nel browser, inclusi i pesi del modello e l'interfaccia utente front-end Web, e l'operazione viene eseguita in 400 MB.
Filtra rigorosamente i dati di rete e le prestazioni salgono alle stelle
Per la serie di piccoli modelli Microsoft Phi, si afferma che viene utilizzata la metà dei dati sintetici e l'effetto è molto buono, ma i dati non vengono divulgati.
La comunità open source non lo sopporta più perché è così difficile da sopportare:
Crea un ampio set di dati sintetici per il benchmarking e rendilo open source.
Inoltre, il team ha vagamente accennato al fatto che questa mossa avrebbe anche messo alla prova le voci secondo cui Microsoft stava imbrogliando durante i test, e se ciò sarebbe stato preso in considerazione.
Hugshuang è stato costruito utilizzando Mixtral-8-7B, il miglior modello open source dell'epoca.25 miliardiDati sintetici.
Il modello addestrato funziona bene, ma è ancora leggermente al di sotto del livello di Phi-1 e Phi-1.5.
Hanno provato a far sì che modelli di grandi dimensioni spiegassero vari argomenti a livello di scuola media, e alla fine hanno ottenuto solo scarsi risultati nel test MMLU, perché MMLU è una domanda a livello di dottorato.
Il vero progresso prestazionale è arrivato da un compito secondario:
Oltre a generare dati sintetici da zero con modelli di grandi dimensioni, provaFiltra i dati di rete utilizzando filtri di modelli di grandi dimensioni。
Nello specifico, è stato sviluppato un classificatore utilizzando le annotazioni generate da Llama3-70B-Struct.Conserva solo le pagine Web più didattiche nel set di dati FineWeb。
Utilizzando dati di rete rigorosamente filtrati, le prestazioni salgono alle stelle e superano tutti gli altri modelli di dimensioni simili sulla maggior parte dei benchmark, incluso Phi-1.5.
Il team di Huahuanglian ha affermato che i risultati di questo esperimento lo erano"Agrodolce"’s: Sebbene le prestazioni del modello siano senza precedenti, mostrano anche che i dati sintetici non sono ancora buoni come quelli reali.
Successivamente hanno utilizzato la stessa idea per estenderla dal linguaggio naturale al codice, e anche il set di dati del codice filtrato si è rivelato molto potente.
Migliora direttamente il punteggio del benchmark HumanEval da circa il 13% a oltre il 20%.
Nel set di dati misti finale costruito, il set di dati filtrati e deduplicati rappresentava la stragrande maggioranza, mentre i dati sintetici puri Cosmopedia v2 rappresentavano solo il 15%.
Quindi, riassumendo, i dati sintetici sono ancora utili?
Il team ritiene che potrebbe avere più senso solo per aree in cui vi è una reale mancanza di dati reali, come il ragionamento e la matematica.
Anche i modelli più piccoli richiedono trilioni di token per essere addestrati
Proprio mentre erano entusiasti di queste nuove scoperte e risultati, un nuovo stagista, Elie Bakouch, si è unito.
Sebbene all'epoca fosse solo uno stagista, era effettivamente un esperto in varie tecniche di formazione.
Con l'aiuto di Elie, il team ha ridotto le dimensioni del modello da 1,7B a 360M o addirittura 170M, ovvero il modello standard GPT-1, GPT-2 e BERT.
Durante questo processo è stata fatta una seconda importante scoperta: a differenza del consenso passato,Anche i modelli più piccoli devono essere addestrati su trilioni di token, più lungo è, meglio è.
AncheRicottura dei datiAnche (Anneal the data) si è dimostrato efficace, ovvero conservare un set speciale di dati di alta qualità per l'ultima parte della formazione.
L'ultima serie di modelli rilasciati è adatta per l'implementazione su vari dispositivi, dagli smartphone ai laptop. Il modello più grande da 1,7B, BF16, occupa con precisione solo 3G di memoria.
Per riferimento, la versione entry di iPhone 15 ha anche 6G e i telefoni Android ne hanno ancora di più.
Sebbene il modello di base addestrato questa volta fosse abbastanza buono, il team ha comunque riscontrato un problema.
Le tecnologie di allineamento e perfezionamento del passato, come SFT, DPO, PPO, ecc., sono molto efficaci per i modelli di grandi dimensioni, ma non sono ideali per i modelli di piccole dimensioni.
Il team ha analizzato che il set di dati di allineamento conteneva molti concetti troppo complessi per il modello di piccole dimensioni e mancavano compiti semplici ben progettati.
La prossima nuova fossa è stata scavata e le squadre interessate possono iniziare a lavorarci e potrebbero diventare i salvatori di piccoli modelli.
Prova online:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm
Link di riferimento:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857