notizia

Apple ha reso open source il modello 7B e ha fornito l'intero set di dati del processo di formazione in una volta sola. I Netizens hanno affermato: È molto diverso da Apple.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Apple è l'ultima ad entrare nel campo di battaglia del modello open source di grandi dimensioni ed è più aperta di altre società.

srotolaremodello 7B, non solo l'effetto è lo stesso diLama 3 8BÈ abbastanza buono ed è open source tutto in una volta.Tutti i processi e le risorse di formazione



Sapete, non molto tempo fa, Elizabeth Gibney, direttrice della rivista Nature,Scrivere critiche

  • Molti modelli di intelligenza artificiale che pretendono di essere open source in realtà non sono trasparenti in termini di dati e metodi di formazione e non possono soddisfare le esigenze della vera ricerca scientifica.

Ma questa volta Apple è arrivata davvero! !

Anche lo scienziato della PNL e il creatore di AutoAWQ hanno esclamato:

  • Apple ha rilasciato un modello che batte il Mistral 7B, ma la cosa ancora migliore è che hanno reso tutto completamente open source,Include il set di dati pre-addestramento



Ha anche attirato gli utenti della rete al ridicolo online:



Per quanto riguarda il significato di questo open source, anche alcuni netizen entusiasti hanno contribuito a riassumerlo:

  • Per chiunque desideri addestrare un modello da zero o perfezionare un modello esistente,processo di gestione dei datiDeve essere studiato.



Naturalmente, oltre a OpenAI e Apple, la scorsa settimana anche Mistral AI e NVIDIA hanno rilasciato un piccolo modello con parametri da 12B.

Il fondatore di HuggingFace ha detto:"Settimana del modello piccolo"in arrivo!



rotolo! Continua a rotolare! Quindi quanto è efficace il modello piccolo rilasciato questa volta da Apple?

L'effetto è vicino a Llama 3 8B

Non parliamo di quanto sia potente, diamo un'occhiata a ciò che il direttore tecnico di Hugging Face ha appena "unboxed".Configurazione base del modello

Riassumendo:

  • Modello base 7B, utilizzato su set di dati apertiGettoni da 2,5 Tcondurre la formazione
  • Principalmente dati inglesi, con2048finestra di contesto dei token
  • I set di dati includono DCLM-BASELINE, StarCoder e ProofPile2
  • Il punteggio MMLU è vicino a Llama 3 8B
  • Formazione utilizzando PyTorch e il framework OpenLM



Nello specifico, il gruppo di ricerca ha innanzitutto proposto un modello linguisticoNuovo benchmark per il confronto dei dati——DCLM.

Questo benchmark è stato proposto perché il team ha scoperto:

  • da set di dati più grandi mediante modelli di machine learning (ML).Filtra e seleziona automaticamente dati di alta qualità, potrebbe essere la chiave per costruire un set formativo di alta qualità.

Pertanto, il team utilizza DCLM per progettare set di dati di alta qualità per migliorare le prestazioni del modello, soprattutto nel dominio multimodale.

QuelloIdeeÈ semplice: utilizzare un framework standardizzato per condurre esperimenti, inclusa l'architettura del modello fisso, il codice di addestramento, gli iperparametri e la valutazione, e infine scoprire quale strategia di gestione dei dati è la migliore per l'addestramento di modelli ad alte prestazioni.



Sulla base delle idee di cui sopra, il team ha costruito aSet di dati di alta qualità DCLM-BASELINEe l'ho utilizzato per addestrare da zero un modello con parametri 7B: DCLM-7B.



Qual è la prestazione specifica di DCLM-7B?

I risultati mostrano che si tratta di 5 colpi sul benchmark MMLUIl tasso di precisione raggiunge il 64%, paragonabile a Mistral-7B-v0.3 (63%) e Llama 3 8B (66%); e anche la prestazione media su 53 compiti di comprensione del linguaggio naturale è paragonabile a Llama 3 8B, mentre il calcolo richiesto L'importo è solo 1 /6 di quest'ultimo.



Rispetto ad altri modelli della stessa dimensione, il punteggio MMLU di DCLM-7B supera Mistral-7B ed è vicino a Llama 3 8B.



Infine, perTestare l'effetto del nuovo set di dati, alcuni addetti ai lavori hanno utilizzato llm.c di Kapasi per addestrare GPT-2 1.5B per confrontare i due set di dati di DCLM-Baseline e FineWeb-Edu.



I risultati mostrano che il DCLM-Baseline è stato raggiuntopunteggio medio più altoe ottiene risultati migliori in compiti come ARC (ragionamento sui problemi scientifici degli studenti della scuola primaria), HellaSwag (ragionamento basato sul buon senso) e MMLU.



I modelli “piccoli” diventano una nuova tendenza

Tornando alle origini, ultimamente i modelli “piccoli” sono diventati la nuova tendenza.

Innanzitutto, HuggingFace ha lanciato una famiglia di piccoli modelli“SmolLM”, che comprende i modelli 135M, 360M e 1.7B.



Superano modelli di dimensioni simili su un'ampia gamma di parametri di inferenza e buon senso.



Poi all'improvviso è stato rilasciato OpenAIMini GPT-4o, non solo la capacità è vicina a GPT-4, ma il prezzo è sceso in modo significativo.



Solo in GPT-4o miniRilasciato lo stesso giorno, Mistral AI e NVIDIA hanno rilasciato un piccolo modello con parametri 12B——Mistral NeMo

In termini di prestazioni complessive, Mistral NeMo ha sconfitto Gemma 2 9B e Llama 3 8B in numerosi test benchmark.



Allora perché tutti iniziano a lanciare modelli piccoli?

Il motivo potrebbe essere quello ricordato dal fondatore di smol AI. Sebbene il modello sia diventato più piccolo, quando le capacità sono simili, il modello piccoloCosti notevolmente ridotti



Proprio come nell'immagine fornita, i modelli piccoli rappresentati da GPT-4o mini sono generalmente più economici di quelli a destra.



A questo proposito, aspetto che le persone che mangiano meloni dicano:



Allora, quale preferisci?