notizia

Come creare un modello open source in grado di sconfiggere GPT-4o Tutto su Llama 3.1 405B è scritto nel documento

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Dopo una "fuga accidentale" due giorni prima, ieri sera è stato finalmente rilasciato ufficialmente Llama 3.1.

Llama 3.1 estende la lunghezza del contesto a 128K e ha tre versioni: 8B, 70B e 405B, alzando ancora una volta da solo lo standard competitivo per le tracce di modelli di grandi dimensioni.

Per la comunità AI, il significato più importante di Llama 3.1 405B è che aggiorna il limite superiore delle capacità del modello base open source. I funzionari di Meta hanno affermato che in una serie di compiti, le sue prestazioni sono paragonabili al meglio chiuso modello di origine.

La tabella seguente mostra le prestazioni degli attuali modelli della serie Llama 3 rispetto ai principali benchmark. Si può vedere che le prestazioni del modello 405B sono molto vicine a quelle del GPT-4o.



Allo stesso tempo, Meta ha pubblicato l'articolo "The Llama 3 Herd of Models", rivelando i dettagli della ricerca finora condotta sui modelli della serie Llama 3.



Indirizzo del documento: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Successivamente, diamo un’occhiata al contenuto del documento.

Punti salienti della carta Llama3

1. Dopo il pre-addestramento utilizzando la lunghezza del contesto di 8K, Llama 3.1 405B utilizza la lunghezza del contesto di 128K per la formazione continua e supporta l'uso di più linguaggi e strumenti.

2. Rispetto al precedente modello Llama, Meta ha rafforzato le pipeline di cura dei dati di pre-elaborazione e pre-addestramento, nonché i metodi di garanzia della qualità e di filtraggio dei dati post-addestramento.

Meta ritiene che esistano tre leve chiave per lo sviluppo di modelli sottostanti di alta qualità: dati, scala e gestione della complessità.

Innanzitutto, rispetto alle versioni precedenti di Llama, Meta migliora i dati utilizzati per il pre-allenamento e il post-allenamento sia in termini di quantità che di qualità. Meta Llama 3 pre-addestrato su un corpus di circa 15 trilioni di token multilingue, rispetto a Llama 2 che utilizzava solo 1,8 trilioni di token.

La scala del modello addestrato questa volta è molto più ampia rispetto al precedente modello Llama: il modello linguistico di punta utilizza 3,8 × 10²⁵ operazioni in virgola mobile (FLOP) per il pre-addestramento, che è quasi 50 volte maggiore rispetto alla versione più grande di Llama 2 .

In base alla legge di dimensionamento, nell'ambito del budget di formazione di Meta, l'attuale modello di punta ha già approssimativamente la dimensione computazionalmente ottimale, ma il tempo di formazione di Meta per modelli più piccoli ha superato di gran lunga la lunghezza computazionalmente ottimale. I risultati mostrano che questi modelli più piccoli superano i modelli computazionalmente ottimali per lo stesso budget di inferenza. Nella fase post-addestramento, Meta ha utilizzato il modello di punta 405B per migliorare ulteriormente la qualità dei modelli più piccoli come i modelli 70B e 8B.

3. Per supportare l'inferenza della produzione di massa dei modelli 405B, Meta quantizza 16 bit (BF16) in 8 bit (FP8), riducendo così i requisiti di elaborazione e consentendo l'esecuzione del modello su un singolo nodo server.

4. Il pre-addestramento del 405B su token da 15,6 T (3,8x10²⁵ FLOP) è una sfida importante. Meta ha ottimizzato l'intero stack di addestramento e ha utilizzato più di 16.000 GPU H100.

Come ha affermato il fondatore di PyTorch e Meta Distinguished Engineer Soumith Chintala, il documento di Llama3 rivela molti dettagli interessanti, uno dei quali è la costruzione dell'infrastruttura.



5. Nella fase post-formazione, Meta migliora il modello di chat attraverso più cicli di allineamento, tra cui la messa a punto supervisionata (SFT), il campionamento del rifiuto e l'ottimizzazione delle preferenze dirette. La maggior parte dei campioni SFT sono generati da dati sintetici.

I ricercatori hanno fatto diverse scelte nella progettazione per massimizzare la scalabilità del processo di sviluppo del modello. Ad esempio, è stata scelta l'architettura standard del modello denso Transformer con solo piccole modifiche invece di una combinazione di modelli esperti per massimizzare la stabilità dell'addestramento. Allo stesso modo, viene adottata una procedura di post-addestramento relativamente semplice, basata sulla messa a punto supervisionata (SFT), sul campionamento del rifiuto (RS) e sull'ottimizzazione delle preferenze dirette (DPO), piuttosto che su algoritmi di apprendimento di rinforzo più complessi, che tendono ad essere meno stabili e l'estensione più difficile.

6. Nell'ambito del processo di sviluppo di Llama 3, il team Meta ha anche sviluppato estensioni multimodali del modello per consentire il riconoscimento delle immagini, il riconoscimento dei video e la comprensione del parlato. Questi modelli sono ancora in fase di sviluppo attivo e non sono ancora pronti per il rilascio, ma il documento presenta i risultati degli esperimenti preliminari con questi modelli multimodali.

7. Meta ha aggiornato la sua licenza per consentire agli sviluppatori di utilizzare l'output del modello Llama per migliorare altri modelli.

Alla fine di questo articolo, vediamo anche un lungo elenco di contributori:





Questa serie di fattori ha finalmente creato oggi la serie Llama 3.

Naturalmente, per gli sviluppatori ordinari, come utilizzare i modelli in scala 405B è una sfida e richiede molte risorse e competenze informatiche.

Dopo il lancio, l'ecosistema di Llama 3.1 è pronto, con oltre 25 partner che offrono servizi compatibili con l'ultimo modello, tra cui Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud e Snowflake, tra gli altri.



Per ulteriori dettagli tecnici, fare riferimento al documento originale.