Il collegamento magnetico di Llama 3.1 è trapelato prima del previsto! Il trono del modello open source è passato di mano da un giorno all'altro, GPT-4o è stato superato

Il collegamento magnetico di Llama 3.1 è trapelato prima del previsto!Il trono del modello open source è passato di mano da un giorno all'altro, GPT-4o è stato superato

2024-07-23

Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza] Llama 3.1 è trapelato di nuovo in anticipo! La comunità degli sviluppatori è di nuovo in delirio: il modello più grande è il 405B, anche i modelli 8B e 70B vengono aggiornati contemporaneamente e la dimensione del modello è di circa 820 GB. I risultati dei test benchmark sono sorprendenti e il collegamento magnetico circola selvaggiamente in tutta la rete.

La storia si ripete ancora una volta, Llama 3.1 405B è trapelato in anticipo!

Ora si è sparsa la voce sui benchmark e sui collegamenti magnetici.

Oltre al più grande 405B, Meta ha aggiornato anche i modelli 8B e 70B rilasciati all'inizio di maggio questa volta e ha aumentato la lunghezza del contesto a 128K.

A questo punto, la versione del modello è stata ufficialmente iterata da Llama 3 a Llama 3.1.

Secondo le informazioni fornite dal magnet link, la dimensione del nuovo modello è 763,48 GiB (circa 820 GB).

Dal "benchmark test" trapelato si può vedere che anche il modello piccolo 8B è in grado di funzionare, mentre le prestazioni del modello 70B possono raggiungere quelle del GPT-4o su più benchmark.

Gli sviluppatori erano furiosi dopo aver visto i risultati del test, Aidan McLau, CEO di Topology, esclamò:

Se i parametri di riferimento del Llama 3-405B fossero veri, lo sarebbe

- Diventa il miglior modello del mondo

- Adattabile a tutti

- Più economico di GPT-4o!

Il CEO di HyperWriteAI Matt Schumer prevede: Diventerà sicuramente la SOTA nel modello open source. (Anche 70B può competere con GPT-4o, per non parlare di questo prima della messa a punto delle istruzioni.)

Immagina un modello di livello GPT-4o che funzioni a 330 token al secondo e 10 volte più economico. È così emozionante

Domani sarà una giornata selvaggia!

E le parole di Xiao Zha alludevano all'arrivo del 405B, il momento tranquillo prima della fatidica settimana.

Molti netizen chiedono a OpenAI online: quando verrà rilasciato il nuovo modello?

Famiglia Llama 3.1, lanciata domani

Secondo la scheda modello trapelata, Llama 3.1 verrà rilasciato il 23.

Le licenze sono "Licenza commerciale personalizzata" e "Licenza comunitaria Llama 3.1".

Scheda modello trapelata: https://pastebin.com/9jGkYbXY

Nello specifico, la serie multilingue di grandi dimensioni Llama 3.1 è un insieme di modelli generativi pre-addestrati e ottimizzati con istruzioni, comprese tre dimensioni dei parametri di 8B, 70B e 405B.

Modelli Llama 3.1 di solo testo (8B, 70B, 405B) dopo la messa a punto delle istruzioni, ottimizzati per casi d'uso di conversazioni multilingue.

Oltre all'inglese, può supportare 7 lingue, tra cui tedesco, francese, italiano, portoghese, hindi, spagnolo e tailandese.

Secondo i rapporti, le nuove funzionalità di Llama 3.1 includono un contesto più lungo, il supporto per input e output multilingue e l'integrazione degli sviluppatori con strumenti di terze parti.

Punti di riferimenti

Un grafico benchmark su GitHub (ora 404) mostra le eccellenti prestazioni di Llama 3.1 nel test benchmark.

Nello specifico, nella valutazione benchmark del modello di pre-formazione benchmark, Llama 3.1 405B ha stabilito i record più recenti nei compiti generali, nel ragionamento conoscitivo e nella comprensione della lettura.

Soprattutto sui benchmark di suddivisione MMLU e SQuAD, il miglioramento è più evidente.

Allo stesso tempo, le versioni dei parametri Llama 3.1 8B e 70B sono state leggermente migliorate rispetto a Llama 3. Tuttavia, in alcuni indicatori, 70B Llama 3.1 non è buono come la generazione precedente.

Inoltre, nel modello di perfezionamento delle istruzioni, si può vedere che Llama 3.1 405B è più potente del modello pre-addestrato. Nel ragionamento, nella codifica, nella matematica, nell'utilizzo degli strumenti e nei benchmark multilingue, hanno schiacciato le versioni 8B e 70B ottimizzate.

I modelli ottimizzati Llama 3.1 8B e 70B hanno inoltre migliorato significativamente le prestazioni in attività con capacità multiple.

Alcuni utenti della rete hanno compilato i parametri di riferimento di altri modelli leader. Dal confronto, si può vedere che il Claude 3.5 Sonnet è il re di tutti i parametri di riferimento.

La versione ottimizzata di Llama 3.1 405B è la migliore solo nel benchmark matematico MMLU Pro, battendo tutti i modelli di grandi dimensioni con un punteggio del 73,3%.

Inoltre, 405B è alla pari con GPT-4o sui parametri di riferimento di GPQA (Graduate Level Professional Knowledge and Reasoning), Matematica, DROP (Comprensione della lettura), MGSM (Matematica multilingue), HumanEval (Programmazione) e BBH (Valutazione della conoscenza) .

Inoltre, il 405B è significativamente più avanti rispetto all'ultimo mini modello GPT-4o.

Llama 3.1 è un modello linguistico autoregressivo che utilizza un'architettura Transformer ottimizzata. La versione modificata utilizza SFT e RLHF per soddisfare le preferenze umane in materia di sicurezza.

Per i modelli della serie Llama 3.1, il conteggio dei token si riferisce solo ai dati pre-addestramento.

Tutte le versioni del modello utilizzano Grouped Query Attention (GQA) per migliorare la scalabilità dell'inferenza.

Dati di addestramento del token 15T

Come Llama 3, Llama 3.1 è pre-addestrato su circa 15 trilioni di token provenienti da fonti disponibili al pubblico.

I dati di perfezionamento includono set di dati di istruzioni disponibili al pubblico, nonché oltre 25 milioni di campioni sintetici, mentre i dati di pre-addestramento sono disponibili fino a dicembre 2023.

Disponibile per ricerche commerciali

Llama 3.1 supporta ambienti multilingue per uso commerciale e di ricerca.

I modelli di solo testo ottimizzati con le istruzioni sono adatti per gli assistenti di chat, mentre i modelli preaddestrati possono essere adattati a una varietà di attività di generazione del linguaggio naturale. La raccolta di modelli Llama 3.1 supporta inoltre l'utilizzo dell'output del modello per migliorare altri modelli, tra cui la generazione di dati sintetici e la distillazione del modello.

La violazione delle leggi e dei regolamenti sull'utilizzo, delle politiche di utilizzo e della licenza della comunità Llama 3.1 vietata e delle lingue supportate vanno oltre l'ambito.

E il team ha sottolineato che oltre alle otto lingue supportate, Llama 3.1 è addestrato su un insieme più ampio di lingue. Gli sviluppatori possono perfezionarlo e applicarlo ad altri linguaggi, a condizione che vengano seguite politiche come le licenze della community e che l'uso sia sicuro e responsabile.

39,3 milioni di ore di formazione GPU

Durante la pre-formazione, Meta utilizza una libreria di formazione personalizzata, un cluster GPU personalizzato per Meta e un'infrastruttura di produzione. La messa a punto, l'annotazione e la valutazione vengono eseguite anche sull'infrastruttura di produzione.

La formazione ha utilizzato un totale di 39,3 milioni di ore GPU di tempo di elaborazione e il tipo di hardware è H100-80 GB (TDP è 700 W).

Il tempo di addestramento è il tempo totale della GPU necessario per addestrare ciascun modello e il consumo energetico è la capacità di potenza di picco di ciascun dispositivo GPU, adattata all'efficienza di utilizzo dell'energia.

Si stima che le emissioni totali di gas serra basate sulla posizione derivanti dalla formazione siano pari a 11.390 tonnellate di anidride carbonica equivalente (CO2eq).

Meta sottolinea di aver mantenuto emissioni nette di gas serra pari a zero dal 2020 e di generare il 100% della propria elettricità da risorse rinnovabili, con conseguenti emissioni totali di gas serra pari a 0 tonnellate di CO2 equivalente sulla base di un benchmark di mercato.

rischio significativo

Meta ha anche condotto test sui rischi principali.

Include l'utilità CBRNE (materiali chimici, biologici, radiologici, nucleari ed esplosivi), la sicurezza dei bambini e gli attacchi informatici.

Per quanto riguarda gli attacchi informatici, il team ha studiato se gli LLM potrebbero migliorare le capacità umane nelle attività di hacking, inclusi il livello di abilità e la velocità.

La ricerca si concentra sulla valutazione della capacità degli LLM di essere utilizzati come agenti autonomi nelle operazioni di attacco informatico, soprattutto se attaccati da ransomware.

L’obiettivo principale è valutare se questi modelli possono efficacemente eseguire attacchi informatici complessi come agenti indipendenti senza intervento umano.

I netizen stanno friggendo la pentola e testimoniando di nuovo la storia

Dopo che il collegamento magnetico è stato rilasciato, gli utenti impazienti della rete hanno iniziato a scaricare direttamente, ma ciò potrebbe richiedere molto tempo.

Alcuni netizen stanno aspettando il rilascio di Llama 3.1 405B domani e saranno nuovamente testimoni della storia!

Il divario tra i modelli open source e closed source si è nuovamente ridotto.

Qualcuno ha anche testato la classica domanda trappola "Chi è più grande, 9.11 o 9.9?", e Llama 3.1-405B ha effettivamente risposto correttamente.

Per i "poveri GPU", 820GB sono troppo riluttanti per essere eseguiti su un notebook.

Riferimenti:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756

notizia

Il collegamento magnetico di Llama 3.1 è trapelato prima del previsto!Il trono del modello open source è passato di mano da un giorno all'altro, GPT-4o è stato superato

introduzione

le mie informazioni di contatto