Il più potente modello open source di grandi dimensioni è diventato un dio dall'oggi al domani! Llama 3.1 viene rilasciato in modo scioccante, la vera era di GPT-4 per tutti è qui

Il più potente modello open source di grandi dimensioni è diventato un dio dall'oggi al domani! Llama 3.1 viene rilasciato in modo scioccante, l'era del GPT-4 veramente universale è arrivata

2024-07-24

cose intelligenti
Autore: Dipartimento editoriale di Zhi Dongxi

Zhidongxi ha riferito il 24 luglio che ieri sera Meta ha annunciato il lancio del modello open source più potente fino ad oggi——Lama 3.1 405B, ha rilasciato anche i modelli Llama 3.1 70B e 8B appena aggiornati.

Llama 3.1 405B supporta la lunghezza del contesto di128K gettoni, basato su15 trilioni di gettoni、Oltre 16.000 GPU H100Questo è il primo modello di lama che Meta abbia mai addestrato su questa scala.

I risultati della valutazione dei ricercatori basati su oltre 150 set di test di riferimento mostrano che,Llama 3.1 405B funziona con GPT-4o, Claude 3.5 Sonnet e Gemini Ultra e altri modelli leader del settore.。

Oltre alla sua ottima performance, il fondatore e CEO di Meta Mark Zuckerberg ha anche pubblicato personalmente un articolo per sostenerlo, affermando che oltre ad avere costi e prestazioni migliori rispetto ai modelli closed-source,.Il modello open source 405B diventerà la scelta migliore per le aziende per perfezionare e addestrare modelli più piccoli。

Meta AI ha annunciato il suo accesso a Llama 3.1 405B e ha lanciato nuove funzioni come l'editing di immagini AI, la programmazione AI e gli assistenti intelligenti per dispositivi VR/AR. Zuckerberg aveva previstoL'utilizzo dell'assistente Meta AI supererà ChatGPT tra pochi mesi。

▲Meta AI supporta l'interazione audio e video in tempo reale tra le cuffie Quest e gli utenti

Anche l’ecosistema open source di Meta è pronto. Meta ePiù di 25 partnerSaranno disponibili modelli Llama 3.1 tra cui Amazon AWS, NVIDIA, Databricks, Groq, Dell, Microsoft Azure e Google Cloud, tra gli altri.

Ad oggi, i download totali di tutte le versioni del modello Llama hanno superato300 milioni di volte, il rilascio del modello Llama 3.1, che equivale al modello closed-source mainstream, potrebbe significare che la storia del modello open-source che Meta vuole raccontare è appena iniziata...

Link per il download del modello:

https://llama.meta.com/

https://huggingface.co/meta-llama

Collegamento cartaceo:

Italiano: https://t.co/IZqC6DJkaq

▲ Estratto dell'interpretazione della carta modello Meta Llama 3.1

1. Il modello open source 405B è confrontato con GPT-4o e 25 partner sono pronti

Meta ha valutato le prestazioni di oltre 150 set di dati di benchmark e ha scoperto che Llama 3.1 405B è paragonabile a GPT-4o, Claude 3.5 Sonnet e Gemini Ultra in una serie di compiti come buon senso, operabilità, matematica, utilizzo degli strumenti e traduzione multilingue .

In uno scenario di vita reale, Llama 3.1 405B è stato confrontato con la valutazione umana e la suaLe prestazioni complessive sono migliori di GPT-4o e Claude 3.5 Sonnet。

aggiornatoLama 3.1 8B e 70BI modelli offrono inoltre prestazioni migliori rispetto ai modelli con la stessa dimensione dei parametri. Questi modelli con parametri più piccoli supportano la stessa finestra di contesto da 128.000 token, multilingue, inferenza migliorata e l'uso di strumenti all'avanguardia per supportare applicazioni più avanzate.

Meta ha aggiornato la sua licenza per consentire agli sviluppatori, per la prima volta, di utilizzare l'output del modello Llama inclusa la scala dei parametri 405B per migliorare altri modelli.

Allo stesso tempo, l'ecosistema open source di Meta si è ulteriormente ampliato e più di 25 aziende hanno lanciato il nuovo modello Llama 3.1.

In,Tecnologia cloud Amazon, Databricks e Nvidia È in fase di implementazione una suite completa di servizi per supportare gli sviluppatori nella messa a punto e nella formazione dei propri modelli. La startup di chip AI Groq e altri hanno creato servizi di inferenza a bassa latenza e a basso costo per tutti i nuovi modelli rilasciati questa volta da Meta.

Allo stesso tempo, questi modelli lo sarannoTecnologia cloud di Amazon, Microsoft Azure, Google Cloud, OracleFornire servizi sulle principali piattaforme cloud.

Scala l'intelligenza artificiale, Dell, DeloitteAziende come Llama sono pronte ad aiutare le aziende ad adottare i modelli Llama e ad addestrare modelli personalizzati utilizzando i propri dati.

Llama 3.1 405B non è solo il modello open source più potente, ma si prevede che diventerà anche il modello più potente. La distanza tra open source e closed source è stata nuovamente notevolmente ridotta.

2. Ottimizzare completamente lo stack di addestramento e concentrarsi sul rendere il modello scalabile

Per poter addestrare modelli basati su 15 trilioni di Token ottenendo i risultati desiderati dai ricercatori in tempi ragionevoli, Meta ha completamente ottimizzato lo stack di training.

Nell'affrontare le sfide di cui sopra, Meta ha scelto di concentrarsi su strategie che mantengono il processo di sviluppo del modello scalabile e più semplice:

1. I ricercatori hanno sceltoArchitettura del modello Transformer solo decoder standardApportare piccole modifiche invece di utilizzare un modello esperto ibrido MoE può massimizzare la stabilità dell'addestramento.

2. I ricercatori hanno utilizzatoProcedura iterativa post-formazione , utilizzando la messa a punto supervisionata e l'ottimizzazione delle preferenze dirette ad ogni round. Ciò consente al modello di creare dati sintetici della massima qualità per ogni round e di migliorare le prestazioni in ogni funzionalità.

Rispetto ai precedenti modelli della serie Llama, Meta migliora la quantità e la qualità dei dati utilizzati per il pre-allenamento e il post-allenamento.Questi miglioramenti includonoSviluppare pipeline di pre-elaborazione e gestione più attente per i dati pre-addestramento, sviluppare una garanzia di qualità più rigorosa e metodi di filtraggio per i dati post-addestramento。

Come previsto dalle leggi di scala dei modelli linguistici di grandi dimensioni, il nuovo modello di punta di Meta supera i modelli più piccoli addestrati utilizzando la stessa strategia. Meta ha inoltre migliorato la qualità dell'addestramento dei suoi modelli più piccoli utilizzando un modello con parametri 405B.

Allo stesso tempo, per supportare l’inferenza su larga scala del modello di parametri 405B, i ricercatori hanno quantizzato il modello da BF16 a FP8, riducendo di fatto i requisiti di calcolo richiesti e consentendo al modello di funzionare all’interno di un singolo nodo server.

In termini di istruzioni e messa a punto della chat, i ricercatori hanno generato il modello finale eseguendo diversi cicli di allineamento sul modello pre-addestrato, con ogni ciclo che prevedeva la messa a punto supervisionata (SFT), il campionamento del rifiuto (RS) e ottimizzazione delle preferenze dirette (DPO). La stragrande maggioranza degli esempi SFT viene generata utilizzando la generazione di dati sintetici per produrre dati sintetici di qualità superiore su tutte le funzionalità.

Inoltre, Meta utilizza molteplici tecniche di elaborazione dei dati per filtrare questi dati sintetici alla massima qualità, consentendo a nuovi modelli di ottimizzare i volumi di dati attraverso la scalabilità funzionale.

Dal punto di vista dei dati, i ricercatori hanno anche bilanciato attentamente i dati per produrre modelli di alta qualità con tutte le funzionalità. Ad esempio, il mantenimento della qualità del modello su benchmark di contesto brevi consente il ridimensionamento fino a lunghezze di contesto di 128K.

Inoltre, Meta ha annunciato anche il lancio di una tutaSistema lama . Oltre a coprire il modello Llama, il sistema prevede anche il coordinamento di più componenti e chiamate a strumenti esterni per aiutare gli sviluppatori a sviluppare prodotti personalizzati più resistenti del modello di base.

Il sistema Llama coprirà una gamma di nuovi componenti, inclusi quelli open sourcestrumenti di sicurezza Come Llama Guard 3 (modello di sicurezza multilingue) e Prompt Guard (filtro di iniezione istantanea). Per connettere componenti disparati, Meta ha anche emesso una richiesta di commenti sull'API Llama Stack, un'interfaccia standard per rendere più semplice per progetti di terze parti sfruttare il modello Llama.

Per gli sviluppatori ordinari, l’utilizzo di modelli in scala 405B rappresenta ancora una sfida, che richiede molte risorse e competenze informatiche.

Basato sul sistema Llama, lo sviluppo dell’intelligenza artificiale generativa non riguarda solo la creazione di modelli. Tutti dovrebbero essere in grado di utilizzare il modello 405B per completare più attività, tra cui ragionamento in tempo reale e batch, messa a punto supervisionata, valutazione del modello per applicazioni specifiche, continuo. pre-addestramento e generazione avanzata di recupero (RAG), chiamate di funzioni, generazione di dati sintetici, ecc.

Questo è il modello più grande lanciato da Meta fino ad oggi e in futuro verranno rilasciati dimensioni più adatte ai dispositivi, più modalità e aggiornamenti a livello di agente.

tre,Modifica esplosiva del modello grande 405BMeta-IA, Quest assistente vocale intelligenteaggiornamento

Ora, più terminali di proprietà di Meta, come ad esempioChatbot WhatsApp e Meta AIZhongdu ha iniziato a utilizzare Llama 3.1 405B.

Meta AI attualmente supporta sette nuove lingue. Questa volta Meta lancia una serie di nuovi strumenti creativi Meta AI, concentrandosi principalmente su campi come la generazione visiva, la matematica e la codifica.

Primo sguardo alla generazione visiva, lancio di Meta AIFunzione di prompt per la generazione di immagini “Imagine Me”., che consente agli utenti di digitare "immaginami" nella chat di Meta AI e aggiungere suggerimenti come "immaginami come un re" o "immaginami in un dipinto surreale" per generare immagini e condividerle con amici e familiari.

Meta AI sarà online"Modifica con l'intelligenza artificiale" funzionalità, gli utenti possono facilmente aggiungere o rimuovere oggetti con un clic del mouse, oppure cambiarli e modificarli mantenendo invariato il resto dell'immagine, come "Cambia gatto in Corgi". Meta AI supporterà anche l'aggiunta di immagini appena create ai post di Facebook, nonché su piattaforme social come Instagram, Messenger e WhatsApp.

In matematica e programmazione, gli utenti possono ottenere aiuto con i compiti di matematica con spiegazioni e feedback passo passo, scrivere codice più velocemente con supporto per il debug e suggerimenti di ottimizzazione e padroneggiare concetti tecnici e scientifici complessi con la guida di esperti.

Gli utenti possono combinare l’esperienza di codifica di Meta AI e le capacità di generazione di immagini per creare nuovi giochi da zero o nuove interpretazioni dei giochi classici. Bastano pochi minuti per trasformare le tue fantastiche idee in realtà e persino consentire agli utenti di visualizzare direttamente in anteprima il gioco.

Vale la pena ricordare che Meta AI è adatto anche perOcchiali intelligenti Ray-Ban Meta e verrà lanciato in modalità sperimentale su Meta Quest negli Stati Uniti e in Canada il prossimo mese. Meta AI sostituirà gli attuali comandi vocali su Quest, consentendo agli utenti di controllare le cuffie a mani libere, ottenere risposte a domande, rimanere informati su informazioni in tempo reale, controllare il meteo e altro ancora.

Gli utenti possono anche utilizzare Meta AI con la vista che vedono nelle cuffie, ad esempio chiedendo loro cosa vedono nell'ambiente fisico.

4. Lettera aperta di Zuckerberg: L’open source è migliore per gli sviluppatori, per Meta e per il mondo

La serie Llama 3.1 è appena stata rilasciata, e contemporaneamente è stato lanciato il lungo blog di Zuckerberg sul sito ufficiale, rendendo ancora più forte l'odore di polvere da sparo tra modelli open source e closed source.

▲Screenshot di parte della lettera aperta di Zuckerberg

All'inizio Zuckerberg ha affermato che il divario tra i modelli open source e closed source si sta gradualmente riducendo. L'anno scorso Llama 2 era alla pari solo con il modello closed source più avanzato della generazione precedente. Quest'anno il Llama 3 è alla pari con i modelli più avanzati ed è leader in alcune aree.

A partire dal prossimo anno, si aspetta che il modello Llama diventi il più avanzato del settore . E gli attuali modelli della serie Llama sono già in una posizione di leadership in termini di apertura, modificabilità ed efficienza dei costi.

Nel suo blog, ha sottolineato direttamente il modello closed-source e ha risposto a tre domande principali: perché l’IA open source è positiva per gli sviluppatori, perché l’AI open source è positiva per Meta e perché l’AI open source è positiva per il mondo.

Innanzitutto, perché l’intelligenza artificiale open source è utile per gli sviluppatori?

Ritiene che gli sviluppatori debbano formare e mettere a punto i propri modelli per soddisfare le loro esigenze specifiche; gli sviluppatori devono controllare il proprio destino piuttosto che essere legati a un fornitore chiuso; gli sviluppatori devono proteggere i propri dati; gli sviluppatori devono essere efficienti; modello economico da gestire; gli sviluppatori vogliono investire in un ecosistema che diventerà lo standard a lungo termine.

Il vantaggio dell'intelligenza artificiale open source per Meta è che il modello di business di Meta è quello di costruire le migliori esperienze e servizi per le persone. Per fare ciò, ritiene di dover garantire di avere sempre accesso alla migliore tecnologia e di non cadere nel chiuso ecosistema dei concorrenti.

Allo stesso tempo, l’intelligenza artificiale open source incoraggerà Meta a sviluppare Llama in un ecosistema completo con il potenziale per diventare uno standard del settore.

Ha anche affermato che una delle differenze chiave tra Meta e gli operatori del modello closed-source è che vendere l’accesso ai modelli di intelligenza artificiale non è il modello di business di Meta, il che significa che l’open source non ridurrà le sue entrate, la sua sostenibilità o i continui investimenti nella capacità di ricerca .

Infine, Meta ha una lunga storia di progetti e successi open source.

Sul dibattito sulla sicurezza dei modelli di intelligenza artificiale open source, Zuckerberg ha questo da direL’intelligenza artificiale open source sarà più sicura di altre opzioni . È convinto che l’open source garantirà che più persone in tutto il mondo possano godere dei vantaggi e delle opportunità offerte dall’intelligenza artificiale, che il potere non sia concentrato nelle mani di poche aziende e che la tecnologia possa essere applicata in modo più uniforme e sicuro in tutta la società.

Conclusione: Meta ha fatto un altro passo avanti e il dibattito sui sorgenti aperti e chiusi dei modelli di grandi dimensioni è cambiato.

La battaglia tra modelli di grandi dimensioni open source e closed source continua...

Dal rilascio della serie di modelli Meta Llama 3.1, si può vedere che il divario tra i grandi modelli open source e quelli closed source si sta restringendo e c'è una forte tendenza a stare al passo l'uno con l'altro e a mettersi al passo l'uno con l'altro . In qualità di fedele sostenitore del campo dei modelli di grandi dimensioni open source e pioniere nell'innovazione tecnologica, Meta è stata determinata a costruire il proprio ecosistema open source sin dal rilascio della serie di modelli Llama. Allo stesso tempo, rispetto al precedente modello Llama, Meta creerà anche un team interno per questo nuovo modello per consentire a quanti più sviluppatori e partner possibile di utilizzare la serie Llama.

Meta ha fatto un’altra mossa, rendendo ancora più confusa la conclusione del dibattito sui modelli open source e closed source. Ma in ultima analisi, nelle applicazioni reali, molte aziende e sviluppatori sceglieranno di utilizzare modelli open source o closed source in base alle esigenze e alle situazioni specifiche. Pertanto, ci vorrà del tempo per dimostrare le capacità specifiche del modello e la sua realtà applicabile. scenari di vita.

notizia

Il più potente modello open source di grandi dimensioni è diventato un dio dall'oggi al domani! Llama 3.1 viene rilasciato in modo scioccante, l'era del GPT-4 veramente universale è arrivata

introduzione

le mie informazioni di contatto