Momento ChatGPT per modelli di grandi dimensioni open source? L'attesissimo Llama 3 405B sta per essere rilasciato

Momento ChatGPT per modelli di grandi dimensioni open source?L'attesissimo Llama 3 405B sta per essere rilasciato

2024-07-23

Il tanto atteso Llama 3 405B, originariamente previsto per il 23, è in arrivo.

Come modello di punta della serie Llama 3, la versione 405B ha 405 miliardi di parametri ed è uno dei modelli open source più grandi fino ad oggi.

Nelle prime ore della notte scorsa, META ha improvvisamente fatto trapelare i dati di valutazione di Llama 3.1-405B Alcuni netizen avevano previsto che una versione di Llama 3.1-70B potesse essere rilasciata contemporaneamente, perché "(i modelli sono trapelati in anticipo) è una vecchia tradizione di META. . Il modello Llama dell'anno scorso era Did it once."

Alcuni analisti ritengono che Llama 3 405B non sia solo un altro miglioramento delle capacità dell’intelligenza artificiale. Per l’intelligenza artificiale open source, “questo è un potenzialeChatGPTmomento", in cui l'intelligenza artificiale all'avanguardia è veramente democratizzata e messa direttamente nelle mani degli sviluppatori.

Tre previsioni per il prossimo annuncio del Llama 3 405B

Alcuni analisti hanno previsto i punti salienti del prossimo annuncio del Llama 3 405B da tre punti di vista: qualità dei dati, ecosistema del modello e soluzioni API.

Innanzitutto, Llama 3 405B potrebbe rivoluzionare la qualità dei dati per modelli specializzati.

Per gli sviluppatori focalizzati sulla creazione di modelli di intelligenza artificiale professionali, una sfida a lungo termine è ottenere dati di addestramento di alta qualità. I modelli esperti più piccoli (parametri 1-10B) spesso utilizzano tecniche di distillazione per aumentare il proprio set di dati di addestramento con l'output del modello più grande.Tuttavia, utilizzandoIA apertaTali dati provenienti da giganti closed-source come Google Cloud sono severamente limitati, limitando le applicazioni commerciali.

È nato il lama 3 405B. Essendo un colosso open source che rivaleggia con la potenza dei modelli proprietari, fornisce una nuova base agli sviluppatori per creare set di dati ricchi e senza restrizioni. Ciò significa che gli sviluppatori sono liberi di utilizzare i risultati distillati di Llama 3 405B per addestrare modelli di nicchia, accelerando significativamente i cicli di innovazione e implementazione nei campi professionali. Aspettatevi un’impennata nello sviluppo di modelli ad alte prestazioni e ottimizzati che siano robusti ed etici open source.

In secondo luogo, Llama 3 405B formerà un nuovo ecosistema di modelli: dai modelli base alle combinazioni esperte

Il lancio di Llama 3 405B potrebbe ridefinire l'architettura dei sistemi di intelligenza artificiale. Le dimensioni del modello (405 miliardi di parametri) possono significare una soluzione valida per tutti, ma il vero potere risiede nella sua integrazione con un sistema di modelli gerarchici. Questo approccio sarà particolarmente rilevante per gli sviluppatori che lavorano con l’intelligenza artificiale su scale diverse.

Aspettatevi un passaggio a un ecosistema di modelli più dinamico, con il Llama 3 405B che funge da spina dorsale, supportato da modelli di piccole e medie dimensioni. Questi sistemi possono impiegare tecniche come la decodifica speculativa, in cui modelli meno complessi gestiscono la maggior parte dell'elaborazione, richiamando il modello 405B solo quando necessario per la verifica e la correzione degli errori. Ciò non solo massimizza l'efficienza, ma apre anche nuove strade per ottimizzare le risorse di elaborazione e i tempi di risposta nelle applicazioni in tempo reale, soprattutto quando vengono eseguite su RDU SambaNova ottimizzate per queste attività.

Infine, Llama 3 405B deve competere per l'API più efficiente

Da una grande potenza derivano grandi responsabilità e, per il Llama 3 405B, l'implementazione rappresenta una sfida importante. Gli sviluppatori e le organizzazioni devono prestare attenzione alla complessità del modello e ai requisiti operativi. Ci sarà concorrenza tra i fornitori di cloud AI per fornire la soluzione API più efficiente ed economica per l’implementazione di Llama 3 405B.

Questa situazione offre agli sviluppatori un'opportunità unica di interagire con piattaforme diverse e confrontare il modo in cui le varie API gestiscono modelli così grandi.I vincitori in questo spazio saranno coloro che saranno in grado di fornire API che non solo gestiscano efficacemente il carico computazionale, ma non sacrifichino l’accuratezza del modello né aumentino in modo sproporzionatoImpronta ecologica。

In sintesi, Llama 3 405B non è solo un altro strumento nell’arsenale dell’IA; è un passaggio fondamentale verso uno sviluppo dell’IA aperto, scalabile ed efficiente. Gli analisti ritengono che, sia che si stiano mettendo a punto modelli di nicchia, costruendo sistemi di intelligenza artificiale complessi o ottimizzando strategie di implementazione, l’arrivo di Llama 3 405B aprirà nuovi orizzonti per gli utenti.

Cosa pensano i netizen?

I netizen hanno pubblicato nel subreddit LocalLLaMA e condiviso informazioni su Meta Llama 3.1 con 405 miliardi di parametri. A giudicare dai risultati di questo modello di intelligenza artificiale in diversi benchmark chiave dell'intelligenza artificiale, le sue prestazioni hanno superato l'attuale leader, ovvero OpenAI.GPT-4o, segnando per la prima volta che un modello open source può battere l'attuale stato dell'arte closed sourceLaurea Magistrale in GiurisprudenzaModello.

Come mostrato nei benchmark, Meta Llama 3.1 supera GPT-4o in diversi test come GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem e winograd. Tuttavia, supera GPT-4o in HumanEval e MMLU-. sociale In termini di scienza, è in ritardo rispetto a GPT-4o.

Ethan Mollick, professore associato alla Wharton School dell'Università della Pennsylvania, scrive:

Se queste statistiche sono vere, si può dire con certezza che i migliori modelli Al saranno disponibili gratuitamente per tutti a partire da questa settimana.

I governi, le organizzazioni e le aziende di ogni paese del mondo possono utilizzare le stesse capacità di intelligenza artificiale di chiunque altro. Sarà divertente.

Alcuni netizen hanno riassunto alcuni punti salienti del modello Llama 3.1:

Il modello utilizza token 15T+ provenienti da fonti pubbliche per la formazione e la scadenza per i dati di pre-formazione è dicembre 2023;

I dati di messa a punto includono un set di dati di messa a punto delle istruzioni disponibile al pubblico (a differenza di Llama 3) e 15 milioni di campioni sintetici;

Il modello supporta più lingue, tra cui inglese, francese, tedesco, hindi, italiano, portoghese, spagnolo e tailandese.

Alcuni utenti della rete hanno affermato che questa è la prima volta che un modello open source supera i modelli closed source come GPT4o e Claude Sonnet 3.5 e raggiunge SOTA su più benchmark.

notizia