Open source = il modello più potente! Rilasciata Llama 3.1, Zuckerberg: moment

Open source = il modello più potente! Rilasciata Llama 3.1, Zuckerberg: momento spartiacque

2024-07-24

Baijiao proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Appena,Liama 3.1Rilasciato ufficialmente, sale al trono dei modelli di grandi dimensioni!

In oltre 150 set di test di riferimento, le prestazioni della versione 405B equivalgono o addirittura superano i modelli SOTA esistenti GPT-4o e Claude 3.5 Sonnet.

In altre parole, questa volta,Il modello open source più forte è il modello più forte。

Prima di questo, Llama 3.1 è stato smascherato e trapelato molte volte, e ora si può dire che è in attesa da molto tempo.

Da oggi il modello può essere scaricato e utilizzato sul sito ufficiale, mentre l'applicazione Meta AI può essere provata online.

Ciò che è ancora più apprezzato dalla comunità di ricerca è il rilascio di quasi 100 pagine di documenti dettagliati, che coprono tutto il processo di creazione di Llama 3.1: dati di pre-addestramento, filtraggio, ricottura, dati sintetici, leggi di scala, infrastruttura, parallelismo, addestramento ricette, adattamento post-formazione, utilizzo degli strumenti, benchmarking, strategie di inferenza, quantificazione, visione, voce, video...

Lo scienziato capo di HuggingFace ha elogiato: Se stai iniziando a studiare modelli di grandi dimensioni da zero, inizia a leggere questo articolo.

XiaoZhaZuckerbergNella sua ultima intervista con Bloomberg, ha specificamente deriso OpenAI.

La leadership di Altman è encomiabile, ma è alquanto ironico che la società denominata OpenAI sia diventata leader nella costruzione di modelli chiusi di intelligenza artificiale.

Xiao Zha ha anche scritto un lungo articolo appositamente per questo:L’intelligenza artificiale open source è la strada da seguire。

In passato, i modelli open source erano per lo più rimasti indietro rispetto ai modelli closed source in termini di prestazioni, funzionalità, ecc., ma ora:

Proprio come Linux open source, si è distinto tra i sistemi closed source e ha guadagnato popolarità, diventando gradualmente più avanzato e più sicuro e disponendo di un ecosistema più ampio rispetto ai sistemi closed source.
Credo che Llama 3.1 rappresenterà un punto di svolta nel settore.

Ad oggi, il totale dei download di tutte le versioni di Llama ha superato i 300 milioni di volte, e anche Meta fa affermazioni audaci:

Questo è solo l'inizio.

Anche i principali fornitori di cloud hanno lanciato il supporto per Llama 3.1 il prima possibile, e il prezzo è di zia Jiang:

LIama 3.1 rilasciata ufficialmente

Diamo prima un’occhiata alle capacità del modello.

Llama 3.1 estende la lunghezza del contesto a 128K e aggiunge il supporto per otto lingue.

Tra questi, la versione Super Large Cup 405B ha eguagliato e superato i modelli di punta esistenti in termini di buon senso, manovrabilità, matematica, utilizzo degli strumenti e capacità di traduzione multilingue.

Inoltre, sono state lanciate anche le versioni aggiornate dei modelli 8B e 70B, le cui capacità sono sostanzialmente le stesse dei modelli di punta con gli stessi parametri.

Vediamo di nuovoArchitettura del modello。

Secondo l'introduzione ufficiale, addestrare il modello Llama 3.1 405B su oltre 15 trilioni di token è una vera sfida.

A tal fine, hanno ottimizzato in modo significativo l’intero stack di formazione e ampliato per la prima volta la scala di potenza di calcolo del modello a oltre 16.000 GPU H100.

Nello specifico, adottiamo ancora l'architettura Transformer standard solo per decoder e apportiamo alcune piccole modifiche e adottiamo un processo iterativo di post-training, con SFT (ottimizzazione supervisionata) e DPO (ottimizzazione delle preferenze dirette) in ogni round per migliorare ogni round; Prestazioni di abilità.

Rispetto alle versioni precedenti di Llama, sono migliorate la quantità e la qualità dei dati utilizzati per il pre-allenamento e il post-allenamento.

Per supportare l'inferenza della produzione di massa di modelli di dimensioni 405B, Meta ha quantizzato il modello da valori da 16 bit (BF16) a 8 bit (FP8), riducendo di fatto i requisiti di elaborazione richiesti e consentendo l'esecuzione del modello all'interno di un singolo nodo server. .

esisterePerfezionamento delle istruzioniD'altra parte, Meta migliora anche la capacità del modello di rispondere alle istruzioni dell'utente e migliora la sua capacità di seguire istruzioni dettagliate garantendo al tempo stesso la sicurezza.

Nella fase successiva all'addestramento, Meta esegue più cicli di allineamento in base al modello preaddestrato.

Ogni round include la sintonizzazione fine supervisionata (SFT), il campionamento del rifiuto (RS) e l'ottimizzazione delle preferenze dirette (DPO).

Hanno generato la maggior parte degli esempi SFT utilizzando dati sintetici e hanno ripetuto più volte.

Inoltre, vengono utilizzate diverse tecniche di elaborazione dei dati per filtrare questi dati sintetici con la massima qualità.

Un totale di token 15T vengono puliti e filtrati utilizzando il modello Llama 2, mentre le pipeline di elaborazione dei dati relativi al codice e alla matematica si basano principalmente sui metodi di Deepseek.

Oltre alla risposta più elementare secondo parole tempestive, i funzionari di Meta hanno affermato che qualsiasi sviluppatore ordinario può usarlo per fare cose avanzate, come:

Inferenza in tempo reale e batch
Supervisionare la messa a punto
Valutare modelli per applicazioni specifiche
Pre-formazione continua
Recupero della generazione aumentata (RAG)
chiamata di funzione
Generazione di dati sintetici

E dietro tutto questo c’è il sostegno dei suoi forti partner ecologici.

Xiao Zha scrive un lungo articolo: L'intelligenza artificiale open source è la via da seguire

(Quanto segue è tradotto da Big Model e viene estratto il contenuto principale. Se sono presenti omissioni o errori, correggerli!)

Agli albori del calcolo ad alte prestazioni, le grandi aziende tecnologiche dell’epoca investivano molto nello sviluppo delle proprie versioni closed-source di Unix. A quel tempo, era difficile immaginare che un software così avanzato potesse essere prodotto in modo diverso da quello closed source. Tuttavia, il sistema operativo Linux open source alla fine ottenne una popolarità diffusa: inizialmente perché consentiva agli sviluppatori di modificare il codice liberamente e in modo più economico nel tempo, Linux non solo divenne più avanzato e sicuro, ma creò anche un ecosistema più ampio di qualsiasi Unix closed source sistema, supportando più funzionalità. Oggi, Linux è la base standard del settore per il cloud computing e la maggior parte dei sistemi operativi per dispositivi mobili, e grazie a questo tutti noi godiamo di prodotti migliori.

Credo che l’intelligenza artificiale si svilupperà in modo simile . Oggi diverse aziende tecnologiche stanno sviluppando modelli leader a codice chiuso. Ma l’open source sta rapidamente colmando il divario. L'anno scorso il Llama 2 era paragonabile solo ai modelli di una generazione indietro. Quest'anno il Llama 3 compete con i modelli più avanzati e primeggia in alcuni settori. A partire dal prossimo anno, prevediamo che i futuri modelli Llama saranno i più avanzati del settore. Ma anche prima, Llama era già all’avanguardia in termini di apertura, modificabilità ed efficienza dei costi.

Oggi ci stiamo muovendo verso“L’intelligenza artificiale open source diventa lo standard del settore” direzione. Abbiamo rilasciato Llama 3.1 405B, il primo modello AI open source all'avanguardia, oltre ai modelli Llama 3.1 70B e 8B migliorati. Oltre ad avere un rapporto costi/prestazioni significativamente migliore rispetto ai modelli closed source, l'apertura del modello 405B lo renderà la scelta migliore per la messa a punto e la distillazione di modelli più piccoli.

Oltre a rilasciare questi modelli, stiamo lavorando con una serie di aziende per far crescere l’ecosistema più ampio. Amazon, Databricks e Nvidia stanno lanciando una suite di servizi per consentire agli sviluppatori di mettere a punto e distillare i propri modelli. Innovatori come Groq hanno creato servizi di inferenza a bassa latenza e a basso costo per tutti i nuovi modelli. Questi modelli saranno disponibili su tutte le principali piattaforme cloud, tra cui AWS, Azure, Google, Oracle e altre. Aziende come Scale.AI, Dell, Deloitte e altre sono pronte ad aiutare le aziende ad adottare Llama e ad addestrare modelli personalizzati con i propri dati. Man mano che la comunità cresce e sempre più aziende sviluppano nuovi servizi, insieme possiamo rendere Llama lo standard del settore, offrendo a tutti i vantaggi dell’intelligenza artificiale.

Meta è dedicato all'intelligenza artificiale open source. Descriverò perché penso che l'open source sia il miglior stack di sviluppo, perché Llama open source è positivo per Meta e perché l'intelligenza artificiale open source è positiva per il mondo e quindi una piattaforma sostenibile a lungo termine.

Perché l'intelligenza artificiale open source è utile per gli sviluppatori

Quando parlo con sviluppatori, amministratori delegati e funzionari di tutto il mondo, in genere sento alcuni temi:

Dobbiamo addestrare, perfezionare e distillare i nostri modelli . . Ogni organizzazione ha le proprie esigenze specifiche ed è più adatta a utilizzare modelli di diverse dimensioni che possono essere addestrati o ottimizzati in base ai propri dati specifici. Per le attività sul dispositivo e le attività di classificazione sono sufficienti modelli piccoli; per attività più complesse sono necessari modelli di grandi dimensioni. Ora puoi sfruttare i modelli di lama all'avanguardia, continuare ad addestrarli con i tuoi dati e poi distillarli in una dimensione del modello che meglio si adatta alle tue esigenze, senza consentire a noi o a chiunque altro di vedere i tuoi dati.
Dobbiamo controllare il nostro destino e non restare vincolati a fornitori closed source . Molte organizzazioni non vogliono fare affidamento su un modello che non possono gestire e controllare da sole. Non vogliono che un fornitore di modelli closed source sia in grado di cambiare il modello, modificare i termini di utilizzo o addirittura interrompere completamente il servizio. Inoltre, non vogliono limitarsi ad avere l’uso esclusivo dei modelli su una sola piattaforma cloud. L'open source consente a un ampio ecosistema di aziende di avere toolchain compatibili, consentendo di spostarsi facilmente tra di loro.
Dobbiamo mantenere i nostri dati al sicuro . Molte organizzazioni gestiscono dati sensibili che devono essere protetti e che non possono essere inviati tramite API cloud in un modello closed source. Ci sono anche organizzazioni che semplicemente non si fidano dei fornitori di modelli closed source per i propri dati. L'open source risolve questi problemi consentendo di eseguire modelli ovunque. È opinione comune che il software open source sia generalmente più sicuro perché il suo processo di sviluppo è più trasparente.
Abbiamo bisogno di un modello che funzioni in modo efficiente e sia conveniente . Gli sviluppatori possono eseguire l'inferenza Llama 3.1 405B sulla propria infrastruttura, sia per attività di inferenza rivolte all'utente che offline, a circa la metà del costo rispetto all'utilizzo di modelli closed source come GPT-4o.
Vogliamo investire in ecosistemi che diventeranno standard a lungo termine . Molte persone vedono l'open source muoversi più velocemente dei modelli closed source e desiderano costruire i propri sistemi sull'architettura che offrirà loro il massimo vantaggio a lungo termine.

Perché l'intelligenza artificiale open source è utile per Meta

Il modello di business di Meta è creare le migliori esperienze e servizi per le persone. Per fare ciò, dobbiamo garantire di avere sempre accesso alla migliore tecnologia e di non rimanere bloccati negli ecosistemi closed-source dei nostri concorrenti, limitando la nostra capacità di innovazione.

Una delle mie esperienze più importanti è stata che i nostri servizi erano vincolati dalle restrizioni di Apple su ciò che potevamo costruire sulla loro piattaforma. Dal modo in cui tassano gli sviluppatori, alle regole che applicano a casaccio, a tutta l'innovazione di prodotto che impediscono di essere rilasciata, è chiaro che se possiamo costruire le migliori versioni dei nostri prodotti senza che i nostri concorrenti siano in grado di limitare la nostra innovazione, Meta e molte altre aziende saranno in grado di fornire servizi migliori alle persone. Filosoficamente, questo è il motivo principale per cui credo fermamente nella costruzione di un ecosistema aperto per la prossima generazione di computing in AI e AR/VR.

Le persone spesso mi chiedono se sono preoccupato di rinunciare ai vantaggi tecnici dell'open source Llama, ma penso che questo non perda il quadro più ampio per diversi motivi:

Innanzitutto, per garantire l’accesso alla migliore tecnologia e non rimanere bloccati in un ecosistema closed-source a lungo termine, Llama deve evolversi in un ecosistema completo di strumenti, inclusi miglioramenti dell’efficienza, ottimizzazione del silicio e altre integrazioni. Se fossimo l'unica azienda a utilizzare Llama, l'ecosistema non crescerebbe e non otterremmo prestazioni migliori rispetto alle versioni closed source di Unix.

In secondo luogo, mi aspetto che lo sviluppo dell’intelligenza artificiale continui a essere molto competitivo, il che significa che l’open source di un particolare modello non offre un vantaggio significativo rispetto al miglior modello successivo in quel momento. Il percorso di Llama per diventare uno standard del settore è continuare a mantenere competitività, efficienza e apertura, sviluppandosi di generazione in generazione.

In terzo luogo, una differenza fondamentale tra Meta e i fornitori di modelli closed source è che la vendita dell’accesso ai modelli AI non è il nostro modello di business. Ciò significa che il rilascio pubblico di Llama non pregiudica le nostre entrate, la sostenibilità o la capacità di investire nella ricerca, il che non è il caso dei fornitori closed-source.

Infine, Meta ha una lunga storia di progetti e successi open source. Abbiamo risparmiato miliardi di dollari attraverso il progetto Open Compute rilasciando progetti di server, reti e data center e consentendo alla catena di fornitura di standardizzare i nostri progetti. Traiamo vantaggio dall'innovazione dell'ecosistema attraverso strumenti leader in open source come PyTorch, React e altri. Questo approccio ha sempre funzionato per noi nel lungo termine.

Perché l’intelligenza artificiale open source fa bene al mondo

Credo che l’open source sia fondamentale per raggiungere un futuro positivo dell’IA. L’intelligenza artificiale ha un potenziale maggiore di qualsiasi altra tecnologia moderna per aumentare la produttività umana, la creatività e la qualità della vita e accelerare la crescita economica promuovendo al tempo stesso i progressi nella medicina e nella ricerca scientifica. L’open source garantirà che più persone in tutto il mondo abbiano accesso ai vantaggi e alle opportunità dell’intelligenza artificiale, che il potere non sia concentrato nelle mani di poche aziende e che la tecnologia possa essere distribuita in modo più uniforme e sicuro nella società.

È in corso un dibattito sulla sicurezza dei modelli di intelligenza artificiale open source e la mia opinione è che l’intelligenza artificiale open source sarà più sicura delle alternative.

Ritengo che il quadro di sicurezza preveda che dobbiamo proteggerci da due tipi di danni: involontari e intenzionali. Il danno involontario si verifica quando un sistema di intelligenza artificiale può causare danni anche se la persona che lo gestisce non aveva intenzione di farlo. Ad esempio, i moderni modelli di intelligenza artificiale potrebbero inavvertitamente fornire scarsi consigli sulla salute. Oppure, in uno scenario più futuristico, alcuni temono che i modelli possano inavvertitamente replicarsi o ottimizzare eccessivamente gli obiettivi a scapito degli esseri umani. Il danno intenzionale si verifica quando un utente malintenzionato utilizza un modello di intelligenza artificiale con l'intento di causare danni.

Vale la pena notare che i danni involontari coprono la maggior parte delle preoccupazioni che le persone hanno riguardo all’intelligenza artificiale: dall’impatto che i sistemi di intelligenza artificiale avranno sui miliardi di persone che li utilizzano, alla maggior parte degli scenari fantascientifici che sono veramente catastrofici per l’umanità. A questo proposito, l’open source dovrebbe essere più sicuro perché il sistema è più trasparente e può essere ampiamente controllato. Storicamente, il software open source è stato quindi più sicuro. Allo stesso modo, l’utilizzo di Llama e dei suoi sistemi di sicurezza come Llama Guard sarà probabilmente più sicuro e affidabile rispetto a un modello closed-source. Di conseguenza, la maggior parte delle conversazioni sulla sicurezza dell’intelligenza artificiale open source si concentra sul danno intenzionale.

Il nostro processo di sicurezza prevede test rigorosi e team rossi per valutare la capacità dei nostri modelli di causare danni significativi, con l'obiettivo di mitigare il rischio prima del rilascio. Poiché il modello è aperto, chiunque può testarlo da solo. Dobbiamo ricordare che questi modelli sono addestrati su informazioni già presenti sul web, quindi quando si considera il danno, il punto di partenza dovrebbe essere se il modello può contribuire a causare danni maggiori rispetto alle informazioni che possono essere rapidamente recuperate da Google o da altri risultati di ricerca.

Mentre consideri le opportunità future, ricorda che la maggior parte delle aziende tecnologiche e della ricerca scientifica leader di oggi si basano su software open source. Se investiamo insieme, la prossima generazione di aziende e di ricerca utilizzerà l’intelligenza artificiale open source.

Ancora più importante, l’intelligenza artificiale open source rappresenta la migliore opportunità al mondo per sfruttare questa tecnologia per massimizzare le opportunità economiche e la sicurezza per tutti.

costruiamo insieme

Come con i precedenti modelli Llama, Meta si è sviluppato e poi rilasciato senza prestare molta attenzione alla costruzione di un ecosistema più ampio. Abbiamo adottato un approccio diverso con questo lancio. Stiamo costruendo team internamente per rendere Llama disponibile al maggior numero possibile di sviluppatori e partner, e stiamo anche costruendo attivamente partnership in modo che anche più aziende nell'ecosistema possano fornire funzionalità uniche ai propri clienti.

CredoIl rilascio di Llama 3.1 rappresenterà un punto di svolta per il settore , la maggior parte degli sviluppatori inizierà a utilizzare principalmente l'open source e mi aspetto che questo approccio non farà altro che crescere da ora in poi. Spero che ti unirai a noi nel nostro viaggio per portare i vantaggi dell’intelligenza artificiale a tutti nel mondo.

Link dell'ultima intervista:
https://x.com/rowancheung/status/1815763595197616155

Link di riferimento:
[1]https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/
[2]https://ai.meta.com/blog/meta-llama-3-1/

notizia

Open source = il modello più potente! Rilasciata Llama 3.1, Zuckerberg: momento spartiacque

introduzione

le mie informazioni di contatto