Il modello open source supera il modello closed source più potente. Può Llama 3.1 sovvertire l'ecosistema AI?

Il modello open source supera il modello closed source più potente. Può Llama 3.1 sovvertire l'ecosistema AI? ｜Jiazi Guangnian

2024-07-24

Zuckerberg promette di perseguire l'open source fino alla fine.

Autore｜Sukhoi

Editore｜Zhao Jian

Lama 3.1 è finalmente arrivato.

Il 23 luglio, ora locale negli Stati Uniti, Meta ha rilasciato ufficialmente Llama 3.1. Comprende tre dimensioni: 8B, 70B e 405B e il contesto massimo è aumentato a 128k. Llama è attualmente una delle grandi serie di modelli con il maggior numero di utenti e le prestazioni più potenti nel campo dell'open source.

I punti principali di questo Llama 3.1 sono:

1. Esistono tre versioni: 8B, 70B e 405B, di cui la versione 405B è attualmente uno dei modelli open source più grandi 2. Il modello ha 405 miliardi di parametri, superando in termini di prestazioni i principali modelli AI esistenti; Una finestra di contesto più lunga (fino a 128.000 token), in grado di gestire attività e conversazioni più complesse; 4. Supporta input e output multilingue, migliorando la versatilità e l'applicabilità del modello 5. Capacità di ragionamento migliorate, in particolare è eccezionale nella risoluzione; problemi matematici complessi e generazione di contenuti al volo.

Meta ha scritto nel suo blog ufficiale: "Oggi è ancora normale che le prestazioni dei modelli linguistici di grandi dimensioni open source rimangano indietro rispetto ai modelli closed source. Ma ora stiamo inaugurando una nuova era guidata dall'open source. Il nostro rilascio pubblico di Meta Llama 3.1 405B è il primo modello base open source più grande e potente al mondo, con oltre 300 milioni di download cumulativi di tutte le versioni di Llama fino ad oggi, questo è solo l'inizio."

Il dibattito tra open source e closed source è sempre stato un tema caldo nel campo della tecnologia.

Il software open source è più trasparente e flessibile e consente agli sviluppatori di tutto il mondo di rivedere, modificare e migliorare congiuntamente il codice, promuovendo così una rapida innovazione e il progresso tecnologico. I modelli closed source sono generalmente sviluppati e gestiti da una singola azienda o organizzazione, che può fornire supporto e servizi professionali per garantire la sicurezza e la stabilità del software. Ma questo modello limita anche il controllo dell'utente e le capacità di personalizzazione.

Fino ad ora, il modello closed source è sempre stato leggermente migliore. Fino al rilascio di Llama 3.1, il feroce dibattito tra open source e closed source è stato segnato: il modello open source può finalmente competere con il modello closed source.

Secondo i dati benchmark forniti da Meta, la versione più popolare del 405B è già paragonabile a GPT-4 e Claude 3 in termini di prestazioni. Tra questi, la Valutazione Umana viene utilizzata principalmente per valutare la capacità del modello di comprendere e generare codice e risolvere problemi di logica astratta. In competizione con altri modelli di grandi dimensioni, il Llama 3.1 405B sembra essere leggermente migliore.

Llama 3.1 è alla pari con GPT-4 e Claude 3.5 Fonte: Meta

Andrew Ng, professore associato di informatica e ingegneria elettrica e direttore del Laboratorio di Intelligenza Artificiale dell'Università di Stanford, ha elogiato "i team Meta e Llama per il loro straordinario contributo all'open source" sui social media. "Grazie alla maggiore lunghezza del contesto e alle funzionalità migliorate, Llama 3.1 è un regalo fantastico per tutti", ha affermato, sperando che "norme stupide come quella SB1047 proposta dalla California non impediscano innovazioni come questa".

Social media di Ng Enda, fonte: X

Yann LeCun, vincitore del Premio Turing e scienziato capo dell'intelligenza artificiale presso Meta, ha citato la descrizione delle prestazioni di Llama 3.1 di The Verge: Meta ha rilasciato il modello di intelligenza artificiale open source più grande e migliore fino ad oggi: Llama 3.1 si comporta bene su determinati benchmark Nei test, ha superato OpenAI e altri concorrenti.

Social media di Yang Likun, fonte: X

È interessante notare che si sospettava che la versione 405B di Llama 3.1 fosse stata "rubata" su HugginFace e GitHub ieri. I dati di valutazione inviati dall'informatore sono sostanzialmente coerenti con le informazioni sulla versione rilasciate ufficialmente oggi.

Mark Zuckerberg, fondatore e CEO di Meta, ha scritto personalmente un lungo articolo intitolato "L'intelligenza artificiale open source è la strada da seguire", descrivendo in dettaglio i vantaggi dell'open source per gli sviluppatori e per Meta e perché è importante a livello globale.

Prevede che entro la fine di quest'anno Meta AI supererà ChatGPT come assistente più utilizzato.

Ha anche detto:Prometto di portare avanti l'open source fino alla fine.

Sezione di articolo di "L'intelligenza artificiale open source è la strada da seguire", fonte Meta

1.La realizzazione di Lama 3.1

In termini di architettura del modello, essendo il modello più grande di Meta fino ad oggi, Llama 3.1 viene addestrato su dati di oltre 15 trilioni di token e i dati di pre-addestramento sono disponibili fino a dicembre 2023.

Per implementare l'addestramento su scala così ampia in un tempo ragionevole e ottenere i risultati desiderati, Meta ha ottimizzato l'intero stack di addestramento, utilizzando più di 16.000 blocchi di H100, il primo modello Llama addestrato su questa scala.

Architettura del modello Transformer nel processo di generazione del testo di Llama 3.1, fonte: Meta

Per massimizzare la stabilità e la comodità della formazione, Meta ha scelto per la messa a punto l'architettura del modello Transformer standard con solo decoder, invece dell'architettura MoE (Mixed Expert Model) attualmente popolare.

Questa decisione consente a Llama 3.1 di garantire comunque un output di alta qualità di testo breve supportando lunghezze di contesto fino a 128K, consentendo un'elaborazione flessibile di testo lungo e breve, anziché concentrarsi solo sul testo lungo.

Allo stesso tempo, il gruppo di ricerca ha implementato un metodo iterativo post-formazione per generare dati sintetici di alta qualità e migliorare le varie funzioni del modello attraverso ogni ciclo di messa a punto supervisionata e ottimizzazione delle preferenze dirette. Rispetto alle versioni precedenti, Llama 3.1 aumenta la quantità e la qualità dei dati pre-formazione e post-formazione, introduce processi di pre-elaborazione e gestione più dettagliati e tecnologie di garanzia della qualità e filtraggio più rigorose.

Secondo la legge di espansione dei modelli linguistici, Llama 3.1 supera i precedenti modelli piccoli utilizzando la stessa procedura di allenamento nella performance.

Per far fronte ai requisiti di funzionamento dei modelli 405B su larga scala, Meta ha quantizzato i dati del modello da 16 bit (BF16) a 8 bit (FP8), riducendo notevolmente la richiesta di risorse di calcolo e consentendo al modello di funzionare su un singolo nodo server.

In termini di messa a punto dei comandi e della chat del modello Llama 3.1 405B, il team di sviluppo si impegna a migliorare la reattività, la praticità e la qualità del modello ai comandi dell'utente garantendo allo stesso tempo un elevato grado di sicurezza.

Nella fase post-allenamento, la squadra ha effettuato diversi cicli di aggiustamenti in base al pre-allenamento. Ogni round include la messa a punto supervisionata (SFT), il campionamento del rifiuto (RS) e l'ottimizzazione delle preferenze dirette (DPO).Inoltre, il team ha utilizzato la generazione di dati sintetici per generare la stragrande maggioranza degli esempi SFT, il che significa che non si sono basati esclusivamente su dati del mondo reale ma piuttosto su dati generati algoritmicamente per addestrare il modello.

Allo stesso tempo, il team utilizza anche una varietà di metodi di elaborazione dati per filtrare questi dati per garantire la massima qualità ed espandere la gamma di applicazioni dei dati ottimizzati.

Meta sta anche esplorando una nuova strategia, ovvero quella di utilizzare il modello 405B come "modello insegnante" per i modelli 70B e 8B, estraendo così piccoli modelli personalizzati da modelli di grandi dimensioni che si adattino alle esigenze di vari settori. Questo approccio coincide con la strategia di GPT-4o mini.Cioè "prima rendilo grande, poi rendilo piccolo"。

Andrej Karpathy, uno degli ex membri fondatori di OpenAI, una volta ha commentato GPT-4o Mini: "Il modello deve prima diventare più grande prima di poter rimpicciolirsi. Perché abbiamo bisogno che ci aiutino (automaticamente) a ricostruire i dati di addestramento per renderlo ideale, formato sintetico." Ha sottolineato che questo metodo può trasferire efficacemente la profondità e l'ampiezza della conoscenza di modelli di grandi dimensioni in modelli più piccoli che sono più pratici e meno costosi.

In qualità di leader nel percorso del modello open source, Meta ha anche mostrato sincerità nel supportare le strutture per il modello Llama.

Il sistema Llama è progettato come un framework completo in grado di integrare più componenti, inclusa la chiamata a strumenti esterni. L'obiettivo di Meta è fornire un sistema più ampio che consenta agli sviluppatori di progettare e creare in modo flessibile prodotti personalizzati che soddisfino le loro esigenze.

Per far evolvere in modo responsabile l’intelligenza artificiale oltre il livello del modello, il team di ricerca ha rilasciato un sistema di riferimento completo con molteplici applicazioni di esempio e nuovi componenti, come il modello di sicurezza multilingue Llama Guard 3 e il filtro di prompt injection Prompt Guard. Queste applicazioni sono open source e disponibili per ulteriore sviluppo da parte della comunità.

Per definire meglio le interfacce dei componenti e promuovere la loro standardizzazione nell'industria, i ricercatori hanno collaborato con l'industria, le startup e la comunità più ampia e hanno pubblicato la proposta "Llama Stack" su GitHub. Si tratta di un insieme di interfacce standardizzate che semplificano la costruzione di componenti della toolchain (come la messa a punto e la generazione di dati sintetici) e di applicazioni agente.

Secondo i dati dei test benchmark forniti da Meta, Llama 3.1 405B ha ottenuto un punteggio di 98,1 sul benchmark NIH/Multi-needle, che è paragonabile a GPT-4 e Claude 3.5 in termini di punteggi prestazionali. La versione 405B ha un'eccellente capacità di integrare grandi quantità di informazioni di testo e ha ottenuto un punteggio di 95,2 nel test benchmark ZeroSCROLLS/QuALITY. È molto amichevole per gli sviluppatori di applicazioni AI preoccupati per le prestazioni RAG.

Llama 3.1 rispetto ai modelli closed source come GPT4, fonte: Meta

Llama 3.1 a confronto con modelli open source come Mistral 7B Instruct, fonte: Meta

La versione Llama 3.1 8B è significativamente migliore di Gemma 2 9B 1T e Mistral 7B Instruct e le sue prestazioni sono state significativamente migliorate rispetto alla generazione precedente Llama 3 8B. Allo stesso tempo, la versione Llama 3.1 70B ha addirittura superato GPT-3.5 Turbo.

Secondo il rapporto ufficiale del team Llama, hanno condotto una valutazione approfondita delle prestazioni e test manuali approfonditi di questi modelli su oltre 150 set di dati di benchmark multilingue. I risultati mostrano che il modello di punta di Llama è paragonabile ai migliori modelli base sul mercato come GPT-4, GPT-4o e Claude 3.5 Sonnet in vari compiti. Allo stesso tempo, rispetto ai modelli chiusi e open source con scale di parametri simili, anche la versione piccola di Llama ha mostrato una forte competitività.

2.Il dibattito tra modelli open source e closed source

Il modello open source può superare il modello closed source?

La questione è controversa dallo scorso anno. I percorsi di sviluppo dei due modelli rappresentano filosofie tecniche diverse e ciascuno ha i propri meriti nel promuovere il progresso tecnologico e nel soddisfare le esigenze aziendali.

Ad esempio, Llama 3.1 è un grande modello open source che consente a ricercatori e sviluppatori di accedere al suo codice sorgente e le persone possono studiare, modificare e persino migliorare liberamente il modello. Questa apertura incoraggia un’ampia collaborazione e innovazione, consentendo a sviluppatori provenienti da contesti diversi di lavorare insieme per risolvere i problemi.

Al contrario, ChatGPT è un modello closed source sviluppato da OpenAI Sebbene fornisca l'accesso API, il suo algoritmo principale e i dati di addestramento non sono completamente divulgati. La natura closed-source di GPT-3 lo rende più robusto nel percorso di commercializzazione. Allo stesso tempo, la sua controllabilità garantisce la stabilità e la sicurezza del prodotto, rendendolo più affidabile per le aziende nella gestione di informazioni sensibili. Tuttavia, questa chiusura limita anche la capacità dei ricercatori esterni di comprendere appieno e innovare il modello.

Nel maggio dello scorso anno, i media stranieri hanno riferito che Google aveva fatto trapelare un documento con il tema: "Non abbiamo fossato, e nemmeno OpenAI. Mentre stiamo ancora discutendo, l'open source ci ha silenziosamente rubato il lavoro". Dopo che Meta ha rilasciato il modello di grandi dimensioni open source Llama 2 nello stesso anno, Yang Likun ha affermato che Llama 2 avrebbe cambiato la struttura del mercato dei modelli linguistici di grandi dimensioni.

Le persone attendono con ansia la comunità open source guidata dalla serie di modelli Llama. In precedenza, il modello closed source più avanzato GPT-4 era sempre leggermente migliore, sebbene il divario tra Llama 3 a quel tempo fosse già molto piccolo.

L'elenco più autorevole nel campo dei modelli di grandi dimensioni è la Large Model Arena (LLM Arena), che ha adottato il sistema di punti ELO dagli scacchi. La sua regola di base è consentire agli utenti di porre qualsiasi domanda a due modelli anonimi (ad esempio ChatGPT, Claude, Llama) e votare per quello con la risposta migliore. Il modello con le risposte migliori riceverà punti e la classifica finale sarà determinata dai punti accumulati. Arean ELO ha raccolto dati di voto da 500.000 persone.

Una panoramica delle grandi classifiche dei modelli, fonte: LLM Arena

Nella classifica LLM Arena, GPT-4o di OpenAI occupa attualmente il primo posto. I primi dieci modelli sono tutti closed source. Sebbene il modello closed source sia ancora molto avanti nella classifica, il divario tra modelli open source e closed source non sta crescendo, come ha affermato Robin Li alla Baidu AI Developer Conference del 2024, ma in realtà si sta gradualmente riducendo.

Durante il WAIC, Robin Li ha affermato: "L'open source è in realtà una sorta di tassa sul QI".Fonte: Baidu

Con il rilascio odierno di Llama 3.1, il modello open source può finalmente competere con il modello closed source.

Per quanto riguarda quale modello open source o closed source sia migliore, "Jiazi Guangnian" ha discusso con molti professionisti del settore dell'intelligenza artificiale. L’industria generalmente ritiene che:Spesso dipende dalla posizione personale e non è una semplice questione in bianco e nero.

La questione tra open source e closed source non è puramente una differenza tecnica, ma riguarda piuttosto la scelta del modello di business. Al momento, non importa se si tratti di un modello di grandi dimensioni open source o closed source, non è stato ancora trovato un modello di business completamente riuscito.

Quindi quali fattori influenzano le differenze di capacità tra i modelli open source e closed source?

Zhang Junlin, capo della ricerca e sviluppo di nuove tecnologie di Weibo, ha sottolineato che il tasso di crescita delle capacità del modello è un fattore chiave. Se la capacità del modello cresce rapidamente, significa che è necessaria una grande quantità di risorse di calcolo in un breve periodo di tempo. In questo caso, il modello closed-source presenta più vantaggi a causa dei vantaggi in termini di risorse. Al contrario, se le capacità del modello crescono lentamente, il divario tra open source e closed source diminuirà e la velocità di recupero accelererà.

Egli ritiene che nei prossimi anni la differenza di capacità tra i modelli open source e quelli closed source dipenderà dallo sviluppo della tecnologia dei "dati sintetici". Se la tecnologia dei “dati sintetici” farà progressi significativi nei prossimi due anni, il divario tra le due potrebbe aumentare; se non vi sarà alcun progresso, le capacità delle due tenderanno ad essere simili;

Nel complesso, i "dati sintetici" diventeranno in futuro una tecnologia chiave per lo sviluppo di grandi modelli linguistici.

L'open source o il closed source non determinano di per sé le prestazioni del modello. I modelli closed source non sono leader perché sono closed source, mentre i modelli open source non restano indietro perché sono open source. Anzi, al contrario, il modello sceglie il closed source perché è leader, e deve scegliere l’open source perché non è abbastanza leader.

Se un’azienda realizza un modello molto performante, potrebbe non essere più open source.

Ad esempio, la startup francese Mistral, il suo modello 7B open source più potente Mistral-7B e il primo modello MoE open source 8x7B (MMLU 70) sono uno dei modelli più popolari nella comunità open source. Tuttavia, Mistral-Medium (MMLU-75) e Mistral-Large (MMLU-81) successivamente addestrati da Mistral sono entrambi modelli closed-source.

Attualmente, il modello closed source più performante e il modello open source più performante sono entrambi dominati da grandi aziende e, tra le grandi aziende, Meta ha la maggiore determinazione open source.Se OpenAI non è open source dal punto di vista dei ritorni commerciali, allora qual è lo scopo per cui Meta sceglie di essere open source e consente agli utenti di provarlo gratuitamente?

Nella relazione finanziaria dell’ultimo trimestre, la risposta di Zuckerberg a questa questione è stata che l’open source di Meta della sua tecnologia AI doveva promuovere l’innovazione tecnologica, migliorare la qualità dei modelli, stabilire standard di settore, attrarre talenti, aumentare la trasparenza e supportare la considerazione delle strategie a lungo termine.

Questa volta Zuckerberg ha spiegato nel dettaglio "perché l'AI open source è un bene per gli sviluppatori" in "L'AI open source è la strada da seguire":

Nelle conversazioni con sviluppatori, amministratori delegati e funzionari governativi di tutto il mondo, li sento spesso sottolineare la necessità di formare, mettere a punto e ottimizzare i propri modelli.

Ogni organizzazione ha esigenze uniche e modelli di diverse dimensioni possono essere ottimizzati per tali esigenze, addestrati o perfezionati con dati specifici. Semplici attività sul dispositivo e attività di classificazione possono richiedere modelli più piccoli, mentre attività più complesse richiedono modelli più grandi.

Ora puoi utilizzare modelli Llama all'avanguardia e continuare ad addestrarli con i tuoi dati, ottimizzandoli successivamente alla tua scala ideale, senza che noi o nessun altro abbiamo accesso ai tuoi dati.

Dobbiamo controllare il nostro destino, non essere vincolati a un fornitore closed source.

Molte organizzazioni non vogliono fare affidamento su un modello che non possono gestire e controllare da sole. Temono che i fornitori di modelli closed source possano modificare il modello, i termini di utilizzo o addirittura interrompere completamente i servizi. Inoltre, non vogliono essere vincolati a un’unica piattaforma cloud che abbia diritti esclusivi su un determinato modello. L’open source fornisce a molte aziende una catena di strumenti compatibile, facilitando il passaggio da un sistema all’altro.

Dobbiamo proteggere i nostri dati.

Molte organizzazioni gestiscono dati sensibili e devono proteggere questi dati dall'invio tramite API cloud a modelli closed source. Altre organizzazioni semplicemente non si fidano dell'approccio del fornitore del modello closed source all'elaborazione dei dati. L'open source risolve questi problemi consentendoti di eseguire modelli ovunque tu voglia ed è ampiamente considerato più sicuro grazie alla trasparenza del processo di sviluppo.

Abbiamo bisogno di un modo efficiente ed economico di operare.

Gli sviluppatori possono eseguire modelli Llama 3.1 405B per l'inferenza sulla propria infrastruttura a circa la metà del costo rispetto all'utilizzo di modelli closed source come GPT-4o, adatti per attività di inferenza offline e rivolte all'utente.

Puntiamo su un ecosistema che promette di diventare lo standard a lungo termine.

Molte persone vedono che i modelli open source si evolvono più velocemente rispetto ai modelli closed source e sperano che l’architettura di sistema che costruiscono porti i maggiori vantaggi a lungo termine.

(Immagine di copertina dall'account Meta X)

notizia

Il modello open source supera il modello closed source più potente. Può Llama 3.1 sovvertire l'ecosistema AI? ｜Jiazi Guangnian

introduzione

le mie informazioni di contatto