notizia

Rilasciato ufficialmente il modello più potente Llama 3.1 405B, Zuckerberg: l'open source guida una nuova era

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Proprio adesso, il tanto atteso Llama 3.1 è stato ufficialmente rilasciato!

Meta ha ufficialmente affermato che "l'open source apre una nuova era".



Nel blog ufficiale, Meta ha affermato: "Fino ad oggi, i modelli linguistici di grandi dimensioni open source sono rimasti per lo più indietro rispetto ai modelli chiusi in termini di funzionalità e prestazioni. Ora stiamo inaugurando una nuova era guidata dall'open source. Abbiamo rilasciato pubblicamente Meta Llama 3.1 405B Crediamo che sia il modello base open source più grande e potente al mondo, con oltre 300 milioni di download in tutte le versioni di Llama fino ad oggi, e siamo appena all'inizio.

Il fondatore e CEO di Meta, Zuckerberg, ha anche scritto personalmente un lungo articolo "L'intelligenza artificiale open source è la strada da seguire", spiegando perché l'open source è una buona cosa per tutti gli sviluppatori, Meta e il mondo.



I punti salienti di questa versione includono:

  • L'ultima serie di modelli estende la lunghezza del contesto a 128K, aggiunge il supporto per otto lingue e include il modello open source principale Llama 3.1 405B;
  • Il Llama 3.1 405B è in un campionato a parte, con Meta che afferma ufficialmente che è alla pari con i migliori modelli closed-source;
  • Questa versione fornisce inoltre più componenti (inclusi i sistemi di riferimento) da utilizzare con il modello per costruire Llama come sistema;
  • Gli utenti possono provare Llama 3.1 405B tramite WhatsApp e meta.ai.



Indirizzo: https://llama.meta.com/

I netizen possono scaricarlo e provarlo.

Lama 3.1 Introduzione

Llama 3.1 405B è il primo modello disponibile pubblicamente che rivaleggia con i migliori modelli di intelligenza artificiale in termini di buon senso, manipolabilità, matematica, utilizzo degli strumenti e traduzione multilingue.

Meta afferma che l’ultima generazione di Llama ispirerà nuove applicazioni e paradigmi di modellazione, incluso lo sfruttamento della generazione di dati sintetici per potenziare e addestrare modelli più piccoli e la distillazione dei modelli, una capacità mai raggiunta prima nello spazio open source.

Allo stesso tempo, Meta ha anche lanciato versioni aggiornate dei modelli 8B e 70B, che supportano più lingue, hanno una lunghezza del contesto di 128K e capacità di ragionamento più forti. I modelli più recenti supportano casi d'uso avanzati come il riepilogo di testi di lunga durata, agenti conversazionali multilingue e assistenti di codifica.

Ad esempio, Llama 3.1 può tradurre storie in spagnolo:



Quando l'utente chiede: "Ci sono 3 magliette, 5 paia di pantaloncini e 1 vestito. Supponiamo che viaggerai per 10 giorni. I vestiti sono sufficientemente preparati?" La modella può ragionare rapidamente.



Contesto lungo: per i documenti caricati, Llama 3.1 è in grado di analizzare e riepilogare documenti di grandi dimensioni fino a 8k token.



Coding Assistant, per le esigenze dell'utente, può scrivere rapidamente il codice:



Inoltre, lo sviluppatore di Llama 3.1 405B ha anche twittato "spoiler", affermando che lo sviluppo di un modello che integri capacità vocali e visive come GPT-4o è ancora in fase di sviluppo.



Meta ha anche apportato modifiche alla licenza open source per consentire agli sviluppatori di utilizzare l'output dei modelli Llama (incluso 405B) per migliorare altri modelli. Inoltre, in linea con il suo impegno open source, a partire da oggi, Meta rende questi modelli disponibili alla comunità per il download su llama.meta.com e Hugging Face.

Link per scaricare:

  • https://huggingface.co/meta-llama
  • https://llama.meta.com/

Valutazione del modello

Meta viene valutato su oltre 150 set di dati di riferimento, oltre a un'ampia valutazione umana.

I risultati sperimentali mostrano che il modello di punta Llama 3.1 405B è competitivo con i principali modelli base tra cui GPT-4, GPT-4o e Claude 3.5 Sonnet in una vasta gamma di compiti. Inoltre, i modelli piccoli 8B e 70B sono competitivi con i modelli closed source e open source con un numero simile di parametri.







Architettura del modello

Essendo il modello più grande di Meta fino ad oggi, addestrare Llama 3.1 405B utilizzando più di 15 trilioni di token rappresenta una sfida importante. Per consentire l'addestramento su questa scala, Meta ha ottimizzato l'intero stack di addestramento e ha effettuato l'addestramento su oltre 16.000 GPU H100, rendendo questo modello il primo modello Llama addestrato su questa scala.



Per risolvere questo problema, Meta ha effettuato le seguenti scelte progettuali, concentrandosi sul mantenere il processo di sviluppo del modello scalabile e semplice.

  • È stata scelta un'architettura del modello Transformer del decodificatore standard con solo piccole modifiche invece di un modello esperto ibrido per massimizzare la stabilità dell'addestramento.
  • Viene impiegata una procedura di addestramento post-iterazione, utilizzando la messa a punto supervisionata e l'ottimizzazione delle preferenze dirette ad ogni round. Ciò consente a Meta di creare dati sintetici della massima qualità per ogni round e migliorare le prestazioni di ogni funzionalità.

Rispetto alle versioni precedenti di Llama, Meta ha migliorato la quantità e la qualità dei dati utilizzati per il pre-addestramento e il post-addestramento, ad esempio sviluppando una pipeline di pre-elaborazione e gestione più attenta per i dati di pre-addestramento e sviluppando un controllo di qualità più rigoroso e gestione dei dati post-allenamento.

Come previsto dalle leggi sul ridimensionamento del modello linguistico, il nuovo modello di punta di Meta ha sovraperformato i modelli più piccoli addestrati utilizzando la stessa procedura. Meta utilizza anche un modello con parametri 405B per migliorare la qualità post-addestramento dei modelli più piccoli.

Per supportare l'output di inferenza su larga scala del modello 405B, Meta ha quantizzato il modello da 16 bit (BF16) a 8 bit (FP8), riducendo di fatto i requisiti di elaborazione richiesti e consentendo l'esecuzione del modello su un singolo nodo server.

Modifiche ai comandi e alla chat

Llama 3.1 405B si impegna a migliorare l'utilità, la qualità e il seguito dettagliato delle istruzioni dei modelli in risposta alle istruzioni dell'utente, garantendo al tempo stesso un elevato livello di sicurezza.

Nella fase successiva alla formazione, il gruppo di ricerca ha costruito il modello di chat finale eseguendo diversi cicli di allineamento sulla base del modello pre-addestrato. Ogni round prevede la messa a punto supervisionata (SFT), il campionamento del rifiuto (RS) e l'ottimizzazione delle preferenze dirette (DPO).

Il team di ricerca utilizza la generazione di dati sintetici per produrre la stragrande maggioranza degli esempi SFT, con molteplici iterazioni per produrre dati sintetici di qualità sempre più elevata su tutte le funzionalità. Inoltre, il team di ricerca ha utilizzato molteplici tecniche di elaborazione dei dati per filtrare questi dati sintetici con la massima qualità e ottimizzare il volume dei dati attraverso la scalabilità funzionale.

Sistema lama

Il modello Llama è sempre esistito come parte di un sistema di intelligenza artificiale e può coordinare più componenti, inclusa la chiamata a strumenti esterni. Meta è progettato per andare oltre il modello base e offrire agli sviluppatori la flessibilità necessaria per progettare e creare prodotti personalizzati che si adattino alla loro visione.

Per sviluppare in modo responsabile l'intelligenza artificiale oltre il livello del modello, Meta ha rilasciato un sistema di riferimento completo che include molteplici applicazioni di esempio e nuovi componenti come Llama Guard 3, un modello di sicurezza multilingue e Prompt Guard, un filtro di prompt injection. Queste applicazioni di esempio sono open source e possono essere create dalla comunità open source.

Al fine di collaborare in modo più ampio con l'industria, le startup e la comunità open source per aiutare a definire meglio le interfacce dei componenti, Meta ha pubblicato una richiesta di commento per "Llama Stack" su GitHub. Llama Stack è un insieme di interfacce standardizzate per la creazione di componenti canonici della toolchain (ottimizzazione, generazione di dati sintetici) e applicazioni di agenti. Ciò aiuta a raggiungere più facilmente l'interoperabilità.

A differenza dei modelli chiusi, i pesi del modello Llama sono disponibili per il download. Gli sviluppatori possono personalizzare completamente il modello in base alle proprie esigenze e applicazioni, effettuare training su nuovi set di dati ed eseguire ulteriori ottimizzazioni.

Sviluppato utilizzando Llama 3.1 405B

Per gli sviluppatori ordinari, l’implementazione di un modello su larga scala come 405B è senza dubbio una sfida e richiede una grande quantità di risorse informatiche e competenze professionali. Comunicando con la comunità degli sviluppatori, Meta si è reso conto che lo sviluppo dell’intelligenza artificiale generativa è molto più che un semplice inserimento di suggerimenti nel modello. Si aspettano che tutti gli sviluppatori sfruttino appieno il potenziale di Llama 3.1 405B nelle seguenti aree:

  • Inferenza in tempo reale e batch
  • messa a punto supervisionata
  • Testare e valutare le prestazioni del modello in applicazioni specifiche
  • Pre-formazione continua
  • Recupero della generazione aumentata (RAG)
  • chiamata di funzione
  • Generazione di dati sintetici

Dal lancio, tutte le funzionalità avanzate del modello Llama 3.1 405B saranno disponibili affinché gli sviluppatori possano iniziare immediatamente. Gli sviluppatori possono anche esplorare flussi di lavoro di ordine superiore, come la generazione di dati sintetici basata sulla distillazione del modello. In questo aggiornamento, Meta integra perfettamente anche le soluzioni fornite dai partner AWS, NVIDIA e Databricks per ottenere una generazione di aumento del recupero (RAG) più efficiente. Inoltre, Groq è stato ottimizzato per l'inferenza a bassa latenza per la distribuzione di modelli nel cloud e miglioramenti prestazionali simili sono stati apportati per i sistemi locali.

Questa volta Meta ha anche integrato un "pacchetto regalo di strumenti" per Llama 3.1 405B, che include progetti chiave come vLLM, TensorRT e PyTorch, dallo sviluppo del modello alla distribuzione "out of the box", in un solo passaggio.

Link di riferimento: https://ai.meta.com/blog/meta-llama-3-1/