Llama 3.1 è trapelato in anticipo, facendo cadere GPT-4o dal suo trono? Più veloce e 10 volte più economico

Llama 3.1 è trapelato in anticipo, facendo cadere GPT-4o dal suo trono?Più veloce e 10 volte più economico

2024-07-24

Testo |. Chang Minxiao e Yuan Yingliang

Editore｜Anita Tang

Se il destino del grande modello di Llama è quello di diventare il tetto dei modelli open source, allora "essere tragicamente trapelati" è il disastro che Llama deve superare.

Nel marzo 2023, Llama 2 è trapelato in anticipo e Meta ha dovuto rilasciare il modello come open source.

Oggi la storia si ripete nuovamente.

Il 12 luglio, ora del Pacifico, un dipendente di Meta ha rivelato che Meta prevede di rilasciare la versione di Llama con la scala di parametri più grande fino ad oggi: Llama 3.1 405B il 23 luglio 2024, ora locale. Ha rivelato che il 405B sarà il primo modello multimodale della serie Llama.

Tuttavia, il 22 luglio, ora del Pacifico, un giorno prima del rilascio previsto, il modello e i risultati dei benchmark di Llama 3.1 sono trapelati su comunità tecniche come Reddit e il magnet link di Llama 3.1 (un programma utilizzato per scaricare documenti) è stato divulgato stato distribuito in comunità come HuggingFace.

A giudicare dai risultati trapelati,Le prestazioni di Llama 3.1 sono paragonabili a quelle di GPT-4o di OpenAI!

Alcuni blogger sull'intelligenza artificiale hanno elogiato il fatto che il rilascio di Llama 3.1 segnerà un altro giorno che cambierà il destino del mondo dell'intelligenza artificiale:

△Fonte:X

I risultati dei benchmark trapelati mostrano che Llama 3.1 ha tre dimensioni: 8B, 70B e 405B. Il modello 70B con il minor numero di parametri ha prestazioni paragonabili a GPT-4o sotto molti aspetti.

△L'immagine sopra mostra il confronto tra ciascuna versione di Llama 3.1 e OpenAI GPT-4o e Llama 3 8B/70B Tra questi, la versione 70B, che è al centro della scala, supera anche GPT-4o in molti aspetti. Fonte immagine: utente X @mattshumer_

Alcuni netizen hanno sottolineato che se basato su questo benchmark, Llama 3.1 405B ≈ GPT-4o, Llama 3.1 70B diventerà il primo modello leggero e GPT-4o mini in grado di sconfiggere OpenAI.

△Fonte immagine: utente X @corbtt

Tuttavia, molti netizen che hanno scaricato il modello per "early adopters" hanno scoperto che la versione trapelata di Llama 3.1 405B ha una dimensione del file di circa 820 GB, richiedendo quasi tre volte la memoria di Llama 2 (circa 280 GB) che mantiene la massima precisione.

Ciò significa che, a meno che tu non abbia una miniera a casa e non possa permettersi abbastanza GPU, sarà difficile per i singoli sviluppatori eseguire Llama 3.1 sui propri computer. Alcuni netizen ipotizzano che Llama 3.1 non sia destinato agli individui, ma alle istituzioni e alle imprese.

Anche Llama 3.1, che non è stato ancora annunciato ufficialmente, è stato messo a dura prova. Molti utenti della rete si sono lamentati: Llama 3.1 ha requisiti troppo elevati per la GPU e non è buono come il GPT-4o mini della vicina OpenAI.

△Commenti dei Netizen su X. Fonte immagine: utente X @_Talesh

Iterazione delle funzioni, ottimizzazione degli indicatori e riduzione delle risorse di calcolo

Secondo le informazioni sul modello trapelate, Llama 3.1 ha più iterazioni di funzionalità rispetto a Llama 3, che sarà rilasciato il 19 aprile 2024, comprese finestre di contesto più lunghe, input e output multilingue e possibile integrazione di strumenti di sviluppo e di terze parti.

Addestramento dei dati: Llama 3.1 è stato addestrato utilizzando token 15T+ provenienti da fonti pubbliche. I dati di ottimizzazione includono set di dati di ottimizzazione delle istruzioni disponibili pubblicamente (a differenza di Llama-3!) e oltre 25 milioni di esempi generati sinteticamente. Dialogo multilingue: Llama 3.1 supporta 8 lingue: inglese, tedesco, francese, italiano, portoghese, hindi, spagnolo e tailandese. Sebbene sfortunatamente non sia disponibile in cinese, gli sviluppatori possono mettere a punto i modelli Llama 3.1 per lingue diverse dalle 8 lingue supportate. Finestra di contesto: la lunghezza del contesto di ciascuna versione viene ampliata da 8k a 128k, che equivale più o meno alla capacità del modello di ricordare, comprendere ed elaborare 96.000 parole alla volta, quasi un intero "Harry Potter" originale.

Molti netizen sono ansiosi di provarlo e di far competere Llama 3.1 con i "predecessori" del modello. Scoprono che non solo gli indicatori sono stati notevolmente migliorati, ma anche le risorse di calcolo sono state notevolmente risparmiate.

Sulla base dei test effettuati dai netizen, rispetto a Llama 3, le capacità di Llama 3.1 sono state notevolmente migliorate. Tra questi, human_eval e Truthfulqa_mc1 hanno fatto progressi significativi, il che significa che la capacità di generare codice di programmazione è più forte e le risposte alle domande sono più autentiche.

Allo stesso tempo, rispetto al modello base, il modello di istruzione di Llama 3 ha significativamente migliorato indicatori come l'apprendimento rapido, l'apprendimento contestuale e l'efficiente regolazione dei parametri.

Ciò è ragionevole perché il modello base di solito non è messo a punto per un compito specifico, mentre il modello istruito è appositamente addestrato per seguire istruzioni o completare compiti specifici. In generale, gli indicatori del modello istruito funzionano meglio.

Ciò fa sì che le persone attendano ancora di più il rilascio ufficiale di Llama3.1. I risultati del test del modello Llama3.1 attualmente trapelati riguardano solo il modello base, mentre il modello istruito potrebbe funzionare meglio!

△Fonte immagine: utente X @thenameless7741

Sorprendentemente, nei risultati dei test benchmark, il modello Llama 3.1 70B ha pareggiato o addirittura battuto GPT-4o, mentre il modello Llama 3.1 8B era vicino alle prestazioni del modello Llama 3 70B. Alcuni netizen hanno ipotizzato che questo potrebbe aver utilizzato la tecnologia di distillazione del modello, ovvero i modelli 8B e 70B sono semplificati dal modello più grande 405B, rendendo il modello grande "piccolo".

La tecnologia di distillazione modello può essere vista come uno studente che impara da un insegnante. Il modello grande e potente (il modello insegnante) è l’insegnante, mentre il modello più piccolo e più semplice (il modello studente) è lo studente. Il modello dello studente apprende "imitando" il modello dell'insegnante, rendendo l'output il più vicino possibile all'output del modello dell'insegnante, apprendendo così conoscenze e abilità simili.

Il modello studente addestrato mediante distillazione può ridurre le dimensioni del modello e i requisiti di risorse di calcolo mantenendo prestazioni elevate e una notevole precisione.

△Fonte: Reddit

Non tutti possono eseguirlo, ma il prezzo è ragionevole.

Non è ancora noto se Llama 3.1 sarà open source come previsto. Ma anche se è open source, se vuoi poter utilizzare Llama 3.1, devi comunque avere una mina in casa.

Se desideri eseguire Llama 3.1, il biglietto d'ingresso più semplice è una GPU sufficiente.

I documenti trapelati mostrano che il tempo di addestramento di Llama 3.1 405B su hardware di tipo H100-80GB è di 30,84 milioni di ore GPU. Ciò significa che, presupponendo che venga utilizzato solo un H100-80GB all'ora, ci vorranno 30,84 milioni di ore per eseguire Llama 3.1 405B: ci vorranno 3500 anni prima che il modello sia operativo!

△Fonte: Reddit

Se l'azienda desidera eseguire la distribuzione privatamente, se desidera eseguire con successo Llama 3.1 405B entro un mese, deve riservare almeno 43.000 H100-80 GB. Calcolato in base al prezzo unitario H100 di 40.000 USD,Utilizzando i biglietti per la potenza di calcolo Llama 3.1 405B, il prezzo raggiunge 1,7 miliardi di dollari USA, equivalenti a 12,5 miliardi di yuan.

Ma la buona notizia è che il costo di inferenza di Llama 3.1 potrebbe essere più economico.

Secondo Artificial Analysis, il costo richiesto per produrre 1 milione di token, Llama 3.1 405B sarà più economico e più conveniente rispetto ai modelli all'avanguardia di qualità simile (GPT-4o e Claude 3.5 Sonnet).

△Fonte immagine: utente X @ArtificialAnlys

Inoltre, alcuni netizen hanno ipotizzato attraverso il codice del file sorgente che Llama 3.1 405B potrebbe diventare un prodotto in abbonamento e che gli utenti dovranno pagare quando lo utilizzano. Dobbiamo però ancora attendere il rilascio ufficiale della situazione reale.

△Fonte immagine: utente X @testingcatalog

(Anche l'autore di 36Kr Zhou Xinyu ha contribuito a questo articolo)

Benvenuti a comunicare

notizia

Llama 3.1 è trapelato in anticipo, facendo cadere GPT-4o dal suo trono?Più veloce e 10 volte più economico

introduzione

le mie informazioni di contatto