notizia

Oltre il modello open source di livello GPT4o Llama 3.1 è trapelato: 405 miliardi di parametri, collegamento per il download disponibile

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Prepara la tua GPU!

Finalmente è apparso Llama 3.1, ma la fonte non è Meta ufficiale.

Oggi, la notizia trapelata del nuovo modello Llama è diventata virale su Reddit.Oltre al modello base, include anche i risultati benchmark di 8B, 70B e il parametro più grande di 405B



La figura seguente mostra i risultati del confronto di ciascuna versione di Llama 3.1 con OpenAI GPT-4o e Llama 3 8B/70B. si può vedere,Anche la versione 70B supera GPT-4o su più benchmark



Fonte immagine: https://x.com/mattshumer_/status/1815444612414087294

Ovviamente, i modelli 8B e 70B della versione 3.1 sono distillati del 405B, quindi c'è un significativo miglioramento delle prestazioni rispetto alla generazione precedente.

Alcuni netizen hanno detto che è cosìPer la prima volta, il modello open source ha superato i modelli closed source come GPT4o e Claude Sonnet 3.5, raggiungendo SOTA su più benchmark.



Allo stesso tempo, è trapelata la scheda modello di Llama 3.1 e sono trapelati anche i dettagli (la data segnata sulla scheda modello mostra che si basa sull'uscita del 23 luglio).

Qualcuno ha riassunto i seguenti punti salienti:

  • Il modello utilizza token 15T+ provenienti da fonti pubbliche per la formazione e la scadenza per i dati di pre-formazione è dicembre 2023;
  • I dati di messa a punto includono il set di dati di messa a punto delle istruzioni disponibile al pubblico (a differenza di Llama 3) e 15 milioni di campioni sintetici;
  • Il modello supporta più lingue, tra cui inglese, francese, tedesco, hindi, italiano, portoghese, spagnolo e tailandese.



Fonte immagine: https://x.com/iScienceLuvr/status/1815519917715730702

Sebbene il collegamento Github trapelato sia attualmente il 404, alcuni netizen hanno fornito il collegamento per il download (ma per sicurezza, si consiglia di attendere l'annuncio del canale ufficiale stasera):



Tuttavia, dopotutto si tratta di un modello di grandi dimensioni con una scala di centinaia di miliardi. Preparare spazio sufficiente sul disco rigido prima del download:



Di seguito sono riportati i contenuti importanti della scheda modello Llama 3.1:

Informazioni di base del modello

L'insieme Meta Llama 3.1 Multilingual Large Language Model (LLM) è un insieme di modelli generativi pre-addestrati e ottimizzati per le istruzioni di dimensioni 8B, 70B e 405B (input/output di testo). I modelli di solo testo ottimizzati per i comandi di Llama 3.1 (8B, 70B, 405B) sono ottimizzati per casi d'uso di conversazioni multilingue e superano molti modelli di chat open source e chiusi disponibili rispetto ai benchmark comuni del settore.

Architettura del modello: Llama 3.1 è un modello linguistico autoregressivo dell'architettura Transformer ottimizzato. La versione ottimizzata utilizza SFT e RLHF per allineare le preferenze di usabilità e sicurezza.

Lingue supportate: inglese, tedesco, francese, italiano, portoghese, hindi, spagnolo e tailandese.

Dalle informazioni sulla scheda modello si può dedurre cheI modelli della serie Llama 3.1 hanno una lunghezza del contesto di 128k . Tutte le versioni del modello utilizzano Grouped Query Attention (GQA) per migliorare la scalabilità dell'inferenza.







utilizzo previsto

Casi d'uso previsti. Llama 3.1 è destinato ad applicazioni aziendali e di ricerca multilingue. I modelli di solo testo ottimizzati per le istruzioni sono adatti per chat simili a quelle di un assistente, mentre i modelli pre-addestrati possono essere adattati a una varietà di attività di generazione del linguaggio naturale.

Il set di modelli Llama 3.1 supporta inoltre la capacità di sfruttare i risultati del modello per migliorare altri modelli, tra cui la generazione e la distillazione di dati sintetici. La Llama 3.1 Community License consente questi casi d'uso.

Llama 3.1 si allena su un insieme di lingue più ampio rispetto alle 8 lingue supportate. Gli sviluppatori possono ottimizzare i modelli Llama 3.1 per lingue diverse dalle 8 lingue supportate, a condizione che siano conformi al Contratto di licenza della comunità Llama 3.1 e alla Politica di utilizzo accettabile, e in tali casi sono responsabili di garantire che altre lingue vengano utilizzate in in modo sicuro e responsabile Lingua Llama 3.1.

Infrastruttura software e hardware

Il primo è l'elemento di formazione. Llama 3.1 utilizza una libreria di formazione personalizzata, il cluster GPU personalizzato di Meta e l'infrastruttura di produzione per la pre-formazione. Inoltre, è ottimizzato, annotato e valutato sull'infrastruttura di produzione.

Il secondo riguarda il consumo energetico dell'allenamento. L'allenamento Llama 3.1 utilizza un totale di 39,3 milioni di ore di calcolo GPU su hardware di tipo H100-80GB (TDP è 700 W). In questo caso il tempo di addestramento è il tempo totale della GPU necessario per addestrare ciascun modello e il consumo energetico è la capacità di potenza di picco di ciascun dispositivo GPU, adattata all'efficienza energetica.

Formazione sulle emissioni di gas serra. Si stima che le emissioni totali di gas serra basate su parametri geografici durante il periodo di formazione Llama 3.1 siano pari a 11.390 tonnellate di CO2 equivalente. Dal 2020, Meta ha mantenuto emissioni nette di gas serra pari a zero in tutte le sue operazioni globali e ha coperto il 100% del suo consumo di elettricità con energia rinnovabile, determinando emissioni totali di gas serra basate sul mercato pari a 0 tonnellate di CO2e durante il periodo di formazione.

I metodi utilizzati per determinare il consumo energetico durante la formazione e le emissioni di gas serra possono essere trovati nel seguente documento. Poiché Meta rende pubblici questi modelli, gli altri non hanno bisogno di sostenere l’onere della formazione sull’uso dell’energia e sulle emissioni di gas serra.

Indirizzo del documento: https://arxiv.org/pdf/2204.05149

dati di allenamento

Panoramica: Llama 3.1 è pre-addestrato utilizzando circa 15 trilioni di dati token provenienti da fonti pubbliche. I dati di ottimizzazione includono set di dati di istruzioni disponibili al pubblico e oltre 25 milioni di esempi generati sinteticamente.

Aggiornamento dei dati: la scadenza per i dati di pre-addestramento è dicembre 2023.

Punteggio di riferimento

In questa sezione Meta riporta i risultati del punteggio del modello Llama 3.1 sul benchmark delle annotazioni. Per tutte le valutazioni, Meta utilizza librerie di valutazione interne.



Considerazioni sui rischi per la sicurezza

Il team di ricerca Llama si impegna a fornire alla comunità di ricerca risorse preziose per studiare la robustezza della messa a punto sicura e a fornire agli sviluppatori modelli standard sicuri e robusti per una varietà di applicazioni per ridurre il lavoro degli sviluppatori che implementano un'intelligenza artificiale sicura quantità di sistemi.

Il team di ricerca ha utilizzato un approccio multiforme alla raccolta dati che combinava dati generati dall’uomo provenienti dai fornitori con dati sintetici per mitigare potenziali rischi per la sicurezza. Il team di ricerca ha sviluppato una serie di classificatori basati su Large Language Model (LLM) per selezionare attentamente suggerimenti e risposte di alta qualità, migliorando così il controllo della qualità dei dati.

Vale la pena ricordare che Llama 3.1 attribuisce grande importanza al modello di rifiuto dei suggerimenti benigni e al tono di rifiuto. Il team di ricerca ha introdotto suggerimenti di confine e suggerimenti contraddittori nella politica dei dati di sicurezza e ha modificato la risposta dei dati di sicurezza per seguire le linee guida sui toni.

Il modello Llama 3.1 non è progettato per essere implementato in modo autonomo, ma dovrebbe essere implementato come parte di un sistema di intelligenza artificiale complessivo, con ulteriori "guardie di sicurezza" fornite secondo necessità. Gli sviluppatori dovrebbero implementare misure di sicurezza del sistema durante la creazione di sistemi di agenti.

Tieni presente che questa versione introduce nuove funzionalità, tra cui finestre di contesto più lunghe, input e output multilingue e possibile integrazione degli sviluppatori con strumenti di terze parti. Quando si crea con queste nuove funzionalità, oltre a considerare le best practice che generalmente si applicano a tutti i casi d'uso dell'intelligenza artificiale generativa, è necessario prestare particolare attenzione ai seguenti problemi:

Utilizzo degli strumenti: come per lo sviluppo di software standard, gli sviluppatori sono responsabili dell'integrazione di LLM con gli strumenti e i servizi di loro scelta. Dovrebbero sviluppare politiche chiare per i loro casi d'uso e valutare l'integrità dei servizi di terze parti che utilizzano per comprendere le limitazioni di sicurezza e protezione quando utilizzano questa funzionalità.

Multilingue: Lama 3.1 supporta 7 lingue oltre all'inglese: francese, tedesco, hindi, italiano, portoghese, spagnolo e tailandese. Llama potrebbe essere in grado di generare testo in altre lingue, ma questo testo potrebbe non soddisfare le soglie di prestazioni di sicurezza e utilità.

I valori fondamentali di Llama 3.1 sono l’apertura, l’inclusione e la disponibilità. È progettato per servire tutti ed è adatto a una varietà di casi d'uso. Pertanto, Llama 3.1 è progettato per essere accessibile a persone di ogni provenienza, esperienza e prospettiva. Llama 3.1 è incentrato sugli utenti e sulle loro esigenze, senza inserire giudizi o norme inutili, riflettendo anche il riconoscimento che anche i contenuti che possono sembrare problematici in alcuni contesti possono essere utili in altri. Llama 3.1 rispetta la dignità e l'autonomia di tutti gli utenti e, in particolare, rispetta i valori della libertà di pensiero e di espressione che alimentano l'innovazione e il progresso.

Ma Llama 3.1 è una nuova tecnologia e, come ogni nuova tecnologia, esistono rischi associati al suo utilizzo. I test condotti fino ad oggi non hanno e non possono coprire tutte le situazioni. Pertanto, come tutti gli LLM, i potenziali risultati di Llama 3.1 non possono essere previsti in anticipo e in alcuni casi il modello potrebbe rispondere alle richieste dell'utente in modo impreciso, distorto o comunque discutibile. Pertanto, prima di distribuire qualsiasi applicazione del modello Llama 3.1, gli sviluppatori dovrebbero condurre test di sicurezza e messa a punto per l'applicazione specifica del modello.

Fonte della scheda modello: https://pastebin.com/9jGkYbXY

Informazioni di riferimento: https://x.com/op7418/status/1815340034717069728

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294