L'iPhone può far funzionare un piccolo cannone d'acciaio da 2B! In arrivo Google Gemma 2, il microscopio più potente in grado di sezionare il cervello di LLM

L'iPhone può far funzionare un piccolo cannone d'acciaio da 2B!In arrivo Google Gemma 2, il microscopio più potente in grado di sezionare il cervello dei LLM

2024-08-01

Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza] Il piccolo modello di bomba nucleare di Google DeepMind è qui. Gemma 2 2B ha sconfitto direttamente GPT-3.5 e Mixtral 8x7B, che avevano parametri più grandi di diversi ordini di grandezza! Il Gemma Scope rilasciato nello stesso momento sfonda la scatola nera di LLM come un microscopio, permettendoci di vedere chiaramente come Gemma 2 prende le decisioni.

Il piccolo modello di Google DeepMind è di nuovo nuovo!

Proprio ora, Google DeepMind ha rilasciato Gemma 2 2B.

Si distilla da Gemma 2 27B.

Sebbene i suoi parametri siano solo 2,6B, il suo punteggio nell'arena LMSYS ha superato GPT-3.5 e Mixtral 8x7B!

Nei benchmark MMLU e MBPP ha ottenuto ottimi risultati rispettivamente di 56,1 e 36,6, le sue prestazioni hanno superato di oltre il 10% il precedente modello Gemma 1 2B;

Il modello piccolo ha sconfitto il modello grande che era diversi ordini di grandezza più grande, confermando ancora una volta la direzione dei modelli piccoli su cui l’industria è molto ottimista ultimamente.

Oggi Google ha annunciato un totale di tre nuovi membri della famiglia Gemma 2:

Gemma 2 2B:Il modello leggero 2B raggiunge il massimo equilibrio tra prestazioni ed efficienza
ScudoGemma:Un modello di classificazione dei contenuti sicuro basato su Gemma 2 per filtrare l'input e l'output del modello AI per garantire la sicurezza dell'utente
Ambito Gemma:Uno strumento di interpretabilità che fornisce informazioni impareggiabili sul funzionamento interno del tuo modello

A giugno nascono i modelli 27B e 9B Gemma 2.

Dal suo rilascio, il modello 27B è diventato rapidamente uno dei migliori modelli open source nelle classifiche dei modelli di grandi dimensioni, superando anche i modelli più diffusi con il doppio del numero di parametri nelle conversazioni effettive.

Gemma 2 2B: subito disponibile sul tuo dispositivo

Il modello piccolo e leggero Gemma 2 2B è un distillato del modello grande e le sue prestazioni non sono inferiori.

Nell'arena di modelli di grandi dimensioni LMSYS, il nuovo modello ha ottenuto un punteggio impressionante di 1130, che è alla pari con i modelli con parametri 10x.

GPT-3.5-Turbo-0613 ha segnato 1117 e Mixtral-8x7b ha segnato 1114.

Ciò dimostra che Gemma 2 2B è il miglior modello end-to-side.

Alcuni utenti della rete hanno fatto funzionare Gemma 2 2B quantizzato su MLX Swift su iPhone 15 Pro e la velocità è stata sorprendentemente elevata.

Nello specifico, può essere implementato su vari dispositivi terminali, inclusi telefoni cellulari, laptop e persino il potente cloud utilizzando Vertex AI e Google Kubernetes Engine (GKE).

Per accelerare il modello, è ottimizzato tramite NVIDIA TensorRT-LLM, disponibile anche sulla piattaforma NVIDIA NIM.

Il modello ottimizzato funziona su una varietà di implementazioni di piattaforme, inclusi data center, cloud, workstation locali, PC e dispositivi edge.

Può anche supportare i moduli RTX, RTX GPU e Jetson per completare la distribuzione IA marginale.

Inoltre, Gemma 2 2B integra perfettamente Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp, ecc. e sarà presto integrato con MediaPipe per semplificare lo sviluppo.

Naturalmente, come Gemma 2, anche il modello 2B può essere utilizzato per la ricerca e per uso commerciale.

Inoltre, poiché il volume dei suoi parametri è sufficientemente basso, può funzionare sul livello GPU T4 gratuito di Google Colab, abbassando la soglia di sviluppo.

Attualmente, ogni sviluppatore può scaricare i pesi del modello di Gemma 2 da Kaggle, Hugging Face e Vertex AI Model Garden e può anche provare le sue funzioni in Google AI Studio.

Indirizzo del magazzino: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: il classificatore di sicurezza all'avanguardia

Come suggerisce il nome, ShieldGemma è il classificatore di sicurezza più avanzato, garantendo che i contenuti di output dell'intelligenza artificiale siano attraenti, sicuri e inclusivi e rilevando e riducendo i contenuti dannosi.

ShieldGemma è progettato per colpire specificamente quattro aree chiave dannose:

- incitamento all'odio

- Contenuti molesti

- Contenuti espliciti

- Contenuti pericolosi

Questi classificatori open source completano la suite esistente di classificatori di sicurezza di Google nel toolkit Responsible AI.

Il toolkit include un metodo per creare classificatori specifici per policy basati su punti dati limitati, nonché classificatori Google Cloud standard forniti tramite API.

ShieldGemma si basa su Gemma 2, il classificatore di sicurezza leader del settore.

Fornisce varie dimensioni dei parametri del modello, tra cui 2B, 9B e 27B, tutti ottimizzati per la velocità NVIDIA e possono funzionare in modo efficiente su vari hardware.

Tra questi, 2B è molto adatto per attività di classificazione online, mentre le versioni 9B e 27B forniscono prestazioni più elevate per applicazioni offline con requisiti di latenza inferiori.

Gemma Scope: rivelare il processo decisionale dell'IA attraverso autoencoder sparsi open source

Un altro punto forte rilasciato nello stesso periodo è l'autoencoder sparse open source Gemma Scope.

Cosa sta succedendo all’interno del modello linguistico? Questo problema ha lasciato perplessi ricercatori e sviluppatori per molto tempo.

Il funzionamento interno dei modelli linguistici è spesso un mistero, anche per i ricercatori che li addestrano.

Gemma Scope è come un potente microscopio che ingrandisce punti specifici del modello attraverso autoencoder sparsi (SAE), rendendo più facile interpretare il funzionamento interno del modello.

Con Gemma Scope, ricercatori e sviluppatori ottengono una trasparenza senza precedenti nel processo decisionale del modello Gemma 2.

Gemma Scope è una raccolta di centinaia di codificatori automatici sparsi (SAE) gratuiti e aperti per Gemma 2 9B e Gemma 2 2B.

Questi SAE sono reti neurali appositamente progettate che ci aiutano a interpretare le informazioni dense e complesse elaborate da Gemma 2 e ad espanderle in una forma più facile da analizzare e comprendere.

Studiando queste visualizzazioni ampliate, i ricercatori possono ottenere preziose informazioni su come Gemma 2 riconosce modelli, elabora informazioni e fa previsioni.

Con Gemma Scope, la comunità AI può costruire più facilmente sistemi di intelligenza artificiale più comprensibili, responsabili e affidabili.

Allo stesso tempo, Google DeepMind ha anche pubblicato un rapporto tecnico di 20 pagine.

Rapporto tecnico: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

In sintesi, Gemma Scope presenta le seguenti tre innovazioni:

SAE open source: oltre 400 SAE disponibili gratuitamente che coprono tutti i livelli di Gemma 2 2B e 9B
Demo interattiva: esplora le funzionalità SAE e analizza il comportamento del modello su Neuronpedia senza scrivere codice
Libreria di risorse facile da usare: fornisce codice ed esempi per interagire con SAE e Gemma 2

Interpretare il funzionamento interno dei modelli linguistici

Perché il problema dell’interpretabilità dei modelli linguistici è così difficile?

Ciò inizia con il principio di funzionamento di LLM.

Quando fai una domanda a LLM, converte il tuo input di testo in una serie di "attivazioni". Queste attivazioni mappano le relazioni tra le parole inserite, aiutando il modello a creare connessioni tra parole diverse e generare risposte di conseguenza.

Mentre il modello elabora l'input di testo, le attivazioni di diversi strati nella rete neurale del modello rappresentano più concetti progressivamente di livello superiore, chiamati "caratteristiche".

Ad esempio, i primi strati del modello potrebbero apprendere fatti come la Giordania che gioca a basket, mentre gli strati successivi potrebbero identificare concetti più complessi, come l’autenticità di un testo.

Esempio di interpretazione delle attivazioni del modello utilizzando autoencoder sparsi - come il modello ricorda il fatto che "la città della luce è Parigi".Si può vedere che esistono concetti legati al francese, ma no concetti non correlati

Tuttavia, i ricercatori sull’interpretabilità si trovano ad affrontare un problema chiave: l’attivazione del modello è una miscela di molte caratteristiche diverse.

Nelle prime fasi della ricerca, i ricercatori speravano che le caratteristiche delle attivazioni della rete neurale potessero essere allineate con i singoli neuroni o nodi di informazione.

Ma sfortunatamente, nella pratica, i neuroni sono attivi per molte caratteristiche irrilevanti.

Ciò significa che non esiste un modo ovvio per stabilire quali funzionalità fanno parte dell'attivazione.

Ed è proprio qui che entrano in gioco gli autoencoder sparsi.

Tieni presente che una particolare attivazione sarà solo una combinazione di alcune funzionalità, sebbene un modello linguistico possa essere in grado di rilevare milioni o addirittura miliardi di funzionalità (ovvero, il modello utilizza funzionalità scarsamente).

Ad esempio, un modello linguistico potrebbe pensare alla relatività quando risponde a una domanda su Einstein, ma potrebbe non pensare alla relatività quando scrive di una frittata.

Gli autocodificatori sparsi sfruttano questo fatto per scoprire una serie di funzionalità latenti e scomporre ogni attivazione in una manciata di funzionalità.

I ricercatori sperano che il modo migliore per gli autocodificatori sparsi di svolgere questo compito sia trovare le caratteristiche essenziali effettivamente utilizzate dai modelli linguistici.

È importante sottolineare che durante questo processo i ricercatori non hanno detto al codificatore automatico sparse quali caratteristiche cercare.

Di conseguenza, sono stati in grado di scoprire strutture ricche non previste in precedenza.

Tuttavia, poiché non conoscono immediatamente il significato esatto di queste funzionalità scoperte, cercano modelli significativi negli esempi di testo che l'autocodificatore sparse considera le funzionalità "attivanti".

Ecco un esempio in cui i token attivati da una funzione sono evidenziati con una sfumatura blu in base alla forza dell'attivazione della funzione:

Esempio di rilevamento di attivazioni di funzionalità con codificatori automatici sparsi. Ogni bolla rappresenta un token (parola o frammento di parola) e il colore blu variabile illustra la forza di questa funzionalità.In questo caso, la caratteristica è chiaramente correlata all'idioma

Cosa rende unico Gemma Scope?

Rispetto ai precedenti autoencoder sparsi, Gemma Scope ha molte caratteristiche uniche.

Il primo si concentra principalmente sullo studio del funzionamento interno di piccoli modelli o di singoli strati di modelli di grandi dimensioni.

Ma se si vuole approfondire la ricerca sull’interpretabilità, è necessario decodificare algoritmi complessi stratificati in modelli di grandi dimensioni.

Questa volta, i ricercatori di Google DeepMind hanno addestrato degli autocodificatori sparsi sull'output di ogni strato e sottostrato di Gemma 2 2B e 9B.

Il Gemma Scope costruito in questo modo ha generato un totale di più di 400 autoencoder sparsi e ha ottenuto più di 30 milioni di funzionalità (anche se molte funzionalità potrebbero sovrapporsi).

Ciò consente ai ricercatori di studiare come le caratteristiche si evolvono nel modello e come interagiscono e si combinano per formare caratteristiche più complesse.

Inoltre, Gemma Scope viene addestrato utilizzando l'architettura SAE JumpReLU più recente e avanzata.

L'architettura originale del codificatore automatico sparso spesso presenta un difficile equilibrio tra i due obiettivi di rilevamento della presenza di funzionalità e stima dell'intensità. L'architettura JumpReLU può raggiungere più facilmente un equilibrio tra i due e ridurre significativamente gli errori.

Naturalmente, anche l’addestramento di così tanti autocodificatori sparsi rappresenta una grande sfida ingegneristica e richiede molte risorse di calcolo.

In questo processo, i ricercatori hanno utilizzato circa il 15% dei calcoli di addestramento di Gemma 2 9B (esclusi i calcoli necessari per generare etichette distillate) e hanno salvato circa 20 PiB di attivazioni su disco (approssimativamente equivalenti a un milione di copie del contenuto dell'Enciclopedia Wiki inglese) , generando un totale di centinaia di miliardi di parametri sparsi del codificatore automatico.

Riferimenti:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

notizia

L'iPhone può far funzionare un piccolo cannone d'acciaio da 2B!In arrivo Google Gemma 2, il microscopio più potente in grado di sezionare il cervello dei LLM

introduzione

le mie informazioni di contatto