Le mie informazioni di contatto
Posta[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Rapporto sul cuore della macchina
Editore: Du Wei, Chen Chen
Il grande modello dell'architettura Mamba ha sfidato ancora una volta Transformer.
Il modello di architettura Mamba riuscirà finalmente a "reggersi in piedi" questa volta? Dal suo lancio iniziale nel dicembre 2023, Mamba è diventato un forte concorrente di Transformer.
Da allora, hanno continuato ad apparire modelli che utilizzano l'architettura Mamba, come Codestral 7B, il primo modello open source di grandi dimensioni basato sull'architettura Mamba rilasciato da Mistral.
Oggi, il Technology Innovation Institute (TII) di Abu Dhabi ha pubblicato unNuovo modello Mamba open source: Falcon Mamba 7B。
Riassumiamo innanzitutto i punti salienti di Falcon Mamba 7B: può gestire sequenze di qualsiasi lunghezza senza aumentare la memoria e può funzionare su una singola GPU A10 da 24 GB.
Attualmente disponibile per la visualizzazione e l'utilizzo presso Hugging Face, Falcon Mamba 7B è un modello solo decodificatore causale che utilizza un nuovoArchitettura Mamba State Space Language Model (SSLM).per gestire varie attività di generazione del testo.
A giudicare dai risultati, il Falcon Mamba 7B ha sovraperformato i modelli leader nella sua classe di dimensioni su alcuni benchmark, tra cui Llama 3 8B di Meta, Llama 3.1 8B e Mistral 7B.
Falcon Mamba 7B è diviso in quattro modelli di varianti, vale a dire la versione base, la versione ottimizzata del comando, la versione a 4 bit e la versione ottimizzata del comando a 4 bit.
In quanto modello open source, Falcon Mamba 7B adotta la licenza basata su Apache 2.0 "Falcon License 2.0" per supportare scopi di ricerca e applicazione.
Indirizzo di Hugging Face: https://huggingface.co/tiiuae/falcon-mamba-7b
Il Falcon Mamba 7B è diventato anche il quarto modello open source di TII dopo Falcon 180B, Falcon 40B e Falcon 2, ed è ilIl primo modello di architettura SSLM Mamba。
Il primo modello universale di Mamba puro su larga scala
I modelli basati su Transformer dominano da tempo l’intelligenza artificiale generativa. Tuttavia, i ricercatori hanno notato che le architetture Transformer possono incontrare difficoltà durante l’elaborazione di informazioni di testo più lunghe.
In sostanza, il meccanismo di attenzione in Transformer comprende il contesto confrontando ogni parola (o token) con ogni parola nel testo, il che richiede maggiore potenza di calcolo e requisiti di memoria per gestire la finestra di contesto in crescita.
Ma se le risorse di calcolo non vengono dimensionate di conseguenza, l’inferenza del modello rallenterà e il testo che supera una certa lunghezza non potrà essere elaborato. Per superare questi ostacoli, l’architettura State Space Language Model (SSLM), che funziona aggiornando continuamente lo stato durante l’elaborazione delle parole, è emersa come un’alternativa promettente e viene implementata da molte istituzioni tra cui TII. Questo tipo di architettura.
Falcon Mamba 7B utilizza l'architettura Mamba SSM originariamente proposta in un articolo del dicembre 2023 da ricercatori della Carnegie Mellon University e della Princeton University.
L'architettura utilizza un meccanismo di selezione che consente al modello di regolare dinamicamente i propri parametri in base all'input. In questo modo, il modello può concentrarsi o ignorare input specifici, in modo simile a come funziona il meccanismo di attenzione in Transformer, fornendo al contempo la capacità di elaborare lunghe sequenze di testo (come interi libri) senza richiedere memoria aggiuntiva o risorse di elaborazione.
TII ha osservato che l'approccio rende il modello adatto per attività quali la traduzione automatica a livello aziendale, il riepilogo del testo, la visione artificiale e le attività di elaborazione audio, nonché la stima e la previsione.
dati di allenamento
Falcon Mamba 7BDati di allenamento fino a 5500GT, è costituito principalmente dal set di dati RefinedWeb, arricchito con dati tecnici di alta qualità, dati di codice e dati matematici provenienti da fonti pubbliche. Tutti i dati vengono tokenizzati tramite il tokenizzatore Falcon-7B/11B.
Similmente ad altri modelli della serie Falcon, Falcon Mamba 7B utilizza una strategia di allenamento in più fasi per l'addestramento.La lunghezza del contesto è aumentata da 2048 a 8192. Inoltre, ispirandosi al concetto di course learning, TII seleziona attentamente i dati misti durante tutta la fase di formazione, considerando pienamente la diversità e la complessità dei dati.
Nella fase di formazione finale, TII utilizza un piccolo set di dati curati di alta qualità (ovvero campioni di Fineweb-edu) per migliorare ulteriormente le prestazioni.
Processo di training, iperparametri
La maggior parte dell'addestramento per il Falcon Mamba 7B lo èFatto su 256 GPU H100 da 80 GB, viene adottata una strategia che combina il parallelismo 3D (TP=1, PP=1, DP=256) e ZeRO. La figura seguente mostra i dettagli dell'iperparametro del modello, tra cui accuratezza, ottimizzatore, velocità di apprendimento massima, decadimento del peso e dimensione del batch.
Nello specifico, Falcon Mamba 7B è stato addestrato con l'ottimizzatore AdamW, il programma di velocità di apprendimento WSD (warm-stabilize-decay) e la dimensione del batch è aumentata da b_min=128 a b_max=2048 durante le prime 50 GT di addestramento.
Nella fase stabile, TII utilizza un tasso di apprendimento massimo η_max=6.4×10^−4, quindi lo decade al minimo utilizzando uno schema esponenziale superiore a 500GT. Allo stesso tempo, TII utilizza BatchScaling nella fase di accelerazione per regolare nuovamente la velocità di apprendimento eta in modo che la temperatura del rumore Adam rimanga costante.
L'intero corso di formazione del modello è durato circa due mesi。
Valutazione del modello
Per comprendere come Falcon Mamba 7B si confronta con i principali modelli Transformer nella sua classe di dimensioni, lo studio ha condotto un test per determinare la lunghezza massima del contesto che il modello potrebbe gestire utilizzando una singola GPU A10 da 24 GB.
I risultati mostrano che Falcon Mamba è in grado di adattarsi a sequenze più grandi rispetto agli attuali modelli TransformerTeoricamente in grado di ospitare lunghezze di contesto illimitate。
Successivamente, abbiamo misurato il throughput di generazione del modello utilizzando una dimensione batch pari a 1 e un'impostazione hardware di GPU H100. I risultati sono mostrati nella figura seguente. Falcon Mamba genera tutti i token a throughput costante senza alcun aumento della memoria di picco CUDA. Per i modelli Transformer, la memoria di picco aumenta e la velocità di generazione rallenta all'aumentare del numero di token generati.
Anche rispetto ai benchmark standard del settore, il nuovo modello offre prestazioni migliori o vicine ai modelli di trasformatore più diffusi, nonché ai modelli spazio-stato puri e ibridi.
Ad esempio, nei benchmark Arc, TruthfulQA e GSM8K, Falcon Mamba 7B ha ottenuto rispettivamente il 62,03%, 53,42% e 52,54%, superando Llama 3 8 B, Llama 3.1 8B, Gemma 7B e Mistral 7B. Tuttavia, nei benchmark MMLU e Hellaswag, il Falcon Mamba 7B è molto indietro rispetto a questi modelli.
"Il rilascio del Falcon Mamba 7B rappresenta un importante passo avanti per l'istituzione, ispirando nuove prospettive e promuovendo l'esplorazione di sistemi intelligenti", ha affermato in una nota il ricercatore principale del TII, Hakim Hacid. Al TII, stanno spingendo i confini dei modelli SSLM e dei trasformatori per ispirare ulteriore innovazione nell’intelligenza artificiale generativa.
Attualmente, la serie di modelli linguistici Falcon di TII è stata scaricata più di 45 milioni di volte, diventando una delle versioni LLM di maggior successo negli Emirati Arabi Uniti.
Il documento Falcon Mamba 7B verrà rilasciato presto, quindi puoi aspettare un momento.
https://huggingface.co/blog/falconmamba
https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/