Le mie informazioni di contatto
Posta[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mingmin viene dal Tempio Aofei
Qubit |. Account pubblico QbitAI
Basta sostituire l'architettura Transformer e le prestazioni saranno immediatamente migliorate in tutti gli aspetti, rendendo possibile diventare il miglior modello open source della stessa scala!
(Il meccanismo dell’attenzione non esiste più)
Questa è l'ultimaFalcon Mamba 7BModello.
utilizzaArchitettura del modello del linguaggio dello spazio degli stati di Mambaper gestire varie attività di generazione del testo.
Annullando il tradizionale meccanismo di attenzione, si migliora di fatto il problema della bassa efficienza computazionale quando il modello elabora sequenze lunghe.
può gestireinfinitamente lungosequenza, ma i requisiti di memoria non aumentano.
Non importa quanto sia lungo il contesto,Il tempo per generare ciascun token è sostanzialmente lo stesso。
Di conseguenza, le prestazioni del modello Falcon Mamba sono state migliorate sotto tutti gli aspetti, superando molti modelli dell'architettura Transformer, come Llama-3.1 (8B), Mistral (7B) e Falcon-2 (11B).
I risultati di cui sopra sono stati portati dal Technology Innovation Institute (TII) di Abu Dhabi, negli Emirati Arabi Uniti, che è il team di sviluppo del modello Falcon.
Questa serie contiene un totale di quattro modelli: versione base, versione di regolazione fine delle istruzioni, versione a 4 bit e versione a 4 bit di regolazione fine delle istruzioni.
L'ultimo modello è aperto con la licenza TII Falcon 2.0, che è sotto la licenza Apache 2.0.
Gli spettatori della rete hanno gridato: le regole del gioco stanno per cambiare!
Il primo SSLM open source al mondo
In termini di prestazioni, Falcon Mamba 7B supera molti modelli open source sotto tutti gli aspetti.
Si basa sul Mamba di prima generazione.
Mamba è unmodello dello spazio degli stati(SSM, Modello dello Spazio degli Stati). Combina le caratteristiche di RNN e CNN e migliora l'efficienza dell'elaborazione delle informazioni di testo introducendo un meccanismo di selezione che consente al modello di propagare o dimenticare selettivamente le informazioni in base all'input corrente.
Allo stesso tempo, progetta un algoritmo parallelo compatibile con l'hardware che viene eseguito in modalità ricorsiva, evitando l'accesso IO tra i livelli di memoria della GPU e migliorando l'efficienza di elaborazione.
Infine semplifica anche l'architettura, unendo l'architettura SSM e il blocco MLP nel Transformer in un unico blocco.
Il passaggio da Transformer a Mamba consente al modello Falcon di gestire sequenze arbitrariamente lunghe senza aumentare la memoria. Particolarmente adatto per una singola GPU A10 da 24 GB.
Lo studio discute anche due diversi approcci alle sequenze di elaborazione.
Il metodo di preriempimento parallelo è adatto all'elaborazione parallela della GPU e presenta requisiti di memoria elevati; il metodo di riempimento sequenziale è adatto ai modelli SSM e può gestire sequenze di qualsiasi lunghezza senza essere soggetti a vincoli di memoria;
Per garantire la stabilità dell’addestramento su larga scala, il modello Falcon Mamba utilizza un ulteriore livello di normalizzazione RMS.
Il livello di normalizzazione RMS può semplificare il processo di calcolo di LayerNorm e ridurre la quantità di calcolo.
Il modello è stato addestrato utilizzando i dati 5500GT, che provengono principalmente dal set di dati RefedWeb e dai dati pubblici. Il processo di formazione è sostanzialmente uniforme e nelle fasi successive della formazione viene aggiunta una piccola quantità di dati di pianificazione di alta qualità, che aiutano a ottimizzare il modello nella fase finale.
Nel test di generazione di token su H100 con una dimensione batch di 1 e una lunghezza di parola di 1-130k, Falcon Mamba è stato in grado diMantieni un throughput stabile durante la generazione di nuovi token, il che significa che le sue prestazioni non sono influenzate dalla lunghezza del testo e possono gestire sequenze lunghe in modo stabile senza degrado delle prestazioni.
Falcon Mamba supporta più API Hugging Face, tra cui AutoModelForCausalLM e pipline.
È stata lanciata anche una versione di ottimizzazione delle istruzioni, che può rendere il modello più accurato ottimizzando altri 5 miliardi di token.
È possibile accedere agli ultimi modelli su Hugging Face e GitHub~
Link di riferimento:
https://huggingface.co/blog/falconmamba#hardware-performance