Mamba supera davvero Transformer nello scrivere codice! Documento originale selezionato per le migliori nuove conference

Mamba supera davvero Transformer nello scrivere codice!Articolo originale selezionato per la nuova conferenza più importante

2024-07-17

Il vento dell'ovest proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

"European OpenAI" e "Transformer Challenger" hanno unito le forze!

Mistral AI ha appena lanciato il suo primo sistema basato sull'intelligenza artificialeMamba2Modello open source per l'architettura -Mamba Codestrale(7B), specializzato nella generazione di codice.

A differenza dell'architettura Transformer, l'architettura Mamba può eseguire un "ragionamento temporale lineare" e può teoricamente supportare input di lunghezza infinita.

Mistral AI: ecco perché utilizziamo il modello di ragionamento del codice lanciato dall'architettura Mamba per resistere all'attacco.

Mistral AI dice che ne ha di piùContesto token da 256kCodestral Mamba è stato testato in .

Nel test benchmark, le prestazioni complessive di Codestral Mamba hanno superato CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B e CodeLlama 34B.

Alcuni netizen hanno affermato che questa ondata è il ritmo con cui Mistral AI porterà avanti l'architettura Mamba.

Uno degli autori dell'architettura Mamba, professore assistente alla CMUAlberto Guesprimere:

Diverse modalità o formati di dati con "tokenizzazioni" più deboli (ad esempio codice, modellazione a livello di byte) beneficeranno sempre più di modelli compressi come SSM.

Oltre a Codestral Mamba, Mistral AI ha rilasciato anche un nuovomodello matematico——Matematica(7B)

La cosa interessante è che negli ultimi giorni gli utenti della rete hanno fatto sì che i modelli di grandi dimensioni si ribaltassero spesso.Quale è più grande, 9.11 o 9.9?" domanda, Mathstral ha prima confrontato i numeri interi, poi ha confrontato le parti decimali e alla fine è riuscito a farlo bene.

Le prestazioni del 7B sono vicine al 22BTransformer

I risultati completi del benchmark Codestral Mamba sono i seguenti:

In tutti i benchmark come HumanEval C++/Java/JavaScript/Bash, Codestral Mamba supera CodeGemma-1.1 7B, CodeLlama 7B e supera il più grande CodeLlama 34B.

Il precedente modello di programmazione open source più potente di Mistral AICodicestrale 22BNon c'è un grande divario tra questo e Codestral Mamba.

Inoltre, anche DeepSeek v1.5 7B si distingue nel benchmark e va avanti e indietro con Codestral Mamba.

DeepSeek v1.5 7B è migliore di Codestral Mamba in Spider (analisi semantica complessa tra domini e attività da testo a SQL), HumanEval Java, HumanEval Bash, MBPP, ecc.

Oltre ai risultati dei benchmark, la cosa più interessante di Codestral Mamba è che si tratta del primo lotto di modelli di architettura Mamba2.

Architettura Mamba dell'autore di FlashAttentionTri-Daoe professore assistente della CMU, co-fondatore e capo scienziato di Cartesia AIAlberto Guproposto alla fine dello scorso anno.

In precedenza, i grandi modelli di architettura Transformer come ChatGPT avevano un grosso punto dolente: l’elaborazione di testi lunghi consumava enormi quantità di potenza di calcolo. La ragione di ciò è anche la complessità quadratica del meccanismo di attenzione nell'architettura Transformer.

Mamba è il primo a eguagliare veramente le prestazioni di TransformerModello di serie temporali lineari, è anche un modello dello spazio degli stati (SSM, State Space Model).

Mamba è costruito sul più moderno Structured SSM (S4, Structured SSM) adatto al deep learning e presenta somiglianze con la classica architettura RNN.

Esistono tre innovazioni principali: elaborazione selettiva delle informazioni di input, algoritmi compatibili con l'hardware e architettura più semplice.

L'architettura Mamba ha attirato l'attenzione diffusa nel settore non appena è stata lanciata. Il fondatore di Stability AI e scienziato NVIDIA Jim Fan e altri sono entusiasti della sua nascita.

Il documento originale di Mamba è stato respinto dall'ICLR all'inizio dell'anno, provocando un'accesa discussione nel circolo.

Tuttavia, è stato recentemente accettato dal CoLM2024, la conferenza più importante della nuova generazione.

Mamba2 è la sua seconda generazione, con lo spazio statale ampliato di 8 volte e la velocità di allenamento aumentata del 50%.

Nel documento Mamba2, si è scoperto che il meccanismo di attenzione in Transformer ha una connessione matematica molto stretta con SSM e il documento è stato selezionato con successo per ICML 2024.

È stato anche rilasciato un modello matematico

Oltre a Codestral Mamba, Mistral AI ha lanciato anche un modello matematico open source——Matematica(7B), come commemorazione del 2311° anniversario della nascita di Archimede.

Mathstral è basato su Mistral 7B, focalizzato su STEM (Scienza, Tecnologia, Ingegneria, Matematica), con una finestra di contesto di 32k.

Nel test benchmark, Mathstral MATH ha ottenuto il 56,6% e MMLU ha raggiunto il 63,47%.

Il punto è che Mathstral può anche ottenere risultati migliori con più calcoli del tempo di inferenza:

Utilizzando il meccanismo di voto a maggioranza, Mathstral 7B ha ottenuto il 68,37% nel test MATH e, applicando un modello di ricompensa forte tra 64 modelli candidati, il punteggio è migliorato al 74,59%.

Quella che segue è la differenza di prestazioni tra Mathstral 7B e Mistral 7B in vari argomenti MMLU:

Link di riferimento:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569

notizia

Mamba supera davvero Transformer nello scrivere codice!Articolo originale selezionato per la nuova conferenza più importante

Le prestazioni del 7B sono vicine al 22BTransformer

È stato anche rilasciato un modello matematico

introduzione

le mie informazioni di contatto