notizia

Mamba supera davvero Transformer nello scrivere codice!Articolo originale selezionato per la nuova conferenza più importante

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Il vento dell'ovest proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

"European OpenAI" e "Transformer Challenger" hanno unito le forze!

Mistral AI ha appena lanciato il suo primo sistema basato sull'intelligenza artificialeMamba2Modello open source per l'architettura -Mamba Codestrale(7B), specializzato nella generazione di codice.



A differenza dell'architettura Transformer, l'architettura Mamba può eseguire un "ragionamento temporale lineare" e può teoricamente supportare input di lunghezza infinita.

Mistral AI: ecco perché utilizziamo il modello di ragionamento del codice lanciato dall'architettura Mamba per resistere all'attacco.



Mistral AI dice che ne ha di piùContesto token da 256kCodestral Mamba è stato testato in .

Nel test benchmark, le prestazioni complessive di Codestral Mamba hanno superato CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B e CodeLlama 34B.

Alcuni netizen hanno affermato che questa ondata è il ritmo con cui Mistral AI porterà avanti l'architettura Mamba.

Uno degli autori dell'architettura Mamba, professore assistente alla CMUAlberto Guesprimere:

Diverse modalità o formati di dati con "tokenizzazioni" più deboli (ad esempio codice, modellazione a livello di byte) beneficeranno sempre più di modelli compressi come SSM.



Oltre a Codestral Mamba, Mistral AI ha rilasciato anche un nuovomodello matematico——Matematica(7B)

La cosa interessante è che negli ultimi giorni gli utenti della rete hanno fatto sì che i modelli di grandi dimensioni si ribaltassero spesso.Quale è più grande, 9.11 o 9.9?" domanda, Mathstral ha prima confrontato i numeri interi, poi ha confrontato le parti decimali e alla fine è riuscito a farlo bene.





Le prestazioni del 7B sono vicine al 22BTransformer

I risultati completi del benchmark Codestral Mamba sono i seguenti:



In tutti i benchmark come HumanEval C++/Java/JavaScript/Bash, Codestral Mamba supera CodeGemma-1.1 7B, CodeLlama 7B e supera il più grande CodeLlama 34B.

Il precedente modello di programmazione open source più potente di Mistral AICodicestrale 22BNon c'è un grande divario tra questo e Codestral Mamba.

Inoltre, anche DeepSeek v1.5 7B si distingue nel benchmark e va avanti e indietro con Codestral Mamba.

DeepSeek v1.5 7B è migliore di Codestral Mamba in Spider (analisi semantica complessa tra domini e attività da testo a SQL), HumanEval Java, HumanEval Bash, MBPP, ecc.

Oltre ai risultati dei benchmark, la cosa più interessante di Codestral Mamba è che si tratta del primo lotto di modelli di architettura Mamba2.

Architettura Mamba dell'autore di FlashAttentionTri-Daoe professore assistente della CMU, co-fondatore e capo scienziato di Cartesia AIAlberto Guproposto alla fine dello scorso anno.



In precedenza, i grandi modelli di architettura Transformer come ChatGPT avevano un grosso punto dolente: l’elaborazione di testi lunghi consumava enormi quantità di potenza di calcolo. La ragione di ciò è anche la complessità quadratica del meccanismo di attenzione nell'architettura Transformer.

Mamba è il primo a eguagliare veramente le prestazioni di TransformerModello di serie temporali lineari, è anche un modello dello spazio degli stati (SSM, State Space Model).

Mamba è costruito sul più moderno Structured SSM (S4, Structured SSM) adatto al deep learning e presenta somiglianze con la classica architettura RNN.

Esistono tre innovazioni principali: elaborazione selettiva delle informazioni di input, algoritmi compatibili con l'hardware e architettura più semplice.

L'architettura Mamba ha attirato l'attenzione diffusa nel settore non appena è stata lanciata. Il fondatore di Stability AI e scienziato NVIDIA Jim Fan e altri sono entusiasti della sua nascita.





Il documento originale di Mamba è stato respinto dall'ICLR all'inizio dell'anno, provocando un'accesa discussione nel circolo.

Tuttavia, è stato recentemente accettato dal CoLM2024, la conferenza più importante della nuova generazione.



Mamba2 è la sua seconda generazione, con lo spazio statale ampliato di 8 volte e la velocità di allenamento aumentata del 50%.

Nel documento Mamba2, si è scoperto che il meccanismo di attenzione in Transformer ha una connessione matematica molto stretta con SSM e il documento è stato selezionato con successo per ICML 2024.



È stato anche rilasciato un modello matematico

Oltre a Codestral Mamba, Mistral AI ha lanciato anche un modello matematico open source——Matematica(7B), come commemorazione del 2311° anniversario della nascita di Archimede.

Mathstral è basato su Mistral 7B, focalizzato su STEM (Scienza, Tecnologia, Ingegneria, Matematica), con una finestra di contesto di 32k.

Nel test benchmark, Mathstral MATH ha ottenuto il 56,6% e MMLU ha raggiunto il 63,47%.

Il punto è che Mathstral può anche ottenere risultati migliori con più calcoli del tempo di inferenza:

Utilizzando il meccanismo di voto a maggioranza, Mathstral 7B ha ottenuto il 68,37% nel test MATH e, applicando un modello di ricompensa forte tra 64 modelli candidati, il punteggio è migliorato al 74,59%.



Quella che segue è la differenza di prestazioni tra Mathstral 7B e Mistral 7B in vari argomenti MMLU:



Link di riferimento:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569