Mamba ylittää todella Transformerin koodin kirjoittamisessa! Alkuperäinen paperi valittu uusiin konferenssiuutisiin

Mamba ylittää todella Transformerin koodin kirjoittamisessa!Alkuperäinen paperi valittu uuteen huippukokoukseen

2024-07-17

Länsituuli tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

"European OpenAI" ja "Transformer Challenger" ovat yhdistäneet voimansa!

Mistral AI julkaisi juuri ensimmäisenMamba2Avoimen lähdekoodin malli arkkitehtuurille -Codestral Mamba(7B), joka on erikoistunut koodin luomiseen.

Toisin kuin Transformer-arkkitehtuuri, Mamba-arkkitehtuuri voi suorittaa "lineaarisen aikapäättelyn" ja voi teoriassa tukea äärettömän pituista syöttöä.

Mistral AI: Tästä syystä käytämme Mamba-arkkitehtuurin käynnistämää koodipäättelymallia vastustaaksemme hyökkäystä.

Mistral AI sanoo, että sillä on eniten256k merkkikontekstiCodestral Mamba testattiin vuonna .

Vertailutestissä Codestral Mamban kokonaissuorituskyky ylitti CodeGemma-1.1 7B:n, CodeLlama 7B:n, DeepSeek v1.5 7B:n ja CodeLlama 34B:n.

Jotkut nettimiehet sanoivat, että tämä aalto on vauhti, jolla Mistral AI vie Mamba-arkkitehtuuria eteenpäin.

Yksi Mamba-arkkitehtuurin tekijöistä, CMU:n apulaisprofessoriAlbert Guilmaista:

Erilaiset modaliteetit tai tietomuodot, joissa on heikommat "tokenisaatiot" (esim. koodi, tavutason mallinnus), hyötyvät yhä enemmän pakatuista malleista, kuten SSM.

Codestral Mamban lisäksi Mistral AI julkaisi myös uudenmatemaattinen malli——Mathstral(7B).

Mielenkiintoista on, että netizenit ovat tehneet niin, että suuret mallit ovat usein kaatuneet viime päivinä.Kumpi on isompi, 9.11 vai 9.9?Kysymys, Mathstral vertasi ensin kokonaislukuja, sitten desimaaliosia ja lopulta onnistui saamaan sen oikein.

7B:n suorituskyky on lähellä 22BTtransformeria

Täydelliset Codestral Mamba -benchmark-tulokset ovat seuraavat:

Kaikissa vertailuissa, kuten HumanEval C++/Java/JavaScript/Bash, Codestral Mamba ylittää kattavasti CodeGemma-1.1 7B:n, CodeLlama 7B:n ja suuremman CodeLlama 34B:n.

Mistral AI:n edellinen vahvin avoimen lähdekoodin ohjelmointimalliCodestral 22BSen ja Codestral Mamban välillä ei ole suurta eroa.

Lisäksi DeepSeek v1.5 7B erottuu myös vertailussa, ja se kulkee edestakaisin Codestral Mamban kanssa.

DeepSeek v1.5 7B on parempi kuin Codestral Mamba Spiderin (monimutkaiset verkkotunnusten väliset semanttiset analyysit ja tekstistä SQL:ksi -tehtävät), HumanEval Java, HumanEval Bash, MBPP jne.

Benchmark-tulosten lisäksi mielenkiintoisinta Codestral Mambassa on, että se on ensimmäinen erä Mamba2-arkkitehtuurimalleja.

Mamba-arkkitehtuuri FlashAttentionin kirjoittajaltaTri Daoja CMU:n apulaisprofessori, Cartesia AI:n perustaja ja päätutkijaAlbert Guehdotettiin viime vuoden lopulla.

Aikaisemmin suurilla Transformer-arkkitehtuurimalleilla, kuten ChatGPT:llä, oli suuri kipukohta: pitkän tekstin käsittely kulutti valtavia määriä laskentatehoa. Syynä tähän on myös Transformer-arkkitehtuurin huomiomekanismin neliöllinen monimutkaisuus.

Mamba on ensimmäinen, joka vastaa todella Transformerin suorituskykyälineaarinen aikasarjamalli, on myös tila-avaruusmalli (SSM, State Space Model).

Mamba on rakennettu nykyaikaisemmalle Structured SSM:lle (S4, Structured SSM), joka sopii syväoppimiseen ja sillä on yhtäläisyyksiä klassisen arkkitehtuurin RNN:n kanssa.

Pääinnovaatioita on kolme: syötetietojen valikoiva käsittely, laitteistotietoiset algoritmit ja yksinkertaisempi arkkitehtuuri.

Mamba-arkkitehtuuri herätti laajaa huomiota alalla heti ilmestymisensä jälkeen. Stabiliteettiälyn perustaja ja NVIDIA-tutkija Jim Fan ja muut ovat innoissaan sen ilmestymisestä.

Mamban alkuperäinen artikkeli hylättiin ICLR:ssä vuoden alussa, mikä aiheutti kiivasta keskustelua piirissä.

Sen on kuitenkin hiljattain hyväksynyt CoLM2024, uuden sukupolven huippukonferenssi.

Mamba2 on sen toinen sukupolvi, tilatilaa laajennettu 8-kertaiseksi ja harjoitusnopeus kasvanut 50%.

Mamba2-paperissa havaittiin, että Transformerin huomiomekanismilla on hyvin läheinen matemaattinen yhteys SSM:ään, ja paperi valittiin onnistuneesti ICML 2024:ään.

Myös matemaattinen malli julkaistiin

Codestral Mamban lisäksi Mistral AI lanseerasi myös avoimen lähdekoodin matemaattisen mallin.Mathstral(7B) Arkhimedesen syntymän 2311-vuotispäivän muistoksi.

Mathstral perustuu Mistral 7B:hen, joka keskittyy STEM:iin (Science, Technology, Engineering, Mathematics) ja kontekstiikkuna on 32k.

Vertailutestissä Mathstral MATH sai 56,6 % ja MMLU 63,47 %.

Asia on siinä, että Mathstral voi saavuttaa parempia tuloksia myös useammilla päättelyaikalaskelmilla:

Enemmistöäänestysmekanismia käytettäessä Mathstral 7B sai MATH-testissä 68,37 %, ja kun sovellettiin vahvaa palkitsemismallia 64 ehdokasmallin joukossa, tulos parani 74,59 %:iin.

Seuraava on suorituskyvyn ero Mathstral 7B:n ja Mistral 7B:n välillä eri MMLU-aineissa:

Viitelinkit:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569

uutiset

Mamba ylittää todella Transformerin koodin kirjoittamisessa!Alkuperäinen paperi valittu uuteen huippukokoukseen

7B:n suorituskyky on lähellä 22BTtransformeria

Myös matemaattinen malli julkaistiin

Johdanto

yhteystietoni