uutiset

Alkuperäinen teos päättyy henkilökohtaisesti! Mistralin ensimmäisellä avoimen lähdekoodin 7B Mamba -mallilla "Cleopatra" on upeita tehosteita

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen] Viime aikoina pienistä 7B-malleista on tullut trendi, jota tekoälyjättiläiset kilpailevat saavuttaakseen. Googlen Gemma2 7B:n jälkeen Mistral julkaisi tänään kaksi muuta 7B-mallia, nimittäin Mathstralin STEM-aineille ja Codestral Mamban, Mamaba-arkkitehtuuria käyttävän koodimallin.

Mistralilla on toinen yllätys!

Juuri tänään Mistral julkaisi kaksi pientä mallia: Mathstral 7B ja Codestral Mamba 7B.

Ensimmäinen on Mathstral 7B, joka on suunniteltu matemaattiseen päättelyyn ja tieteellisiin löytöihin.

MATH-benchmark-testissä se saavutti 56,6 % pass@1, mikä on yli 20 % korkeampi kuin Minerva 540B. Mathstral sai 68,4 % MATH:sta ja 74,6 % palkkiomallilla.

Koodimalli Codestral Mamba on yksi ensimmäisistä avoimen lähdekoodin malleista, jotka ottavat käyttöön Mamba 2 -arkkitehtuurin.

Se on paras saatavilla olevista 7B-koodimalleista, ja se on koulutettu käyttämällä 256 000 tokenin kontekstin pituutta.


Molemmat mallit julkaistaan ​​Apache 2.0 -lisenssillä, ja painot ladataan tällä hetkellä HuggingFacen varastoon.


Hugging Face -osoite: https://huggingface.co/mistralai

Mathstral

Mielenkiintoista on, että virallisen ilmoituksen mukaan Mathstralin julkaisu sattui juhlimaan Arkhimedesen syntymän 2311-vuotispäivää.

Mathstral on suunniteltu STEM-aineille edistyneiden matemaattisten ongelmien ratkaisemiseen, jotka vaativat monimutkaista, monivaiheista päättelyä. Parametrit ovat vain 7B ja kontekstiikkuna on 32k.

Lisäksi Mathstralin tutkimuksella ja kehityksellä on myös raskaansarjan kumppani - Numina, joka voitti juuri mestaruuden Kagglen ensimmäisessä AI Mathematical Olympiad -kilpailussa viime viikolla.


Lisäksi jotkut Twitterin käyttäjät huomasivat, että Mathstral voi vastata oikein kysymykseen "Kumpi on isompi, 9.·11 vai 9.9?" Tämä kysymys on järkyttänyt monia suuria malleja.

Kokonaislukuja ja desimaalilukuja verrataan erikseen, ja ajatteluketju on selkeä.


Mistral 7B:n kieliominaisuuksien perusteella Mathstral keskittyy edelleen STEM-aineisiin. MMLU:n aineerittelytulosten mukaan matematiikka, fysiikka, biologia, kemia, tilastotiede, tietojenkäsittelytiede ja muut alat ovat Mathstralin ehdottomia etuja.


Virallisen blogikirjoituksen mukaan Mathstral näyttää uhraavan jonkin verran päättelynopeutta vastineeksi mallin suorituskyvystä, mutta arviointitulosten perusteella tämä kompromissi on sen arvoinen.

Useissa matematiikan ja päättelyn vertailutesteissä Mathstral voitti suositut pienet mallit, kuten Llama 3 8B ja Gemma2 9B, saavuttaen erityisesti SOTA:n matematiikan kilpailukysymyksissä, kuten AMC 2023 ja AIME 2024.


Lisäksi päättelyaikaa voidaan pidentää edelleen parempien mallitulosten saavuttamiseksi.

Jos enemmistöäänestystä käytetään 64 ehdokkaalle, Mathstralin pistemäärä MATH:ssa voi nousta 68,37 %:iin. Kun lisäät palkintomalleja, se voi saavuttaa korkean pistemäärän 74,59 %.

HuggingFace- ja la Plateforme-alustojen lisäksi voit myös soittaa virallisesti julkaistulle kahdelle avoimen lähdekoodin SDK:lle Mistral-finetune ja Mistral Inference käyttääksesi tai hienosäätääksesi mallia.

Codestral Mamba

Transformer-arkkitehtuuria seuraavan Mixtral-sarjan julkaisun jälkeen on myös julkaistu Codestral Mamba, ensimmäinen Mamba2-arkkitehtuuria käyttävä koodisukupolvimalli.

Lisäksi tutkimus- ja kehitysprosessia avustivat myös Mamban alkuperäiset kirjoittajat Albert Gu ja Tri Dao.

Mielenkiintoista on, että virallisessa ilmoitusartikkelissa mainittiin erityisesti siihen liittyvä "Cleopatra" Cleopatra VII, joka päätti dramaattisesti elämänsä myrkyllisen käärmeen kanssa.

Mamba-arkkitehtuurin julkaisun jälkeen sen ylivoimainen kokeellinen suorituskyky on saanut laajaa huomiota ja optimismia. Koska koko tekoälyyhteisö on kuitenkin sijoittanut liikaa rahaa Transformeriin, olemme harvoin nähneet teollisia malleja, jotka todella käyttävät Mambaa.

Tällä hetkellä Codestral Mamba voi tarjota meille uuden näkökulman uusien arkkitehtuurien tutkimiseen.

Mamba-arkkitehtuuri lanseerattiin ensimmäisen kerran joulukuussa 2023, ja kaksi kirjoittajaa julkaisivat päivitetyn version Mamba-2:sta tämän vuoden toukokuussa.

Toisin kuin Transformer, Mamba-mallin etuna on lineaarinen aikapäättely ja se pystyy teoriassa mallintamaan äärettömän pituisia sekvenssejä.

Molemmat ovat 7B-malleja. Vaikka Mathstralin kontekstiikkuna on vain 32 kt, Codestral Mamba voidaan laajentaa 256 000:aan.

Tämä tehokkuusetu päättelyajassa ja kontekstin pituudessa sekä nopeiden vastausten mahdollisuus on erityisen tärkeä käytännön skenaarioissa koodaustehokkuuden parantamiseksi.

Mistral-tiimi huomasi tämän Mamba-mallin edun ja otti johtoaseman kokeilussa. Vertailutestin perusteella Codestral Mamba 7B-parametrilla ei ole vain ilmeisiä etuja muihin 7B-malleihin verrattuna, vaan se voi jopa kilpailla suuremman mittakaavan mallien kanssa.


Codestral Mamba vastasi periaatteessa Code Llama 34B:tä kahdeksassa vertailutestissä ja jopa ylitti suorituskyvyn kuudessa testissä.

Kuitenkin Codestral Mamban isosiskoon Codestral 22B verrattuna sen parametrien haittapuoli näkyy, ja siltä näyttää edelleen puuttuvan ominaisuudet.

On syytä mainita, että Codestral 22B on alle kaksi kuukautta sitten julkaistu uusi malli. Valitan jälleen kerran, että Mistral, jonka pääkonttori on Pariisissa, on niin suosittu.

Codestral Mamba voidaan ottaa käyttöön myös käyttämällä Mistral-päätelmää tai NVIDIA:n julkaisemaa nopean käyttöönoton API TensorRL-LLM -sovellusta.


GitHub-osoite: https://github.com/NVIDIA/TensorRT-LLM

Paikallista toimintaa varten virallisessa blogissa todettiin, että voit kiinnittää huomiota llama.cpp:n myöhempään tukeen. Mutta ollama toimi nopeasti ja lisäsi Mathstralin mallikirjastoon.


Kohdattuaan nettilaisten kehotuksen päivittää koodimamba, ollama sanoi myös erittäin voimakkaasti: "Olemme jo työstämässä sitä, älä ole kärsimätön."


Viitteet:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/