uutiset

Vaihda Transformer ja 7B avoimen lähdekoodin malli saavuttaa heti huipulle! Mikä tahansa pitkä jakso voidaan käsitellä

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Vaihda vain Transformer-arkkitehtuuri, ja suorituskyky paranee välittömästi kaikilta osin, mikä mahdollistaa saman mittakaavan parhaan avoimen lähdekoodin mallin!

(Huomiomekanismia ei enää ole)

Tämä on viimeisinFalcon Mamba 7BMalli.



se käyttääMamba tila-avaruuden kielimallin arkkitehtuurihoitaa erilaisia ​​tekstintuotantotehtäviä.

Perinteistä huomiomekanismia kumoamalla parannetaan tehokkaasti alhaisen laskentatehokkuuden ongelmaa, kun malli prosessoi pitkiä sekvenssejä.

se jaksaaäärettömän pitkäjärjestyksessä, mutta muistivaatimukset eivät kasva.

Riippumatta siitä, kuinka pitkä konteksti on,Jokaisen tunnuksen luomiseen kuluva aika on periaatteessa sama

Tämän seurauksena Falcon Mamba -mallin suorituskykyä on parannettu kaikilta osin ja se on voittanut monia Transformer-arkkitehtuurimalleja, kuten Llama-3.1 (8B), Mistral (7B) ja Falcon-2 (11B).



Yllä olevat tulokset toi Abu Dhabissa, Yhdistyneissä arabiemiirikunnissa Technology Innovation Institute (TII), joka on Falcon-mallin kehitystiimi.

Tämä sarja sisältää yhteensä neljä mallia: perusversio, ohjeen hienosäätöversio, 4-bittinen versio ja ohjeen hienosäätö 4-bittinen versio.

Uusin malli on avoinna TII Falcon License 2.0 -lisenssillä, joka on Apache 2.0 -lisenssin alainen.

Netizens-katsojat huusivat: Pelin säännöt ovat muuttumassa!



Maailman ensimmäinen avoimen lähdekoodin SSLM

Suorituskyvyltään Falcon Mamba 7B ylittää monet avoimen lähdekoodin mallit kaikilta osin.



Se perustuu ensimmäisen sukupolven Mambaan.

Mamba on atila-avaruuden malli(SSM, State Space Model). Se yhdistää RNN:n ja CNN:n ominaisuudet ja parantaa tekstitietojen käsittelyn tehokkuutta ottamalla käyttöön valintamekanismin, jonka avulla malli voi selektiivisesti levittää tai unohtaa tietoa nykyisen syötteen perusteella.

Samalla se suunnittelee laitteistotietoisen rinnakkaisalgoritmin, joka toimii rekursiivisessa tilassa, välttäen IO-pääsyn GPU-muistitasojen välillä ja parantaen laskentatehoa.

Lopuksi se myös yksinkertaistaa arkkitehtuuria yhdistämällä SSM-arkkitehtuurin ja MLP-lohkon Transformerissa yhdeksi lohkoksi.

Vaihtaminen Transformerista Mambaan mahdollistaa Falcon-mallin käsittelevän mielivaltaisen pitkiä sarjoja lisäämättä muistia. Sopii erityisesti yhdelle A10 24GB GPU:lle.

Tutkimus käsittelee myös kahta erilaista lähestymistapaa sekvenssien käsittelyyn.

Rinnakkainen esitäyttömenetelmä soveltuu GPU:n rinnakkaiskäsittelyyn ja sillä on korkeat muistivaatimukset. Jaksottainen täyttömenetelmä sopii SSM-malleille ja pystyy käsittelemään minkä tahansa pituisia sekvenssejä ilman muistirajoituksia.



Suuren mittakaavan harjoittelun vakauden varmistamiseksi Falcon Mamba -mallissa käytetään ylimääräistä RMS-normalisointikerrosta.

RMS-normalisointikerros voi yksinkertaistaa LayerNormin laskentaprosessia ja vähentää laskennan määrää.

Malli opetettiin käyttämällä 5500GT-dataa, joka tulee pääasiassa RefedWeb-tietojoukosta ja julkisista tiedoista. Koulutusprosessi on periaatteessa yhtenäinen ja koulutuksen myöhemmissä vaiheissa lisätään pieni määrä laadukasta suunnittelutietoa, mikä auttaa mallin optimoinnissa loppuvaiheessa.

Falcon Mamba pystyi luomaan H100:lla tunnuksia, joiden eräkoko on 1 ja sanan pituus 1–130 kt.Säilytä vakaa suorituskyky luodessasi uusia tunnuksia, mikä tarkoittaa, että tekstin pituus ei vaikuta sen suorituskykyyn ja se pystyy käsittelemään pitkiä sarjoja vakaasti ilman suorituskyvyn heikkenemistä.





Falcon Mamba tukee useita Hugging Face API:ita, mukaan lukien AutoModelForCausalLM ja pipline.

Myös ohjeviritysversio on julkaistu, mikä voi tehdä mallista tarkemman hienosäätämällä vielä 5 miljardia merkkiä.

Uusimmat mallit ovat saatavilla Hugging Facesta ja GitHub~sta

Viitelinkit:
https://huggingface.co/blog/falconmamba#hardware-performance