2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Koneen sydänraportti
Toimittaja: Du Wei, Chen Chen
Mamba-arkkitehtuurin suuri malli haastoi jälleen Transformerin.
Aikooko Mamba-arkkitehtuurimalli vihdoin "nousua" tällä kertaa? Ensimmäisen lanseerauksensa jälkeen joulukuussa 2023 Mambasta on tullut vahva kilpailija Transformerille.
Siitä lähtien Mamba-arkkitehtuuria käyttävien mallien ilmestyminen on jatkunut, kuten Codestral 7B, ensimmäinen Mistralin julkaisema Mamba-arkkitehtuuriin perustuva avoimen lähdekoodin suuri malli.
Tänään Abu Dhabin Technology Innovation Institute (TII) julkaisi aUusi avoimen lähdekoodin Mamba-malli – Falcon Mamba 7B。
Tehdään ensin yhteenveto Falcon Mamba 7B:n kohokohdista: se pystyy käsittelemään minkä tahansa pituisia sekvenssejä lisäämättä muistin tallennustilaa, ja se voi toimia yhdellä 24 Gt:n A10 GPU:lla.
Tällä hetkellä katseltavaksi ja käytettäväksi Hugging Facessa oleva Falcon Mamba 7B on vain kausaalinen dekooderimalli, joka käyttää uutta.Mamba State Space Language Model (SSLM) -arkkitehtuurihoitaa erilaisia tekstintuotantotehtäviä.
Tuloksista päätellen Falcon Mamba 7B ylitti kokoluokkansa johtavat mallit joissakin vertailuissa, mukaan lukien Metan Llama 3 8B, Llama 3.1 8B ja Mistral 7B.
Falcon Mamba 7B on jaettu neljään muunnelmamalliin, nimittäin perusversioon, komentojen hienosäädettyyn versioon, 4-bittiseen versioon ja komentojen hienosäädettyyn 4-bittiseen versioon.
Avoimen lähdekoodin mallina Falcon Mamba 7B ottaa käyttöön Apache 2.0 -pohjaisen lisenssin "Falcon License 2.0" tutkimus- ja sovellustarkoituksiin.
Hugging Face osoite: https://huggingface.co/tiiuae/falcon-mamba-7b
Falcon Mamba 7B:stä on tullut myös neljäs TII:n avoimen lähdekoodin malli Falcon 180B:n, Falcon 40B:n ja Falcon 2:n jälkeen.Ensimmäinen Mamba SSLM -arkkitehtuurimalli。
Ensimmäinen universaali laajamittainen puhdas Mamba-malli
Muuntajapohjaiset mallit ovat dominoineet generatiivista tekoälyä. Tutkijat ovat kuitenkin huomanneet, että muuntaja-arkkitehtuurit voivat kohdata vaikeuksia pidempien tekstitietojen käsittelyssä.
Pohjimmiltaan Transformerin huomiomekanismi ymmärtää kontekstin vertaamalla jokaista sanaa (tai merkkiä) jokaiseen tekstin sanaan, mikä vaatii enemmän laskentatehoa ja muistivaatimuksia kasvavan kontekstiikkunan käsittelemiseksi.
Mutta jos laskentaresursseja ei skaalata vastaavasti, mallin päättely hidastuu ja tietyn pituuden ylittävää tekstiä ei voida käsitellä. Näiden esteiden voittamiseksi SSLM (State Space Language Model) -arkkitehtuuri, joka toimii jatkuvasti päivittämällä tilaa samalla kun se käsittelee sanoja, on noussut lupaavaksi vaihtoehdoksi, ja monet laitokset, mukaan lukien TII Tämäntyyppinen arkkitehtuuri, ovat ottaneet sen käyttöön.
Falcon Mamba 7B käyttää Mamba SSM -arkkitehtuuria, jota Carnegie Mellonin ja Princetonin yliopiston tutkijat ehdottivat alun perin joulukuussa 2023 julkaistussa asiakirjassa.
Arkkitehtuuri käyttää valintamekanismia, jonka avulla malli voi dynaamisesti säätää parametrejaan syötteen perusteella. Tällä tavalla malli voi keskittyä tiettyihin syötteisiin tai jättää huomioimatta, samalla tavalla kuin huomiomekanismi toimii Transformerissa, samalla kun se tarjoaa mahdollisuuden käsitellä pitkiä tekstisarjoja (kuten kokonaisia kirjoja) ilman lisämuistia tai laskentaresursseja.
TII totesi, että lähestymistapa tekee mallista sopivan muun muassa yritystason konekääntämiseen, tekstin yhteenvetoon, tietokonenäkö- ja äänenkäsittelytehtäviin sekä estimointiin ja ennustamiseen.
harjoitustiedot
Falcon Mamba 7BHarjoitustiedot 5500 GT asti, koostuu pääasiassa RefinedWeb-tietojoukosta, jota on täydennetty korkealaatuisilla teknisillä tiedoilla, kooditiedoilla ja matemaattisilla tiedoilla julkisista lähteistä. Kaikki tiedot on tokenisoitu Falcon-7B/11B-tokenizerin kautta.
Muiden Falcon-sarjan mallien tapaan Falcon Mamba 7B käyttää harjoitteluun monivaiheista harjoitusstrategiaa.Kontekstin pituus kasvoi 2048:sta 8192:een. Lisäksi TII valitsee kurssioppimisen konseptin inspiroimana sekoitettua dataa huolellisesti koko koulutusvaiheen ajan ottaen täysin huomioon datan monimuotoisuuden ja monimutkaisuuden.
Viimeisessä harjoitusvaiheessa TII käyttää pientä joukkoa korkealaatuista kuratoitua dataa (eli Fineweb-edun näytteitä) parantaakseen suorituskykyä entisestään.
Koulutusprosessi, hyperparametrit
Suurin osa Falcon Mamba 7B:n koulutuksesta onTehty 256 H100 80GB GPU:lle, otetaan käyttöön strategia, jossa yhdistyvät 3D-rinnakkaisisuus (TP=1, PP=1, DP=256) ja nolla. Alla oleva kuva näyttää mallin hyperparametrien yksityiskohdat, mukaan lukien tarkkuus, optimointi, maksimioppimisnopeus, painon vaimeneminen ja eräkoko.
Tarkemmin sanottuna Falcon Mamba 7B koulutettiin AdamW-optimoijalla, WSD (warm-stabilize-decay) -oppimisnopeuden aikataululla, ja eräkoko kasvoi b_min=128:sta b_max=2048:aan harjoituksen ensimmäisen 50 GT:n aikana.
Vakaassa vaiheessa TII käyttää maksimioppimisnopeutta η_max=6,4 × 10^−4 ja pienentää sen sitten minimiin käyttämällä eksponentiaalista aikataulua yli 500 GT. Samaan aikaan TII käyttää BatchScaling-toimintoa kiihdytysvaiheessa säätääkseen uudelleen oppimisnopeuden eta niin, että Adamin kohinan lämpötila pysyy vakiona.
Koko mallikoulutus kesti noin kaksi kuukautta。
Mallin arviointi
Ymmärtääkseen, kuinka Falcon Mamba 7B vertautuu johtaviin Transformer-malleihin kokoluokassaan, tutkimuksessa suoritettiin testi määrittääkseen enimmäiskontekstin pituuden, jonka malli pystyisi käsittelemään yhdellä 24 Gt:n A10 GPU:lla.
Tulokset osoittavat, että Falcon Mamba pystyy mukautumaan suurempiin sarjoihin kuin nykyiset Transformer-mallitTeoreettisesti kykenee mukautumaan rajoittamattomiin kontekstin pituuksiin。
Seuraavaksi mittasimme mallin sukupolven suorituskyvyn käyttämällä eräkokoa 1 ja laitteistoasetusta H100 GPU. Tulokset näkyvät alla olevassa kuvassa. Falcon Mamba luo kaikki tunnukset vakionopeudella ilman, että CUDA-huippumuisti kasvaa. Transformer-malleissa huippumuisti kasvaa ja sukupolven nopeus hidastuu luotujen tokenien määrän kasvaessa.
Jopa alan standardimittauksissa uusi malli toimii paremmin tai lähellä suosittuja muuntajamalleja sekä puhtaita ja hybriditila-avaruusmalleja.
Esimerkiksi Arc-, TruthfulQA- ja GSM8K-vertailuarvoissa Falcon Mamba 7B sai 62,03 %, 53,42 % ja 52,54 %, ohittaen Llaman 3 8 B, Llaman 3,1 8B, Gemma 7B ja Mistral 7B. MMLU- ja Hellaswag-mittausarvoissa Falcon Mamba 7B on kuitenkin paljon jäljessä näistä malleista.
"Falcon Mamba 7B:n julkaisu on merkittävä edistysaskel laitokselle, joka inspiroi uusia näkökulmia ja edistää älykkäiden järjestelmien tutkimista", TII:n päätutkija Hakim Hacid sanoi lausunnossaan. TII:ssä he työntävät SSLM- ja muuntajamallien rajoja inspiroidakseen lisää innovaatioita generatiivisessa tekoälyssä.
Tällä hetkellä TII:n Falcon-kielimallisarja on ladattu yli 45 miljoonaa kertaa – siitä on tulossa yksi menestyneimmistä LLM-versioista Arabiemiirikunnissa.
Falcon Mamba 7B -paperi julkaistaan pian, joten voit odottaa hetken.
https://huggingface.co/blog/falconmamba
https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/