uutiset

ACL2024: Yuntian Lifei SPACE -moottori paljastettiin, suuren mallin päättely saattaa siirtyä uuteen vaiheeseen

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

11.-16. elokuuta 62. vuosikokous Association for Computational Linguistics (ACL) pidettiin Bangkokissa, Thaimaassa.
Yuntian Lifein suuren mallitiimin paperi "Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding" hyväksyttiin ACL24 Findingsin pitkäksi paperiksi. Tämä on vaiheittainen esitys joistakin Yuntian Lifein suuren mallin tutkimustuloksista.
ACL Annual Conference on maailman johtava akateeminen konferenssi laskennallisen lingvistiikan ja luonnollisen kielen käsittelyn alalla. Sen järjestää International Association for Computational Linguistics. Se on listattu A-luokan konferenssiksi suositellussa konferenssissa Kiinan tietokoneliiton (CCF) luettelo.
Yuntian Lifein valitussa paperissa ehdotettiin SPACE-moottoria - innovatiivista ratkaisua suuren mallipäätelmän häviöttömän kiihtyvyyden saavuttamiseksi. Erityyppisillä suurilla malleilla tehdyt testit osoittavat tämänSPACE-moottorin käytön jälkeen mallin päättelynopeus HumanEval-testisarjassa kasvoi 270–400 %., päättelytulosten laatu pysyy ennallaan ja sillä voidaan saavuttaa sekä "nopea laskenta" että "tarkka laskelma".
Yuntian Lifein suuren malliryhmän valitut paperit
Valtavirran päättelyratkaisujen on vaikea saavuttaa "sekä tarpeita että toiveita"
TILA onSmartParallelAuto-Coikein DeKoodauksen lyhenne tarkoittaa "älykästä rinnakkaista automaattista virheenkorjauksen dekoodausta".
Tällä päättelyjärjestelmällä on kaksi pääpiirrettä: ensinnäkin se omaksuupuoliautoregressiivinenpäättelymalli, joka nopeuttaa huomattavasti päättelyä, toinen on lisätävahvistaaTämä menetelmä voi parantaa päättelyn nopeutta ja varmistaa samalla päättelyn tarkkuuden.
Mikä on "puoliautoregressiivinen"?
Avaa suuren kielimallin APP, kirjoitamme valintaikkunaan "Mikä on iso malli", ja iso malli antaa vastauksensa sanasta sanaan: "Iso malli on syväoppimismalli, jossa on kymmeniä miljoonia?" parametrit." Tämän vastauksen prosessi voidaan nähdä Vaikuttaa hyvin yksinkertaiselta. Mutta itse asiassa suuret mallit ovat kokeneet useita "autoregressiivisiä" syklejä kulissien takana.
Ensinnäkin suuri malli ennustaa ensin tulosteen ensimmäisen sanan - "iso" syöttämämme sisällön perusteella, tuo sitten sanan "iso" takaisin syöttöpäähän ja ennustaa, mikä seuraava sana tulee tulosteen perusteella. sana "iso". Tämä "ennustus" ei tietenkään ole "sokea arvaus" tyhjästä, vaan malli tekee kattavan arvion edellisessä harjoitusprosessissa nähtyjen tietojen perusteella ja valitsee seuraavaksi tulossanaksi sanan, jolla on suurin todennäköisyys. .
Tässä tapauksessa toinen ulostulosana on "moduuli". Toisen sanan tulostuksen jälkeen iso malli tuo sanat "iso moduli" takaisin tuloliittimeen ja ennustaa kolmannen generoidun sanan. Tämä sykli jatkuu, kunnes koko lause päättyy.
Tämä prosessi on "autoregressio".
Tällä hetkellä autoregressio on yleisin ratkaisu, jota käytetään suurten mallien päättelyyn.Olipa kyseessä ChatGPT, avoimen lähdekoodin Llama tai monet suuret kotimaiset mallit, ne käyttävät pääasiassa autoregressiivisiä päättelyratkaisuja.
Autoregressiivisen kaavion kaavio
Autoregressiivisen järjestelmän edut ja haitat ovat myös hyvin ilmeisiä. Etuna on, että se varmistaa, että luotu sisältö on tarkkaa, mielekästä ja kontekstuaalisesti johdonmukaista. Haittoja ovat korkeat laskentakustannukset ja pitkä päättelyviive.
Näiden ongelmien ratkaisemiseksi teollisuuden ehdottamat ratkaisut ovat"Puoliautoregressiivinen"ja"Spekulaatiodekoodaus"
"Semi-autoregressive" on kompromissi "autoregressiivisen" ja "ei-autoregressiivisen" välillä. edellä mainittu,"Autoregressiivinen"Se käyttää luotuja sanoja ennustamaan seuraavan sanan;"Ei-autoregressiivinen"Se on "autoregressiivisen" vastakohta, ennustaen koko lauseen kerralla."Ei-autoregressiivinen"Ratkaisu voi parantaa päättelyn tehokkuutta, mutta tulosteen tarkkuus heikkenee huomattavasti. "Puoliautoregressiivinen" ratkaisu ottaa kattavasti huomioon "autoregressiivisen" ja "ei-autoregressiivisen" edut ja haitat tasapainottaakseen suuren mallin päättelyn nopeus- ja tarkkuusvaatimukset.
"Puoliautoregressiivisen" ratkaisun käyttö on kuitenkin aiheuttanut uusia ongelmia - ensinnäkin useimpia suuria malleja ei voida käyttää, ja toiseksi tarkkuus ei vastaa alan vaatimuksia.Valtavirran suuret mallit on rakennettu autoregressiivisen päättelytavan mukaan. Jos haluat käyttää puoliautoregressiivistä ratkaisua, sinun on koulutettava suuri malli alusta alkaen. Suuren mallin kouluttaminen vaatii paljon sähköä, laskentatehoa ja työvoimaa.
Toinen vaihtoehto on "spekulatiivinen dekoodaus".Tämä suunnitelma perustuu"Luonnos - Vahvista"Prosessityötä varten on ensin esitettävä apumalli, jossa on suhteellisen pieni määrä parametreja. Pieni malli ensin "luonnostelee" ehdokasvastaukset ja sitten iso malli tarkistaa, ovatko vastaukset oikein vai eivät. Sen ansiosta, että pienet mallit ovat nopeampia päättelyssä kuin suuret mallit, ja suuret mallit voivat todentaa useita ehdokasvastauksia samanaikaisesti.
Mutta tällä ratkaisulla on myös haittoja. Ensinnäkin on ensin tehtävä erittäin "luotettava" pieni malli ja kyettävä "luonnostelemaan" vastaus nopeasti ja tarkasti, mikä sinänsä on vaikeaa. Toiseksi näissä kahdessa mallissa on oltava "sama teksti, sama raita ja sama järjestelmä" Vain saavuttamalla suuri johdonmukaisuus sanasegmentoijien ja sanaluetteloiden suhteen voidaan taata.
SPACE-päätelmämoottori - pienet muutokset, suuri nopeus
Koska useilla ratkaisuilla ei voida saavuttaa "sekä tarpeita että toiveita", onko olemassa ratkaisua, joka säilyttää vain etunsa ja välttää niiden puutteet. Tämä on Yuntian Lifein suuren malliryhmän ehdottama SPACE-päätelmämoottori? SPACE yhdistää kaksi "puoliautoregressiivisen valvotun hienosäädön" ja "automaattisen korjausdekoodauksen" ratkaisua, jotta suuret mallit voivat tuottaa useita tuloksia yhdessä päätelmässä ja suorittaa tulosten tarkistuksen samanaikaisesti varmistaakseen luotujen tulosten laadun. samaan aikaan,Tämä päättelymoottori sopii kaikkiin suuriin malleihin. Mallin hienosäädön ja optimoinnin ansiosta, kun mikä tahansa suuri malli ottaa käyttöön tämän päättelymoottorin, sen ei vain tarvitse kouluttaa ylimääräisiä apumalleja, vaan se myös parantaa päättelyn tehokkuutta, hyödyntää täysin rinnakkaisia ​​laskentaresursseja, kuten GPU:ta, ja saavuttaa korkean laskentatehon käytön.
Ero autoregressiivisen kaavion (vasemmalla) ja VÄLILYÖNTI-skeeman (oikealla) välillä
Kuten edellä mainittiin, useimmilla suurilla kielimalleilla on omat "autoregressiiviset" ominaisuutensa, eivätkä ne voi suoraan soveltaa "puoliautoregressiivistä" ratkaisua. Tässä suhteessa SPACE ottaa käyttöön "puoliautoregressiivisen valvotun hienosäädön" Valvotun koulutuksen avulla malli oppii ehdottamaan joukon mahdollisia ehdokassanoja kohtaaessaan erityisen [MASK]-merkin (kuten yllä olevassa kuvassa) . Tämä mahdollistaa sen, että malli suorittaa "arvaamisen" kaltaisia ​​operaatioita päättelyn aikana ja tulostaa useita todennäköisimmin oikeita ehdokassanoja, jolloin sillä on puoliautoregressiivisen päättelyn kyky.
Yksinkertaisesti sanottuna "puoliautoregressiivisen valvotun hienosäädön" tuella suuri malli voi tehdä "arvauksia" itsestään päättelyn aikana ja tulostaa useita sanoja, jotka todennäköisesti ovat oikein ehdokasvastauksina.
Kuitenkin, kuten tentti, luonnokseen voidaan listata suuri määrä sisältöä, mutta oikeat vastaukset on täytettävä koepaperiin. Kuinka varmistaa, että se on oikein. Tämä edellyttää tulosten tarkistamista, ja tämä on mitä "automaattinen korjausdekoodaus" tekee?
Tarkemmin sanottuna päättelyn aikana syötämme malliin myös suuren mallin edellisessä päättelyvaiheessa generoimat ehdokassanat, jolloin malli voi itse tarkistaa ja määrittää, ovatko nämä ehdokasvastaukset oikeita.
Arviointimenetelmä on myös hyvin yksinkertainen, jos mallin luoma sana vastaa edellistä vastausta, ehdokassana katsotaan oikeaksi. Tarkastellaksesi perinteisessä autoregressiivisessä päättelyssä, onko sana oikea, sana on syötettävä uudelleen kielimalliin seuraavan sanan päättelemiseksi.
Mutta tätä ei vaadita täällä SPACE:ssa. Koska olemme syöttäneet ehdokassanan malliin etukäteen ja ehdokassana on varmistettu oikeaksi, voimme tällä hetkellä saada uuden vastauksen suoraan oikeasta ehdokassanasta, mikä säästää tarvetta kirjoittaa vastaus uudelleen malliin ja jatka sitten pohdintaa. Siksi tämän mekanismin etuna on, että kun ehdokassana on varmistettu oikeaksi, sitä ei tarvitse syöttää takaisin malliin seuraavan vastauksen muodostamiseksi, mikä lyhentää päättelyaikaa.
Vastaavasti perinteistä autoregressiivistä päättelyä voidaan verrata 4×100 metrin viestikilpailuun: tavallisessa kilpailussa neljän urheilijan on otettava viestikapula yksitellen haltuunsa voidakseen suorittaa koko kilpailun ja vaatii sananmukaista päättelyä. SPACE:n suunnitelmassa neljä urheilijaa aloittivat juoksun samanaikaisesti. Ensimmäisen urheilijan pisteet voidaan kuitenkin varmentaa maaliin saavuttamisen jälkeen.
Jos urheilija ei läpäise tarkistusta, hänen on palattava 100 metrin lähtöviivalleen ja aloitettava uudelleen suorittaakseen kilpailun. Parhaassa tapauksessa, jos jokainen neljästä urheilijasta läpäisee varmistuksen, tämän ryhmän tarvitsee viettää vain 1/4 ajasta normaalissa pelissä pelin loppuun saattamiseksi, mikä saavuttaa kiihtyvyysvaikutuksen pahimmassa tapauksessa jokainen urheilija ei läpäise tarkistusta, niin vaadittu aika on sama kuin tavallisessa kilpailussa. Se, läpäiseekö se tarkastuksen, riippuu pääasiassa ehdokkaiden vastausten tarkkuudesta.
Samanaikaisesti lisäämme SPACE-mallin päättelyprosessin aikana syötteeseen erityisen [MASK]-tunnisteen, joka ohjaa suurta mallia luomaan päivitetyn version ehdokasvastauksesta. Tämän mekanismin mukaan jokainen päättelymallin kierros ei ainoastaan ​​varmista edellisellä kierroksella luotujen ehdokassanojen tarkkuutta, vaan tarjoaa myös uusia ehdokassanoja seuraavaa päättelyä varten.
Tämä muotoilu on tarkoitettuParanna ehdokassanojen tarkkuutta, koska joka kerta kun uusi vastaus ilmestyy, alkuperäiset ehdokassanat tarkentuvat päivityksen myötä. Tämä prosessi on kuin sääennuste: teemme ennusteita tulevan viikon sääolosuhteista joka päivä, ja ajan myötä tietyn päivän sääennusteiden tarkkuus tulevaisuudessa kasvaa vähitellen. Tämä johtuu siitä, että keräämme ajan mittaan enemmän anturitietoja, minkä ansiosta voimme tarjota tarkempia sääennusteita.
Perinteinen varmennus- ja korjausmenetelmä on edellä mainittu "spekulatiivinen dekoodaus", mikä tarkoittaa, että sinun on ensin koulutettava luotettava pieni malli ja sen jälkeen käytettävä suurta mallia Pienen mallin sukupolven laatu vaikuttaa suuresti lopputulokseen.
SPACE kuitenkin ehdotti uutta ratkaisua, jolla voidaan saavuttaa generoinnin ja verifioinnin tarkoitus ilman pieniä malleja ja verifiointityö ja generointityö voidaan suorittaa samanaikaisesti. Tällä tavoin päättelyn tehokkuutta ja tarkkuutta voidaan parantaa huomattavasti.
Palataan alkuperäiseen esimerkkiin Kun syötetään "Mikä on suuri malli?", Space-johtopäätöstilassa suuri malli generoi ensin sanat "Suureilla malleilla on kymmeniä miljoonia parametreja" samanaikaisesti ja automaattisesti. korjata ne samanaikaisesti. Dekoodausalgoritmi tarkistaa luodut sanat välittömästi yksitellen ja säilyttää vain oikeat vahvistustulokset sanat lopullisena vastauksena, jolloin saadaan aikaan useiden sanojen tuottaminen eteenpäin suuntautuvassa päättelyssä. suuri malli, joka saavuttaa kiihtyvyyden tarkoituksen.
Lopuksi katsotaanpa SPACE:n vaikutuksia.
Teimme kokeita useilla avoimen lähdekoodin suurilla kielimalleilla, jotka kattoivat valtavirran suuria kielimalleja, joiden parametrikoko vaihtelee 6 miljardista 70 miljardiin.Kuten alla olevasta taulukosta voidaan nähdä, SPACElla on selvempiä kiihtyvyysvaikutuksia malleissa, joissa on suuremmat parametrit.
Lisäksi SPACEa voidaan käyttää myös muiden päättelykiihdytysteknologioiden, kuten eräajon jatkamisen, flash-huomion, KV-välimuistin, kvantisoinnin jne. kanssa, nopeuttamaan päättelynopeutta.
Tämän näkökulman vahvistamiseksi toteutimme SPACEn valtavirran päättelykehyksessä TGI. Kokeet ovat osoittaneet, että yhdistettynä muihin päättelykiihtyvyystekniikoihin SPACE:n tuoma kiihtyvyysvaikutus on myös erinomainen.
Suuret mallit ovat tulleet tuhansille teollisuudenaloille, ja "päättely" on ratkaisevan tärkeää
Koulutus ja päättely ovat suurten mallien elinkaaren kaksi ydinvaihetta. Koulutus ratkaisee "suuren mallin luomisen tyhjästä" -ongelman, kun taas päättely ratkaisee ongelman siitä, kuinka suuria malleja voidaan soveltaa tuhansilla toimialoilla.
Jos viime vuosi määritellään suurten mallien räjähdysmäiseksi vuodeksi, niin tämä vuosi on ensimmäinen suurten mallisovellusten toteutusvuosi.
Yuntian Lifei on tehnyt monia ponnisteluja nopeuttaakseen suurten mallien soveltamista. Laskentatehokkuuden osalta yhtiö toi viime vuonna markkinoille DeepEdge10:n, suuren mallien reunapäättelysirun, ja äskettäin lanseerasi IPU-X6000-kiihdytinkortin, jota voidaan soveltaa useiden suurten mallien, kuten kielen, näön ja monien mallien päättelykiihdytykseen. modaalisuus.
Algoritmien suhteen Yuntian Lifei ehdotti SPACE-päätelmämoottoria, joka parantaa huomattavasti suurten mallien päättelyn nopeutta. Sovelluksen osalta Yuntian Lifein itse kehittämää laajamittaista mallia Yuntian Tianshua on sovellettu monilla toimialoilla, kuten älykkäässä hallinnossa, kaupunkihallinnossa, älykkäässä turvallisuudessa, älykkäässä liikenteessä, älykkäässä liiketoiminnassa, älykkäässä koulutuksessa jne., joissa tutkitaan ja luodaan teollisuutta. vertailuarvot.
Tulevaisuudessa Yuntian Lifei jatkaa lujasti työtä ja osallistuu entistä enemmän suurten mallien teknologioiden tutkimukseen ja kehittämiseen, soveltamiseen ja edistämiseen.
Raportti/palaute