uutiset

70 kertaa lopullinen pakkaus!Riippumatta siitä, kuinka monta tarkistuspistettä sinulla on suuressa mallissa, et pelkää.

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Tämän artikkelin kirjoittajat ovat kaikki Huawein Noah Laboratorysta. Ensimmäinen kirjoittaja on Li Wenshuo, ja vastaavat kirjoittajat ovat Wang Yunhe ja Chen Xinghao. Viime vuosina asiaankuuluvat tiimit ovat julkaisseet useita edustavia teoksia huippukonferensseissa, kuten ICML, CVPR, NeurIPS, ICCV ja ECCV. He ovat tuottaneet runsaasti tuloksia sellaisilla aloilla kuin tehokkaat suuret kielimallit ja visuaaliset mallit, ja ovat tehneet yhteistyötä tunnetut yliopistot ja tieteelliset tutkimuslaitokset Laitosyhteistyö on laajaa.

Nykyisen tekoälyteollisuuden ja tiedemaailman hyvin ansaitun "liikenteen kuninkaana" suuret mallit ovat houkutelleet suuren joukon tutkijoita ja yrityksiä investoimaan resursseja tutkimukseen ja koulutukseen. Mittakaavan kasvaessa järjestelmä- ja suunnitteluasioista on tullut väistämättömiä ongelmia suuressa mallikoulutuksessa. Esimerkiksi Llama3.1:n 54 päivän koulutuksen aikana järjestelmä kaatui 466 kertaa, keskimäärin kerran 2,78 tunnissa!



Sitten tarvitaan usein säilytystarkistuspisteitä. Mutta tarkistuspisteiden varastointi on myös iso projekti sinänsä.



Meta on tehnyt paljon työtä nopeuttaakseen tallennusten tarkistuspisteiden aikoja ja lisätäkseen tallennustiheyttä toistuvien järjestelmävikojen torjumiseksi. Mutta toistuva tallennus tarkoittaa myös paljon tallennusresursseja. Sen koulutusklusteri on varustettu 240 PB:n SSD:llä, joka vastaa tähän haasteeseen. Pelkästään tallennuskustannukset ovat 100 miljoonaa yuania.

Huawei Noahin ExCP-menetelmä syntyi Tallennuksen aiheuttamien valtavien ylimääräisten kustannusten käsittelemiseksi he ehdottivat äärimmäistä pakkaustarkistuspistetekniikkaa, joka voi pakata mallin häviöttömästi 70 kertaa, mikä vähentää merkittävästi tallennuskustannuksia harjoituksen aikana.





Koodi on nyt avoimen lähdekoodin ja julkaistu Apache 2.0 -kehyksessä. Jotkut ongelman kumppanit ovat onnistuneet toistamaan tulokset.



  • Artikkelin osoite: https://arxiv.org/abs/2406.11257
  • Varaston osoite: https://github.com/Gaffey/ExCP

Menetelmä on myös erittäin innovatiivinen artikkelissa mainitaan kaksi tärkeätä käsitettä. Yksi on käyttää tarkastuspisteiden jäännöstietoa aikasarjan tiedon harveuden avulla ja painot yhdistetään puristamista varten, jotta saavutetaan yleinen korkea puristussuhde.



tietty menetelmä

1. Tarkistuspisteen jäännökset

Harjoitteluprosessin aikana nykyisiä parametreja voidaan pitää edelliseen tarkistuspisteeseen tallennettuna painona plus peräkkäisten iteraatioiden gradienttipäivitysten summa. Tämä osa on suhteellisen harvaa ja sisältää vähemmän tietoa, joten tämä jäännös on pakattu suhde voidaan saada. Päinvastoin, optimoijaan tallennettu liikemäärä on gradientin ensimmäisen ja toisen hetken liukuva keskiarvo. Ensimmäisellä hetkellä liukuvan keskiarvon oletusparametri on 0,9, joka vaihtelee sadasta tuhansiin. ei ole paljon korrelaatiota viimeiseen tarkistuspisteeseen tallennetun sisällön kanssa, joten optimoija pakkaa suoraan oman arvonsa jäännösarvon sijaan.Lopullinen tiivistettävä tarkistuspiste ilmaistaan ​​muodossa



2. Weight-Optimizer Momentum Joint Compression

Nykyisessä mallinpakkaukseen liittyvässä työssä keskitytään yleensä vain mallin päättelykykyyn tai mallin lopullisen tallennustarkistuspisteen kokoon, mutta ei kiinnitetä huomiota mallin yläpuolella olevaan tallennustilaan koko koulutusprosessin aikana. Siksi olemassa oleva työ vain pakkaa painoja ottamatta huomioon, että yleiset optimoijat, kuten Adam, todella tallentavat liikemäärää, joka on kaksi kertaa painojen määrä. Toisaalta tämä työ pakkaa nämä kaksi yhteen, mikä parantaa merkittävästi yleistä puristussuhdetta, toisaalta se käyttää myös painojen ja optimoijan vauhdin välistä korrelaatiota parantaakseen edelleen toistensa puristussuhdetta.

Painon karsiminen: Koska karsimisen paino on jäännösarvo, optimoijan liikemäärän toisen kertaluvun momentti voi karkeasti edustaa painon jäännösarvon muutosamplitudia menneellä ajanjaksolla, joten optimoijan liikemäärän toisen kertaluvun momentti voidaan käyttää indikaattorina. Määritä eri kerrosten leikkaussuhde.Leikkausstrategia on esitetty seuraavassa kaavassa



Kaavassa W ja edustavat painoa ja toista momenttia.



Optimoijan momenttileikkaus: Voit käyttää ensimmäisen kertaluvun momenttia osoittimena leikkaamiseen. Paperissa on lyhyt todiste lähentymisestä.Samanaikaisesti, jos paikan painoa on karsittu, myös vastaavan paikan optimointimomentti tulisi käsitellä samanaikaisesti, joten karsimista koskeva strategia on seuraavan kaavan mukainen



Kaavassa edustaa ensimmäisen kertaluvun momenttia.

3. Kokonaispakkausprosessi

Kokonaispakkausprosessi on esitetty algoritmissa 1. Vaiheet: painojäännöslaskenta/yhdistyspakkaus/epätasainen kvantisointi/koodauspakkaus suoritetaan peräkkäin lopullisen pakkaustuloksen saamiseksi.



Tarkistuspisteen täydellisen tiedoston palautusprosessi on Algoritmin 2 mukainen. Purkamisen jälkeen liukulukutulos palautetaan ensin koodikirjasta ja alaindeksistä, jotka on tallennettu epäyhtenäisen kvantisoinnin jälkeen, ja sitten sitä verrataan perusviivapainoon (edellinen tarkistus Pisteen alkuperäinen paino tai palautettu rekonstruktiopaino) lasketaan yhteen tarkistuspisteen täydellisen tiedoston saamiseksi. Koko harjoitusprosessin tarkistuspistetiedostojen palautusprosessi on Algoritmin 3 mukainen. Harjoittelun suorittamisen jälkeen vain satunnaiset alustuspainojen siemenet ja kuhunkin tarkistuspisteeseen tallennetut pakkaustulokset tallennetaan, minkä jälkeen tarkistuspisteet palautetaan järjestys täydellisen tarkastuspisteiden saamiseksi, joista yksi tai useampi tarkistuspiste voidaan valita jatkamaan harjoittelua/testausta jne.

Kokeelliset tulokset

Artikkeli ei vain arvioi suuria kielimalleja, vaan tällä menetelmällä voidaan saavuttaa hyviä tuloksia myös suuremmissa visuaalisissa malleissa, kuten ViT-L32.



Ablaatiokokeesta voidaan myös nähdä, että jäännösleikkausmenetelmän käyttö vähentää merkittävästi karsimisesta aiheutuvaa menetystä.



Artikkelissa on myös esimerkkejä kysymyksistä ja vastauksista suurille kielimalleille ennen pakkaamista ja sen jälkeen. Voidaan nähdä, että pakkaus itsessään ei vahingoita mallin kysymys- ja vastauskykyä.