2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Uusi viisausraportti
Toimittaja: alan
[Johdatus uuteen viisauteen]Äskettäin Kalifornian yliopiston, Irvinen ja muiden instituutioiden tutkijat ovat vähentäneet diffuusiomallin koulutuskustannuksia 1 890 dollariin käyttämällä strategioita, kuten viivästetty peitto, MoE ja hierarkkinen laajennus.
Kuinka paljon diffuusiomallin kouluttaminen maksaa?
Edellinen halvin menetelmä (Wuerstchen) maksoi 28 400 dollaria, ja mallit, kuten Stable Diffusion, ovat suuruusluokkaa kalliimpia.
Suurten mallien aikakaudella useimmilla ihmisillä ei yksinkertaisesti ole varaa leikkiä niillä. Jos haluat kaikenlaisia Vincentiläisiä naisia, sinun täytyy luottaa siihen, että valmistajat vievät painoaan eteenpäin.
Näiden valtavien kustannusten pienentämiseksi tutkijat ovat kokeilleet erilaisia ratkaisuja.
Esimerkiksi alkuperäinen diffuusiomalli kestää noin 1000 askelta siirtyäkseen kohinasta kuvaan, mutta se on vähennetty noin 20 askeleeseen tai jopa alle.
Kun diffuusiomallin perusmoduuli korvattiin vähitellen Unetin (CNN) DiT:llä (Transformer), seurasi myös joitain Transformerin ominaisuuksiin perustuvia optimointeja.
Esimerkiksi kvantifiointi, kuten joidenkin ylimääräisten laskelmien ohittaminen Huomio-kohdassa, kuten liukuhihna.
Äskettäin Kalifornian yliopiston, Irvinen ja muiden instituutioiden tutkijat ovat ottaneet tavoitteen "säästöstä rahaa" suuren askeleen eteenpäin:
Paperiosoite: https://arxiv.org/abs/2407.15811
——Kouluta 1,16 miljardin parametrin diffuusiomalli alusta alkaen vain 1 890 dollarilla!
SOTAan verrattuna sitä on parannettu suuruusluokkaa, jolloin tavalliset ihmiset näkevät toivon saada maistaa esikoulutusta.
Vielä tärkeämpää on, että kustannuksia vähentävä tekniikka ei vaikuta mallin suorituskykyyn. 1,16 miljardia parametria antaa seuraavat erittäin hyvät tulokset.
Ulkonäön ja tuntuman lisäksi mallin dataindikaattorit ovat erinomaisia. Esimerkiksi alla olevan taulukon FID-pisteet ovat hyvin lähellä Stable Diffusion 1.5:tä ja DALL·E 2:ta.
Sitä vastoin Wuerstchenin kustannusleikkaussuunnitelma johti alle ihanteellisiin testituloksiin.
Vinkkejä säästää rahaa
"Stretching Every Dollar" -tavoitteella tutkijat aloittivat DiT:llä, diffuusiomallin perusmoduulilla.
Ensinnäkin sekvenssin pituus on Transformerin laskentakustannusten vihollinen, ja se on eliminoitava.
Kuvien osalta on tarpeen minimoida laskelmiin osallistuvien korjaustiedostojen määrä (ja myös vähentää muistin ylimääräistä kuormitusta) suorituskykyyn vaikuttamatta.
Kuvaruutujen määrää voidaan vähentää kahdella tavalla. Toinen tapa on suurentaa kunkin lohkon kokoa ja toinen on poistaa osa paikasta (maski).
Koska edellinen heikentää merkittävästi mallin suorituskykyä, harkitsemme maskausmenetelmää.
Naiiviin maski (Naive token masking) on samanlainen kuin satunnaisesti rajattu koulutus konvoluutio-UNetissa, mutta mahdollistaa harjoittelun kuvan ei-vierekkäisillä alueilla.
Edellinen edistynein menetelmä (MaskDiT) lisää palautus- ja rekonstruktiorakenteen ennen tulostusta ja harjoittelee sitä ylimääräisellä häviöfunktiolla toivoen korvaavan kadonneen tiedon oppimisen avulla.
Molemmat maskit hylkäävät suurimman osan korjauksista alussa laskeakseen laskentakustannuksia. Tietojen menetys heikentää merkittävästi Transformerin yleistä suorituskykyä.
——Informaatiota ei kannata hukata, joten miten voimme vähentää syöttöä menettämättä tietoa?
viive maski
Tässä artikkelissa ehdotetaan viivästettyä peittostrategiaa, jossa käytetään patch-mikseria esikäsittelyyn ennen maskia ja upotetaan hylättyjen laastarien tiedot säilyviin laastareihin, mikä vähentää merkittävästi korkean suorituskyvyn heikkenemistä.
Tässä arkkitehtuurissa patch-mixer on toteutettu huomiokerroksen ja eteenpäin suuntautuvan kerroksen yhdistelmällä. Koko mallin häviötoiminto on:
Verrattuna MaskDiT:hen, tässä ei tarvita ylimääräistä häviötoimintoa, ja yleinen suunnittelu ja koulutus ovat yksinkertaisempia.
Itse sekoitin on erittäin kevyt rakenne ja täyttää rahansäästökriteerit.
hienosäätöä
Koska erittäin korkea peittosuhde heikentää merkittävästi diffuusiomallin kykyä oppia kuvan globaalia rakennetta ja tuo jakauman siirtymisen harjoittelusta testaukseen, kirjoittaja suoritti pienen määrän hienosäätöä (unmask) esiharjoittelun jälkeen. (naamio)).
Lisäksi hienosäätö voi vähentää maskien käytöstä aiheutuvia ei-toivottuja sukupolven artefakteja.
MoE ja kerroslaajennukset
MoE voi lisätä mallin parametreja ja ilmaisukykyä ilman koulutuskustannusten merkittävää nousua.
Kirjoittajat käyttävät yksinkertaistettua MoE-tasoa, joka perustuu asiantuntijan valitsemaan reititykseen, ja jokainen asiantuntija määrittää reitin tokenilleen ilman ylimääräistä lisähäviöfunktiota tasapainottamaan kuormitusta asiantuntijoiden kesken.
Lisäksi kirjoittajat harkitsivat myös hierarkkista skaalausmenetelmää, joka lisää lineaarisesti Transformer-lohkon leveyttä (eli piilokerroksen kokoa huomiokerroksessa ja eteenpäinsyöttökerroksessa).
Koska näkömallien syvemmät kerrokset oppivat yleensä monimutkaisempia ominaisuuksia, useamman parametrin käyttö syvemmissä kerroksissa johtaa parempaan suorituskykyyn.
Kokeellinen asennus
Kirjoittaja käyttää kahta DiT:n muunnelmaa: DiT-Tiny/2 ja DiT-Xl/2, joiden patch-koko on 2.
Kaikki mallit opetettiin käyttämällä AdamW-optimointiohjelmaa kosinioppimisnopeuden vaimennuksella ja suuren painon vaimennuksella.
Mallin etuosa käyttää Stable-Diffusion-XL-mallin neljän kanavan variaatioautoenkooderia (VAE) kuvaominaisuuksien poimimiseen. Lisäksi uusimman 16-kanavaisen VAE:n suorituskyky laajamittaisessa koulutuksessa (säästöversio ) on myös testattu.
Kirjoittajat käyttävät EDM-kehystä yhtenäisenä koulutusasetuksena kaikille diffuusiomalleille ja käyttävät FID- ja CLIP-pisteitä mittaamaan kuvan generointimallin suorituskykyä.
Yleisimmin käytetty CLIP-malli valittiin tekstienkooderille. Vaikka suuremmat mallit, kuten T5-xxl, toimivat paremmin haastavissa tehtävissä, kuten tekstin synteesissä, niitä ei käytetä tässä rahansäästötarkoituksessa.
koulutustietojoukko
Käytössä on kolme todellista kuvatietojoukkoa (Conceptual Captions, Segment Anything, TextCaps), jotka sisältävät 22 miljoonaa kuva-teksti-paria.
Koska SA1B ei tarjoa todellisia tekstityksiä, tässä käytetään LLaVA-mallin luomia synteettisiä tekstityksiä. Kirjoittajat lisäsivät laajaan koulutukseen myös kaksi synteettistä kuvatietojoukkoa, jotka sisältävät 15 miljoonaa kuva-teksti-paria: JourneyDB ja DiffusionDB.
Pienen mittakaavan ablaatiota varten tutkijat rakensivat tekstistä kuvaksi -tietojoukon, jota kutsutaan cifar-tekstiksi, ottamalla alinäytteen kuvia 10 CIFAR-10-luokasta suuremmasta COYO-700M-tietojoukosta.
Arvioida
Kaikki arviointikokeet suoritettiin käyttämällä DiT-Tiny/2-mallia ja cifar-captions-tietoaineistoa (256 × 256 resoluutio).
Jokainen malli koulutettiin 60 000 optimointivaiheeseen käyttämällä AdamW-optimointityökalua ja eksponentiaalista liukuvaa keskiarvoa (tasoituskerroin 0,995 viimeisille 10 000 vaiheille).
viive maski
Kokeen lähtökohtana valittiin edellä mainitsemamme naiivi maskaus, kun taas tämän artikkelin viivemaskaus lisäsi kevyen patch-mixerin, jonka parametrien määrä oli alle 10 % runkoverkosta.
Yleisesti ottaen, mitä enemmän korjauksia katoaa (korkea peittosuhde), sitä huonompi on mallin suorituskyky. Esimerkiksi MaskDiT:n suorituskyky laskee merkittävästi yli 50 %.
Tässä vertailukokeessa käytetään oletushyperparametrejä (oppimisnopeus 1,6 × 10e-4, painon vaimeneminen 0,01 ja kosinioppimisnopeus) kahden mallin kouluttamiseen.
Yllä olevan kuvan tulokset osoittavat, että viiveen maskausmenetelmä on parantunut kolmessa indikaattorissa FID, Clip-FID ja Clip score.
Lisäksi suorituskyvyn ero perusviivaan levenee peittoasteen kasvaessa. Kun peittoaste on 75 %, naiivi maskaus laskee FID-pistemäärän 16,5:een, kun taas menetelmämme saavuttaa 5,03:n, mikä on lähempänä FID-pistemäärää ilman peittämistä (3,79).
hyperparametrit
Seuraamalla yleistä ajatusta LLM:n koulutuksesta, vertaamme tässä kahden tehtävän hyperparametrivalintaa.
Ensinnäkin eteenpäinsyöttökerroksessa SwiGLU-aktivointitoiminto on parempi kuin GELU. Toiseksi suurempi painonvaimennus johtaa parempaan kuvan luomiseen.
Lisäksi, toisin kuin LLM-koulutus, tämän artikkelin diffuusiomallilla voidaan saavuttaa parempi suorituskyky, kun käytetään korkeampaa juoksevaa keskiarvoa AdamW:n toisen asteen momentille (β).
Lopuksi kirjoittajat havaitsivat, että pienen harjoitusaskelmäärän käyttäminen samalla kun oppimisnopeutta nostettiin maksimiarvoon (kunnes harjoituksesta tulee epävakaa) paransi myös merkittävästi kuvan luomisen suorituskykyä.
Sekoittimen suunnittelu
Yleensä on oikein työskennellä kovasti ihmeiden saavuttamiseksi, ja kirjoittaja on myös havainnut, että mallin suorituskyky paranee edelleen isomman patch-mikserin käytön jälkeen.
Tässä kuitenkin valitaan pieni sekoitin rahan säästämiseksi.
Kirjoittajat muuttivat kohinajakauman arvoon (-0,6, 1,2), mikä paransi tekstityksen ja luodun kuvan välistä kohdistusta.
Kuten alla olevasta kuvasta näkyy, alle 75 %:n peittosuhteen kirjoittaja tutki myös erilaisten laastarien käytön vaikutusta.
Kun jatkuvien alueiden määrä kasvaa (paikat kasvavat), mallin suorituskyky heikkenee, joten alkuperäinen strategia satunnaisesti peittää jokainen paikka säilyy.
kerroksellinen skaalaus
Tässä kokeessa koulutettiin kaksi DiT-Tiny-arkkitehtuurin muunnelmaa, joista toinen oli vakioleveydellä ja toinen hierarkkisesti skaalatulla rakenteella.
Molemmat menetelmät käyttävät naiivia maskausta ja säätävät muuntajan kokoa varmistaakseen, että mallin laskentateho on molemmissa tapauksissa sama, samalla kun suoritetaan samat harjoitusvaiheet ja harjoitusaika.
Yllä olevan taulukon tuloksista voidaan nähdä, että hierarkkinen skaalausmenetelmä on parempi kuin perusviivan vakioleveysmenetelmä kaikilla kolmella suoritusindikaattorilla, mikä viittaa siihen, että hierarkkinen skaalausmenetelmä soveltuu paremmin DiT:n peittämiseen.
Viitteet:
https://arxiv.org/abs/2407.15811