Spider-Man tanssii lumoavasti, ja ControlNetin seuraava sukupolvi on täällä! Jiajiaya-tiimi julkaisee, plug and play

Spider-Man tanssii lumoavasti, ja ControlNetin seuraava sukupolvi on täällä! Jiajiaya-tiimin käynnistämä, plug and play

2024-08-17

Crecy tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Alle 10 % harjoitusparametreista voidaan saavuttaa ohjattava sukupolvi, kuten ControlNet!

Lisäksi Stable Diffusion -perheen yleisiä malleja, kuten SDXL ja SD1.5, voidaan mukauttaa ja ne ovat edelleen plug-and-play.

Samalla sitä voidaan käyttää SVD:n kanssa ohjaamaan videontuotantoa ja liikkeiden yksityiskohtia voidaan ohjata tarkasti sormiin asti.

Näiden kuvien ja videoiden takana on Hongkongin kiinalaisen Jiajiaya-tiimin lanseeraama avoimen lähdekoodin kuvien/videoiden luomisen opastustyökalu.ControlNeXt。

Nimestä näkyy, että T&K-tiimi on asemoinut sen seuraavan sukupolven ControlNetiksi.

Esimerkiksi suurten jumalien He Kaimingin ja Xie Sainingin klassinen teos ResNeXt (ResNetin laajennus) käytti myös tätä menetelmää nimeäessään sen.

Jotkut verkkoyhteisöt uskovat, että tämä nimi on hyvin ansaittu, ja se on todellakin seuraavan sukupolven tuote, joka nostaa ControlNetin korkeammalle tasolle.

Toiset sanoivat suoraan, että ControlNeXt on pelinvaihtaja, joka parantaa huomattavasti ohjattavan sukupolven tehokkuutta. He odottavat innolla sitä käyttävien ihmisten luomia teoksia.

Spiderman tanssii kauneustanssia

ControlNeXt tukee useita SD-sarjan malleja ja on plug and play.

Näitä ovat kuvan sukupolven mallit SD1.5, SDXL, SD3 (tukee Super Resolution) ja videon sukupolven malli SVD.

Sen enempää puhumatta, katsotaanpa tuloksia.

Voidaan nähdä, että lisäämällä reuna (Canny) ohjaus SDXL:ään, piirretty kaksiulotteinen tyttö ja ohjausviivat sopivat lähes täydellisesti.

Vaikka ohjausääriviivat ovat lukuisia ja hajanaisia, malli pystyy silti piirtämään vaatimukset täyttäviä kuvia.

Ja se voidaan integroida saumattomasti muihin LoRA-painoihin ilman lisäharjoittelua.

Esimerkiksi SD1.5:ssä voit käyttää asennon (Asennan) ohjausehtoja useiden LoRA:iden kanssa muodostaaksesi hahmoja, joilla on eri tyylejä tai jopa mittoja, mutta joilla on samat liikkeet.

Lisäksi ControlNeXt tukee myös maskin ja syvyyden säätötiloja.

SD3 tukee myös superresoluutiota, joka voi tuottaa erittäin teräviä kuvia.

Videoiden luonnissa ControlNeXt voi ohjata hahmojen liikkeitä.

Esimerkiksi Spider-Man osaa myös tanssia kauneustanssia TikTokissa, ja jopa sormen liikkeitä jäljitetään melko tarkasti.

Se jopa saa tuolin itämään käsiä ja esittämään samaa tanssia Vaikka se on hieman abstrakti, toisto on melko hyvä jo liikkeitä katsomalla.

Ja verrattuna alkuperäiseen ControlNetiin, ControlNeXt vaatii vähemmän harjoitusparametreja ja konvergoi nopeammin.

Esimerkiksi SD1.5:ssä ja SDXL:ssä ControlNet vaatii 361 miljoonaa ja 1,251 miljardia opittavaa parametria, mutta ControlNeXt vaatii vain 30 miljoonaa ja 108 miljoonaa vastaavasti.Alle 10 % ControlNetistä。

Harjoitteluprosessin aikana ControlNeXt on lähellä konvergenssia noin 400 vaiheessa, mutta ControlNet vaatii kymmenkertaisen tai jopa kymmenkertaisen askelmäärän.

Sukupolvinopeus on myös nopeampi kuin ControlNet Keskimäärin ControlNet tuo perusmalliin 41,9 % viiveen, mutta ControlNeXt vain 10,4 %.

Joten miten ControlNeXt on toteutettu ja mitä parannuksia ControlNetissä on tehty?

Kevyempi kuntoohjausmoduuli

Käytä ensin kuvaa ymmärtääksesi ControlNeXtin koko työnkulun.

Avain keventämiseen on ControlNeXtPoistaa valtavan ohjaushaaran ControlNetissä ja ottaa sen sijaan käyttöön kevyen konvoluutiomoduulin, joka koostuu pienestä määrästä ResNet-lohkoja。

Tämä moduuli on vastuussa ohjausehtojen ominaisuusesitysten poimimisesta (kuten semanttiset segmentointimaskit, avainpisteen priorit jne.).

Harjoitusparametrien määrä on yleensä alle 10 % ControlNetin esiopetetusta mallista, mutta se voi silti oppia syötetyt ehdolliset ohjaustiedot hyvin.

Tarkemmin sanottuna se ottaa näytteitä tasaisin väliajoin esiopetetun mallin eri verkkokerroksista muodostaakseen koulutukseen käytettyjen parametrien osajoukon, kun taas muut parametrit jäädytetään.

Lisäksi ControlNeXtin arkkitehtuuria suunnitellessaan tutkimusryhmä säilytti mallirakenteen johdonmukaisuuden alkuperäisen arkkitehtuurin kanssa, jolloin saavutettiin plug-and-play.

Olipa kyseessä ControlNet tai ControlNeXt, ehdollisten ohjaustietojen syöttäminen on tärkeä linkki.

Prosessin aikana ControlNeXt-tutkimusryhmä teki syvällistä tutkimusta kahdesta keskeisestä aiheesta - injektiopaikkojen valinnasta ja injektiomenetelmien suunnittelusta.

Tutkimusryhmä havaitsi, että useimmissa hallittavissa sukupolvitehtävissä ehdollisen tiedon luomista ohjaava muoto on suhteellisen yksinkertainen ja korreloi vahvasti kohinanpoistoprosessin ominaisuuksien kanssa.

Joten joukkue ajattelee,Ohjausinformaatiota ei tarvitse syöttää jokaiseen kohinanvaimennusverkon kerrokseen, joten valitsinKokoa ehdolliset ominaisuudet ja kohinanvaimennusominaisuudet vain verkon keskikerroksessa。

Aggregointimenetelmä on myös mahdollisimman yksinkertainen - käytössäristinormalisointiKun olet kohdistanut kahden ominaisuusjoukon jakaumat, lisää ne suoraan.

Tämä ei ainoastaan takaa, että ohjaussignaali vaikuttaa kohinanpoistoprosessiin, vaan myös välttää lisäoppimisparametrien ja epävakauden aiheuttamat monimutkaiset toiminnot, kuten huomiomekanismi.

Ristinormalisointi on toinen ControlNeXtin ydinteknologia, joka korvaa aiemmin yleisesti käytetyt progressiiviset alustusstrategiat, kuten nollakonvoluution.

Perinteiset menetelmät lievittävät romahdusongelmaa vapauttamalla vähitellen uusien moduulien vaikutuksen tyhjästä, mutta tämä johtaa usein hitaaseen lähentymiseen.

Ristinormalisointi käyttää suoraan runkoverkon kohinaa vaimentavien ominaisuuksien keskiarvoa μ ja varianssia σ normalisoimaan ohjausmoduulin tuottamat piirteet siten, että näiden kahden datajakauma on mahdollisimman tasainen.

(Huomaa: ϵ on pieni vakio, joka on lisätty numeerista vakautta varten, ja γ on skaalausparametri.)

Normalisoidut ohjausominaisuudet säätävät sitten amplitudia ja perusviivaa skaalaus- ja offset-parametrien avulla ja lisäävät ne sitten kohinanvaimennusominaisuuksiin, mikä paitsi välttää parametrien alustuksen herkkyyttä, myös mahdollistaa ohjausolosuhteiden voimaantulon varhaisessa vaiheessa. koulutusta ja nopeuttaa konvergenssiprosessia.

Lisäksi ControlNeXt käyttää ohjausmoduulia myös ehtotietojen kartoittamiseen piilevän tilan ominaisuuksiin, mikä tekee siitä abstraktimman ja semanttisemman ja edistää yleistämistä näkymättömiin ohjausolosuhteisiin.

Hankkeen kotisivut:
https://pbihao.github.io/projects/controlnext/index.html
Paperiosoite:
https://arxiv.org/abs/2408.06070
GitHub:
https://github.com/dvlab-research/ControlNeXt

uutiset

Spider-Man tanssii lumoavasti, ja ControlNetin seuraava sukupolvi on täällä! Jiajiaya-tiimin käynnistämä, plug and play

Spiderman tanssii kauneustanssia

Kevyempi kuntoohjausmoduuli

Johdanto

Yhteystietoni