2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]
Tämän artikkelin kirjoittajat ovat kaikki Singaporen Nanyangin teknillisen yliopiston S-Lab-tiimistä, mukaan lukien postdoc Hu Tao, jatko-opiskelija Hong Fangzhou ja professori Liu Ziwei School of Computing and Datasta (MIT Technology Review Asia-Pacific Innovator 35 vuotta vanha). Viime vuosina S-Lab on julkaissut useita CV/CG/AIGC-aiheisia tutkimusteoksia huippukonferensseissa, kuten CVPR, ICCV, ECCV, NeurIPS ja ICLR, ja on tehnyt laajaa yhteistyötä kotimaassa tunnettujen yliopistojen ja tieteellisten tutkimuslaitosten kanssa. ja ulkomailla.
Kolmiulotteista digitaalista ihmisen luomista ja editointia käytetään laajalti digitaalisissa kaksosissa, metaversumeissa, peleissä, holografisessa viestinnässä ja muilla aloilla. Perinteinen kolmiulotteinen digitaalinen ihmistuotanto on usein aikaa vievää ja työvoimavaltaista. Viime vuosina tutkijat ovat ehdottaneet kolmiulotteisten digitaalisten ihmisten oppimista 2D-kuvista, jotka perustuvat kolmiulotteisiin generatiivisiin kilpaileviin verkkoihin (3D GAN), mikä parantaa huomattavasti digitaalisen ihmistuotannon tehokkuus.
Näillä menetelmillä mallinnetaan usein digitaalisia ihmisiä yksiulotteisessa piilevässä vektoriavaruudessa, eivätkä yksiulotteiset piilevät vektorit pysty edustamaan ihmiskehon geometrista rakennetta ja semanttista informaatiota, mikä rajoittaa niiden sukupolven laatua ja muokkauskykyä.
Tämän ongelman ratkaisemiseksiSingaporen Nanyangin teknillisen yliopiston S-Lab-tiimi ehdotti uutta kolmiulotteista digitaalista ihmissukupolven paradigmaa StructLDM, joka perustuu Structured Latent Diffusion Model -malliin.. Tämä paradigma sisältää kolme avainmallia: rakenteellisen korkeadimensionaalisen ihmiskehon esityksen, strukturoidun automaattisen dekooderin ja strukturoidun piilevän tilan diffuusiomallin.
StructLDM on eteenpäin suunnattu 3D-malli, joka oppii kuvista ja videoista Verrattuna olemassa oleviin 3D-GAN-menetelmiin, se voi luoda korkealaatuisia, monipuolisia ja johdonmukaisia 3D-digitaalisia ihmisiä, joilla on johdonmukainen näkökulma, ja se tukee ohjattavia generointi- ja muokkaustoimintoja, kuten. osittaisena vaateeditointina, kolmiulotteisena virtuaalisena sovituksena ja muina osatietoisina muokkaustehtävinä, eivät riipu tietyistä vaatetyypeistä tai peitto-olosuhteista, ja niillä on korkea käyttökelpoisuus.
Paperin otsikko: StructLDM: Structured Latent Diffusion for 3D Human Generation
Paperiosoite: https://arxiv.org/pdf/2404.01241
Hankkeen kotisivu: https://taohuumd.github.io/projects/StructLDM
Laboratorion kotisivu: https://www.ntu.edu.sg/s-lab
Menetelmän yleiskatsaus
StructLDM-koulutusprosessi koostuu kahdesta vaiheesta:
Strukturoitu automaattinen dekoodaus: Kun otetaan huomioon ihmisen asennon tiedot SMPL ja kameran parametrit, automaattinen dekooderi sopii strukturoidun UV-latentin jokaiselle harjoitussarjan yksittäiselle hahmolle. Tämän prosessin vaikeus piilee siinä, kuinka sovittaa ihmiskuvia erilaisilla asennoilla, eri kamerakulmilla ja eri vaatteilla yhtenäiseksi UV-latentiksi. Tätä varten StructLDM ehdottaa strukturoitua paikallista NeRF:ää kunkin kehon osan mallintamiseen erikseen ja käyttää globaalia. tyylit Blender yhdistää kehon osat yhteen ja oppii hahmon yleisilmeen. Lisäksi asennon estimointivirheen ongelman ratkaisemiseksi automaattiseen dekooderin koulutusprosessiin otetaan käyttöön kontradiktorinen oppiminen. Tässä vaiheessa automaattinen dekooderi muuntaa jokaisen harjoitussarjan yksittäisen merkin sarjaksi UV-latentteja.
rakenteellinen diffuusiomalli: Tämä diffuusiomalli oppii ensimmäisessä vaiheessa saadun UV-latentin tilan oppiakseen ihmiskehon kolmiulotteisen priorin.
Päättelyvaiheessa StructLDM voi satunnaisesti generoida kolmiulotteisen digitaalisen henkilön: kohina näytteistetään satunnaisesti ja siitä poistetaan kohinat, jotta saadaan UV-latentti, joka voidaan toistaa ihmiskehon kuvaksi automaattisella dekooderilla.
Kokeelliset tulokset
Tässä tutkimuksessa suoritettiin kokeellisia arvioita neljästä tietojoukosta: yhden näkymän kuvaaineistosta DeepFashion [Liu et al. 2016], videotietojoukosta UBCFashion [Zablotskaia et al 2019] ja todellisesta kolmiulotteisesta ihmiskehon tietojoukosta THUman 2.0 [Yu et. al. 2021] ja virtuaalinen 3D-ihmiskehotietojoukko RenderPeople.
3.1 Laadullisten tulosten vertailu
StructLDM:ää verrattiin olemassa oleviin 3D GAN -menetelmiin UBCFashion-tietojoukossa, kuten EVA3D, AG3D ja StyleSDF. Verrattuna olemassa oleviin menetelmiin, StructLDM voi tuottaa korkealaatuisia, monipuolisia ja johdonmukaisia 3D-digitaalisia ihmisiä, joilla on johdonmukaiset näkökulmat, kuten erilaiset ihonvärit, erilaiset hiustyylit ja vaatetuksen yksityiskohdat (kuten korkokengät).
StructLDM:ää verrataan olemassa oleviin 3D GAN -menetelmiin (kuten EG3D, StyleSDF ja EVA3D) ja diffuusiomalliin PrimDiff RenderPeople-tietojoukossa. Verrattuna olemassa oleviin menetelmiin, StructLDM voi tuottaa laadukkaita kolmiulotteisia digitaalisia ihmisiä erilaisilla asennoilla ja ulkonäöillä sekä laadukkaita kasvoyksityiskohtia.
3.2 Kvantitatiivisten tulosten vertailu
Tutkijat vertasivat kvantitatiivisia tuloksia tunnettuihin UBCFashion-, RenderPeople- ja THUman 2.0 -menetelmiin. He valitsivat satunnaisesti 50 000 kuvaa FID:n laskemiseksi. Lisäksi User Study osoittaa, että noin 73 % käyttäjistä uskoo, että StructLDM:n tuottamat tulokset ovat kasvojen yksityiskohtien ja koko kehon kuvanlaadun kannalta edullisempia kuin AG3D.
3.3 Sovellus
3.3.1 Ohjattava sukupolvi
StructLDM tukee ohjattavaa generointia, kuten kameran perspektiiviä, asentoa, kehon muodon ohjausta ja kolmiulotteista virtuaalista sovitusta, ja se voi interpoloida kaksiulotteisessa piilevässä tilassa.
3.3.2 Yhdistetty sukupolvi
StructLDM tukee yhdistettyä generointia, kuten osien ①②③④⑤ yhdistämistä uuden digitaalisen henkilön luomiseksi, ja tukee erilaisia muokkaustehtäviä, kuten identiteetin muokkausta, hihojen (4), hameiden (5), kolmiulotteisen virtuaalisen sovituksen (6) ja koko kehon tyyliteltyjä. (7).
3.3.3 Muokkaa Internet-kuvia
StructLDM voi muokata Internet-kuvia Ensin vastaava UV-latentti saadaan Inversion-tekniikan avulla, ja sitten luotuja digitaalisia ihmisiä voidaan muokata UV-latentilla editoimalla, kuten muokkaamalla kenkiä, toppeja, housuja jne.
3.4 Ablaatiokoe
3.4.1 Piilotilan diffuusio
StructLDM:n ehdottamaa piilevää avaruuden diffuusiomallia voidaan käyttää erilaisiin editointitehtäviin, kuten kombinatoriseen generointiin. Alla olevassa kuvassa tarkastellaan diffuusiomallin parametrien, kuten diffuusiovaiheiden lukumäärän ja kohinaasteikon, vaikutusta syntyviin tuloksiin. StructLDM parantaa sukupolven suorituskykyä ohjaamalla diffuusiomallin parametreja.
3.4.2 Yksiulotteinen ja kaksiulotteinen ihmiskehon esitys
Tutkijat vertasivat yksiulotteisen ja kaksiulotteisen piilevän ihmiskehon esityksen vaikutuksia ja havaitsivat, että kaksiulotteinen latentti voi tuottaa korkeataajuisia yksityiskohtia (kuten vaatteiden tekstuurit ja ilmeet), ja vastakkaisen oppimisen lisääminen voi samanaikaisesti parantaa kuvan laatua ja tarkkuutta. .
3.4.3 Rakennetietoinen normalisointi
Diffuusiomallin oppimistehokkuuden parantamiseksi StructLDM ehdottaa rakenteen mukaista normalisointitekniikkaa (structure-aligned normalization), jonka tarkoituksena on normalisoida jokainen piilevä pikseli pikseli kerrallaan. Tutkimukset ovat osoittaneet, että normalisoitu latentti jakauma on lähempänä Gaussin jakaumaa, mikä on suotuisampi diffuusiomallin oppimiselle.