Le mie informazioni di contatto
Posta[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];
Gli autori di questo articolo appartengono tutti al team S-Lab della Nanyang Technological University di Singapore, tra cui il postdoc Hu Tao, lo studente di dottorato Hong Fangzhou e il professor Liu Ziwei della School of Computing and Data (MIT Technology Review Asia-Pacific Innovator under 35 anni). Negli ultimi anni, S-Lab ha pubblicato molti lavori di ricerca relativi a CV/CG/AIGC in occasione di conferenze importanti come CVPR, ICCV, ECCV, NeurIPS e ICLR e ha collaborato ampiamente con rinomate università e istituti di ricerca scientifica a livello nazionale. e all'estero.
La generazione e l'editing umano digitale tridimensionale sono ampiamente utilizzati nei gemelli digitali, nei metaversi, nei giochi, nelle comunicazioni olografiche e in altri campi. La tradizionale produzione umana digitale tridimensionale è spesso dispendiosa in termini di tempo e di manodopera. Negli ultimi anni, i ricercatori hanno proposto di apprendere gli esseri umani digitali tridimensionali da immagini 2D basate su reti generative avversarie tridimensionali (3D GAN), che migliora notevolmente la produzione umana digitale tridimensionale. efficienza della produzione umana digitale.
Questi metodi spesso modellano gli esseri umani digitali nello spazio vettoriale latente unidimensionale e i vettori latenti unidimensionali non possono rappresentare la struttura geometrica e le informazioni semantiche del corpo umano, limitando così la loro qualità di generazione e le capacità di modifica.
Per risolvere questo problema,Il team S-Lab della Nanyang Technological University di Singapore ha proposto un nuovo paradigma tridimensionale di generazione umana digitale StructLDM basato sul modello di diffusione latente strutturata.. Questo paradigma include tre progetti chiave: rappresentazione strutturata del corpo umano ad alta dimensione, decodificatore automatico strutturato e modello strutturato di diffusione dello spazio latente.
StructLDM è un modello generativo 3D feedforward che apprende da immagini e video. Rispetto ai metodi GAN 3D esistenti, può generare persone digitali 3D di alta qualità, diversificate e coerenti con prospettive coerenti e supporta diversi livelli di generazione controllabile e funzioni di modifica, come ad esempio. come l'editing parziale dell'abbigliamento, l'adattamento virtuale tridimensionale e altre attività di editing parzialmente consapevole, non dipendono da specifici tipi di abbigliamento o condizioni di mascheramento e hanno un'elevata applicabilità.
Titolo dell'articolo: StructLDM: diffusione latente strutturata per la generazione umana 3D
Indirizzo del documento: https://arxiv.org/pdf/2404.01241
Home page del progetto: https://taohuumd.github.io/projects/StructLDM
Homepage del laboratorio: https://www.ntu.edu.sg/s-lab
Panoramica del metodo
Il processo di formazione StructLDM si compone di due fasi:
Decodifica automatica strutturata: Date le informazioni sulla posa umana SMPL e i parametri della fotocamera, il decodificatore automatico adatta un latente UV strutturato per ogni singolo personaggio nel set di addestramento. La difficoltà di questo processo risiede nel modo in cui adattare immagini umane con diverse posture, diversi angoli di ripresa e diversi indumenti in un UV latente unificato. A tal fine, StructLDM propone NeRF locale strutturato per modellare ciascuna parte del corpo separatamente e utilizza quello globale stili per Il frullatore unisce le parti del corpo e apprende l'aspetto generale del personaggio. Inoltre, per risolvere il problema dell'errore di stima della posa, nel processo di addestramento automatico del decodificatore viene introdotto l'apprendimento contraddittorio. In questa fase, il decodificatore automatico converte ogni singolo carattere del set di addestramento in una serie di latenti UV.
modello di diffusione strutturale: Questo modello di diffusione apprende lo spazio latente UV ottenuto nella prima fase per apprendere la precedente tridimensionale del corpo umano.
Nella fase di inferenza, StructLDM può generare casualmente una persona digitale tridimensionale: il rumore viene campionato casualmente e denoizzato per ottenere un UV latente, che può essere trasformato in un'immagine del corpo umano da un decodificatore automatico.
Risultati sperimentali
Questo studio ha condotto valutazioni sperimentali su 4 set di dati: il set di dati di immagini a vista singola DeepFashion [Liu et al. 2016], il set di dati video UBCFashion [Zablotskaia et al. al. 2021] e il set di dati virtuali del corpo umano 3D RenderPeople.
3.1 Confronto dei risultati qualitativi
StructLDM è stato confrontato con i metodi GAN 3D esistenti sul set di dati UBCFashion, come EVA3D, AG3D e StyleSDF. Rispetto ai metodi esistenti, StructLDM può generare persone digitali 3D di alta qualità, diversificate e coerenti con prospettive coerenti, come diversi colori della pelle, diverse acconciature e dettagli di abbigliamento (come i tacchi alti).
StructLDM viene confrontato con i metodi GAN 3D esistenti (come EG3D, StyleSDF ed EVA3D) e con il modello di diffusione PrimDiff sul set di dati RenderPeople. Rispetto ai metodi esistenti, StructLDM può generare persone digitali tridimensionali di alta qualità con posture e aspetti diversi e generare dettagli facciali di alta qualità.
3.2 Confronto dei risultati quantitativi
I ricercatori hanno confrontato i risultati quantitativi con metodi noti su UBCFashion, RenderPeople e THUman 2.0. Hanno selezionato casualmente 50.000 immagini in ciascun set di dati per calcolare che il FID può ridurre significativamente il FID. Inoltre, lo studio degli utenti mostra che circa il 73% degli utenti ritiene che i risultati generati da StructLDM siano più vantaggiosi di AG3D in termini di dettagli del viso e qualità dell'immagine di tutto il corpo.
3.3 Applicazione
3.3.1 Generazione controllabile
StructLDM supporta la generazione controllabile, come la prospettiva della telecamera, la postura, il controllo della forma del corpo e l'adattamento virtuale tridimensionale, e può interpolare nello spazio latente bidimensionale.
3.3.2 Generazione combinata
StructLDM supporta la generazione combinata, come la combinazione di parti ①②③④⑤ per generare una nuova persona digitale e supporta diverse attività di modifica, come la modifica dell'identità, le maniche (4), le gonne (5), la vestibilità virtuale tridimensionale (6) e il corpo stilizzato (7).
3.3.3 Modifica immagini Internet
StructLDM può modificare le immagini Internet. Innanzitutto, il corrispondente UV latente viene ottenuto tramite la tecnologia di inversione, quindi le persone digitali generate possono essere modificate tramite la modifica UV latente, ad esempio modificando scarpe, top, pantaloni, ecc.
3.4 Esperimento di ablazione
3.4.1 Diffusione nello spazio nascosto
Il modello di diffusione dello spazio latente proposto da StructLDM può essere utilizzato per diversi compiti di editing, come la generazione combinatoria. La figura seguente esplora l'impatto dei parametri del modello di diffusione, come il numero di passaggi di diffusione e la scala del rumore, sui risultati generati. StructLDM migliora le prestazioni di generazione controllando i parametri del modello di diffusione.
3.4.2 Rappresentazione del corpo umano unidimensionale e bidimensionale
I ricercatori hanno confrontato gli effetti della rappresentazione latente del corpo umano unidimensionale e bidimensionale e hanno scoperto che la latente bidimensionale può generare dettagli ad alta frequenza (come le trame dei vestiti e le espressioni facciali) e l'aggiunta dell'apprendimento contraddittorio può contemporaneamente migliorare la qualità e la fedeltà dell'immagine. .
3.4.3 Normalizzazione consapevole della struttura
Al fine di migliorare l'efficienza di apprendimento del modello di diffusione, StructLDM propone la tecnologia di normalizzazione allineata alla struttura (normalizzazione allineata alla struttura), che consiste nel normalizzare ciascun pixel latente per pixel. La ricerca ha scoperto che la distribuzione latente normalizzata è più vicina alla distribuzione gaussiana, che è più favorevole all'apprendimento del modello di diffusione.