nouvelles

ECCV 2024 | Le nouveau paradigme de génération humaine numérique 3D de Nanyang Polytechnic : modèle de diffusion structurelle

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Les auteurs de cet article appartiennent tous à l'équipe S-Lab de l'Université technologique de Nanyang à Singapour, dont le postdoctorant Hu Tao, le doctorant Hong Fangzhou et le professeur Liu Ziwei de la School of Computing and Data (MIT Technology Review Asia-Pacific Innovator sous 35 ans). Ces dernières années, S-Lab a publié de nombreux travaux de recherche liés aux CV/CG/AIGC lors de conférences de premier plan telles que CVPR, ICCV, ECCV, NeurIPS et ICLR, et a largement coopéré avec des universités et des instituts de recherche scientifique bien connus dans son pays. et à l'étranger.

La génération et l’édition humaines numériques tridimensionnelles sont largement utilisées dans les jumeaux numériques, les métavers, les jeux, les communications holographiques et d’autres domaines. La production humaine numérique tridimensionnelle traditionnelle prend souvent du temps et demande beaucoup de travail. Ces dernières années, les chercheurs ont proposé d'apprendre des humains numériques tridimensionnels à partir d'images 2D basées sur des réseaux contradictoires génératifs tridimensionnels (3D GAN), ce qui améliore considérablement la l’efficacité de la production humaine numérique.

Ces méthodes modélisent souvent les humains numériques dans un espace vectoriel latent unidimensionnel, et les vecteurs latents unidimensionnels ne peuvent pas représenter la structure géométrique et les informations sémantiques du corps humain, limitant ainsi leur qualité de génération et leurs capacités d'édition.

Afin de résoudre ce problème,L'équipe S-Lab de l'Université technologique de Nanyang à Singapour a proposé un nouveau paradigme de génération humaine numérique tridimensionnel StructLDM basé sur le modèle de diffusion latente structuré.. Ce paradigme comprend trois conceptions clés : une représentation structurée du corps humain en haute dimension, un décodeur automatique structuré et un modèle de diffusion spatiale latente structurée.

StructLDM est un modèle génératif 3D à action directe qui apprend à partir d'images et de vidéos. Par rapport aux méthodes GAN 3D existantes, il peut générer des personnes numériques 3D de haute qualité, diversifiées et cohérentes avec des perspectives cohérentes, et prend en charge différents niveaux de fonctions de génération et d'édition contrôlables, telles que. telles que l'édition partielle de vêtements, l'ajustement virtuel tridimensionnel et d'autres tâches d'édition prenant en compte les pièces, ne dépendent pas de types de vêtements ou de conditions de masquage spécifiques, et ont une applicabilité élevée.



Titre de l'article : StructLDM : Diffusion latente structurée pour la génération humaine 3D

Adresse papier : https://arxiv.org/pdf/2404.01241

Page d'accueil du projet : https://taohuumd.github.io/projects/StructLDM

Page d'accueil du laboratoire : https://www.ntu.edu.sg/s-lab



Aperçu de la méthode



Le processus de formation StructLDM comprend deux étapes :

Décodage automatique structuré: Compte tenu des informations sur la pose humaine SMPL et des paramètres de la caméra, le décodeur automatique adapte un UV latent structuré pour chaque personnage individuel de l'ensemble d'entraînement. La difficulté de ce processus est de savoir comment adapter des images humaines avec différentes postures, différents angles de caméra et différents vêtements dans un UV latent unifié. À cette fin, StructLDM propose un NeRF local structuré pour modéliser chaque partie du corps séparément et via un style global. Le mixeur fusionne les parties du corps et apprend l'apparence générale du personnage. De plus, afin de résoudre le problème de l’erreur d’estimation de pose, l’apprentissage contradictoire est introduit dans le processus de formation automatique du décodeur. À ce stade, le décodeur automatique convertit chaque caractère individuel de l’ensemble d’apprentissage en une série d’UV latents.

modèle de diffusion structurelle: Ce modèle de diffusion apprend l'espace latent UV obtenu dans la première étape pour apprendre l'a priori tridimensionnel du corps humain.

Au stade de l'inférence, StructLDM peut générer de manière aléatoire une personne numérique tridimensionnelle : le bruit est échantillonné et débruité de manière aléatoire pour obtenir un UV latent, qui peut être restitué en une image du corps humain par un décodeur automatique.

Résultats expérimentaux

Cette étude a mené des évaluations expérimentales sur 4 ensembles de données : l'ensemble de données d'images à vue unique DeepFashion [Liu et al. 2016], l'ensemble de données vidéo UBCFashion [Zablotskaia et al. 2019] et l'ensemble de données réelles du corps humain 3D THUman 2.0 [Yu et al. . 2021] et l'ensemble de données virtuelles du corps humain 3D RenderPeople.

3.1 Comparaison des résultats qualitatifs

StructLDM a été comparé aux méthodes GAN 3D existantes sur l'ensemble de données UBCFashion, telles que EVA3D, AG3D et StyleSDF. Par rapport aux méthodes existantes, StructLDM peut générer des personnes numériques 3D de haute qualité, diversifiées et cohérentes avec des perspectives cohérentes, telles que différentes couleurs de peau, différentes coiffures et détails vestimentaires (tels que des talons hauts).



StructLDM est comparé aux méthodes GAN 3D existantes (telles que EG3D, StyleSDF et EVA3D) et au modèle de diffusion PrimDiff sur l'ensemble de données RenderPeople. Par rapport aux méthodes existantes, StructLDM peut générer des personnes numériques tridimensionnelles de haute qualité avec différentes postures et apparences, ainsi que des détails faciaux de haute qualité.



3.2 Comparaison des résultats quantitatifs

Les chercheurs ont comparé les résultats quantitatifs avec les méthodes connues sur UBCFashion, RenderPeople et THUman 2.0. Ils ont sélectionné au hasard 50 000 images dans chaque ensemble de données pour calculer le FID et réduire considérablement le FID. De plus, une étude utilisateur montre qu'environ 73 % des utilisateurs estiment que les résultats générés par StructLDM sont plus avantageux que ceux d'AG3D en termes de détails du visage et de qualité d'image du corps entier.



3.3 Demande

3.3.1 Génération contrôlable

StructLDM prend en charge la génération contrôlable, telle que la perspective de la caméra, la posture, le contrôle de la forme du corps et l'ajustement virtuel tridimensionnel, et peut interpoler dans un espace latent bidimensionnel.



3.3.2 Génération combinée

StructLDM prend en charge la génération combinée, telle que la combinaison de pièces ①②③④⑤ pour générer une nouvelle personne numérique, et prend en charge différentes tâches d'édition, telles que l'édition d'identité, les manches (4), les jupes (5), l'ajustement virtuel tridimensionnel (6) et le corps entier stylisé. (7).



3.3.3 Modifier des images Internet

StructLDM peut éditer des images Internet.Tout d'abord, les UV latents correspondants sont obtenus grâce à la technologie d'inversion, puis les personnes numériques générées peuvent être éditées via l'édition UV latentes, comme l'édition de chaussures, de hauts, de pantalons, etc.



3.4 Expérience d'ablation

3.4.1 Diffusion dans l'espace caché

Le modèle de diffusion spatiale latente proposé par StructLDM peut être utilisé pour différentes tâches d'édition, telles que la génération combinatoire. La figure ci-dessous explore l'impact des paramètres du modèle de diffusion, tels que le nombre d'étapes de diffusion et l'échelle de bruit, sur les résultats générés. StructLDM améliore les performances de génération en contrôlant les paramètres du modèle de diffusion.



3.4.2 Représentation du corps humain unidimensionnelle et bidimensionnelle

Les chercheurs ont comparé les effets de la représentation latente unidimensionnelle et bidimensionnelle du corps humain et ont découvert que la latence bidimensionnelle peut générer des détails à haute fréquence (tels que les textures des vêtements et les expressions faciales), et que l'ajout d'un apprentissage contradictoire peut simultanément améliorer la qualité et la fidélité de l'image. .



3.4.3 Normalisation sensible à la structure

Afin d'améliorer l'efficacité d'apprentissage du modèle de diffusion, StructLDM propose une technologie de normalisation latente sensible à la structure (normalisation alignée sur la structure), c'est-à-dire normaliser chaque pixel latent par pixel. Les recherches ont montré que la distribution latente normalisée est plus proche de la distribution gaussienne, ce qui est plus propice à l'apprentissage du modèle de diffusion.