noticias

ECCV 2024 | El nuevo paradigma de generación humana digital 3D del Politécnico de Nanyang: modelo de difusión estructural

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

Los autores de este artículo pertenecen todos al equipo S-Lab de la Universidad Tecnológica de Nanyang en Singapur, incluido el postdoctorado Hu Tao, el estudiante de doctorado Hong Fangzhou y el profesor Liu Ziwei de la Escuela de Computación y Datos (MIT Technology Review Asia-Pacific Innovator under 35 años). En los últimos años, S-Lab ha publicado muchos trabajos de investigación relacionados con CV/CG/AIGC en las principales conferencias como CVPR, ICCV, ECCV, NeurIPS e ICLR, y ha cooperado ampliamente con reconocidas universidades e instituciones de investigación científica en el país. y en el extranjero.

La generación y edición humana digital tridimensional se utilizan ampliamente en gemelos digitales, metaversos, juegos, comunicaciones holográficas y otros campos. La producción humana digital tridimensional tradicional suele consumir mucho tiempo y mano de obra. En los últimos años, los investigadores han propuesto aprender humanos digitales tridimensionales a partir de imágenes 2D basadas en redes generativas adversarias tridimensionales (3D GAN), lo que mejora enormemente la calidad. eficiencia de la producción humana digital.

Estos métodos a menudo modelan humanos digitales en un espacio vectorial latente unidimensional, y los vectores latentes unidimensionales no pueden representar la estructura geométrica y la información semántica del cuerpo humano, lo que limita su calidad de generación y capacidades de edición.

Para resolver este problema,El equipo S-Lab de la Universidad Tecnológica de Nanyang en Singapur propuso un nuevo paradigma tridimensional de generación humana digital, StructLDM, basado en el modelo estructurado de difusión latente.. Este paradigma incluye tres diseños clave: representación estructurada del cuerpo humano de alta dimensión, decodificador automático estructurado y modelo estructurado de difusión del espacio latente.

StructLDM es un modelo generativo 3D de avance que aprende de imágenes y videos. En comparación con los métodos GAN 3D existentes, puede generar personas digitales 3D de alta calidad, diversas y consistentes con perspectivas consistentes, y admite diferentes niveles de funciones de generación y edición controlables, como. como edición parcial de ropa, ajuste virtual tridimensional y otras tareas de edición parcial, no dependen de tipos de ropa específicos ni de condiciones de enmascaramiento, y tienen una alta aplicabilidad.



Título del artículo: StructLDM: Difusión latente estructurada para la generación humana 3D

Dirección del artículo: https://arxiv.org/pdf/2404.01241

Página de inicio del proyecto: https://taohuumd.github.io/projects/StructLDM

Página de inicio del laboratorio: https://www.ntu.edu.sg/s-lab



Descripción general del método



El proceso de formación de StructLDM consta de dos etapas:

Decodificación automática estructurada: Dada la información de pose humana SMPL y los parámetros de la cámara, el decodificador automático ajusta una latente UV estructurada para cada carácter individual en el conjunto de entrenamiento. La dificultad de este proceso radica en cómo encajar imágenes humanas con diferentes posturas, diferentes ángulos de cámara y diferentes prendas en un UV latente unificado. Con este fin, StructLDM propone NeRF local estructurado para modelar cada parte del cuerpo por separado y utiliza global. estilos para Blender fusiona partes del cuerpo y aprende la apariencia general del personaje. Además, para resolver el problema del error de estimación de pose, se introduce el aprendizaje adversario en el proceso de entrenamiento del decodificador automático. En esta etapa, el decodificador automático convierte cada carácter individual del conjunto de entrenamiento en una serie de latentes UV.

modelo de difusión estructural: Este modelo de difusión aprende el espacio latente UV obtenido en la primera etapa para conocer el estado tridimensional anterior del cuerpo humano.

En la etapa de inferencia, StructLDM puede generar aleatoriamente una persona digital tridimensional: el ruido se muestrea aleatoriamente y se elimina el ruido para obtener un UV latente, que un decodificador automático puede convertir en una imagen del cuerpo humano.

Resultados experimentales

Este estudio realizó evaluaciones experimentales en 4 conjuntos de datos: el conjunto de datos de imágenes de vista única DeepFashion [Liu et al. 2016], el conjunto de datos de video UBCFashion [Zablotskaia et al. 2019] y el conjunto de datos del cuerpo humano tridimensional real THUman 2.0 [Yu et al. al. 2021] y el conjunto de datos virtuales del cuerpo humano en 3D RenderPeople.

3.1 Comparación de resultados cualitativos

StructLDM se comparó con métodos 3D GAN existentes en el conjunto de datos UBCFashion, como EVA3D, AG3D y StyleSDF. En comparación con los métodos existentes, StructLDM puede generar personas digitales 3D consistentes, diversas y de alta calidad con perspectivas consistentes, como diferentes colores de piel, diferentes peinados y detalles de la ropa (como tacones altos).



StructLDM se compara con los métodos 3D GAN existentes (como EG3D, StyleSDF y EVA3D) y el modelo de difusión PrimDiff en el conjunto de datos de RenderPeople. En comparación con los métodos existentes, StructLDM puede generar personas digitales tridimensionales de alta calidad con diferentes posturas y apariencias, y generar detalles faciales de alta calidad.



3.2 Comparación de resultados cuantitativos

Los investigadores compararon los resultados cuantitativos con métodos conocidos en UBCFashion, RenderPeople y THUman 2.0. Seleccionaron al azar 50.000 imágenes en cada conjunto de datos para calcular que StructLDM puede reducir significativamente la FID. Además, el estudio de usuarios muestra que alrededor del 73% de los usuarios cree que los resultados generados por StructLDM son más ventajosos que AG3D en términos de detalles faciales y calidad de imagen de todo el cuerpo.



3.3 Aplicación

3.3.1 Generación controlable

StructLDM admite la generación controlable, como la perspectiva de la cámara, la postura, el control de la forma del cuerpo y el ajuste virtual tridimensional, y puede interpolar en un espacio latente bidimensional.



3.3.2 Generación combinada

StructLDM admite generación combinada, como combinar partes ①②③④⑤ para generar una nueva persona digital, y admite diferentes tareas de edición, como edición de identidad, mangas (4), faldas (5), ajuste virtual tridimensional (6) y estilización de cuerpo completo. (7).



3.3.3 Editar imágenes de Internet

StructLDM puede editar imágenes de Internet. Primero, la tecnología de inversión obtiene la latente UV correspondiente y luego las personas digitales generadas se pueden editar mediante la edición de latente UV, como editar zapatos, blusas, pantalones, etc.



3.4 Experimento de ablación

3.4.1 Difusión del espacio oculto

El modelo de difusión de espacio latente propuesto por StructLDM se puede utilizar para diferentes tareas de edición, como la generación combinatoria. La siguiente figura explora el impacto de los parámetros del modelo de difusión, como el número de pasos de difusión y la escala de ruido, en los resultados generados. StructLDM mejora el rendimiento de la generación controlando los parámetros del modelo de difusión.



3.4.2 Representación del cuerpo humano unidimensional y bidimensional

Los investigadores compararon los efectos de la representación latente del cuerpo humano unidimensional y bidimensional y descubrieron que la latente bidimensional puede generar detalles de alta frecuencia (como texturas de ropa y expresiones faciales), y agregar aprendizaje contradictorio puede mejorar simultáneamente la calidad y fidelidad de la imagen. .



3.4.3 Normalización consciente de la estructura

Para mejorar la eficiencia del aprendizaje del modelo de difusión, StructLDM propone una tecnología de normalización alineada con la estructura (normalización alineada con la estructura), que consiste en normalizar cada píxel latente por píxel. La investigación ha encontrado que la distribución latente normalizada está más cerca de la distribución gaussiana, lo que es más propicio para el aprendizaje del modelo de difusión.