La compleja generación combinada de escenas 3D, el marco de edición y generación controlable 3D conversacional de LLM está aquí

La combinación compleja de generación de escenas 3D, marco de edición y generación controlable 3D conversacional de LLM está aquí

2024-07-31

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informar. Correo electrónico de envío: [email protected]; [email protected];

El primer autor y el autor correspondiente de este artículo pertenecen al Laboratorio VDIG (Generación e Interpretación de Datos Visuales) del Instituto Wangxuan de Ciencias de la Computación de la Universidad de Pekín. El primer autor es el estudiante de doctorado Zhou Xiaoyu y el autor correspondiente es el supervisor de doctorado Wang Yongtao. . En los últimos años, el laboratorio VDIG ha publicado una serie de resultados representativos en las principales conferencias como IJCV, CVPR, AAAI, ICCV, ICML, ECCV, etc., y ha ganado el campeonato y el subcampeonato en competiciones de peso pesado a nivel nacional. y el campo CV extranjero en muchas ocasiones también ha ganado premios de universidades reconocidas en el país y en el extranjero, las instituciones de investigación científica cooperan ampliamente.

En los últimos años, los métodos de conversión de texto a 3D para objetos individuales han logrado una serie de avances, pero generar escenas 3D de múltiples objetos complejos, controlables y de alta calidad a partir de texto aún enfrenta enormes desafíos. Los métodos anteriores tienen fallas importantes en la complejidad, calidad geométrica, consistencia de la textura, interacción multiobjeto, controlabilidad y editabilidad de la escena generada.

Recientemente, el equipo de investigación VDIG del Instituto Wangxuan de Ciencias de la Computación de la Universidad de Pekín y sus colaboradores anunciaron los últimos resultados de la investigación GALA3D. Para la generación de escenas 3D complejas de múltiples objetos, este trabajo propone un marco de generación controlable guiado por LLM para escenas 3D complejas, GALA3D, que puede generar escenas 3D de alta calidad y alta consistencia con múltiples objetos y relaciones interactivas complejas, y admite Interacción conversacional. Editor controlador, el artículo ha sido aceptado por ICML 2024.

Título original: GALA3D: Hacia la generación de escenas complejas de texto a 3D mediante salpicadura gaussiana generativa guiada por diseño

Enlace del artículo: https://arxiv.org/pdf/2402.07207

Código del artículo: https://github.com/VDIGPKU/GALA3D

Sitio web del proyecto: https://gala3d.github.io/

GALA3D es un complejo de alta calidad de generación de escenas combinadas de texto a 3D y un marco de edición controlable. El usuario ingresa un texto de descripción y GALA3D puede generar la escena tridimensional correspondiente con múltiples objetos y relaciones interactivas complejas en plano cero. Al tiempo que garantiza que la escena 3D generada esté altamente alineada con el texto, GALA3D demuestra su excelente rendimiento en la generación de calidad de escena, interacción compleja de múltiples objetos y consistencia geométrica de la escena. Además, GALA3D también admite generación de extremo a extremo fácil de usar y edición controlable, lo que permite a los usuarios comunes personalizar y editar fácilmente escenas 3D durante conversaciones. Al comunicarse con los usuarios, GALA3D puede realizar con precisión una edición conversacional y controlable de escenas 3D complejas y satisfacer diversas necesidades de edición controlables, como la transformación del diseño de escenas 3D complejas, la incrustación de activos digitales y los cambios de estilo de decoración basados en el diálogo del usuario.

Introducción al método

La arquitectura general de GALA3D se muestra en la siguiente figura:

GALA3D utiliza modelos de lenguaje grande (LLM) para generar diseños iniciales y propone una representación gaussiana 3D generativa guiada por diseño para construir escenas 3D complejas. GALA3D Design optimiza la forma y distribución de gaussianos 3D a través del control de geometría adaptativa para generar escenas 3D con geometría, textura, escala e interacciones precisas consistentes. Además, GALA3D también propone un mecanismo de optimización combinado que combina antecedentes de difusión condicional y modelos de gráficos vicencianos para generar de forma colaborativa escenas 3D de múltiples objetos con estilos consistentes, mientras optimiza iterativamente los antecedentes de diseño iniciales extraídos de LLM para obtener escenas reales más realistas y precisas. disposición del espacio. Amplios experimentos cuantitativos y estudios cualitativos muestran que GALA3D logra resultados significativos en la generación de escenas 3D complejas a partir de texto, superando los métodos de escenas 3D existentes de Vincent.

a. Diseño de escena previo basado en LLM.

Los modelos de lenguaje grandes demuestran excelentes capacidades de razonamiento y comprensión del lenguaje natural. Este artículo explora más a fondo las capacidades de generación de diseño y razonamiento de los modelos de lenguaje grande de LLM en escenas complejas en 3D. Cómo obtener un diseño relativamente razonable antes sin diseño manual puede ayudar a reducir el costo del modelado y la generación de escenas. Con este fin, utilizamos LLM (como GPT-3.5) para extraer instancias de entrada de texto y sus relaciones espaciales, y generar los diseños previos correspondientes. Sin embargo, existe una cierta brecha entre el diseño espacial 3D y el Layout previo de la escena interpretado por los LLM y la escena real, lo que generalmente resulta en la generación de objetos suspendidos/pasantes, combinaciones de objetos con proporciones excesivamente diferentes, etc. Además, proponemos un módulo de Refinamiento de diseño para ajustar y optimizar el diseño preliminar generado anteriormente mediante Difusión previa basada en visión y Gaussiano 3D generativo guiado por diseño.

b、Refinamiento del diseño

GALA3D utiliza el módulo de optimización de diseño basado en Difusión previa para optimizar el diseño previo generado por los LLM anteriores. Específicamente, agregamos la optimización de gradiente del diseño espacial gaussiano 3D guiado por diseño en el proceso de generación 3D y ajustamos la posición espacial, el ángulo de rotación y la relación de tamaño de los diseños generados por LLM a través de ControlNet. La figura muestra la escena 3D y el diseño antes y. después de la optimización. El diseño optimizado tiene una posición espacial y una escala proporcional más precisas, y hace que la relación de interacción de múltiples objetos en la escena 3D sea más razonable.

c. Representación gaussiana generativa 3D guiada por diseño

Introducimos restricciones de diseño 3D en la representación gaussiana 3D por primera vez y proponemos un gaussiano 3D generativo guiado por diseño para escenas 3D complejas. La representación gaussiana 3D guiada por el diseño contiene múltiples objetos de instancia extraídos semánticamente, donde el diseño anterior de cada objeto de instancia se puede parametrizar como:

Entre ellos, N representa el número total de objetos de instancia en la escena. Específicamente, cada instancia gaussiana 3D se optimiza mediante control de geometría adaptativa para obtener una representación gaussiana 3D de objeto a nivel de instancia. Además, combinamos múltiples objetos gaussianos en toda la escena de acuerdo con las relaciones de posición relativa, generamos gaussianos 3D globales guiados por el diseño y renderizamos toda la escena a través del Splatting gaussiano global.

d.control de geometría adaptativa

Para controlar mejor la distribución espacial y la forma geométrica de los gaussianos 3D durante el proceso de generación, proponemos un método de control de geometría adaptativo para los gaussianos 3D generativos. Primero, dado un conjunto de gaussianos iniciales, para restringir los gaussianos 3D dentro del rango de diseño, GALA3D utiliza un conjunto de funciones de distribución de densidad para restringir la posición espacial del elipsoide gaussiano. Luego tomamos muestras de gaussianas cerca de la superficie de diseño para ajustarlas a la función de distribución. Posteriormente, proponemos utilizar la regularización de formas para controlar la geometría de las gaussianas 3D. Durante el proceso de generación 3D, el control de geometría adaptativa optimiza continuamente la distribución y la geometría de las gaussianas para generar escenas y objetos múltiples 3D con más detalles de textura y geometría estandarizada. El control de geometría adaptable también garantiza gaussianos 3D generativos guiados por el diseño con mayor controlabilidad y coherencia.

Resultados experimentales

En comparación con los métodos de generación de texto a 3D existentes, GALA3D muestra una mejor calidad y consistencia en la generación de escenas 3D. Los resultados experimentales cuantitativos se muestran en la siguiente tabla:

También realizamos una encuesta de usuarios extensa y efectiva, invitando a 125 participantes (el 39,2% de los cuales eran expertos y profesionales en campos relacionados) a realizar una evaluación desde múltiples ángulos de los escenarios de generación de este método y los métodos existentes. siguiente tabla:

Los resultados experimentales muestran que GALA3D supera los métodos existentes en indicadores de evaluación multidimensional, como calidad de escena, fidelidad geométrica, coherencia del texto y coherencia de la escena, y logra una calidad de generación óptima.

Como se muestra en los resultados experimentales cualitativos a continuación, GALA3D puede generar escenas 3D complejas de combinación de múltiples objetos de manera cero con buena consistencia:

La siguiente figura muestra que GALA3D puede admitir generación y edición fáciles de usar, conversacionales y controlables:

Para obtener más detalles de la investigación, consulte el artículo original.

noticias

La combinación compleja de generación de escenas 3D, marco de edición y generación controlable 3D conversacional de LLM está aquí

Introducción

Mi informacion de contacto