nouvelles

Combinaison complexe de génération de scènes 3D, de génération conversationnelle 3D contrôlable et de cadre d'édition LLM est ici

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Le premier auteur et l'auteur correspondant de cet article sont tous deux du laboratoire VDIG (interprétation et génération de données visuelles) de l'Institut d'informatique de Wangxuan, Université de Pékin. Le premier auteur est le doctorant Zhou Xiaoyu et l'auteur correspondant est le directeur de thèse Wang Yongtao. . Ces dernières années, le laboratoire VDIG a publié un certain nombre de résultats représentatifs lors de conférences de premier plan telles que IJCV, CVPR, AAAI, ICCV, ICML, ECCV, etc. et a remporté les prix de championnat et de deuxième place dans les compétitions des poids lourds au niveau national. et dans le domaine des CV étrangers à plusieurs reprises. Il a également remporté des prix d'universités renommées au pays et à l'étranger. Les instituts de recherche scientifique coopèrent largement.

Ces dernières années, les méthodes Text-to-3D pour des objets uniques ont réalisé une série de percées, mais la génération de scènes 3D multi-objets complexes, contrôlables et de haute qualité à partir de texte reste confrontée à d'énormes défis. Les méthodes précédentes présentaient des défauts majeurs en termes de complexité, de qualité géométrique, de cohérence des textures, d'interaction multi-objets, de contrôlabilité et d'édition de la scène générée.

Récemment, l'équipe de recherche VDIG de l'Institut d'informatique Wangxuan de l'Université de Pékin et ses collaborateurs ont annoncé les derniers résultats de la recherche GALA3D. Pour la génération de scènes 3D complexes multi-objets, ce travail propose un cadre de génération contrôlable guidé par LLM pour des scènes 3D complexes, GALA3D, qui peut générer des scènes 3D de haute qualité et de haute cohérence avec plusieurs objets et des relations interactives complexes, et prend en charge interaction conversationnelle. Éditeur de contrôle, l'article a été accepté par ICML 2024.



Article précédent : GALA3D : Vers la génération de scènes complexes de texte en 3D via l'éclaboussure gaussienne générative guidée par la mise en page

Lien papier : https://arxiv.org/pdf/2402.07207

Code papier : https://github.com/VDIGPKU/GALA3D

Site Web du projet : https://gala3d.github.io/



GALA3D est un framework de génération de scènes complexe combinant texte en 3D et d'édition contrôlable de haute qualité. L'utilisateur saisit un texte de description et GALA3D peut générer la scène tridimensionnelle correspondante avec plusieurs objets et des relations interactives complexes en plan zéro. Tout en garantissant que la scène 3D générée est parfaitement alignée avec le texte, GALA3D démontre ses excellentes performances en matière de génération de qualité de scène, d'interaction complexe de plusieurs objets et de cohérence géométrique de la scène. De plus, GALA3D prend également en charge une génération conviviale de bout en bout et une édition contrôlable, permettant aux utilisateurs ordinaires de personnaliser et d'éditer facilement des scènes 3D lors de conversations conversationnelles. En communiquant avec les utilisateurs, GALA3D peut réaliser avec précision une édition conversationnelle et contrôlable de scènes 3D complexes et répondre à divers besoins d'édition contrôlables tels que la transformation de la mise en page de scènes 3D complexes, l'intégration d'actifs numériques et les changements de style de décoration basés sur le dialogue de l'utilisateur.

Présentation de la méthode

L'architecture globale de GALA3D est présentée dans la figure ci-dessous :



GALA3D utilise de grands modèles de langage (LLM) pour générer des mises en page initiales et propose une représentation gaussienne 3D générative guidée par la mise en page pour construire des scènes 3D complexes. GALA3D Design optimise la forme et la distribution des Gaussiennes 3D grâce à un contrôle géométrique adaptatif pour générer des scènes 3D avec une géométrie, une texture, une échelle et des interactions précises cohérentes. De plus, GALA3D propose également un mécanisme d'optimisation combiné qui combine les a priori de diffusion conditionnelle et les modèles de graphes vincentiens pour générer de manière collaborative des scènes multi-objets 3D avec des styles cohérents, tout en optimisant de manière itérative les priors de mise en page initiaux extraits des LLM pour obtenir une scène réelle plus réaliste et plus précise. aménagement de l'espace. Des expériences quantitatives approfondies et des études qualitatives montrent que GALA3D obtient des résultats significatifs dans la génération de scènes 3D complexes à partir de texte, surpassant les méthodes de scènes 3D existantes de Vincent.

a. Disposition de la scène préalable basée sur les LLM

Les grands modèles de langage démontrent d'excellentes capacités de compréhension et de raisonnement du langage naturel. Cet article explore plus en détail les capacités de raisonnement et de génération de mise en page des grands modèles de langage LLM dans des scènes complexes en 3D. Comment obtenir une mise en page relativement raisonnable au préalable sans conception manuelle peut aider à réduire le coût de modélisation et de génération de scènes. À cette fin, nous utilisons des LLM (tels que GPT-3.5) pour extraire les instances de saisie de texte et leurs relations spatiales, et générer les priorités de mise en page correspondantes. Il existe cependant un certain écart entre la disposition spatiale 3D et le Layout préalable de la scène interprétée par les LLM et la scène réelle, ce qui se traduit généralement par la génération d'objets suspendus/passants, de combinaisons d'objets aux proportions excessivement différentes, etc. De plus, nous proposons un module de raffinement de la mise en page pour ajuster et optimiser la mise en page brute générée ci-dessus grâce à une diffusion préalable basée sur la vision et à une gaussienne 3D générative guidée par la mise en page.

b、Raffinement de la mise en page

GALA3D utilise le module d'optimisation de la mise en page basé sur Diffusion avant d'optimiser la mise en page préalablement générée par les LLM ci-dessus. Plus précisément, nous avons ajouté l'optimisation du gradient de la disposition de l'espace gaussien 3D guidée par la mise en page dans le processus de génération 3D et ajusté la position spatiale, l'angle de rotation et le rapport de taille des mises en page générées par LLM via ControlNet. La figure montre la scène 3D et la mise en page avant et. après optimisation. La mise en page optimisée a une position spatiale et une échelle proportionnelle plus précises, et rend la relation d'interaction de plusieurs objets dans la scène 3D plus raisonnable.



c. Représentation gaussienne 3D générative guidée par la mise en page

Nous introduisons pour la première fois des contraintes de mise en page 3D dans la représentation gaussienne 3D et proposons une gaussienne 3D générative guidée par la mise en page pour les scènes 3D complexes. La représentation gaussienne 3D guidée par la mise en page contient plusieurs objets d'instance extraits sémantiquement, où la mise en page avant de chaque objet d'instance peut être paramétrée comme :

Parmi eux, N représente le nombre total d’objets instances dans la scène. Plus précisément, chaque gaussienne 3D d'instance est optimisée grâce à un contrôle géométrique adaptatif pour obtenir une représentation gaussienne 3D d'objet au niveau de l'instance. De plus, nous combinons plusieurs gaussiennes d'objets dans la scène entière en fonction de relations de position relative, générons des gaussiennes 3D globales guidées par la mise en page et rendons la scène entière via un éclaboussement gaussien global.

d. Contrôle de la géométrie adaptative

Afin de mieux contrôler la distribution spatiale et la forme géométrique des Gaussiennes 3D pendant le processus de génération, nous proposons une méthode de contrôle adaptatif de la géométrie pour les Gaussiennes 3D génératives. Premièrement, étant donné un ensemble de gaussiennes initiales, afin de contraindre les gaussiennes 3D dans la plage de mise en page, GALA3D utilise un ensemble de fonctions de distribution de densité pour contraindre la position spatiale de l'ellipsoïde gaussien. Nous échantillonnons ensuite les Gaussiennes près de la surface de mise en page pour ajuster la fonction de distribution. Ensuite, nous proposons d'utiliser la régularisation de forme pour contrôler la géométrie des Gaussiennes 3D. Pendant le processus de génération 3D, le contrôle adaptatif de la géométrie optimise en permanence la distribution et la géométrie des gaussiennes pour générer des multi-objets et des scènes 3D avec plus de détails de texture et une géométrie standardisée. Le contrôle de la géométrie adaptative garantit également des Gaussiennes 3D génératives guidées par la disposition avec une plus grande contrôlabilité et cohérence.

Résultats expérimentaux

Par rapport aux méthodes de génération Text-to-3D existantes, GALA3D présente une meilleure qualité et cohérence de génération de scènes 3D. Les résultats expérimentaux quantitatifs sont présentés dans le tableau suivant :



Nous avons également mené une enquête approfondie et efficace auprès des utilisateurs, invitant 125 participants (dont 39,2 % étaient des experts et des praticiens dans des domaines connexes) à mener une évaluation multi-angle des scénarios de génération de cette méthode et des méthodes existantes. tableau suivant :



Les résultats expérimentaux montrent que GALA3D surpasse les méthodes existantes en termes d'indicateurs d'évaluation multidimensionnels tels que la qualité de la scène, la fidélité géométrique, la cohérence du texte et la cohérence de la scène, et atteint une qualité de génération optimale.

Comme le montrent les résultats expérimentaux qualitatifs ci-dessous, GALA3D peut générer des scènes 3D complexes de combinaisons multi-objets de manière zéro-plan avec une bonne cohérence :



La figure ci-dessous montre que GALA3D peut prendre en charge une génération et une édition conviviales, conversationnelles et contrôlables :



Pour plus de détails sur la recherche, veuillez vous référer à l’article original.