Nachricht

Hier finden Sie eine komplexe Kombination aus 3D-Szenengenerierung, LLMs konversationsgesteuertem 3D-Generierungs- und Bearbeitungs-Framework

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Der erste Autor und der korrespondierende Autor dieses Artikels stammen beide vom VDIG-Labor (Visual Data Interpreting and Generation) des Wangxuan-Instituts für Informatik der Universität Peking. Der erste Autor ist der Doktorand Zhou Xiaoyu, und der korrespondierende Autor ist der Doktorvater Wang Yongtao . In den letzten Jahren hat das VDIG-Labor eine Reihe repräsentativer Ergebnisse auf Top-Konferenzen wie IJCV, CVPR, AAAI, ICCV, ICML, ECCV usw. veröffentlicht und in nationalen Schwergewichtswettbewerben die Meisterschaft und den zweiten Platz gewonnen und ausländischer Lebenslaufbereich wurde mehrfach von namhaften Universitäten im In- und Ausland ausgezeichnet, wissenschaftliche Forschungseinrichtungen kooperieren intensiv.

In den letzten Jahren haben Text-zu-3D-Methoden für einzelne Objekte eine Reihe von Durchbrüchen erzielt, aber die Generierung kontrollierbarer, hochwertiger komplexer 3D-Szenen mit mehreren Objekten aus Text steht immer noch vor großen Herausforderungen. Bisherige Methoden weisen große Mängel hinsichtlich der Komplexität, geometrischen Qualität, Texturkonsistenz, Interaktion mehrerer Objekte, Steuerbarkeit und Bearbeitbarkeit der generierten Szene auf.

Kürzlich gaben das VDIG-Forschungsteam vom Wangxuan Institute of Computer Science der Universität Peking und seine Mitarbeiter die neuesten Forschungsergebnisse GALA3D bekannt. Für die Generierung komplexer 3D-Szenen mit mehreren Objekten schlägt diese Arbeit ein LLM-gesteuertes steuerbares Generierungsframework für komplexe 3D-Szenen, GALA3D, vor, das hochwertige, hochkonsistente 3D-Szenen mit mehreren Objekten und komplexen interaktiven Beziehungen generieren und unterstützen kann Konversationsinteraktion, das Papier wurde von ICML 2024 angenommen.



Hauptthema: GALA3D: Auf dem Weg zur Generierung komplexer Text-zu-3D-Szenen durch layoutgesteuertes generatives Gaussian Splatting

Link zum Papier: https://arxiv.org/pdf/2402.07207

Papiercode: https://github.com/VDIGPKU/GALA3D

Projektwebsite: https://gala3d.github.io/



GALA3D ist ein hochwertiges, komplexes Text-zu-3D-Framework zur Szenengenerierung und steuerbaren Bearbeitung. Der Benutzer gibt einen Beschreibungstext ein und GALA3D kann die entsprechende dreidimensionale Szene mit mehreren Objekten und komplexen interaktiven Beziehungen im Zero-Shot generieren. Während sichergestellt wird, dass die generierte 3D-Szene genau auf den Text abgestimmt ist, zeigt GALA3D seine hervorragende Leistung bei der Generierung von Szenenqualität, komplexer Interaktion mehrerer Objekte und geometrischer Konsistenz der Szene. Darüber hinaus unterstützt GALA3D auch eine benutzerfreundliche End-to-End-Generierung und kontrollierbare Bearbeitung, sodass normale Benutzer 3D-Szenen während Gesprächen einfach anpassen und bearbeiten können. Durch die Kommunikation mit Benutzern kann GALA3D die konversationelle und steuerbare Bearbeitung komplexer 3D-Szenen präzise realisieren und verschiedene steuerbare Bearbeitungsanforderungen wie die Layouttransformation komplexer 3D-Szenen, die Einbettung digitaler Assets und Änderungen des Dekorationsstils basierend auf dem Benutzerdialog realisieren.

Methodeneinführung

Die Gesamtarchitektur von GALA3D ist in der folgenden Abbildung dargestellt:



GALA3D nutzt große Sprachmodelle (LLMs), um anfängliche Layouts zu generieren, und schlägt eine Layout-gesteuerte generative 3D-Gauß-Darstellung zur Konstruktion komplexer 3D-Szenen vor. GALA3D Design optimiert die Form und Verteilung von 3D-Gaußkurven durch adaptive Geometriesteuerung, um 3D-Szenen mit konsistenter Geometrie, Textur, Skalierung und präzisen Interaktionen zu generieren. Darüber hinaus schlägt GALA3D auch einen kombinierten Optimierungsmechanismus vor, der bedingte Diffusions-Priors und Vincentian-Graph-Modelle kombiniert, um gemeinsam 3D-Multiobjektszenen mit konsistenten Stilen zu generieren und gleichzeitig die aus LLMs extrahierten anfänglichen Layout-Prioritäten iterativ zu optimieren, um realistischere und genauere reale Szenen zu erhalten Raumaufteilung. Umfangreiche quantitative Experimente und qualitative Studien zeigen, dass GALA3D signifikante Ergebnisse bei der Generierung komplexer 3D-Szenen aus Text erzielt und die bestehenden Vincent 3D-Szenenmethoden übertrifft.

a. Szenenlayout vorab basierend auf LLMs

Große Sprachmodelle zeigen hervorragende Fähigkeiten zum Verstehen natürlicher Sprache und zur Argumentation. In diesem Artikel werden die Argumentations- und Layoutgenerierungsfähigkeiten der großen Sprachmodelle von LLM in komplexen 3D-Szenen weiter untersucht. Wie Sie ohne manuellen Entwurf im Vorfeld ein relativ vernünftiges Layout erhalten, kann dazu beitragen, die Kosten für die Szenenmodellierung und -generierung zu senken. Zu diesem Zweck verwenden wir LLMs (wie GPT-3.5), um Instanzen von Texteingaben und ihre räumlichen Beziehungen zu extrahieren und entsprechende Layout-Prioritäten zu generieren. Es besteht jedoch eine gewisse Lücke zwischen dem räumlichen 3D-Layout und dem Layout vor der Szene, die von LLMs interpretiert wird, und der tatsächlichen Szene, was normalerweise zur Erzeugung schwebender/vorbeiziehender Objekte, Kombinationen von Objekten mit übermäßig unterschiedlichen Proportionen usw. führt. Darüber hinaus schlagen wir ein Layout-Verfeinerungsmodul vor, um das oben generierte grobe Layout durch visionsbasierte Diffusion Prior und Layout-gesteuerte generative 3D-Gaußsche Funktion anzupassen und zu optimieren.

b. Layoutverfeinerung

GALA3D verwendet das auf Diffusion basierende Layout-Layout-Optimierungsmodul, um das zuvor von den oben genannten LLMs generierte Layout zu optimieren. Insbesondere haben wir die Gradientenoptimierung des Layout-gesteuerten 3D-Gaußschen Raumlayouts in den 3D-Generierungsprozess integriert und die räumliche Position, den Rotationswinkel und das Größenverhältnis des LLM-generierten Layouts über ControlNet angepasst. Die Abbildung zeigt die 3D-Szene und das Layout vor und nach der Korrespondenz. Das optimierte Layout verfügt über eine genauere räumliche Position und proportionale Skalierung und macht die Interaktionsbeziehung mehrerer Objekte in der 3D-Szene sinnvoller.



c. Layoutgesteuerte generative 3D-Gauß-Darstellung

Wir führen zum ersten Mal 3D-Layout-Beschränkungen in die 3D-Gauß-Darstellung ein und schlagen eine Layout-gesteuerte generative 3D-Gauß-Darstellung für komplexe 3D-Szenen vor. Die Layout-gesteuerte 3D-Gaußsche Darstellung enthält mehrere semantisch extrahierte Instanzobjekte, wobei das vorherige Layout jedes Instanzobjekts wie folgt parametrisiert werden kann:

Unter diesen stellt N die Gesamtzahl der Instanzobjekte in der Szene dar. Insbesondere wird jede 3D-Gaußsche Instanz durch adaptive Geometriesteuerung optimiert, um eine 3D-Gaußsche Darstellung des Objekts auf Instanzebene zu erhalten. Darüber hinaus kombinieren wir mehrere Objekt-Gauß-Funktionen entsprechend den relativen Positionsbeziehungen in der gesamten Szene, generieren Layout-gesteuerte globale 3D-Gauß-Funktionen und rendern die gesamte Szene durch globales Gauß-Splatting.

d. Adaptive Geometriesteuerung

Um die räumliche Verteilung und geometrische Form von 3D-Gaußkurven während des Generierungsprozesses besser zu steuern, schlagen wir eine adaptive Geometriesteuerungsmethode für generative 3D-Gaußkurven vor. Um zunächst die 3D-Gaußschen Funktionen innerhalb des Layoutbereichs einzuschränken, verwendet GALA3D bei einem gegebenen Satz anfänglicher Gaußscher Funktionen einen Satz Dichteverteilungsfunktionen, um die räumliche Position des Gaußschen Ellipsoids einzuschränken. Anschließend probieren wir Gaußsche Werte in der Nähe der Layout-Oberfläche aus, um sie an die Verteilungsfunktion anzupassen. Anschließend schlagen wir vor, die Formregularisierung zu verwenden, um die Geometrie von 3D-Gauß-Funktionen zu steuern. Während des 3D-Generierungsprozesses optimiert die adaptive Geometriesteuerung kontinuierlich die Verteilung und Geometrie der Gaußschen Verteilung, um 3D-Mehrfachobjekte und -Szenen mit mehr Texturdetails und standardisierter Geometrie zu erzeugen. Die adaptive Geometriesteuerung sorgt außerdem für layoutgesteuerte generative 3D-Gauß-Funktionen mit besserer Kontrollierbarkeit und Konsistenz.

Experimentelle Ergebnisse

Im Vergleich zu bestehenden Methoden zur Text-zu-3D-Generierung weist GALA3D eine bessere Qualität und Konsistenz der 3D-Szenengenerierung auf. Die quantitativen Versuchsergebnisse sind in der folgenden Tabelle aufgeführt:



Wir haben außerdem eine umfassende und effektive Benutzerumfrage durchgeführt und 125 Teilnehmer (von denen 39,2 % Experten und Praktiker in verwandten Bereichen waren) eingeladen, eine mehrstufige Bewertung der Generierungsszenarien dieser Methode und bestehender Methoden durchzuführen Folgende Tabelle:



Experimentelle Ergebnisse zeigen, dass GALA3D bestehende Methoden bei mehrdimensionalen Bewertungsindikatoren wie Szenenqualität, geometrischer Wiedergabetreue, Textkonsistenz und Szenenkonsistenz übertrifft und eine optimale Generierungsqualität erreicht.

Wie in den folgenden qualitativen experimentellen Ergebnissen gezeigt, kann GALA3D komplexe 3D-Szenen mit mehreren Objektkombinationen ohne Aufnahme und mit guter Konsistenz erzeugen:



Die folgende Abbildung zeigt, dass GALA3D eine benutzerfreundliche, dialogorientierte und kontrollierbare Generierung und Bearbeitung unterstützen kann:



Weitere Forschungsdetails finden Sie im Originalpapier.