2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]
Die Autoren dieses Papiers stammen alle aus dem S-Lab-Team der Nanyang Technological University in Singapur, darunter Postdoc Hu Tao, Doktorand Hong Fangzhou und Professor Liu Ziwei von der School of Computing and Data (MIT Technology Review Asia-Pacific Innovator unter). 35 Jahre alt). In den letzten Jahren hat S-Lab viele CV/CG/AIGC-bezogene Forschungsarbeiten auf Top-Konferenzen wie CVPR, ICCV, ECCV, NeurIPS und ICLR veröffentlicht und intensiv mit namhaften Universitäten und wissenschaftlichen Forschungseinrichtungen im Inland zusammengearbeitet und im Ausland.
Die dreidimensionale digitale Erzeugung und Bearbeitung von Menschen wird häufig in digitalen Zwillingen, Metaversen, Spielen, holografischer Kommunikation und anderen Bereichen eingesetzt. Die traditionelle dreidimensionale digitale Menschenproduktion ist oft zeitaufwändig und arbeitsintensiv. In den letzten Jahren haben Forscher vorgeschlagen, dreidimensionale digitale Menschen aus 2D-Bildern auf der Grundlage dreidimensionaler generativer gegnerischer Netzwerke (3D GAN) zu lernen Effizienz der digitalen menschlichen Produktion.
Diese Methoden modellieren digitale Menschen häufig in einem eindimensionalen latenten Vektorraum, und eindimensionale latente Vektoren können die geometrische Struktur und die semantischen Informationen des menschlichen Körpers nicht darstellen, wodurch ihre Generierungsqualität und Bearbeitungsmöglichkeiten eingeschränkt werden.
Um dieses Problem zu lösen,Das S-Lab-Team der Nanyang Technological University in Singapur schlug ein neues dreidimensionales digitales menschliches Generationsparadigma StructLDM vor, das auf dem Structured Latent Diffusion Model basiert.. Dieses Paradigma umfasst drei Schlüsseldesigns: eine strukturierte hochdimensionale Darstellung des menschlichen Körpers, einen strukturierten automatischen Decoder und ein strukturiertes latentes Raumdiffusionsmodell.
StructLDM ist ein generatives Feedforward-3D-Modell, das aus Bildern und Videos lernt. Im Vergleich zu vorhandenen 3D-GAN-Methoden kann es qualitativ hochwertige, vielfältige und konsistente digitale 3D-Personen mit konsistenten Perspektiven generieren und verschiedene Ebenen steuerbarer Generierungs- und Bearbeitungsfunktionen unterstützen B. Teilbearbeitung von Kleidung, dreidimensionale virtuelle Anpassung und andere teilbewusste Bearbeitungsaufgaben, hängen nicht von bestimmten Kleidungstypen oder Maskierungsbedingungen ab und weisen eine hohe Anwendbarkeit auf.
Titel des Papiers: StructLDM: Strukturierte latente Diffusion für die menschliche 3D-Generierung
Papieradresse: https://arxiv.org/pdf/2404.01241
Projekthomepage: https://taohuumd.github.io/projects/StructLDM
Labor-Homepage: https://www.ntu.edu.sg/s-lab
Methodenübersicht
Der StructLDM-Schulungsprozess besteht aus zwei Phasen:
Strukturierte automatische Dekodierung: Anhand der SMPL-Informationen zur menschlichen Pose und der Kameraparameter passt der automatische Decoder eine strukturierte UV-Latenz für jedes einzelne Zeichen im Trainingssatz an. Die Schwierigkeit dieses Prozesses liegt darin, wie man menschliche Bilder mit unterschiedlichen Körperhaltungen, unterschiedlichen Kamerawinkeln und unterschiedlicher Kleidung in ein einheitliches UV-Latent zusammenfügt. Zu diesem Zweck schlägt StructLDM strukturiertes lokales NeRF vor, um jeden Körperteil separat zu modellieren, und verwendet globale Stile zu Der Mixer fügt Körperteile zusammen und lernt das Gesamtbild des Charakters. Um das Problem des Posenschätzungsfehlers zu lösen, wird außerdem kontradiktorisches Lernen in den automatischen Decoder-Trainingsprozess eingeführt. In diesem Stadium wandelt der automatische Decoder jedes einzelne Zeichen im Trainingssatz in eine Reihe von UV-Latenten um.
Strukturdiffusionsmodell: Dieses Diffusionsmodell lernt den in der ersten Stufe erhaltenen UV-Latentraum, um den dreidimensionalen Raum des menschlichen Körpers zu lernen.
In der Inferenzphase kann StructLDM zufällig eine dreidimensionale digitale Person generieren: Rauschen wird zufällig abgetastet und entrauscht, um ein UV-Latent zu erhalten, das von einem automatischen Decoder in ein Bild eines menschlichen Körpers umgewandelt werden kann.
Experimentelle Ergebnisse
Diese Studie führte experimentelle Auswertungen an 4 Datensätzen durch: dem Einzelansicht-Bilddatensatz DeepFashion [Liu et al. 2016], dem Videodatensatz UBCFashion [Zablotskaia et al. 2019] und dem realen dreidimensionalen menschlichen Körperdatensatz THUman 2.0 [Yu et al al. 2021] und der virtuelle 3D-Datensatz RenderPeople.
3.1 Vergleich qualitativer Ergebnisse
StructLDM wurde mit bestehenden 3D-GAN-Methoden im UBCFashion-Datensatz verglichen, wie etwa EVA3D, AG3D und StyleSDF. Im Vergleich zu bestehenden Methoden kann StructLDM qualitativ hochwertige, vielfältige und konsistente digitale 3D-Personen mit konsistenten Perspektiven generieren, z. B. unterschiedlichen Hautfarben, unterschiedlichen Frisuren und Kleidungsdetails (z. B. High Heels).
StructLDM wird mit vorhandenen 3D-GAN-Methoden (wie EG3D, StyleSDF und EVA3D) und dem Diffusionsmodell PrimDiff im RenderPeople-Datensatz verglichen. Im Vergleich zu bestehenden Methoden kann StructLDM hochwertige dreidimensionale digitale Personen mit unterschiedlichen Körperhaltungen und Erscheinungen sowie hochwertige Gesichtsdetails generieren.
3.2 Vergleich quantitativer Ergebnisse
Die Forscher verglichen die quantitativen Ergebnisse mit bekannten Methoden auf UBCFashion, RenderPeople und THUman 2.0. Sie wählten zufällig 50.000 Bilder in jedem Datensatz aus, um FID zu berechnen. Darüber hinaus zeigt eine Benutzerstudie, dass etwa 73 % der Benutzer glauben, dass die von StructLDM generierten Ergebnisse hinsichtlich Gesichtsdetails und Bildqualität des gesamten Körpers vorteilhafter sind als AG3D.
3.3 Anwendung
3.3.1 Steuerbare Erzeugung
StructLDM unterstützt steuerbare Generierungen wie Kameraperspektive, Körperhaltung, Körperformkontrolle und dreidimensionale virtuelle Anpassung und kann im zweidimensionalen latenten Raum interpolieren.
3.3.2 Kombinierte Erzeugung
StructLDM unterstützt die kombinierte Generierung, z. B. das Kombinieren von Teilen ①②③④⑤, um eine neue digitale Person zu generieren, und unterstützt verschiedene Bearbeitungsaufgaben, z. B. Identitätsbearbeitung, Ärmel (4), Röcke (5), dreidimensionale virtuelle Anpassung (6) und Ganzkörperstilisierung (7).
3.3.3 Internetbilder bearbeiten
StructLDM kann Internetbilder bearbeiten. Zuerst wird das entsprechende UV-Latent durch Inversionstechnologie erhalten, und dann können die generierten digitalen Personen durch UV-Latentbearbeitung bearbeitet werden, z. B. durch Bearbeiten von Schuhen, Oberteilen, Hosen usw.
3.4 Ablationsexperiment
3.4.1 Diffusion im verborgenen Raum
Das von StructLDM vorgeschlagene Latentraumdiffusionsmodell kann für verschiedene Bearbeitungsaufgaben verwendet werden, beispielsweise für die kombinatorische Generierung. Die folgende Abbildung untersucht den Einfluss von Diffusionsmodellparametern, wie z. B. der Anzahl der Diffusionsschritte und der Rauschskala, auf die generierten Ergebnisse. StructLDM verbessert die Generierungsleistung durch die Steuerung der Parameter des Diffusionsmodells.
3.4.2 Eindimensionale und zweidimensionale Darstellung des menschlichen Körpers
Die Forscher verglichen die Auswirkungen der eindimensionalen und zweidimensionalen latenten Darstellung des menschlichen Körpers und fanden heraus, dass zweidimensionale latente Details hochfrequente Details (wie Kleidungstexturen und Gesichtsausdrücke) erzeugen können und dass das Hinzufügen von kontradiktorischem Lernen gleichzeitig die Bildqualität und -treue verbessern kann .
3.4.3 Strukturbewusste Normalisierung
Um die Lerneffizienz des Diffusionsmodells zu verbessern, schlägt StructLDM eine strukturausgerichtete Normalisierungstechnologie (strukturausgerichtete Normalisierung) vor, bei der jedes latente Pixel Pixel für Pixel normalisiert wird. Untersuchungen haben ergeben, dass die normalisierte latente Verteilung näher an der Gaußschen Verteilung liegt, was dem Lernen des Diffusionsmodells förderlicher ist.