νέα

ECCV 2024 | Το νέο παράδειγμα της ψηφιακής ανθρώπινης γενιάς του Nanyang: δομικό μοντέλο διάχυσης.

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Οι συγγραφείς αυτής της εργασίας είναι όλοι από την ομάδα S-Lab του Τεχνολογικού Πανεπιστημίου Nanyang στη Σιγκαπούρη, συμπεριλαμβανομένου του μεταδιδακτορικού Hu Tao, του διδακτορικού φοιτητή Hong Fangzhou και του καθηγητή Liu Ziwei του School of Computing and Data (MIT Technology Review Asia-Pacific Innovator υπό 35 ετών). Τα τελευταία χρόνια, η S-Lab έχει δημοσιεύσει πολλές ερευνητικές εργασίες σχετικά με το CV/CG/AIGC σε κορυφαία συνέδρια όπως CVPR, ICCV, ECCV, NeurIPS και ICLR, και έχει συνεργαστεί εκτενώς με γνωστά πανεπιστήμια και επιστημονικά ερευνητικά ιδρύματα στο εσωτερικό. και στο εξωτερικό.

Η τρισδιάστατη ψηφιακή ανθρώπινη παραγωγή και επεξεργασία χρησιμοποιούνται ευρέως σε ψηφιακά δίδυμα, μετασύμπλεξα, παιχνίδια, ολογραφικές επικοινωνίες και άλλα πεδία. Η παραδοσιακή τρισδιάστατη ψηφιακή ανθρώπινη παραγωγή είναι συχνά χρονοβόρα και εντατική. αποτελεσματικότητα της ψηφιακής ανθρώπινης παραγωγής.

Αυτές οι μέθοδοι συχνά μοντελοποιούν ψηφιακούς ανθρώπους σε μονοδιάστατο λανθάνοντα διανυσματικό χώρο και τα μονοδιάστατα λανθάνοντα διανύσματα δεν μπορούν να αντιπροσωπεύουν τη γεωμετρική δομή και τις σημασιολογικές πληροφορίες του ανθρώπινου σώματος, περιορίζοντας έτσι την ποιότητα παραγωγής και τις δυνατότητες επεξεργασίας τους.

Για να λυθεί αυτό το πρόβλημα,Η ομάδα S-Lab από το Τεχνολογικό Πανεπιστήμιο Nanyang στη Σιγκαπούρη πρότεινε ένα νέο τρισδιάστατο πρότυπο ψηφιακής ανθρώπινης γενιάς StructLDM που βασίζεται στο μοντέλο δομημένης λανθάνουσας διάχυσης.. Αυτό το παράδειγμα περιλαμβάνει τρία βασικά σχέδια: δομημένη υψηλών διαστάσεων αναπαράσταση ανθρώπινου σώματος, δομημένο αυτόματο αποκωδικοποιητή και δομημένο μοντέλο διάχυσης λανθάνοντος χώρου.

Το StructLDM είναι ένα feedforward 3D Generative Model που μαθαίνει από εικόνες και βίντεο Σε σύγκριση με τις υπάρχουσες μεθόδους 3D GAN, μπορεί να δημιουργήσει υψηλής ποιότητας, ποικιλόμορφα και συνεπή 3D ψηφιακά άτομα με συνεπείς προοπτικές και υποστηρίζει διαφορετικά επίπεδα ελεγχόμενων λειτουργιών παραγωγής και επεξεργασίας, όπως π.χ. καθώς η μερική επεξεργασία ρούχων, η τρισδιάστατη εικονική εφαρμογή και άλλες εργασίες επεξεργασίας μερικής επίγνωσης, δεν εξαρτώνται από συγκεκριμένους τύπους ρούχων ή συνθήκες κάλυψης και έχουν υψηλή δυνατότητα εφαρμογής.



Τίτλος εργασίας: StructLDM: Structured Latent Diffusion for 3D Human Generation

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2404.01241

Αρχική σελίδα του έργου: https://taohuumd.github.io/projects/StructLDM

Αρχική σελίδα εργαστηρίου: https://www.ntu.edu.sg/s-lab



Επισκόπηση μεθόδου



Η εκπαιδευτική διαδικασία StructLDM αποτελείται από δύο στάδια:

Δομημένη αυτόματη αποκωδικοποίηση: Λαμβάνοντας υπόψη τις πληροφορίες ανθρώπινης στάσης SMPL και τις παραμέτρους της κάμερας, ο αυτόματος αποκωδικοποιητής προσαρμόζει μια δομημένη λανθάνουσα υπεριώδη ακτινοβολία για κάθε μεμονωμένο χαρακτήρα στο σετ εκπαίδευσης. Η δυσκολία αυτής της διαδικασίας έγκειται στον τρόπο προσαρμογής ανθρώπινων εικόνων με διαφορετικές στάσεις, διαφορετικές γωνίες κάμερας και διαφορετικά ρούχα σε ένα ενιαίο λανθάνον UV, το StructLDM προτείνει δομημένο τοπικό NeRF για να μοντελοποιήσει κάθε μέρος του σώματος ξεχωριστά και χρησιμοποιεί καθολικά. στυλ στο Το μπλέντερ συγχωνεύει μέρη του σώματος μεταξύ τους και μαθαίνει τη συνολική εμφάνιση του χαρακτήρα. Επιπλέον, προκειμένου να λυθεί το πρόβλημα του σφάλματος εκτίμησης πόζας, εισάγεται η αντίθετη μάθηση στη διαδικασία εκπαίδευσης του αυτόματου αποκωδικοποιητή. Σε αυτό το στάδιο, ο αυτόματος αποκωδικοποιητής μετατρέπει κάθε μεμονωμένο χαρακτήρα του σετ εκπαίδευσης σε μια σειρά λανθάνοντων UV.

μοντέλο δομικής διάχυσης: Αυτό το μοντέλο διάχυσης μαθαίνει τον λανθάνοντα χώρο της υπεριώδους ακτινοβολίας που λαμβάνεται στο πρώτο στάδιο για να μάθει το τρισδιάστατο πριν από το ανθρώπινο σώμα.

Στο στάδιο συμπερασμάτων, το StructLDM μπορεί να δημιουργήσει τυχαία ένα τρισδιάστατο ψηφιακό άτομο: ο θόρυβος δειγματοληπτείται τυχαία και αφαιρείται από θόρυβο για να ληφθεί μια λανθάνουσα υπεριώδης ακτινοβολία, η οποία μπορεί να αποδοθεί σε μια εικόνα ανθρώπινου σώματος από έναν αυτόματο αποκωδικοποιητή.

Πειραματικά αποτελέσματα

Αυτή η μελέτη διεξήγαγε πειραματικές αξιολογήσεις σε 4 σύνολα δεδομένων: το σύνολο δεδομένων μιας εικόνας DeepFashion [Liu et al 2016], το σύνολο δεδομένων βίντεο UBCFashion [Zablotskaia et al 2019] και το πραγματικό τρισδιάστατο σύνολο δεδομένων ανθρώπινου σώματος [Yu et al. al 2021] και εικονικό τρισδιάστατο σύνολο δεδομένων ανθρώπινου σώματος RenderPeople.

3.1 Σύγκριση ποιοτικών αποτελεσμάτων

Το StructLDM συγκρίθηκε με τις υπάρχουσες μεθόδους 3D GAN στο σύνολο δεδομένων UBCFashion, όπως τα EVA3D, AG3D και StyleSDF. Σε σύγκριση με τις υπάρχουσες μεθόδους, το StructLDM μπορεί να δημιουργήσει υψηλής ποιότητας, διαφορετικούς και συνεπείς 3D ψηφιακούς ανθρώπους με σταθερές προοπτικές, όπως διαφορετικά χρώματα δέρματος, διαφορετικά χτενίσματα και λεπτομέρειες ρούχων (όπως ψηλοτάκουνα).



Το StructLDM συγκρίνεται με τις υπάρχουσες μεθόδους 3D GAN (όπως EG3D, StyleSDF και EVA3D) και το μοντέλο διάχυσης PrimDiff στο σύνολο δεδομένων RenderPeople. Σε σύγκριση με τις υπάρχουσες μεθόδους, το StructLDM μπορεί να δημιουργήσει υψηλής ποιότητας τρισδιάστατα ψηφιακά άτομα με διαφορετικές στάσεις και εμφανίσεις και να δημιουργήσει λεπτομέρειες προσώπου υψηλής ποιότητας.



3.2 Σύγκριση ποσοτικών αποτελεσμάτων

Οι ερευνητές συνέκριναν τα ποσοτικά αποτελέσματα με γνωστές μεθόδους στο UBCFashion, το RenderPeople και το THUman 2.0. Επέλεξαν τυχαία 50.000 εικόνες σε κάθε σύνολο δεδομένων για να υπολογίσουν το FID. Επιπλέον, η Μελέτη Χρήστη δείχνει ότι περίπου το 73% των χρηστών πιστεύει ότι τα αποτελέσματα που δημιουργούνται από το StructLDM είναι πιο πλεονεκτικά από το AG3D όσον αφορά τις λεπτομέρειες του προσώπου και την ποιότητα της εικόνας ολόκληρου του σώματος.



3.3 Εφαρμογή

3.3.1 Ελεγχόμενη παραγωγή

Το StructLDM υποστηρίζει ελεγχόμενη παραγωγή, όπως η προοπτική κάμερας, η στάση του σώματος, ο έλεγχος του σχήματος του σώματος και η τρισδιάστατη εικονική εφαρμογή, και μπορεί να παρεμβάλλεται σε δισδιάστατο λανθάνοντα χώρο.



3.3.2 Συνδυασμένη παραγωγή

Το StructLDM υποστηρίζει συνδυασμένη παραγωγή, όπως ο συνδυασμός εξαρτημάτων ①②③④⑤ για τη δημιουργία ενός νέου ψηφιακού ατόμου και υποστηρίζει διαφορετικές εργασίες επεξεργασίας, όπως επεξεργασία ταυτότητας, μανίκια (4), φούστες (5), τρισδιάστατη εικονική εφαρμογή (6) και στυλιζαρισμένο ολόκληρο σώμα (7).



3.3.3 Επεξεργασία εικόνων στο Διαδίκτυο

Το StructLDM μπορεί να επεξεργαστεί εικόνες από το Διαδίκτυο Πρώτα, η αντίστοιχη λανθάνουσα υπεριώδης ακτινοβολία λαμβάνεται μέσω της τεχνολογίας Inversion και στη συνέχεια τα δημιουργούμενα ψηφιακά άτομα μπορούν να επεξεργαστούν μέσω επεξεργασίας λανθάνουσας υπεριώδους ακτινοβολίας, όπως η επεξεργασία παπουτσιών, τοπ, παντελονιών κ.λπ.



3.4 Πείραμα αφαίρεσης

3.4.1 Διάχυση κρυφού χώρου

Το μοντέλο διάχυσης λανθάνοντος χώρου που προτείνεται από το StructLDM μπορεί να χρησιμοποιηθεί για διαφορετικές εργασίες επεξεργασίας, όπως η συνδυαστική δημιουργία. Το παρακάτω σχήμα διερευνά την επίδραση των παραμέτρων του μοντέλου διάχυσης, όπως ο αριθμός των βημάτων διάχυσης και η κλίμακα θορύβου, στα αποτελέσματα που παράγονται. Το StructLDM βελτιώνει την απόδοση παραγωγής ελέγχοντας τις παραμέτρους του μοντέλου διάχυσης.



3.4.2 Μονοδιάστατη και δισδιάστατη αναπαράσταση ανθρώπινου σώματος

Οι ερευνητές συνέκριναν τα αποτελέσματα της μονοδιάστατης και δισδιάστατης λανθάνουσας αναπαράστασης του ανθρώπινου σώματος και διαπίστωσαν ότι η δισδιάστατη λανθάνουσα αναπαράσταση μπορεί να δημιουργήσει λεπτομέρειες υψηλής συχνότητας (όπως υφές ρούχων και εκφράσεις προσώπου) και η προσθήκη αντίθετης μάθησης μπορεί να βελτιώσει ταυτόχρονα την ποιότητα και την πιστότητα της εικόνας .



3.4.3 Ομαλοποίηση με επίγνωση της δομής

Προκειμένου να βελτιωθεί η αποτελεσματικότητα εκμάθησης του μοντέλου διάχυσης, το StructLDM προτείνει την τεχνολογία κανονικοποίησης ευθυγραμμισμένης δομής (κανονικοποίηση ευθυγραμμισμένη με δομή), η οποία είναι η κανονικοποίηση κάθε λανθάνοντος εικονοστοιχείου προς εικονοστοιχείο. Η έρευνα έχει βρει ότι η κανονικοποιημένη λανθάνουσα κατανομή είναι πιο κοντά στην κατανομή Gaussian, η οποία είναι πιο ευνοϊκή για την εκμάθηση του μοντέλου διάχυσης.