Νέα

Πολύπλοκος συνδυασμός δημιουργίας σκηνών 3D, LLMs συνομιλίας 3D ελεγχόμενης δημιουργίας και πλαισίου επεξεργασίας είναι εδώ

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Ο πρώτος συγγραφέας και ο αντίστοιχος συγγραφέας αυτής της εργασίας είναι και οι δύο από το Εργαστήριο VDIG (Visual Data Interpreting and Generation) του Ινστιτούτου Επιστήμης Υπολογιστών Wangxuan, στο Πανεπιστήμιο του Πεκίνου. . Τα τελευταία χρόνια, το εργαστήριο VDIG έχει δημοσιεύσει μια σειρά από αντιπροσωπευτικά αποτελέσματα σε κορυφαία συνέδρια όπως IJCV, CVPR, AAAI, ICCV, ICML και ECCV στο εσωτερικό και στο εξωτερικό για πολλές φορές, και έχει κερδίσει βραβεία από γνωστά πανεπιστήμια του εσωτερικού και του εξωτερικού, επιστημονικά ερευνητικά ιδρύματα συνεργάζονται εκτενώς.

Τα τελευταία χρόνια, οι μέθοδοι Text-to-3D για μεμονωμένα αντικείμενα έχουν κάνει μια σειρά από ανακαλύψεις, αλλά η δημιουργία ελεγχόμενων, υψηλής ποιότητας πολύπλοκων 3D σκηνών πολλαπλών αντικειμένων από κείμενο εξακολουθεί να αντιμετωπίζει τεράστιες προκλήσεις. Οι προηγούμενες μέθοδοι έχουν μεγάλα ελαττώματα στην πολυπλοκότητα, τη γεωμετρική ποιότητα, τη συνέπεια της υφής, την αλληλεπίδραση πολλών αντικειμένων, τη δυνατότητα ελέγχου και την επεξεργασιμότητα της παραγόμενης σκηνής.

Πρόσφατα, η ερευνητική ομάδα VDIG από το Ινστιτούτο Επιστήμης Υπολογιστών Wangxuan στο Πανεπιστήμιο του Πεκίνου και οι συνεργάτες της ανακοίνωσαν τα τελευταία ερευνητικά αποτελέσματα GALA3D. Για τη δημιουργία σύνθετων τρισδιάστατων σκηνών πολλαπλών αντικειμένων, αυτή η εργασία προτείνει ένα ελεγχόμενο πλαίσιο παραγωγής LLM για σύνθετες σκηνές 3D, το GALA3D, το οποίο μπορεί να δημιουργήσει υψηλής ποιότητας, υψηλής συνέπειας 3D σκηνές με πολλαπλά αντικείμενα και σύνθετες διαδραστικές σχέσεις και υποστηρίζει Συνομιλητική αλληλεπίδραση, η εργασία έγινε αποδεκτή από το ICML 2024.



论文标题:GALA3D: Προς τη δημιουργία σύνθετης σκηνής από κείμενο σε 3D μέσω Generative Gaussian Splatting καθοδηγούμενη από διάταξη

Σύνδεσμος χαρτιού: https://arxiv.org/pdf/2402.07207

Κωδικός χαρτιού: https://github.com/VDIGPKU/GALA3D

Ιστοσελίδα του έργου: https://gala3d.github.io/



Το GALA3D είναι ένα υψηλής ποιότητας σύνθετο συνδυασμό δημιουργίας σκηνών από κείμενο σε 3D και ελεγχόμενο πλαίσιο επεξεργασίας. Ο χρήστης εισάγει ένα κείμενο περιγραφής και το GALA3D μπορεί να δημιουργήσει την αντίστοιχη τρισδιάστατη σκηνή με πολλά αντικείμενα και σύνθετες διαδραστικές σχέσεις σε μηδενική λήψη. Ενώ διασφαλίζει ότι η παραγόμενη τρισδιάστατη σκηνή είναι σε μεγάλο βαθμό ευθυγραμμισμένη με το κείμενο, το GALA3D επιδεικνύει την εξαιρετική του απόδοση στη δημιουργία ποιότητας σκηνής, σύνθετης αλληλεπίδρασης πολλαπλών αντικειμένων και γεωμετρικής συνέπειας σκηνής. Επιπλέον, το GALA3D υποστηρίζει επίσης φιλική προς το χρήστη παραγωγή από άκρο σε άκρο και ελεγχόμενη επεξεργασία, επιτρέποντας στους απλούς χρήστες να προσαρμόζουν και να επεξεργάζονται εύκολα τρισδιάστατες σκηνές κατά τη διάρκεια συνομιλιών. Κατά την επικοινωνία με τους χρήστες, το GALA3D μπορεί να πραγματοποιήσει με ακρίβεια τη συνομιλία και ελεγχόμενη επεξεργασία σύνθετων 3D σκηνών και να πραγματοποιήσει διάφορες ελεγχόμενες ανάγκες επεξεργασίας, όπως ο μετασχηματισμός διάταξης σύνθετων τρισδιάστατων σκηνών, η ενσωμάτωση ψηφιακών στοιχείων και οι αλλαγές στυλ διακόσμησης με βάση το διάλογο των χρηστών.

Εισαγωγή μεθόδου

Η συνολική αρχιτεκτονική του GALA3D φαίνεται στο παρακάτω σχήμα:



Το GALA3D χρησιμοποιεί μεγάλα γλωσσικά μοντέλα (LLM) για τη δημιουργία αρχικών διατάξεων και προτείνει μια παραγωγική τρισδιάστατη αναπαράσταση Gaussian καθοδηγούμενη από διάταξη για την κατασκευή σύνθετων τρισδιάστατων σκηνών. Το GALA3D Design βελτιστοποιεί το σχήμα και την κατανομή των 3D Gaussians μέσω προσαρμοστικού ελέγχου γεωμετρίας για τη δημιουργία τρισδιάστατων σκηνών με σταθερή γεωμετρία, υφή, κλίμακα και ακριβείς αλληλεπιδράσεις. Επιπλέον, το GALA3D προτείνει επίσης έναν συνδυασμένο μηχανισμό βελτιστοποίησης που συνδυάζει προτεραιότητες διάχυσης υπό όρους και μοντέλα γραφημάτων Vincentian για να δημιουργήσει συνεργατικά τρισδιάστατες σκηνές πολλαπλών αντικειμένων με συνεπή στυλ, ενώ βελτιστοποιεί επαναληπτικά τις αρχικές προτεραιότητες της διάταξης που εξάγονται από LLM για να αποκτήσει πιο ρεαλιστική και ακριβή την πραγματική σκηνή διάταξη χώρου. Εκτεταμένα ποσοτικά πειράματα και ποιοτικές μελέτες δείχνουν ότι το GALA3D επιτυγχάνει σημαντικά αποτελέσματα στη δημιουργία σύνθετων τρισδιάστατων σκηνών από κείμενο, ξεπερνώντας τις υπάρχουσες μεθόδους τρισδιάστατης σκηνής Vincent.

α. Διάταξη σκηνής με βάση τα LLM

Τα μεγάλα γλωσσικά μοντέλα επιδεικνύουν άριστες δυνατότητες κατανόησης και συλλογιστικής φυσικής γλώσσας Αυτό το άρθρο διερευνά περαιτέρω τις δυνατότητες δημιουργίας συλλογισμού και διάταξης των μεγάλων γλωσσικών μοντέλων LLM σε 3D πολύπλοκες σκηνές. Ο τρόπος απόκτησης μιας σχετικά λογικής διάταξης πριν χωρίς χειροκίνητο σχεδιασμό μπορεί να βοηθήσει στη μείωση του κόστους μοντελοποίησης και δημιουργίας σκηνής. Για το σκοπό αυτό, χρησιμοποιούμε LLMs (όπως το GPT-3.5) για να εξαγάγουμε παρουσίες εισαγωγής κειμένου και τις χωρικές τους σχέσεις και να δημιουργήσουμε αντίστοιχες προτεραιότητες διάταξης. Ωστόσο, υπάρχει ένα συγκεκριμένο κενό μεταξύ της τρισδιάστατης χωρικής διάταξης και της διάταξης πριν από τη σκηνή που ερμηνεύεται από τα LLM και της πραγματικής σκηνής, που συνήθως οδηγεί στη δημιουργία αντικειμένων που αιωρούνται/διέρχονται, συνδυασμούς αντικειμένων με υπερβολικά διαφορετικές αναλογίες κ.λπ. Επιπλέον, προτείνουμε μια ενότητα Βελτιστοποίησης Διάταξης για την προσαρμογή και τη βελτιστοποίηση της πρόχειρης διάταξης που δημιουργήθηκε παραπάνω μέσω του γενετικού τρισδιάστατου Gaussian με βάση το όραμα και το 3D Gaussian που καθοδηγείται από τη διάταξη.

β, Βελτίωση διάταξης

Το GALA3D χρησιμοποιεί τη μονάδα βελτιστοποίησης διάταξης διάταξης που βασίζεται στη διάχυση πριν από τη βελτιστοποίηση της διάταξης που δημιουργήθηκε από τα παραπάνω LLM. Συγκεκριμένα, προσθέσαμε τη βελτιστοποίηση κλίσης της διάταξης 3D Gaussian που καθοδηγείται από τη διάταξη στη διαδικασία δημιουργίας 3D και προσαρμόσαμε τη χωρική θέση, τη γωνία περιστροφής και τον λόγο μεγέθους των Διατάξεων που δημιουργούνται από το LLM μέσω του ControlNet. Το σχήμα δείχνει την τρισδιάστατη σκηνή και τη διάταξη μετά τη βελτιστοποίηση. Η βελτιστοποιημένη διάταξη έχει πιο ακριβή χωρική θέση και κλίμακα και κάνει πιο λογική τη διαδραστική σχέση πολλών αντικειμένων στην τρισδιάστατη σκηνή.



γ. Δημιουργική 3D Gaussian αναπαράσταση καθοδηγούμενη από διάταξη

Εισάγουμε περιορισμούς 3D-Layout στην τρισδιάστατη αναπαράσταση Gaussian για πρώτη φορά και προτείνουμε ένα γενετικό 3D Gaussian καθοδηγούμενο από διάταξη για πολύπλοκες 3D σκηνές. Η 3D Gaussian αναπαράσταση καθοδηγούμενη από διάταξη περιέχει πολλαπλά σημασιολογικά εξαγόμενα στιγμιότυπα αντικείμενα, όπου το Layout πριν από κάθε αντικείμενο παρουσίας μπορεί να παραμετροποιηθεί ως:

Μεταξύ αυτών, το N αντιπροσωπεύει τον συνολικό αριθμό των αντικειμένων παρουσίας στη σκηνή. Συγκεκριμένα, κάθε τρισδιάστατο Gaussian παρουσίας βελτιστοποιείται μέσω προσαρμοστικού ελέγχου γεωμετρίας για να ληφθεί μια τρισδιάστατη Gaussian αναπαράσταση αντικειμένου σε επίπεδο παρουσίας. Επιπλέον, συνδυάζουμε πολλαπλά Gaussians αντικειμένων σε ολόκληρη τη σκηνή σύμφωνα με τις σχετικές σχέσεις θέσης, δημιουργούμε καθολικά 3D Gaussians καθοδηγούμενα από διάταξη και αποδίδουμε ολόκληρη τη σκηνή μέσω καθολικού Gaussian Splatting.

δ. Προσαρμοστικός έλεγχος γεωμετρίας

Προκειμένου να ελέγξουμε καλύτερα τη χωρική κατανομή και το γεωμετρικό σχήμα των 3D Gaussians κατά τη διαδικασία παραγωγής, προτείνουμε μια προσαρμοστική μέθοδο ελέγχου γεωμετρίας για γενεσιακούς 3D Gaussians. Πρώτον, δεδομένου ενός συνόλου αρχικών Gaussians, προκειμένου να περιοριστούν τα 3D Gaussians εντός της περιοχής Layout, το GALA3D χρησιμοποιεί ένα σύνολο συναρτήσεων κατανομής πυκνότητας για να περιορίσει τη χωρική θέση του Gaussian ελλειψοειδούς. Στη συνέχεια λαμβάνουμε δείγμα Gaussian κοντά στην επιφάνεια Layout για να ταιριάζει στη συνάρτηση κατανομής. Στη συνέχεια, προτείνουμε να χρησιμοποιήσουμε την τακτοποίηση σχήματος για τον έλεγχο της γεωμετρίας των 3D Gaussians. Κατά τη διαδικασία δημιουργίας 3D, ο προσαρμοστικός έλεγχος γεωμετρίας βελτιστοποιεί συνεχώς την κατανομή και τη γεωμετρία των Gaussians για να δημιουργήσει τρισδιάστατα πολλαπλά αντικείμενα και σκηνές με περισσότερες λεπτομέρειες υφής και τυποποιημένη γεωμετρία. Ο προσαρμοστικός έλεγχος γεωμετρίας εξασφαλίζει επίσης δημιουργούμενα 3D Gaussians καθοδηγούμενα από τη διάταξη με μεγαλύτερη δυνατότητα ελέγχου και συνέπεια.

Πειραματικά αποτελέσματα

Σε σύγκριση με τις υπάρχουσες μεθόδους δημιουργίας Text-to-3D, το GALA3D δείχνει καλύτερη ποιότητα και συνέπεια δημιουργίας 3D σκηνής Τα ποσοτικά πειραματικά αποτελέσματα φαίνονται στον ακόλουθο πίνακα:



Πραγματοποιήσαμε επίσης μια εκτενή και αποτελεσματική έρευνα χρηστών, προσκαλώντας 125 συμμετέχοντες (39,2% από τους οποίους ήταν ειδικοί και επαγγελματίες σε συναφείς τομείς) να πραγματοποιήσουν μια πολυγωνική αξιολόγηση των σεναρίων παραγωγής αυτής της μεθόδου και των υφιστάμενων μεθόδων παρακάτω πίνακας:



Τα πειραματικά αποτελέσματα δείχνουν ότι το GALA3D ξεπερνά τις υπάρχουσες μεθόδους σε δείκτες πολυδιάστατης αξιολόγησης, όπως η ποιότητα σκηνής, η γεωμετρική πιστότητα, η συνέπεια του κειμένου και η συνέπεια της σκηνής, και επιτυγχάνει τη βέλτιστη ποιότητα παραγωγής.

Όπως φαίνεται στα ποιοτικά πειραματικά αποτελέσματα παρακάτω, το GALA3D μπορεί να δημιουργήσει σύνθετες σκηνές 3D συνδυασμού πολλών αντικειμένων με τρόπο μηδενικής λήψης με καλή συνέπεια:



Το παρακάτω σχήμα δείχνει ότι το GALA3D μπορεί να υποστηρίξει φιλική προς το χρήστη, συνομιλία και ελεγχόμενη δημιουργία και επεξεργασία:



Για περισσότερες λεπτομέρειες έρευνας, ανατρέξτε στην αρχική εργασία.