Νέα

MotionClone: ​​Δεν απαιτείται εκπαίδευση, κλωνοποίηση κινήσεων βίντεο με ένα κλικ

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Δεν απαιτείται εκπαίδευση ή λεπτομέρεια και η κίνηση του βίντεο αναφοράς μπορεί να κλωνοποιηθεί στη νέα σκηνή που καθορίζεται από τη λέξη προτροπής Είτε πρόκειται για συνολική κίνηση της κάμερας είτε για τοπική κίνηση του σώματος, μπορεί να γίνει με ένα κλικ.



Ανακοίνωση: https://arxiv.org/abs/2406.05338

Αρχική σελίδα: https://bujiazi.github.io/motionclone.github.io/

Κωδικός: https://github.com/Bujiazi/MotionClone

Αυτό το έγγραφο προτείνει ένα νέο πλαίσιο που ονομάζεται MotionClone, δεδομένου ότι οι αντίστοιχες πληροφορίες κίνησης μπορούν να εξαχθούν χωρίς εκπαίδευση μοντέλου ή λεπτομέρεια με προσαρμοσμένη κίνηση (text2video).



Σε σύγκριση με προηγούμενες έρευνες, το MotionClone έχει τα ακόλουθα πλεονεκτήματα:

Δεν απαιτείται εκπαίδευση ή λεπτομέρεια: Οι προηγούμενες προσεγγίσεις απαιτούσαν συχνά τα μοντέλα εκπαίδευσης να κωδικοποιούν ενδείξεις κίνησης ή να βελτιστοποιούν τα μοντέλα διάχυσης βίντεο για να ταιριάζουν σε συγκεκριμένα μοτίβα κίνησης. Τα μοντέλα εκπαίδευσης για την κωδικοποίηση των ενδείξεων κίνησης έχουν χαμηλή ικανότητα γενίκευσης για κίνηση εκτός του τομέα εκπαίδευσης και η προσαρμογή των υπαρχόντων μοντέλων παραγωγής βίντεο μπορεί να βλάψει την υποκείμενη ποιότητα παραγωγής βίντεο του βασικού μοντέλου. Το MotionClone δεν απαιτεί την εισαγωγή πρόσθετης εκπαίδευσης ή λεπτομέρειας, βελτιώνοντας τις δυνατότητες γενίκευσης κίνησης, διατηρώντας παράλληλα την ποιότητα παραγωγής του βασικού μοντέλου στο μέγιστο βαθμό.

Υψηλότερη ποιότητα κίνησης: Είναι δύσκολο για τα υπάρχοντα μοντέλα βίντεο ανοιχτού κώδικα Wensheng να δημιουργήσουν μεγάλες και λογικές κινήσεις.

Καλύτερη σχέση χωρικής θέσης: Προκειμένου να αποφευχθεί η χωρική σημασιολογική αναντιστοιχία που μπορεί να προκαλείται από την κλωνοποίηση απευθείας κίνησης, το MotionClone προτείνει καθοδήγηση χωρικών σημασιολογικών πληροφοριών με βάση μάσκες διασταυρούμενης προσοχής για να βοηθήσει στη σωστή σύζευξη χωρικών σημασιολογικών πληροφοριών και πληροφοριών χωροχρονικής κίνησης.

Πληροφορίες κίνησης στη μονάδα προσωρινής προσοχής



Στην εργασία βίντεο που δημιουργείται με κείμενο, η μονάδα χρονικής προσοχής (Temporal Attention) χρησιμοποιείται ευρέως για τη μοντελοποίηση της συσχέτισης μεταξύ των καρέ των βίντεο. Δεδομένου ότι η βαθμολογία του χάρτη προσοχής στη μονάδα χρονικής προσοχής αντιπροσωπεύει τη συσχέτιση μεταξύ των πλαισίων, μια διαισθητική ιδέα είναι εάν είναι δυνατό να αναπαραχθούν οι συνδέσεις μεταξύ των πλαισίων περιορίζοντας τις βαθμολογίες προσοχής για την επίτευξη κλωνοποίησης κίνησης.

Ωστόσο, τα πειράματα διαπίστωσαν ότι η απευθείας αντιγραφή του πλήρους χάρτη προσοχής (απλός έλεγχος) μπορεί να επιτύχει μόνο πολύ πρόχειρη μεταφορά κίνησης Αυτό συμβαίνει επειδή τα περισσότερα από τα βάρη στην προσοχή αντιστοιχούν σε θόρυβο ή πολύ λεπτές πληροφορίες κίνησης, οι οποίες είναι δύσκολο να συνδυαστούν με το κείμενο αφενός Ο συνδυασμός προδιαγεγραμμένων νέων σεναρίων, αφετέρου, συγκαλύπτει δυνητικά αποτελεσματική καθοδήγηση κίνησης.

Προκειμένου να λύσει αυτό το πρόβλημα, το MotionClone εισάγει τον μηχανισμό καθοδήγησης χρονικής προσοχής (Primary temporal-attention guidance), ο οποίος χρησιμοποιεί μόνο τα κύρια στοιχεία με χρονική προσοχή για να καθοδηγεί αραιά τη δημιουργία βίντεο, φιλτράροντας έτσι τον θόρυβο και τις ανεπαίσθητες πληροφορίες κίνησης , επιτυγχάνοντας αποτελεσματική κλωνοποίηση κίνησης σε νέα σενάρια που καθορίζονται από το κείμενο.



χωρική σημασιολογική διόρθωση

Η καθοδήγηση κίνησης προσωρινής προσοχής του κύριου συστατικού μπορεί να επιτύχει την κλωνοποίηση κίνησης του βίντεο αναφοράς, αλλά δεν μπορεί να διασφαλίσει ότι το κινούμενο θέμα είναι σύμφωνο με την πρόθεση του χρήστη, γεγονός που θα μειώσει την ποιότητα της δημιουργίας βίντεο και θα οδηγήσει ακόμη και σε κακή ευθυγράμμιση του κινούμενου θέματος σε ορισμένες περιπτώσεις.

Προκειμένου να λύσει τα παραπάνω προβλήματα, το MotionClone εισάγει έναν μηχανισμό σημασιολογικής καθοδήγησης χωρικού (Location-aware semantic guidance), διαιρεί τις μπροστινές και πίσω περιοχές φόντου του βίντεο μέσω μιας μάσκας Cross Attention Mask και διασφαλίζει τη χωρική σημασιολογία περιορίζοντας αντίστοιχα τις σημασιολογικές πληροφορίες του το μπροστινό και το πίσω φόντο του βίντεο Η ορθολογική διάταξη προωθεί τη σωστή σύζευξη της χρονικής κίνησης και της χωρικής σημασιολογίας.

Λεπτομέρειες υλοποίησης MotionClone



Αναστροφή DDIM: Το MotionClone χρησιμοποιεί την Αναστροφή DDIM για να αναστρέψει το βίντεο αναφοράς εισόδου σε λανθάνον χώρο για να επιτύχει την εξαγωγή του κύριου στοιχείου χρονικής προσοχής του βίντεο αναφοράς.

Στάδιο καθοδήγησης: Κατά τη διάρκεια κάθε αποθορυβοποίησης, το MotionClone εισάγει ταυτόχρονα το κύριο συστατικό καθοδήγηση κίνησης χρονικής προσοχής και καθοδήγηση χωρικών σημασιολογικών πληροφοριών, που συνεργάζονται για να παρέχουν ολοκληρωμένη κίνηση και σημασιολογική καθοδήγηση για ελεγχόμενη παραγωγή βίντεο.

Μάσκα Gauss: Στον μηχανισμό σημασιολογικής καθοδήγησης του χώρου, η συνάρτηση πυρήνα Gauss χρησιμοποιείται για να θολώσει τη μάσκα διασταυρούμενης προσοχής για να εξαλείψει την επίδραση πιθανών δομικών πληροφοριών.

Για τη δοκιμή χρησιμοποιήθηκαν 30 βίντεο από το σύνολο δεδομένων DAVIS. Τα πειραματικά αποτελέσματα δείχνουν ότι το MotionClone έχει επιτύχει σημαντικές βελτιώσεις στην προσαρμογή του κειμένου, τη συνοχή του χρόνου και τους πολλαπλούς δείκτες έρευνας χρηστών, ξεπερνώντας τις προηγούμενες μεθόδους μεταφοράς κίνησης Τα συγκεκριμένα αποτελέσματα φαίνονται στον παρακάτω πίνακα.



Η σύγκριση των αποτελεσμάτων δημιουργίας του MotionClone και των υφιστάμενων μεθόδων μεταφοράς κίνησης φαίνεται στο παρακάτω σχήμα.



Συνοψίζοντας, το MotionClone είναι ένα νέο πλαίσιο μεταφοράς κίνησης που μπορεί να κλωνοποιήσει αποτελεσματικά την κίνηση στο βίντεο αναφοράς στη νέα σκηνή που καθορίζεται από την προτρεπτική λέξη του χρήστη χωρίς την ανάγκη εκπαίδευσης ή λεπτομέρειας Τα μοντέλα βίντεο παρέχουν plug-and-play αθλητική προσαρμογή.

Το MotionClone εισάγει αποτελεσματική καθοδήγηση πληροφοριών κίνησης βασικού στοιχείου και χωρική σημασιολογική καθοδήγηση με βάση τη διατήρηση της ποιότητας παραγωγής του υπάρχοντος βασικού μοντέλου, ενώ διασφαλίζει τη σημασιολογική ικανότητα ευθυγράμμισης με το κείμενο, βελτιώνει σημαντικά τη συνοχή της κίνησης με το βίντεο αναφοράς και επιτυγχάνει υψηλή ποιότητα. - ελεγχόμενη παραγωγή βίντεο.

Επιπλέον, το MotionClone μπορεί να προσαρμοστεί άμεσα σε μοντέλα πλούσιας κοινότητας για να επιτύχει διαφοροποιημένη παραγωγή βίντεο και έχει εξαιρετικά υψηλή επεκτασιμότητα.