Νέα

Kuaishou ανοιχτού κώδικα LivePortrait, GitHub 6.6K Star, για την επίτευξη εξαιρετικά γρήγορης μετανάστευσης εκφράσεων και στάσεων

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Κυκλοφόρησε το Heart of the Machine

Τμήμα Σύνταξης Machine Heart

Πρόσφατα, η μεγάλη ομάδα μοντέλων Kuaishou Keling δημιούργησε ένα έργο που ονομάζεταιLivePortrait Ένα ελεγχόμενο πλαίσιο δημιουργίας βίντεο πορτρέτου που μπορεί να μεταφέρει με ακρίβεια και σε πραγματικό χρόνο τις εκφράσεις και τις στάσεις που οδηγούν το βίντεο σε στατικά ή δυναμικά βίντεο με πορτραίτο για να δημιουργήσει εξαιρετικά εκφραστικά αποτελέσματα βίντεο. Όπως φαίνεται στο παρακάτω animation:



Από χρήστες που δοκιμάζουν το LivePortrait



Από χρήστες που δοκιμάζουν το LivePortrait

Ο αντίστοιχος τίτλος χαρτιού του ανοιχτού κώδικα LivePortrait του Kuaishou είναι:

《 LivePortrait: Αποτελεσματικό πορτραίτο animation με έλεγχο ραφής και επαναστόχευσης 》



Αρχική σελίδα χαρτιού LivePortrait

Επιπλέον, το LivePortrait είναι διαθέσιμο αμέσως μόλις κυκλοφορήσει, ακολουθώντας το στυλ Kuaishou, συνδέοντας χαρτιά, αρχικές σελίδες και κωδικούς με ένα κλικ. Μόλις το LivePortrait ήταν ανοιχτού κώδικα, έγινεClément Delangue, Διευθύνων Σύμβουλος της HuggingFaceΑκολουθήστε και κάντε retweet,Chief Strategy Officer Thomas WolfΚαι εγώ προσωπικά βίωσα τη λειτουργία, είναι εκπληκτικό!



Και κέντρισε την προσοχή των διαδικτυακών χρηστών σε όλο τον κόσμοΑξιολόγηση μεγάλης κλίμακας



Τα υλικά του βίντεο κλιπ είναι όλα από το X

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ks58a60d 36a0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Ταυτόχρονα, το LivePotrait έχει λάβει ευρεία προσοχή από την κοινότητα ανοιχτού κώδικα σε λίγο περισσότερο από μια εβδομάδα6.4K Stars, 550 Forks, 140 Issues&PR, έχει επαινεθεί ευρέως και η προσοχή εξακολουθεί να αυξάνεται:



Επιπλέον, λίστα τάσεων HuggingFace Space, Papers with codeΚατατάχθηκε πρώτη για μια εβδομάδα στη σειρά, πρόσφατα βρέθηκε στην κορυφή της κατάταξης όλων των θεμάτων του HuggingFaceΠρώτος στη λίστα



Χώρος HuggingFace No. 1



Έγγραφα με λίστα κωδικών 1



HuggingFace όλα τα θέματα κατάταξη ένα

Για περισσότερες πληροφορίες πόρων, μπορείτε να δείτε:

  • Διεύθυνση κώδικα: https://github.com/KwaiVGI/LivePortrait
  • Σύνδεσμος χαρτιού: https://arxiv.org/abs/2407.03168
  • Αρχική σελίδα του έργου: https://liveportrait.github.io/
  • Διαδικτυακή εμπειρία με ένα κλικ στο HuggingFace Space: https://huggingface.co/spaces/KwaiVGI/LivePortrait

Τι είδους τεχνολογία χρησιμοποιεί το LivePortrait για να γίνει γρήγορα δημοφιλές σε ολόκληρο το Διαδίκτυο;

Εισαγωγή μεθόδου

Διαφορετικά από τις τρέχουσες κύριες μεθόδους που βασίζονται σε μοντέλα διάχυσης, το LivePortrait διερευνά και επεκτείνει τις δυνατότητες του σιωπηρού πλαισίου βασισμένου σε σημεία κλειδιού, εξισορροπώντας έτσι την απόδοση υπολογισμού του μοντέλου και τη δυνατότητα ελέγχου. Το LivePortrait εστιάζει στην καλύτερη γενίκευση, δυνατότητα ελέγχου και πρακτική αποτελεσματικότητα. Προκειμένου να βελτιωθούν οι δυνατότητες παραγωγής και η δυνατότητα ελέγχου, το LivePortrait χρησιμοποιεί 69M πλαίσια εκπαίδευσης υψηλής ποιότητας, μια υβριδική στρατηγική εκπαίδευσης βίντεο-εικόνων, αναβάθμισε τη δομή του δικτύου και σχεδίασε καλύτερες μεθόδους μοντελοποίησης και βελτιστοποίησης ενεργειών. Επιπλέον, το LivePortrait θεωρεί τα έμμεσα βασικά σημεία ως μια αποτελεσματική σιωπηρή αναπαράσταση της παραμόρφωσης του μείγματος προσώπου (Blendshape) και προτείνει προσεκτικά μονάδες ραφής και επαναστόχευσης με βάση αυτό. Αυτές οι δύο μονάδες είναι ελαφριά δίκτυα MLP, επομένως, ενώ βελτιώνεται η δυνατότητα ελέγχου, το υπολογιστικό κόστος μπορεί να αγνοηθεί. Ακόμη και σε σύγκριση με ορισμένες υπάρχουσες μεθόδους που βασίζονται σε μοντέλα διάχυσης, το LivePortrait εξακολουθεί να είναι πολύ αποτελεσματικό. Ταυτόχρονα, στη GPU RTX4090, η ταχύτητα παραγωγής ενός καρέ του LivePortrait μπορεί να φτάσει τα 12,8 ms Εάν βελτιστοποιηθεί περαιτέρω, όπως το TensorRT, αναμένεται να φτάσει τα 10 ms!

Η εκπαίδευση μοντέλων του LivePortrait χωρίζεται σε δύο στάδια. Το πρώτο στάδιο είναι η βασική εκπαίδευση μοντέλων και το δεύτερο στάδιο είναι η εκπαίδευση της ενότητας προσαρμογής και ανακατεύθυνσης.

Το πρώτο στάδιο της βασικής εκπαίδευσης μοντέλου



Το πρώτο στάδιο της βασικής εκπαίδευσης μοντέλου

Στο πρώτο στάδιο της εκπαίδευσης μοντέλων, το LivePortrait πραγματοποίησε μια σειρά βελτιώσεων σε σιωπηρά πλαίσια που βασίζονται σε σημεία, όπως το Face Vid2vid[1], συμπεριλαμβανομένων:

Συλλογή δεδομένων εκπαίδευσης υψηλής ποιότητας : Το LivePortrait υιοθετεί το δημόσιο σύνολο δεδομένων βίντεο Voxceleb[2], MEAD[3], RAVDESS[4] και το τυποποιημένο σύνολο δεδομένων εικόνων AAHQ[5]. Επιπλέον, χρησιμοποιούνται πορτρέτα βίντεο μεγάλης κλίμακας ανάλυσης 4K, συμπεριλαμβανομένων διαφορετικών εκφράσεων και στάσεων, περισσότερων από 200 ωρών ομιλίας βίντεο με πορτραίτο, ενός ιδιωτικού σετ δεδομένων LightStage [6] και ορισμένων στυλιζαρισμένων βίντεο και εικόνων. Το LivePortrait χωρίζει τα μεγάλα βίντεο σε τμήματα μικρότερα από 30 δευτερόλεπτα και διασφαλίζει ότι κάθε τμήμα περιέχει μόνο ένα άτομο. Προκειμένου να διασφαλιστεί η ποιότητα των δεδομένων εκπαίδευσης, το LivePortrait χρησιμοποιεί το KVQ του Kuaishou [7] (η μέθοδος αξιολόγησης ποιότητας βίντεο του Kuaishou που έχει αναπτύξει μόνος του, η οποία μπορεί να αντιληφθεί πλήρως την ποιότητα, το περιεχόμενο, τη σκηνή, την αισθητική, την κωδικοποίηση, τον ήχο και άλλα χαρακτηριστικά του το βίντεο για εκτέλεση πολυδιάστατης αξιολόγησης ) για φιλτράρισμα βίντεο κλιπ χαμηλής ποιότητας. Τα συνολικά δεδομένα εκπαίδευσης περιλαμβάνουν 69 εκατομμύρια βίντεο, συμπεριλαμβανομένων 18,9 χιλιάδων ταυτοτήτων και 60 χιλιάδων στατικών στυλιζαρισμένων πορτρέτων.

Υβριδική εκπαίδευση βίντεο-εικόνας : Ένα μοντέλο που εκπαιδεύεται χρησιμοποιώντας μόνο βίντεο πραγματικών ανθρώπων έχει καλή απόδοση για πραγματικούς ανθρώπους, αλλά δεν γενικεύεται καλά σε στυλιζαρισμένα άτομα (όπως anime). Τα στυλιζαρισμένα πορτραίτα βίντεο είναι πιο σπάνια, με το LivePortrait να συλλέγει μόνο περίπου 1,3K βίντεο κλιπ από λιγότερες από 100 ταυτότητες. Αντίθετα, οι υψηλής ποιότητας στυλιζαρισμένες εικόνες πορτρέτου είναι πιο άφθονες. Για να εκμεταλλευτεί και τους δύο τύπους δεδομένων, το LivePortrait αντιμετωπίζει κάθε εικόνα ως βίντεο κλιπ και εκπαιδεύει το μοντέλο τόσο σε βίντεο όσο και σε εικόνες ταυτόχρονα. Αυτή η υβριδική εκπαίδευση βελτιώνει την ικανότητα γενίκευσης του μοντέλου.

Αναβαθμισμένη δομή δικτύου : Το LivePortrait ενοποιεί το κανονικό σιωπηρό δίκτυο εκτίμησης σημείων κλειδιού (L), το δίκτυο εκτίμησης θέσης κεφαλής (H) και το δίκτυο εκτίμησης παραμόρφωσης έκφρασης (Δ) σε ένα ενιαίο μοντέλο (M) και χρησιμοποιεί το ConvNeXt-V2-Tiny[8] ως Είναι δομημένο για να εκτιμά άμεσα τα κανονικά έμμεσα σημεία κλειδιά, τις θέσεις της κεφαλής και τις παραμορφώσεις έκφρασης των εικόνων εισόδου. Επιπλέον, εμπνευσμένο από τη σχετική εργασία του face vid2vid, το LivePortrait χρησιμοποιεί τον πιο αποτελεσματικό αποκωδικοποιητή του SPADE [9] ως γεννήτρια (G). Τα λανθάνοντα χαρακτηριστικά (fs) τροφοδοτούνται σχολαστικά στον αποκωδικοποιητή SPADE μετά την παραμόρφωση, όπου κάθε κανάλι των λανθάνοντων χαρακτηριστικών χρησιμεύει ως σημασιολογικός χάρτης για τη δημιουργία της οδηγούμενης εικόνας. Προκειμένου να βελτιωθεί η αποτελεσματικότητα, το LivePortrait εισάγει επίσης το επίπεδο PixelShuffle[10] ως το τελευταίο επίπεδο του (G), αυξάνοντας έτσι την ανάλυση από 256 σε 512.

Πιο ευέλικτη μοντελοποίηση μετασχηματισμού δράσης : Η μέθοδος υπολογισμού και μοντελοποίησης των αρχικών σιωπηρών βασικών σημείων αγνοεί τον συντελεστή κλιμάκωσης, με αποτέλεσμα η κλίμακα να μαθαίνεται εύκολα στον συντελεστή έκφρασης, καθιστώντας την εκπαίδευση πιο δύσκολη. Για να λύσει αυτό το πρόβλημα, το LivePortrait εισάγει παράγοντες κλιμάκωσης στη μοντελοποίηση. Το LivePortrait διαπίστωσε ότι η κλιμάκωση κανονικών προβολών μπορεί να οδηγήσει σε υπερβολικά ευέλικτους συντελεστές έκφρασης που μπορούν να μάθουν, προκαλώντας προσκόλληση υφής όταν οδηγούνται σε διαφορετικές ταυτότητες. Επομένως, ο μετασχηματισμός που υιοθετήθηκε από το LivePortrait είναι ένας συμβιβασμός μεταξύ ευελιξίας και οδηγικής ικανότητας.

Έμμεση βελτιστοποίηση σημείων κλειδιού καθοδηγούμενη από κλειδιά : Το αρχικό σιωπηρό πλαίσιο σημείου φαίνεται να στερείται της ικανότητας να καθοδηγεί έντονα τις εκφράσεις του προσώπου, όπως τα βλεφαρίσματα και τις κινήσεις των ματιών. Συγκεκριμένα, η κατεύθυνση του βολβού του ματιού και ο προσανατολισμός του κεφαλιού του πορτρέτου στα αποτελέσματα οδήγησης τείνουν να παραμένουν παράλληλοι. Το LivePortrait αποδίδει αυτούς τους περιορισμούς στη δυσκολία της εκμάθησης λεπτών εκφράσεων του προσώπου χωρίς επίβλεψη. Για την επίλυση αυτού του προβλήματος, το LivePortrait εισάγει 2D keypoints για την καταγραφή μικροεκφράσεων, χρησιμοποιώντας την απώλεια καθοδηγούμενης από το κλειδί (Lguide) ως οδηγό για σιωπηρή βελτιστοποίηση σημείων κλειδιού.

Λειτουργία καταρράκτη απώλειας : Το LivePortrait χρησιμοποιεί την σιωπηρή αμετάβλητη απώλεια κλειδιού (LE), την προηγούμενη απώλεια κλειδιού (LL), την απώλεια θέσης κεφαλής (LH) και την προηγούμενη απώλεια παραμόρφωσης (LΔ) του προσώπου vid2vid. Προκειμένου να βελτιωθεί περαιτέρω η ποιότητα της υφής, το LivePortrait χρησιμοποιεί αντιληπτικές απώλειες και απώλειες GAN, οι οποίες δεν εφαρμόζονται μόνο στον καθολικό τομέα της εικόνας εισόδου, αλλά και στον τοπικό τομέα του προσώπου και του στόματος, που καταγράφονται ως απώλεια αντιληπτικής καταρράκτη (LP, cascade ) και cascade GAN (LG, cascade). Οι περιοχές του προσώπου και του στόματος ορίζονται από δισδιάστατα σημασιολογικά σημεία-κλειδιά. Το LivePortrait χρησιμοποιεί επίσης απώλεια ταυτότητας προσώπου (Lfaceid) για να διατηρήσει την ταυτότητα της εικόνας αναφοράς.

Όλες οι ενότητες στο πρώτο στάδιο εκπαιδεύονται από την αρχή και η συνολική συνάρτηση βελτιστοποίησης προπόνησης (Lbase) είναι το σταθμισμένο άθροισμα των παραπάνω όρων απώλειας.

Εκπαίδευση ενότητας προσαρμογής και ανακατεύθυνσης δεύτερης φάσης

Το LivePortrait αντιμετωπίζει τα έμμεσα βασικά σημεία ως μια σιωπηρή υβριδική παραμόρφωση και διαπιστώνει ότι αυτός ο συνδυασμός μπορεί να μάθει καλύτερα με τη βοήθεια ενός ελαφρού MLP και το υπολογιστικό κόστος είναι αμελητέο. Λαμβάνοντας υπόψη τις πραγματικές ανάγκες, το LivePortrait σχεδίασε μια μονάδα προσαρμογής, μονάδα ανακατεύθυνσης ματιών και μονάδα ανακατεύθυνσης στόματος. Όταν το πορτρέτο αναφοράς περικοπεί, το οδηγούμενο πορτρέτο θα επικολληθεί πίσω στον αρχικό χώρο της εικόνας από τον χώρο περικοπής. Ως αποτέλεσμα, το LivePortrait μπορεί να βασίζεται στη δράση για μεγαλύτερα μεγέθη εικόνων ή ομαδικές φωτογραφίες. Η μονάδα επαναστόχευσης ματιών έχει σχεδιαστεί για να λύνει το πρόβλημα του ατελούς κλεισίματος των ματιών κατά την οδήγηση σε διαφορετικές ταυτότητες, ειδικά όταν ένα πορτρέτο με μικρά μάτια οδηγεί ένα πορτρέτο με μεγάλα μάτια. Η ιδέα σχεδίασης της μονάδας ανακατεύθυνσης στόματος είναι παρόμοια με αυτή της μονάδας ανακατεύθυνσης ματιών. Εξομαλύνει την είσοδο οδηγώντας το στόμιο της εικόνας αναφοράς σε κλειστή κατάσταση για καλύτερη οδήγηση.



Το δεύτερο στάδιο εκπαίδευσης μοντέλου: εκπαίδευση ενότητας προσαρμογής και ανακατεύθυνσης

Fit module : Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, οι είσοδοι της μονάδας προσαρμογής (S) είναι τα άρρητα βασικά σημεία (xs) της εικόνας αναφοράς και τα άρρητα βασικά σημεία (xd) ενός άλλου πλαισίου που βασίζεται στην ταυτότητα και τα έμμεσα βασικά σημεία οδήγησης (xd ) εκτιμώνται Το ποσό της αλλαγής έκφρασης (Δst). Μπορεί να φανεί ότι, σε αντίθεση με το πρώτο στάδιο, το LivePortrait χρησιμοποιεί ενέργειες πολλαπλής ταυτότητας για να αντικαταστήσει τις ενέργειες ίδιας ταυτότητας για να αυξήσει τη δυσκολία της εκπαίδευσης, με στόχο να κάνει την ενότητα προσαρμογής να έχει καλύτερη γενίκευση. Στη συνέχεια, το έμμεσο σημείο κλειδιού προγράμματος οδήγησης (xd) ενημερώνεται και η αντίστοιχη έξοδος προγράμματος οδήγησης είναι (Ip,st). Το LivePortrait εξάγει επίσης εικόνες που ανακατασκευάζονται μόνοι τους (Ip, recon) σε αυτό το στάδιο. Τέλος, η συνάρτηση απώλειας (Lst) της μονάδας προσαρμογής υπολογίζει την απώλεια συνοχής εικονοστοιχείων στις δύο περιοχές των ώμων και την απώλεια κανονικοποίησης της διακύμανσης προσαρμογής.

Μονάδα ανακατεύθυνσης ματιών και στόματος : Η είσοδος της μονάδας αναπροσανατολισμού ματιών (Reyes) είναι το έμμεσο σημείο κλειδιού της εικόνας αναφοράς (xs), η κατάσταση ανοίγματος ματιών εικόνας αναφοράς πλειάδα και ένας τυχαίος συντελεστής ανοίγματος ματιών οδήγησης, εκτιμώντας έτσι την παραμόρφωση του σημείου κλειδιού οδήγησης Αλλαγή ποσότητας (Δeyes ). Η πλειάδα κατάστασης ανοίγματος των ματιών αντιπροσωπεύει την αναλογία ανοίγματος των ματιών και όσο μεγαλύτερη είναι, τόσο μεγαλύτερος είναι ο βαθμός ανοίγματος των ματιών. Ομοίως, οι είσοδοι της μονάδας ανακατεύθυνσης στόματος (Rlip) είναι τα έμμεσα βασικά σημεία (xs) της εικόνας αναφοράς, ο συντελεστής συνθήκης ανοίγματος στόματος της εικόνας αναφοράς και ένας τυχαίος συντελεστής ανοίγματος στόματος οδήγησης, και τα βασικά σημεία οδήγησης υπολογίζονται από αυτό Το ποσό της αλλαγής (Δlip). Στη συνέχεια, τα βασικά σημεία οδήγησης (xd) ενημερώνονται με τις αντίστοιχες αλλαγές παραμόρφωσης των ματιών και του στόματος αντίστοιχα, και οι αντίστοιχες έξοδοι οδήγησης είναι (Ip, eyes) και (Ip, lip). Τέλος, οι αντικειμενικές λειτουργίες των μονάδων επαναστόχευσης ματιών και στόματος είναι (Leyes) και (Llip) αντίστοιχα, οι οποίες υπολογίζουν την απώλεια συνοχής εικονοστοιχείων των περιοχών των ματιών και του στόματος, την απώλεια κανονικοποίησης της διακύμανσης του ματιού και του στόματος και την τυχαία απώλεια. Η απώλεια μεταξύ του συντελεστή μετάδοσης κίνησης και του συντελεστή κατάστασης ανοίγματος της εξόδου μετάδοσης κίνησης. Οι αλλαγές του ματιού και του στόματος (Δeyes) και (Δlip) είναι ανεξάρτητες μεταξύ τους, επομένως κατά τη φάση εξαγωγής μπορούν να προστεθούν γραμμικά και να ενημερωθούν για να οδηγήσουν τα άρρητα σημεία-κλειδιά.

Πειραματική σύγκριση





καθοδηγείται από την ίδια ταυτότητα : Από τα παραπάνω αποτελέσματα σύγκρισης του ίδιου προγράμματος οδήγησης ταυτότητας, μπορεί να φανεί ότι σε σύγκριση με την υπάρχουσα μέθοδο μοντέλου χωρίς διάχυση και τη μέθοδο που βασίζεται σε μοντέλο διάχυσης, το LivePortrait έχει καλύτερη ποιότητα παραγωγής και ακρίβεια οδήγησης και μπορεί να καταγράψει τις λεπτομέρειες του μάτια και στόμα του πλαισίου οδήγησης, διατηρώντας παράλληλα την υφή και την ταυτότητα της εικόνας αναφοράς. Ακόμη και σε μεγαλύτερες στάσεις κεφαλιού, το LivePortrait έχει πιο σταθερή απόδοση.





Διασταυρούμενη ταυτότητα : Από τα παραπάνω αποτελέσματα σύγκρισης προγραμμάτων οδήγησης πολλαπλής ταυτότητας, μπορεί να φανεί ότι σε σύγκριση με τις υπάρχουσες μεθόδους, το LivePortrait μπορεί να κληρονομήσει με ακρίβεια τις λεπτές κινήσεις των ματιών και του στόματος στο βίντεο του οδηγού και είναι επίσης σχετικά σταθερό όταν η στάση είναι μεγάλη. Το LivePortrait είναι ελαφρώς πιο αδύναμο από τη μέθοδο AniPortrait που βασίζεται σε μοντέλο διάχυσης [11] όσον αφορά την ποιότητα παραγωγής, αλλά σε σύγκριση με το τελευταίο, το LivePortrait έχει εξαιρετικά γρήγορη απόδοση συμπερασμάτων και απαιτεί λιγότερα FLOP.

επεκτείνουν

Οδηγείται από πολλούς παίκτες: Χάρη στην προσαρμοστική μονάδα του LivePortrait, για ομαδικές φωτογραφίες, το LivePortrait μπορεί να χρησιμοποιήσει καθορισμένα βίντεο προγραμμάτων οδήγησης για να οδηγήσει συγκεκριμένα πρόσωπα, υλοποιώντας έτσι τη μονάδα φωτογραφιών πολλών ατόμων και διευρύνοντας την πρακτική εφαρμογή του LivePortrait.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ks58a60d 36a0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

ζωοκίνηση: Το LivePortrait όχι μόνο έχει καλή γενίκευση για πορτρέτα, αλλά μπορεί επίσης να οδηγηθεί με ακρίβεια για πορτρέτα ζώων μετά από λεπτομέρεια σε σύνολα δεδομένων ζώων.

Επεξεργασία βίντεο πορτρέτου : Εκτός από τις φωτογραφίες πορτρέτου, δεδομένου ενός βίντεο πορτραίτου, όπως ένα βίντεο χορού, το LivePortrait μπορεί να χρησιμοποιήσει το βίντεο οδήγησης για να εκτελέσει επεξεργασία κίνησης στην περιοχή του κεφαλιού. Χάρη στη μονάδα προσαρμογής, το LivePortrait μπορεί να επεξεργάζεται με ακρίβεια κινήσεις στην περιοχή του κεφαλιού, όπως εκφράσεις, στάσεις κ.λπ., χωρίς να επηρεάζει τις εικόνες σε περιοχές εκτός κεφαλιού.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ks58a60d 36a0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Εφαρμογή και προοπτικές

Τα σχετικά τεχνικά σημεία του LivePortrait έχουν εφαρμοστεί σε πολλές από τις επιχειρήσεις του Kuaishou, όπωςKuaishou μαγικό ρολόι, Kuaishou ιδιωτικά μηνύματα, Kuaishou's AI emoticon gameplay, Kuaishou ζωντανή μετάδοση και η Puji APP που επωάστηκε από την Kuaishou για νέους κ.λπ., και θα διερευνήσει νέες μεθόδους υλοποίησης για να συνεχίσει να δημιουργεί αξία για τους χρήστες. Επιπλέον, το LivePortrait θα εξερευνήσει περαιτέρω τη δημιουργία πολυτροπικών πορτραίτων με βάση το βασικό μοντέλο Keling, επιδιώκοντας εφέ υψηλότερης ποιότητας.

βιβλιογραφικές αναφορές

[1] Ting-Chun Wang, Arun Mallya και Ming-Yu Liu. Σύνθεση νευρωνικής κεφαλής ομιλίας μίας λήψης ελεύθερης προβολής για τηλεδιάσκεψη. Στο CVPR, 2021.

[2] Arsha Nagrani, Joon Son Chung και Andrew Zisserman. Voxceleb: ένα σύνολο δεδομένων αναγνώρισης ηχείων μεγάλης κλίμακας. Στο Interspeech, 2017.

[3] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao και Chen Change Loy. Mead: Μια μεγάλης κλίμακας οπτικοακουστικό σύνολο δεδομένων για τη δημιουργία συναισθηματικών ομιλούντων προσώπων. Στο ECCV, 2020.

[4] Steven R Livingstone και Frank A Russo. Η οπτικοακουστική βάση δεδομένων συναισθηματικού λόγου και τραγουδιού ryerson (ravdess): Ένα δυναμικό, πολυτροπικό σύνολο εκφράσεων προσώπου και φωνητικών εκφράσεων στα αγγλικά της Βόρειας Αμερικής. Στο PloS one, 2018

[5] Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan και Wen Zheng. Blendgan: Έμμεση ανάμειξη gan για αυθαίρετη δημιουργία στυλιζαρισμένων προσώπων. Στο NeurIPS, 2021.

[6] Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang και Chongyang Ma. Προς την πρακτική αποτύπωση των relightable avatar υψηλής πιστότητας. Στο SIGGRAPH Asia, 2023.

[7] Kai Zhao, Kun Yuan, Ming Sun, Mading Li και Xing Wen. Προεκπαιδευμένα μοντέλα με επίγνωση της ποιότητας για τυφλή ποιότητα εικόνας

εκτίμηση. Στο CVPR, 2023.

[8] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon και Saining Xie. Απατώ-

vnext v2: Συν-σχεδιασμός και κλιμάκωση convnets με καλυμμένους αυτόματους κωδικοποιητές. Στο CVPR, 2023.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang και Jun-Yan Zhu. Σύνθεση σημασιολογικής εικόνας με χωρική προσαρμοστική κανονικοποίηση. Στο CVPR, 2019.

[10] Wenzhe Shi, Jose Caballero, Ferenc Husz ´ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert και Zehan Wang. Υπερ-ανάλυση μεμονωμένης εικόνας και βίντεο σε πραγματικό χρόνο χρησιμοποιώντας ένα αποτελεσματικό συνελικτικό νευρωνικό δίκτυο sub-pixel. Στο CVPR, 2016.

[11] Huawei Wei, Zejun Yang και Zhisheng Wang. Ανιπορτραίτο: Ηχητική σύνθεση φωτορεαλιστικών κινούμενων σχεδίων πορτρέτου. arXiv προεκτύπωση:2403.17694, 2024.