Η Alibaba κυκλοφορεί το "Magic Pen Ma Liang's version of Sora", που κάνει τις γάτες να γυρίζουν με ένα μόνο άγγιγμα, 20 βίντεο επίδειξης και 10 σελίδες τεχνικού report

Η Alibaba κυκλοφόρησε το «Magic Pen Ma Liang's version of Sora», που κάνει τις γάτες να γυρίζουν με ένα άγγιγμα, 20 βίντεο επίδειξης και 10 σελίδες τεχνικών εκθέσεων

2024-08-03

Έξυπνα πράγματα (δημόσιος λογαριασμός:zhidxcom）
συγγραφέας βανίλια
επεξεργασία Li Shuiqing

Ο τομέας της δημιουργίας βίντεο με τεχνητή νοημοσύνη ανθίζει και νέα προϊόντα βίντεο όπως το Wensheng και το Tusheng στο εσωτερικό και στο εξωτερικό αναδύονται σε μια ατελείωτη ροή. Λόγω της «επίδρασης» μεγάλων κατασκευαστών, το τρέχον μοντέλο παραγωγής βίντεο είναι κοντά στο αποτέλεσμα του «ψεύτικο και αληθινό» από όλες τις απόψεις.

Ταυτόχρονα, όμως, η ακρίβεια και η ικανότητα να ακολουθούνται οι οδηγίες των περισσότερων μοντέλων παραγωγής βίντεο πρέπει να βελτιωθούν ακόμη. . Αυτό προκαλεί επίσης προβλήματα όπως υπερβολικό κόστος υπολογιστικής ισχύος και σπατάλη πόρων.

Πώς να βελτιώσετε την ακρίβεια της δημιουργίας βίντεο, να μειώσετε τον αριθμό των "τραπουλόχαρτων" και να χρησιμοποιήσετε όσο το δυνατόν λιγότερους πόρους για να αποκτήσετε βίντεο που καλύπτουν τις ανάγκες;

Ο Zhidongxi ανέφερε στις 3 Αυγούστου ότι η ομάδα της Alibaba ξεκίνησε πρόσφαταΤο μοντέλο παραγωγής βίντεο Tora, μπορεί να βασίζεται σεΚομμάτια, εικόνες, κείμενοΉ ένας συνδυασμός τους, δημιουργεί γρήγορα βίντεο ακριβούς ελέγχου κίνησης με λίγες μόνο κινήσεις και υποστηρίζει επίσηςΈλεγχος πρώτου και τελευταίου πλαισίου, μεταφέροντας τη δυνατότητα ελέγχου της παραγωγής βίντεο σε άλλο επίπεδο.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Η Τόρα είναιΤο πρώτο μοντέλο πλαισίου DiT προσανατολισμένο στην τροχιά, εκμεταλλευόμενη την επεκτασιμότητα του DiT, η κίνηση του αντικειμένου που δημιουργείται από την Tora μπορεί όχι μόνο να ακολουθήσει με ακρίβεια την τροχιά, αλλά και να προσομοιώσει αποτελεσματικά τη δυναμική του φυσικού κόσμου. Η σχετική εργασία δημοσιεύτηκε στο arXiv την 1η Αυγούστου.

▲Χαρτί Tora

Προς το παρόν, η Tora παρέχει μόνο επιδείξεις βίντεο και η αρχική της σελίδα του έργου δείχνει ότι θα κυκλοφορήσει διαδικτυακές επιδείξεις και κωδικούς συμπερασμάτων και εκπαίδευσης στο μέλλον.

Διεύθυνση χαρτιού:

https://arxiv.org/abs/2407.21705

διεύθυνση έργου:

https://ali-videoai.github.io/tora_video/

1. Τρεις συνδυαστικές εισόδους για τον ακριβή έλεγχο των τροχιών κίνησης

Υποστήριξη ToraΚομμάτια, κείμενο, εικόνεςΟι τρεις τρόποι, ή οι συνδυασμένες εισόδους τους, επιτρέπουν δυναμικό και ακριβή έλεγχο περιεχομένου βίντεο διαφορετικής διάρκειας, αναλογιών διαστάσεων και αναλύσεων.

Η είσοδος τροχιάς μπορεί να είναι μια ποικιλία από ευθείες γραμμές και καμπύλες, οι οποίες έχουν κατευθύνσεις και μπορούν επίσης να συνδυαστούν πολλαπλές τροχιές σε διαφορετικές κατευθύνσεις. Για παράδειγμα, μπορείτε να χρησιμοποιήσετε μια καμπύλη σχήματος S για να ελέγξετε την κίνηση ενός αιωρούμενου αντικειμένου και να χρησιμοποιήσετε περιγραφές κειμένου για να ελέγξετε την ταχύτητά του. Στο παρακάτω βίντεο, οι προτρεπτικές λέξεις που χρησιμοποιούνται χρησιμοποιούν επιρρήματα όπως "αργό", "κομψό" και "απαλά".

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajectory.mp4

Η ίδια τροχιά μπορεί επίσης να κινείται επανειλημμένα σε έναν άξονα, δημιουργώντας μια εικόνα που κουνιέται μπρος-πίσω.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Πίσω και πίσω κομμάτι.mp4

Η σχεδίαση διαφορετικών τροχιών στην ίδια εικόνα επιτρέπει επίσης στον Tora να δημιουργεί βίντεο με διαφορετικές κατευθύνσεις κίνησης.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_same picture.mp4

Με βάση την ίδια είσοδο τροχιάς, το Tora θα δημιουργήσει διαφορετικούς τρόπους κίνησης με βάση τις διαφορές μεταξύ των θεμάτων.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

Αυτό που διαφέρει από την τρέχουσα κοινή λειτουργία πινέλου κίνησης είναι ότι ακόμα κι αν δεν υπάρχει εικόνα εισόδου, η Tora μπορεί να δημιουργήσει το αντίστοιχο βίντεο με βάση το συνδυασμό τροχιάς και κειμένου.

Για παράδειγμα, τα δύο βίντεο 1 και 3 στο παρακάτω βίντεο δημιουργούνται χωρίς αρχικά καρέ, μόνο τροχιές και κείμενο.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Το Tora υποστηρίζει επίσης τον έλεγχο πρώτου και τελευταίου καρέ, αλλά αυτή η θήκη εμφανίζεται στο χαρτί μόνο ως εικόνα και δεν παρέχεται επίδειξη βίντεο.

▲Έλεγχος πρώτου και τελευταίου πλαισίου

Έτσι, εάν υπάρχουν μόνο δύο τρόποι εισαγωγής κειμένου και εικόνας, μπορεί να επιτευχθεί το ίδιο αποτέλεσμα; Έχοντας κατά νου αυτήν την ερώτηση, προσπάθησα να τροφοδοτήσω τα ίδια αρχικά καρέ και τις ίδιες λέξεις σε άλλες γεννήτριες βίντεο AI.

Από αριστερά προς τα δεξιά και από πάνω προς τα κάτω στο παρακάτω βίντεο είναι τα βίντεο που δημιουργούνται από τους Tora, Vidu, Qingying και Keling. Μπορεί να φανεί ότι όταν η τροχιά είναι ευθεία γραμμή, η δημιουργία βίντεο χωρίς είσοδο τροχιάς μόλις και μετά βίας ανταποκρίνεται στις απαιτήσεις.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Αλλά όταν η απαιτούμενη τροχιά κίνησης γίνεται καμπύλη, η παραδοσιακή εισαγωγή κειμένου + εικόνας δεν μπορεί να καλύψει τη ζήτηση.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. Με βάσηOpenSoraFramework, καινοτόμες δύο μονάδες επεξεργασίας κίνησης

Η Τόρα υιοθετήθηκεOpenSoraΩς βασική αρχιτεκτονική του μοντέλου DiT, το OpenSora είναι ένα πλαίσιο μοντέλων παραγωγής βίντεο που σχεδιάστηκε και προέρχεται από την εκκίνηση AI Luchen Technology.

Προκειμένου να επιτύχει τη δημιουργία βίντεο ελέγχου τροχιάς βάσει DiT, η Tora εισάγει δύο νέες μονάδες επεξεργασίας κίνησης:Trajectory Extractor(Trajectory Extractor) 和σύντηξη καθοδήγησης κίνησης(Motion-guidance Fuser), που χρησιμοποιείται για την κωδικοποίηση της παρεχόμενης τροχιάς σε μπαλώματα χωροχρονικής κίνησης πολλαπλών επιπέδων.

Το παρακάτω σχήμα δείχνει τη συνολική αρχιτεκτονική του Tora. Αυτή η προσέγγιση είναι συνεπής με την επεκτασιμότητα του DiT, επιτρέποντας τη δημιουργία βίντεο υψηλής ανάλυσης, ελεγχόμενης κίνησης που διαρκούν περισσότερο.

▲Τώρα συνολική αρχιτεκτονική

σε,Trajectory ExtractorΧρησιμοποιώντας ένα τρισδιάστατο VAE κίνησης (μεταβλητό αυτόματο κωδικοποιητή), το διάνυσμα τροχιάς ενσωματώνεται στον ίδιο λανθάνοντα χώρο με τις ενημερωμένες εκδόσεις βίντεο, οι οποίες μπορούν να διατηρήσουν αποτελεσματικά τις πληροφορίες κίνησης μεταξύ διαδοχικών καρέ και, στη συνέχεια, τα στοιβαγμένα συνελικτικά στρώματα χρησιμοποιούνται για την εξαγωγή χαρακτηριστικών ιεραρχικής κίνησης.

σύντηξη καθοδήγησης κίνησηςΣτη συνέχεια, χρησιμοποιείται ένα προσαρμοστικό επίπεδο κανονικοποίησης για την απρόσκοπτη εισαγωγή αυτών των συνθηκών κίνησης πολλαπλών επιπέδων στα αντίστοιχα μπλοκ DiT για να διασφαλιστεί ότι η παραγωγή βίντεο ακολουθεί πάντα την καθορισμένη τροχιά.

Για να συνδυάσουν τη δημιουργία βίντεο με βάση το DiT με τις τροχιές, οι συγγραφείς διερεύνησαν τρεις παραλλαγές της αρχιτεκτονικής σύντηξης, εισάγοντας patches κίνησης σε κάθε μπλοκ STDiT, με το Adaptive Norm να επιδεικνύει την καλύτερη απόδοση.

▲Τρία αρχιτεκτονικά σχέδια συσκευής σύντηξης καθοδήγησης κίνησης

Στη συγκεκριμένη εκπαιδευτική διαδικασία, ο συγγραφέας υιοθετεί διαφορετικές στρατηγικές εκπαίδευσης για διαφορετικές συνθήκες εισαγωγής.

Στην προπόνηση τροχιάς, η Tora χρησιμοποιεί μια μέθοδο εκπαίδευσης δύο σταδίων για την εκμάθηση τροχιάς. Το πρώτο στάδιο εξάγει πυκνή οπτική ροή από το εκπαιδευτικό βίντεο. Τα δείγματα τροχιάς τελειοποιούνται τελικά με την εφαρμογή ενός φίλτρου Gauss.

Στην εκπαίδευση εικόνων, η Tora ακολουθεί τη στρατηγική κάλυψης που έχει υιοθετήσει η OpenSora για την υποστήριξη της οπτικής προσαρμογής. ο θόρυβος ενσωματώνεται απρόσκοπτα σε ένα ενοποιημένο μοντέλο.

Όταν συγκρίνεται ποσοτικά με προηγμένα μοντέλα παραγωγής βίντεο με ελεγχόμενη κίνηση, το Tora έχει ένα αυξανόμενο πλεονέκτημα απόδοσης έναντι των μεθόδων που βασίζονται στο UNet καθώς αυξάνεται ο αριθμός των δημιουργούμενων καρέ, διατηρώντας υψηλότερη σταθερότητα στον έλεγχο της τροχιάς.

▲Σύγκριση μεταξύ της Tora και άλλων ελεγχόμενων μοντέλων παραγωγής βίντεο

Για παράδειγμα, με βάση την ίδια είσοδο, το βίντεο που δημιουργείται από την Tora είναι πιο ομαλό από αυτό που δημιουργείται από τα μοντέλα DragNUWA και MotionCtrl και ακολουθεί με μεγαλύτερη ακρίβεια την τροχιά της κίνησης.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Συγκριτικό βίντεο.mp4

3. Τα «Μέλλοντα» έχουν πραγματοποιηθεί και η Alibaba συνεχίζει να κάνει σχέδιαΌλα συμπεριλαμβάνονταιβίντεο

Οι συσκευές αναπαραγωγής βίντεο τεχνητής νοημοσύνης βρίσκονται σε πλήρη εξέλιξη και η Alibaba πολιορκεί συνεχώς το κομμάτι βίντεο AI. Σε σύγκριση με το Sora και άλλα γενικά μοντέλα που επικεντρώνονται στη διάρκεια και την ποιότητα παραγωγής βίντεο, το έργο της ομάδας Alibaba φαίνεται να επικεντρώνεται περισσότερο στη συγκεκριμένη εφαρμογή του αλγορίθμου σε διαφορετικές μορφές παραγωγής βίντεο.

Τον Ιανουάριο του τρέχοντος έτους, ο Tongyi Qianwen κυκλοφόρησε το "National Dance King" και έγινε διάσημος με το "Terracotta Warriors and Horses Dance Subject 3", η Alibaba κυκλοφόρησε το πλαίσιο παραγωγής βίντεο πορτρέτου EMO, το οποίο μπορεί να κάνει τους ανθρώπους στη φωτογραφία να εμφανίζονται με μια μόνο εικόνα.

Εκείνη την εποχή, ο Zhidongzhi μέτρησε τη διάταξη της Alibaba σε βίντεο τεχνητής νοημοσύνης και διαπίστωσε ότι είχε ξεκινήσει τουλάχιστον 7 νέα έργα σε τέσσερις μήνες, καλύπτοντας βίντεο του Vincent, βίντεο Tusheng, χορό χαρακτήρων, ομιλία πορτρέτου κ.λπ. (Εμφανίζεται εγχώρια τεχνητή νοημοσύνη σε επίπεδο θεού! Ο Gao Qiqiang μεταμορφώνεται σε Luo Xiang, ο Cai Xukun γίνεται ο βασιλιάς της Rap και συνδέεται επίσης με τη Sora)

Τώρα, μισό χρόνο αργότερα, το EMO έχει μετατραπεί από "μέλλον" σε λειτουργία "εθνικού τραγουδιού και ερμηνείας" στην εφαρμογή Tongyi, διαθέσιμη σε όλους. Η Alibaba έχει επίσης κυκλοφορήσει περισσότερα έργα βίντεο AI.

1、AtomoVideo: Δημιουργία εικόνας σε βίντεο υψηλής πιστότητας

Το AtomoVideo κυκλοφόρησε στις 5 Μαρτίου. Είναι ένα πλαίσιο βίντεο Tusheng υψηλής πιστότητας που βασίζεται σε έγχυση εικόνων πολλαπλής ευκρίνειας και υψηλής ποιότητας σύνολα δεδομένων και στρατηγικές εκπαίδευσης, μπορεί να διατηρήσει υψηλή πιστότητα μεταξύ του παραγόμενου βίντεο και της δεδομένης εικόνας αναφοράς. επίτευξη Πλούσιας έντασης άσκησης και καλής χρονικής συνέπειας.

▲Το AtomoVideo δημιουργεί εφέ βίντεο

Αρχική σελίδα του έργου:https://atomo-video.github.io/

2、EasyAnimate-v3:Μονή εικόνα+Δημιουργήστε βίντεο μεγάλης διάρκειας υψηλής ανάλυσης από κείμενο

Το EasyAnimate είναι μια διαδικασία επεξεργασίας δημιουργίας βίντεο που ξεκίνησε από την Alibaba στις 12 Απριλίου και επαναλήφθηκε στην έκδοση v3 σε μόλις 3 μήνες. Εισάγει μια μονάδα κίνησης επεκτείνοντας το πλαίσιο DiT, η οποία ενισχύει την ικανότητα λήψης χρονικής δυναμικής και διασφαλίζει την ομαλότητα και τη συνέπεια των δημιουργούμενων βίντεο. Μπορεί να δημιουργήσει βίντεο διάρκειας περίπου 6 δευτερολέπτων με διαφορετικές αναλύσεις και ρυθμό καρέ 24 fps.

▲EasyAnimate v3 δημιουργεί εφέ βίντεο

Αρχική σελίδα του έργου:https://github.com/aigc-apps/EasyAnimate

Συμπέρασμα:Όλα συμπεριλαμβάνονταιΗ δημιουργία βίντεο είναι πλέον πιο ελεγχόμενη

Όταν η διάρκεια και η ποιότητα της δημιουργίας βίντεο με τεχνητή νοημοσύνη έχουν φτάσει σε ένα ορισμένο επίπεδο, είναι μια σημαντική πρόταση αυτή τη στιγμή το πώς να κάνετε τα βίντεο που δημιουργούνται πιο ελεγχόμενα και πιο συμβατά με τις ανάγκες.

Με τη συνεχή βελτιστοποίηση της ακρίβειας, της δυνατότητας ελέγχου και της αποδοτικότητας χρήσης πόρων, η εμπειρία χρήσης προϊόντων δημιουργίας βίντεο τεχνητής νοημοσύνης θα εγκαινιάσει ένα νέο στάδιο και η τιμή θα γίνει πιο προσιτή, επιτρέποντας σε περισσότερους δημιουργούς να συμμετέχουν.

Νέα

Η Alibaba κυκλοφόρησε το «Magic Pen Ma Liang's version of Sora», που κάνει τις γάτες να γυρίζουν με ένα άγγιγμα, 20 βίντεο επίδειξης και 10 σελίδες τεχνικών εκθέσεων

Εισαγωγή

τα στοιχεία επικοινωνίας μου