Η εγχώρια έκδοση του Sora είναι ανοιχτού κώδικα! Συμπεράσματα βελτιστοποιημένα σε 18G, 4090 μεμονωμένη κάρτα μπορεί να run

Η εγχώρια έκδοση του Sora είναι ανοιχτού κώδικα!Το συμπέρασμα έχει βελτιστοποιηθεί σε 18G, 4090 μεμονωμένη κάρτα μπορεί να τρέξει

2024-08-06

έξυπνα πράγματα
ΣυγγραφέαςZeR0
Συντάκτης Mo Ying

Ο Zhidongxi ανέφερε στις 6 Αυγούστου ότι τα καλά νέα είναι ότι το μοντέλο παραγωγής βίντεο της Zhipu AI CogVideoX-2B ήταν επίσημα ανοιχτού κώδικα χθες το βράδυ.

Το μοντέλο έχει τοποθετηθεί στο GitHub και το Hugging Face με ακρίβεια FP16 απαιτεί μόνο 18 GB μνήμης βίντεο, ενώ η λεπτομέρεια απαιτεί μόνο 40 GB Μια ενιαία κάρτα γραφικών 4090 μπορεί να χρησιμοποιηθεί για συμπέρασμα. κούρδισμα.

Το ανώτερο όριο των προτρεπόμενων λέξεων για το CogVideoX-2B είναι 226 μάρκες, η διάρκεια βίντεο είναι 6 δευτερόλεπτα, ο ρυθμός καρέ είναι 8 καρέ/δευτερόλεπτο και η ανάλυση βίντεο είναι 720 * 480.

Η σειρά μοντέλων ανοιχτού κώδικα CogVideoX έχει την ίδια προέλευση με το εμπορικό μοντέλο παραγωγής βίντεο "Qingying" της Zhipu AI. Μετά την κυκλοφορία της έκδοσης 2B, μοντέλα ανοιχτού κώδικα με ισχυρότερες επιδόσεις και μεγαλύτερες παραμέτρους θα κυκλοφορούν στο μέλλον στα ράφια.

Αποθετήριο κώδικα:https://github.com/THUDM/CogVideo
Λήψη μοντέλου:https://huggingface.co/THUDM/CogVideoX-2b
Τεχνικές εκθέσεις:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Σύμφωνα με την εφημερίδα, το CogVideoX είναι μεγαλύτερο από πολλά άλλα μοντέλα παραγωγής βίντεο στο γράφημα ραντάρ, με τιμές χαρακτηριστικών που προσεγγίζουν ένα εξάγωνο.

Για να αξιολογήσει την ποιότητα των βίντεο του Vincent, το Zhipu AI χρησιμοποιεί πολλαπλούς δείκτες στο VBench, όπως ανθρώπινες κινήσεις, σκηνές, δυναμική κ.λπ., χρησιμοποιεί επίσης δύο πρόσθετα εργαλεία αξιολόγησης βίντεο: Dynamic Quality in Devil και Chrono-Magic GPT4o-MT. Βαθμολογία, αυτά τα εργαλεία επικεντρώνονται στα δυναμικά χαρακτηριστικά των βίντεο. Όπως φαίνεται από τον παρακάτω πίνακα, το CogVideoX προηγείται σε πολλούς δείκτες.

Στην τυφλή ανθρώπινη αξιολόγηση, το CogVideoX σημείωσε υψηλότερη βαθμολογία από τον Kuaishou Keling και στους πέντε δείκτες.

Η σελίδα GitHub εμφανίζει πολλά έργα βίντεο που δημιουργήθηκαν από το CogVideoX-2B:

▲提示词：Ένα λεπτομερές ξύλινο παιχνίδι-πλοίο με περίπλοκα σκαλισμένα κατάρτια και πανιά φαίνεται να γλιστράει ομαλά πάνω από ένα βελούδινο, μπλε χαλί που μιμείται τα κύματα της θάλασσας. Η γάστρα του πλοίου είναι βαμμένη σε ένα πλούσιο καφέ, με μικροσκοπικά παράθυρα. Το χαλί, απαλό και ανάγλυφο, προσφέρει ένα τέλειο σκηνικό, που μοιάζει με μια ωκεάνια έκταση. Γύρω από το πλοίο υπάρχουν διάφορα άλλα παιχνίδια και παιδικά είδη, που υπαινίσσονται ένα παιχνιδιάρικο περιβάλλον. Η σκηνή αποτυπώνει την αθωότητα και τη φαντασία της παιδικής ηλικίας, με το ταξίδι του πλοίου να συμβολίζει ατελείωτες περιπέτειες σε ένα ιδιότροπο, εσωτερικό περιβάλλον.

▲提示词：Η κάμερα ακολουθεί πίσω από ένα λευκό vintage SUV με μαύρη σχάρα οροφής καθώς επιταχύνει έναν απότομο χωματόδρομο που περιβάλλεται από πεύκα σε μια απότομη πλαγιά βουνού, η σκόνη πέφτει από τα ελαστικά του, το φως του ήλιου λάμπει στο SUV καθώς αυτό ταχύτητες κατά μήκος του χωματόδρομου, ρίχνοντας μια ζεστή λάμψη στη σκηνή. Ο χωματόδρομος στρίβει απαλά προς την απόσταση, χωρίς να φαίνονται άλλα αυτοκίνητα ή οχήματα. Τα δέντρα εκατέρωθεν του δρόμου είναι κοκκινόξυλα, με μπαλώματα πρασίνου διάσπαρτα παντού. Το αυτοκίνητο φαίνεται από το πίσω μέρος να ακολουθεί την καμπύλη με ευκολία, κάνοντάς το να φαίνεται σαν να βρίσκεται σε μια κακοτράχαλη οδήγηση μέσα από το απόκρημνο έδαφος. Ο ίδιος ο χωματόδρομος περιβάλλεται από απότομους λόφους και βουνά, με έναν καταγάλανο ουρανό από πάνω με συννεφιά.

▲提示词：Ένας καλλιτέχνης του δρόμου, ντυμένος με ένα φθαρμένο τζιν μπουφάν και μια πολύχρωμη μπαντάνα, στέκεται μπροστά από έναν τεράστιο τσιμεντένιο τοίχο στην καρδιά, κρατώντας ένα κουτί με μπογιά, ζωγραφίζοντας με σπρέι ένα πολύχρωμο πουλί σε έναν τοίχο με στίγματα.

▲提示词：Στο στοιχειωμένο σκηνικό μιας κατεστραμμένης από τον πόλεμο πόλης, όπου τα ερείπια και οι γκρεμισμένοι τοίχοι αφηγούνται μια ιστορία καταστροφής, ένα συγκλονιστικό κοντινό πλάνο πλαισιώνει ένα νεαρό κορίτσι. Το πρόσωπό της είναι μουτζουρωμένο με στάχτη, μια σιωπηλή απόδειξη του χάους γύρω της. Τα μάτια της γυαλίζουν από ένα μείγμα θλίψης και ανθεκτικότητας, αποτυπώνοντας την ωμή συγκίνηση ενός κόσμου που έχει χάσει την αθωότητά του στις καταστροφές των συγκρούσεων.

Το CogVideoX χρησιμοποιεί 3D VAE και έμπειρη αρχιτεκτονική Transformer για τη δημιουργία συνεκτικών μεγάλων βίντεο και δημιουργεί μια σχετικά υψηλής ποιότητας συλλογή βίντεο κλιπ με περιγραφές κειμένου μέσω ενός μοντέλου κατανόησης βίντεο που έχει αναπτυχθεί μόνος του.

Δεδομένου ότι τα δεδομένα βίντεο περιέχουν χωρικές και χρονικές πληροφορίες, ο όγκος δεδομένων και η υπολογιστική τους επιβάρυνση υπερβαίνουν κατά πολύ τα δεδομένα εικόνας.Το Zhipu AI προτείνεται με βάσηΤρισδιάστατος αυτόματος κωδικοποιητής παραλλαγής (3D VAE)Η μέθοδος συμπίεσης βίντεο συμπιέζει ταυτόχρονα τις χωρικές και χρονικές διαστάσεις του βίντεο μέσω τρισδιάστατης συνέλιξης, επιτυγχάνοντας υψηλότερο ρυθμό συμπίεσης και καλύτερη ποιότητα ανακατασκευής.

▲ Αρχιτεκτονική 3D VAE στο CogVideoX

Η δομή του μοντέλου περιλαμβάνει έναν κωδικοποιητή, έναν αποκωδικοποιητή και έναν ρυθμιστή λανθάνοντος χώρου, και η συμπίεση επιτυγχάνεται μέσω τεσσάρων σταδίων μείωσης και ανόδου. Η χρονική αιτιολογική συνέλιξη διασφαλίζει την αιτιότητα των πληροφοριών και μειώνει τα γενικά έξοδα επικοινωνίας Η παράλληλη τεχνολογία με βάση τα συμφραζόμενα μπορεί να προσαρμοστεί καλύτερα σε μεγάλης κλίμακας επεξεργασία βίντεο.

Στο πείραμα, η Zhipu AI διαπίστωσε ότι η κωδικοποίηση μεγάλης ανάλυσης είναι εύκολο να γενικευτεί και η αύξηση του αριθμού των καρέ είναι μεγαλύτερη πρόκληση, επομένως, η εκπαίδευση του μοντέλου χωρίζεται σε δύο στάδια: πρώτη εκπαίδευση σε χαμηλότερο ρυθμό καρέ και μικρή παρτίδα , και, στη συνέχεια, χρησιμοποιώντας τον παραλληλισμό περιβάλλοντος για να εκπαιδεύσετε σε υψηλότερη Βελτιστοποίηση του ρυθμού καρέ. Η λειτουργία απώλειας προπόνησης συνδυάζει απώλεια L2, απώλεια αντίληψης LPIPS και απώλεια GAN του 3D διαχωριστή.

Το Zhipu AI χρησιμοποιεί τον κωδικοποιητή VAE για να συμπιέσει το βίντεο σε ένα λανθάνον χώρο, στη συνέχεια διαιρεί τον λανθάνοντα χώρο σε μπλοκ και τον επεκτείνει σε μεγάλες ακολουθίες για να ενσωματώσει το z_vision. στη συνέχεια z_text και z_vision κατά μήκος της αλληλουχίας Dimension splicing, τροφοδοτείται η ματισμένη ενσωμάτωσηExpertTransformerΕπεξεργασμένα σε στοίβες μπλοκ, οι ενσωματώσεις συρράπτονται τελικά για να ανακτηθεί το αρχικό σχήμα λανθάνοντος χώρου και αποκωδικοποιούνται χρησιμοποιώντας VAE για την ανακατασκευή του βίντεο.

▲Αρχιτεκτονική CogVideoX

Όσον αφορά τα δεδομένα εκπαίδευσης, η Zhipu AI ανέπτυξε αρνητικές ετικέτες για τον εντοπισμό και τον αποκλεισμό βίντεο χαμηλής ποιότητας και σημείωσε και εξέτασε 20.000 δείγματα δεδομένων βίντεο μέσω των φίλτρων που εκπαιδεύτηκαν από το video-llama, ενώ υπολογίστηκε η οπτική ροή και οι αισθητικές βαθμολογίες. και τα όρια προσαρμόστηκαν δυναμικά. Διασφαλίστε την ποιότητα του παραγόμενου βίντεο.

Ως απάντηση στο πρόβλημα της έλλειψης δεδομένων υποτίτλων βίντεο, η Zhipu AI πρότεινε αPipeline για τη δημιουργία υποτίτλων βίντεο από υπότιτλους εικόνας και βελτιστοποιήστε το μοντέλο υποτίτλων βίντεο από άκρο σε άκρο για να αποκτήσετε πιο πυκνούς υπότιτλους. Αυτή η μέθοδος χρησιμοποιεί το μοντέλο Panda70M για τη δημιουργία σύντομων υπότιτλων, το μοντέλο CogView3 για τη δημιουργία πυκνών υπότιτλων εικόνας και, στη συνέχεια, το μοντέλο GPT-4 για σύνοψη για τη δημιουργία του τελικού σύντομου βίντεο.

Η ομάδα βελτίωσε επίσης ένα CogVLM2-Video και Llama 3 που βασίζεταιΜοντέλο CogVLM2-Caption, εκπαιδευμένο χρησιμοποιώντας πυκνά δεδομένα υποτίτλων για να επιταχύνει τη διαδικασία δημιουργίας υποτίτλων βίντεο.

▲ Πυκνή διαδικασία δημιουργίας δεδομένων υπότιτλων

Η ομάδα Zhipu AI εξακολουθεί να εργάζεται σκληρά για να βελτιώσει την ικανότητα του CogVideoX να καταγράφει σύνθετες δυναμικές, να εξερευνά νέες αρχιτεκτονικές μοντέλων, να συμπιέζει πληροφορίες βίντεο πιο αποτελεσματικά και να ενσωματώνει πληρέστερα περιεχόμενο κειμένου και βίντεο για να συνεχίσει να εξερευνά τον νόμο κλιμάκωσης του μοντέλου παραγωγής βίντεο, με στόχο για να εκπαιδεύσετε μεγαλύτερα και πιο ισχυρά μοντέλα για τη δημιουργία βίντεο μεγαλύτερης διάρκειας και ποιότητας.

Σήμερα, υπάρχουν ολοένα και περισσότερα μοντέλα και εφαρμογές δημιουργίας βίντεο και η τεχνολογία ωριμάζει σταδιακά, ωστόσο, δεν έχει υπάρξει μοντέλο δημιουργίας βίντεο ανοιχτού κώδικα που να μπορεί να καλύψει τις απαιτήσεις εμπορικού επιπέδου. Ανυπομονούμε να γίνουν περισσότερα μοντέλα παραγωγής βίντεο ανοιχτού κώδικα, προωθώντας περισσότερους προγραμματιστές και επιχειρήσεις να συμμετέχουν στην ανάπτυξη μοντέλων και εφαρμογών παραγωγής βίντεο και συμβάλλοντας σε διάφορες τεχνικές βελτιστοποιήσεις και λειτουργική ανάπτυξη γύρω από τη δημιουργία βίντεο.

Νέα

Η εγχώρια έκδοση του Sora είναι ανοιχτού κώδικα!Το συμπέρασμα έχει βελτιστοποιηθεί σε 18G, 4090 μεμονωμένη κάρτα μπορεί να τρέξει

Εισαγωγή

τα στοιχεία επικοινωνίας μου