Νέα

Zhipu ανοιχτού κώδικα Qingying CogVideoX 2B μοντέλο, ένα μόνο RTX 4090 μπορεί να χρησιμοποιηθεί για συμπεράσματα

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Συγγραφέας|Μεγάλο Μοντέλο Mobile Group
Email| [email protected]

1


Με τη συνεχή ανάπτυξη της τεχνολογίας μοντέλων μεγάλης κλίμακας, η τεχνολογία παραγωγής βίντεο σταδιακά ωριμάζει. Οι τεχνολογίες που αντιπροσωπεύονται από μοντέλα παραγωγής βίντεο κλειστού κώδικα, όπως το Sora και το Gen-3, επαναπροσδιορίζουν το μελλοντικό τοπίο της βιομηχανίας. Ωστόσο, μέχρι τώρα, δεν υπάρχει ακόμη μοντέλο δημιουργίας βίντεο ανοιχτού κώδικα που να μπορεί να καλύψει τις απαιτήσεις των εφαρμογών εμπορικού επιπέδου.

Τηρώντας την ιδέα της «εξυπηρέτησης παγκόσμιων προγραμματιστών με προηγμένη τεχνολογία», η Zhipu AI ανακοίνωσε ότι θα ανοίξει το CogVideoX, ένα μοντέλο παραγωγής βίντεο με την ίδια προέλευση με το «Qingying», με την ελπίδα ότι κάθε προγραμματιστής και κάθε επιχείρηση μπορεί να αναπτύξει ελεύθερα το δικό σας δικό του μοντέλο παραγωγής βίντεο για την προώθηση της ταχείας επανάληψης και της καινοτόμου ανάπτυξης ολόκληρης της βιομηχανίας.

Το συμπέρασμα Cog Video Perform και η λεπτομέρεια μπορούν να γίνουν με μία μόνο κάρτα γραφικών A6000.

Το ανώτερο όριο των λέξεων προτροπής για το CogVideoX-2B είναι 226 μάρκες, η διάρκεια βίντεο είναι 6 δευτερόλεπτα, ο ρυθμός καρέ είναι 8 καρέ/δευτερόλεπτο και η ανάλυση βίντεο είναι 720*480. Διατηρήσαμε έναν ευρύ χώρο για τη βελτίωση της ποιότητας του βίντεο και προσβλέπουμε στις συνεισφορές ανοιχτού κώδικα των προγραμματιστών για τη βελτιστοποίηση λέξεων, τη διάρκεια βίντεο, το ρυθμό καρέ, την ανάλυση, τη λεπτομέρεια σκηνής και την ανάπτυξη διαφόρων λειτουργιών γύρω από το βίντεο.

Τα μοντέλα με ισχυρότερες επιδόσεις και μεγαλύτερες παραμέτρους είναι καθ' οδόν, οπότε μείνετε συντονισμένοι και ανυπομονείτε.

Αποθετήριο κώδικα:
https://github.com/THUDM/CogVideo

Λήψη μοντέλου:
https://huggingface.co/THUDM/CogVideoX-2b

Τεχνική αναφορά: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

1

Μοντέλο


VAE:

Δεδομένου ότι τα δεδομένα βίντεο περιέχουν χωρικές και χρονικές πληροφορίες, ο όγκος δεδομένων και η υπολογιστική τους επιβάρυνση υπερβαίνουν κατά πολύ τα δεδομένα εικόνας. Για την αντιμετώπιση αυτής της πρόκλησης, προτείνουμε μια μέθοδο συμπίεσης βίντεο που βασίζεται σε τρισδιάστατο αυτόματο κωδικοποιητή παραλλαγής (3D VAE). Το 3D VAE συμπιέζει ταυτόχρονα τις χωρικές και χρονικές διαστάσεις του βίντεο μέσω τρισδιάστατης συνέλιξης, επιτυγχάνοντας υψηλότερους ρυθμούς συμπίεσης και καλύτερη ποιότητα ανακατασκευής.


Η δομή του μοντέλου περιλαμβάνει έναν κωδικοποιητή, έναν αποκωδικοποιητή και έναν ρυθμιστή λανθάνοντος χώρου, και η συμπίεση επιτυγχάνεται μέσω τεσσάρων σταδίων μείωσης και ανοδικής δειγματοληψίας. Η χρονική αιτιολογική συνέλιξη διασφαλίζει την αιτιότητα των πληροφοριών και μειώνει τα έξοδα επικοινωνίας. Χρησιμοποιούμε τεχνικές παραλληλισμού με βάση τα συμφραζόμενα για να προσαρμόσουμε την επεξεργασία βίντεο μεγάλης κλίμακας. Σε πειράματα, διαπιστώσαμε ότι η κωδικοποίηση μεγάλης ανάλυσης είναι εύκολο να γενικευτεί, αλλά η αύξηση του αριθμού των καρέ είναι πιο δύσκολη. Επομένως, εκπαιδεύουμε το μοντέλο σε δύο στάδια: πρώτα σε χαμηλότερους ρυθμούς καρέ και μίνι παρτίδες και, στη συνέχεια, τελειοποιούμε σε υψηλότερους ρυθμούς καρέ μέσω παραλληλισμού συμφραζομένων. Η λειτουργία απώλειας προπόνησης συνδυάζει απώλεια L2, απώλεια αντίληψης LPIPS και απώλεια GAN του 3D διαχωριστή.

ExpertTransformer

Χρησιμοποιούμε τον κωδικοποιητή VAE για να συμπιέσουμε το βίντεο σε έναν λανθάνοντα χώρο, στη συνέχεια να χωρίσουμε τον λανθάνοντα χώρο σε μπλοκ και να τον επεκτείνουμε σε ενσωματώσεις μεγάλης ακολουθίας z_vision. Ταυτόχρονα, χρησιμοποιούμε το T5 για να κωδικοποιήσουμε την εισαγωγή κειμένου στην ενσωμάτωση κειμένου z_text και, στη συνέχεια, να συνδέσουμε τα z_text και z_vision κατά μήκος της διάστασης ακολουθίας. Οι ενσωματωμένες ενσωματώσεις τροφοδοτούνται σε μια στοίβα από εξειδικευμένα μπλοκ Transformer για επεξεργασία. Τέλος, ράβουμε πίσω τις ενσωματώσεις για να ανακτήσουμε το αρχικό σχήμα λανθάνοντος χώρου και αποκωδικοποιούμε χρησιμοποιώντας VAE για την ανακατασκευή του βίντεο.


Δεδομένα

Η εκπαίδευση μοντέλων δημιουργίας βίντεο απαιτεί έλεγχο δεδομένων βίντεο υψηλής ποιότητας για την εκμάθηση της δυναμικής του πραγματικού κόσμου. Το βίντεο μπορεί να είναι ανακριβές λόγω προβλημάτων ανθρώπινης επεξεργασίας ή κινηματογράφησης. Αναπτύξαμε αρνητικές ετικέτες για τον εντοπισμό και τον αποκλεισμό βίντεο χαμηλής ποιότητας, όπως βίντεο με υπερβολική επεξεργασία, ασταθείς κινήσεις, χαμηλής ποιότητας, σε στυλ διάλεξης, με κυριαρχία κειμένου και βίντεο με θόρυβο οθόνης. Σχολιάσαμε και φιλτράραμε 20.000 σημεία δεδομένων βίντεο με φίλτρα εκπαιδευμένα σε βίντεο-λάμα. Ταυτόχρονα, υπολογίζονται οι βαθμολογίες οπτικής ροής και αισθητικής και το όριο προσαρμόζεται δυναμικά για να διασφαλιστεί η ποιότητα του παραγόμενου βίντεο.

Τα δεδομένα βίντεο συνήθως δεν έχουν περιγραφές κειμένου και πρέπει να μετατραπούν σε περιγραφές κειμένου για εκπαίδευση μοντέλου κειμένου σε βίντεο. Τα υπάρχοντα σύνολα δεδομένων υποτίτλων βίντεο έχουν σύντομους υπότιτλους και δεν μπορούν να περιγράψουν πλήρως το περιεχόμενο του βίντεο. Προτείνουμε μια διοχέτευση για τη δημιουργία υποτίτλων βίντεο από υπότιτλους εικόνας και τη λεπτομέρεια του μοντέλου υποτίτλων βίντεο από άκρο σε άκρο για να αποκτήσετε πιο πυκνούς υπότιτλους. Αυτή η μέθοδος δημιουργεί σύντομους υπότιτλους μέσω του μοντέλου Panda70M, υπότιτλους πυκνής εικόνας χρησιμοποιώντας το μοντέλο CogView3 και, στη συνέχεια, συνοψίζει χρησιμοποιώντας το μοντέλο GPT-4 για τη δημιουργία του τελικού σύντομου βίντεο. Επίσης, βελτιστοποιήσαμε ένα μοντέλο CogVLM2-Caption που βασίζεται στο CogVLM2-Video και το Llama 3, το οποίο εκπαιδεύτηκε χρησιμοποιώντας πυκνά δεδομένα υποτίτλων για να επιταχύνουμε τη διαδικασία δημιουργίας υποτίτλων βίντεο.


1

εκτέλεση

Για να αξιολογήσουμε την ποιότητα της δημιουργίας κειμένου σε βίντεο, χρησιμοποιούμε πολλαπλές μετρήσεις στο VBench, όπως ανθρώπινες ενέργειες, σκηνές, δυναμική κ.λπ. Χρησιμοποιήσαμε επίσης δύο πρόσθετα εργαλεία αξιολόγησης βίντεο: Dynamic Quality in Devil και GPT4o-MT Score στο Chrono-Magic, τα οποία επικεντρώνονται στα δυναμικά χαρακτηριστικά των βίντεο. Όπως φαίνεται στον παρακάτω πίνακα.


Επαληθεύσαμε την αποτελεσματικότητα του νόμου κλιμάκωσης στη δημιουργία βίντεο. Στο μέλλον, ενώ θα συνεχίσουμε να αυξάνουμε την κλίμακα δεδομένων και την κλίμακα μοντέλων, θα εξερευνήσουμε νέες αρχιτεκτονικές μοντέλων με πιο πρωτοποριακή καινοτομία, θα συμπιέσουμε τις πληροφορίες βίντεο πιο αποτελεσματικά και θα τις ενσωματώσουμε πληρέστερα. Περιεχόμενο κειμένου και βίντεο.

1

Διαδήλωση

Ένα λεπτομερές ξύλινο καράβι παιχνίδι με περίτεχνα σκαλισμένα κατάρτια και πανιά φαίνεται να γλιστράει ομαλά πάνω από ένα βελούδινο, μπλε χαλί που μιμείται τα κύματα της θάλασσας. Η γάστρα του πλοίου είναι βαμμένη σε ένα πλούσιο καφέ, με μικροσκοπικά παράθυρα. Το χαλί, απαλό και ανάγλυφο, προσφέρει ένα τέλειο σκηνικό, που μοιάζει με μια ωκεάνια έκταση. Γύρω από το πλοίο υπάρχουν διάφορα άλλα παιχνίδια και παιδικά είδη, που υπαινίσσονται ένα παιχνιδιάρικο περιβάλλον. Η σκηνή αποτυπώνει την αθωότητα και τη φαντασία της παιδικής ηλικίας, με το ταξίδι του πλοίου να συμβολίζει ατελείωτες περιπέτειες σε ένα ιδιότροπο, εσωτερικό περιβάλλον.

Η κάμερα ακολουθεί πίσω από ένα λευκό vintage SUV με μαύρη σχάρα οροφής καθώς επιταχύνει έναν απότομο χωματόδρομο που περιβάλλεται από πεύκα σε μια απότομη πλαγιά βουνού, η σκόνη αναδύεται από τα ελαστικά του, το φως του ήλιου λάμπει στο SUV καθώς κινείται με ταχύτητα κατά μήκος του χώματος δρόμο, ρίχνοντας μια ζεστή λάμψη στη σκηνή. Ο χωματόδρομος στρίβει απαλά προς την απόσταση, χωρίς να φαίνονται άλλα αυτοκίνητα ή οχήματα. Τα δέντρα εκατέρωθεν του δρόμου είναι κοκκινόξυλα, με μπαλώματα πρασίνου διάσπαρτα παντού. Το αυτοκίνητο φαίνεται από το πίσω μέρος να ακολουθεί την καμπύλη με ευκολία, κάνοντάς το να φαίνεται σαν να βρίσκεται σε μια κακοτράχαλη οδήγηση μέσα από το απόκρημνο έδαφος. Ο ίδιος ο χωματόδρομος περιβάλλεται από απότομους λόφους και βουνά, με έναν καταγάλανο ουρανό από πάνω με συννεφιά.

Στο στοιχειωμένο σκηνικό μιας κατεστραμμένης από τον πόλεμο πόλης, όπου τα ερείπια και οι γκρεμισμένοι τοίχοι αφηγούνται μια ιστορία καταστροφής, ένα συγκλονιστικό κοντινό πλάνο πλαισιώνει ένα νεαρό κορίτσι. Το πρόσωπό της είναι μουτζουρωμένο με στάχτη, μια σιωπηλή απόδειξη του χάους γύρω της. Τα μάτια της γυαλίζουν από ένα μείγμα θλίψης και ανθεκτικότητας, αποτυπώνοντας την ωμή συγκίνηση ενός κόσμου που έχει χάσει την αθωότητά του στις καταστροφές των συγκρούσεων.

Μια ενιαία πεταλούδα με φτερά που μοιάζουν με βιτρό κυματίζει μέσα από ένα χωράφι με λουλούδια. Η λήψη συλλαμβάνει το φως καθώς περνά μέσα από τα ευαίσθητα φτερά, δημιουργώντας μια ζωντανή, πολύχρωμη οθόνη. HD.

Ένα χιονισμένο δασικό τοπίο με χωματόδρομο να το διασχίζει. Ο δρόμος πλαισιώνεται από δέντρα καλυμμένα με χιόνι, και το έδαφος είναι επίσης καλυμμένο με χιόνι. Ο ήλιος λάμπει, δημιουργώντας μια φωτεινή και γαλήνια ατμόσφαιρα. Ο δρόμος φαίνεται να είναι άδειος και δεν φαίνονται άνθρωποι ή ζώα στο βίντεο. Το στυλ του βίντεο είναι μια λήψη φυσικού τοπίου, με επίκεντρο την ομορφιά του χιονισμένου δάσους και τη γαλήνη του δρόμου.

Εξαιρετική κινηματογράφηση σε πρώτο πλάνο κεμπάπ κοτόπουλου και πράσινης πιπεριάς που ψήνεται στη σχάρα σε μπάρμπεκιου με φλόγες. Ρηχή εστίαση και ελαφρύς καπνός. ζωηρά χρώματα


Κάντε κλικ στο "" και πάμε