Νέα

Η έκδοση AI του Sora είναι ανοιχτού κώδικα!Το πρώτο που είναι διαθέσιμο στο εμπόριο, με δυνατότητα αναπαραγωγής στο διαδίκτυο, 3,7 χιλιάδες αστέρια στο GitHub σε 5 ώρες

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Ο Jin Lei προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Η εγχώρια έκδοση του Sora είναι πραγματικά τρελή.

Μόλις τώρα,Φάσμα σοφίας AIκατευθείανκαθαρή σκιάΤο μεγάλο μοντέλο πίσω από τη δημιουργία βίντεο δίνειΑνοιχτή πηγή

Και είναιΤο πρώτο εμπορικά διαθέσιμοΚάτι τέτοιο!



Το όνομα αυτού του μοντέλου είναιCogVideoX, μόλις κυκλοφόρησε μόνο στο GitHub5 ώρες, έτσι το πήρε άγρια3,7K αστέρια️。



Ας δούμε απευθείας το αποτέλεσμα.

Προτροπή 1,Κοντινό πλάνο ανθρώπων

Στο στοιχειωμένο σκηνικό μιας κατεστραμμένης από τον πόλεμο πόλης, όπου τα ερείπια και οι γκρεμισμένοι τοίχοι αφηγούνται μια ιστορία καταστροφής, ένα συγκλονιστικό κοντινό πλάνο πλαισιώνει ένα νεαρό κορίτσι. Το πρόσωπό της είναι μουτζουρωμένο με στάχτη, μια σιωπηλή απόδειξη του χάους γύρω της. Τα μάτια της γυαλίζουν από ένα μείγμα θλίψης και ανθεκτικότητας, αποτυπώνοντας την ωμή συγκίνηση ενός κόσμου που έχει χάσει την αθωότητά του στις καταστροφές των συγκρούσεων.



Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Μπορεί να φανεί ότι όχι μόνο οι λεπτομέρειες, όπως τα μάτια των χαρακτήρων είναι πολύ υψηλής ευκρίνειας, αλλά διατηρείται και η συνέχεια πριν και μετά το αναβοσβήσιμο.

Ελάτε ξανά στο Prompt 2,Ένα σουτ μέχρι το τέλος

Η κάμερα ακολουθεί πίσω από ένα λευκό vintage SUV με μαύρη σχάρα οροφής καθώς επιταχύνει έναν απότομο χωματόδρομο που περιβάλλεται από πεύκα σε μια απότομη πλαγιά βουνού, η σκόνη αναδύεται από τα ελαστικά του, το φως του ήλιου λάμπει στο SUV καθώς κινείται με ταχύτητα κατά μήκος του χώματος δρόμο, ρίχνοντας μια ζεστή λάμψη στη σκηνή. Ο χωματόδρομος στρίβει απαλά προς την απόσταση, χωρίς να φαίνονται άλλα αυτοκίνητα ή οχήματα. Τα δέντρα εκατέρωθεν του δρόμου είναι κοκκινόξυλα, με μπαλώματα πρασίνου διάσπαρτα παντού. Το αυτοκίνητο φαίνεται από το πίσω μέρος να ακολουθεί την καμπύλη με ευκολία, κάνοντάς το να φαίνεται σαν να βρίσκεται σε μια κακοτράχαλη οδήγηση μέσα από το απόκρημνο έδαφος. Ο ίδιος ο χωματόδρομος περιβάλλεται από απότομους λόφους και βουνά, με έναν καταγάλανο ουρανό από πάνω με συννεφιά.



Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Φως και σκιά, μακρινές όψεις, κοντινές λήψεις και η διαδικασία οδήγησης του οχήματος καταγράφονται.

Και αυτά τα εφέ δεν είναι απλώς ενέργειες επίσημων εκδόσεων, μπορούν να παιχτούν διαδικτυακά από όλους~

Μονή κάρτα A100, μπορεί να δημιουργηθεί σε 90 δευτερόλεπτα

Αξίζει να αναφέρουμε ότι το CogVideoX της Zhipu AI περιλαμβάνει πολλά διαφορετικά μεγέθη και το ανοιχτού κώδικα αυτή τη φορά είναι το CogVideoX-2B.

Οι σχετικές βασικές πληροφορίες του είναι οι εξής:



Απαιτεί μόνο 18 GB μνήμης βίντεο για συμπέρασμα με ακρίβεια FP-16 και μόνο 40 GB μνήμης βίντεο για μικροσυντονισμό. Αυτό σημαίνει ότι μια μεμονωμένη κάρτα γραφικών 4090 μπορεί να πραγματοποιήσει συμπεράσματα και μια κάρτα γραφικών A6000 μπορεί να ολοκληρώσει τη λεπτομέρεια.

Είναι κατανοητό ότι αυτό το μοντέλο υποστηρίζει ήδη την ανάπτυξη στη βιβλιοθήκη διαχυτών του HuggingFace και η λειτουργία είναι πολύ απλή, με μόνο 2 βήματα:

1. Εγκαταστήστε τις αντίστοιχες εξαρτήσεις

εγκατάσταση pip -- αναβάθμιση μετασχηματιστών opencv-python pip install git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Ακόμα σε PR

2. Εκτελέστε τον κωδικό

εισαγωγή φακού από διαχυτές εισαγωγή CogVideoXPipelinefrom diffusers.utils import export_to_videoprompt = "Ένα panda, ντυμένο με ένα μικρό, κόκκινο σακάκι και ένα μικροσκοπικό καπέλο, κάθεται σε ένα ξύλινο σκαμνί σε ένα γαλήνιο δάσος από μπαμπού. , μελωδικές μελωδίες, μαζεύονται μερικά άλλα πάντα, που παρακολουθούν με περιέργεια και το φως του ήλιου διέρχεται από το ψηλό μπαμπού, ρίχνοντας μια απαλή λάμψη στη σκηνή, δείχνοντας συγκέντρωση και χαρά Το φόντο περιλαμβάνει ένα μικρό, ρέον ρεύμα και ζωντανό πράσινο φύλλωμα, ενισχύοντας τη γαλήνια και μαγική ατμόσφαιρα αυτής της μοναδικής μουσικής παράστασης."pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b",torch_dtype=torch.float16).to("cuda ")prompt_embeds, _ = pipe.encode_prompt(prompt=prompt,do_classifier_free_guidance=True,num_videos_per_prompt=1,max_sequence_length=226,device="cuda",dtype=torch.guidance 6 ,prompt_embeds=prompt_embeds,).frames[0]export_to_video(video, "output.mp4", fps=8)

Και σε ένα A100 με μία κάρτα, ακολουθώντας τα βήματα μόλις τώρα, χρειάζονται μόνο 90 ​​δευτερόλεπτα για τη δημιουργία ενός βίντεο.

Όχι μόνο αυτό, στο HuggingFace, το Zhipu AI έχει κάνει επίσηςΠαίξτε onlineδιαδήλωση,Προσωπικό αποτέλεσμα δοκιμήςως εξής:



Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Όπως μπορείτε να δείτε, τα αποτελέσματα που δημιουργούνται δεν μπορούν να ληφθούν μόνο σε μορφή .mp4, αλλά και σε μορφή GIF.

Η επόμενη ερώτηση λοιπόν είναι, πώς το κάνει το Zhipu AI;

Το έγγραφο έχει επίσης δημοσιοποιηθεί

Το Zhipu AI όχι μόνο παρήγαγε το μοντέλο δημιουργίας βίντεο ανοιχτού κώδικα αυτή τη φορά, αλλά κυκλοφόρησε επίσης την τεχνική έκθεση πίσω από αυτό.



Σε όλη την έκθεση, υπάρχουν τρία σημαντικά τεχνικά σημεία για τα οποία αξίζει να μιλήσουμε.

Πρώτα απ 'όλα, η ομάδα ανέπτυξε μια αποτελεσματικήΤρισδιάστατη δομή μεταβλητού αυτόματου κωδικοποιητή(3D VAE), συμπιέζει τον αρχικό χώρο βίντεο στο 2% του μεγέθους, μειώνοντας σημαντικά το κόστος εκπαίδευσης και τη δυσκολία εκπαίδευσης του μοντέλου παραγωγής διάχυσης βίντεο.

Η δομή του μοντέλου περιλαμβάνει έναν κωδικοποιητή, έναν αποκωδικοποιητή και έναν ρυθμιστή λανθάνοντος χώρου, και η συμπίεση επιτυγχάνεται μέσω τεσσάρων σταδίων μείωσης και ανοδικής δειγματοληψίας. Η χρονική αιτιολογική συνέλιξη διασφαλίζει την αιτιότητα των πληροφοριών και μειώνει τα έξοδα επικοινωνίας. Η ομάδα χρησιμοποιεί παραλληλισμό με βάση τα συμφραζόμενα για να προσαρμοστεί σε μεγάλης κλίμακας επεξεργασία βίντεο.

Σε πειράματα, η ομάδα διαπίστωσε ότι η κωδικοποίηση μεγάλης ανάλυσης είναι εύκολο να γενικευτεί, ενώ η αύξηση του αριθμού των καρέ είναι πιο δύσκολη.

Ως εκ τούτου, η ομάδα εκπαίδευσε το μοντέλο σε δύο στάδια: πρώτα σε χαμηλότερους ρυθμούς καρέ και μίνι-παρτίδες, και στη συνέχεια βελτιώθηκε σε υψηλότερους ρυθμούς καρέ μέσω παραλληλισμού συμφραζομένων. Η λειτουργία απώλειας προπόνησης συνδυάζει απώλεια L2, απώλεια αντίληψης LPIPS και απώλεια GAN του 3D διαχωριστή.



ακολουθούμενη απόExpertTransformer

Η ομάδα χρησιμοποίησε τον κωδικοποιητή VAE για να συμπιέσει το βίντεο σε έναν λανθάνοντα χώρο, στη συνέχεια χώρισε τον λανθάνοντα χώρο σε κομμάτια και τον επέκτεινε σε ενσωματώσεις μεγάλης ακολουθίας z_vision.

Ταυτόχρονα, χρησιμοποιούν το T5 για να κωδικοποιήσουν την εισαγωγή κειμένου σε κείμενο ενσωματώνοντας z_text και, στη συνέχεια, ενώνουν το z_text και το z_vision κατά μήκος της διάστασης ακολουθίας. Οι ενσωματωμένες ενσωματώσεις τροφοδοτούνται σε μια στοίβα από εξειδικευμένα μπλοκ Transformer για επεξεργασία.

Τέλος, η ομάδα ράφισε τις ενσωματώσεις για να ανακτήσει το αρχικό σχήμα λανθάνοντος χώρου και χρησιμοποίησε το VAE για αποκωδικοποίηση για την ανακατασκευή του βίντεο.



Το τελευταίο αποκορύφωμα είναι αυτόδεδομένα.

Η ομάδα ανέπτυξε αρνητικές ετικέτες για να εντοπίσει και να αποκλείσει βίντεο χαμηλής ποιότητας, όπως βίντεο με υπερβολική επεξεργασία, ασταθείς κινήσεις, χαμηλής ποιότητας, σε στυλ διάλεξης, με κυριαρχία κειμένου και βίντεο με θόρυβο οθόνης.

Χρησιμοποιώντας φίλτρα εκπαιδευμένα σε video-llama, σχολίασαν και φιλτράρησαν 20.000 σημεία δεδομένων βίντεο. Ταυτόχρονα, υπολογίζονται οι βαθμολογίες οπτικής ροής και αισθητικής και το όριο προσαρμόζεται δυναμικά για να διασφαλιστεί η ποιότητα του παραγόμενου βίντεο.

Τα δεδομένα βίντεο συνήθως δεν έχουν περιγραφές κειμένου και πρέπει να μετατραπούν σε περιγραφές κειμένου για εκπαίδευση μοντέλου κειμένου σε βίντεο. Τα υπάρχοντα σύνολα δεδομένων υποτίτλων βίντεο έχουν σύντομους υπότιτλους και δεν μπορούν να περιγράψουν πλήρως το περιεχόμενο του βίντεο.

Για το σκοπό αυτό, η ομάδα πρότεινε επίσης μια διοχέτευση για τη δημιουργία υποτίτλων βίντεο από υπότιτλους εικόνας και βελτίωσε το μοντέλο υποτίτλων βίντεο από άκρο σε άκρο για να αποκτήσει πιο πυκνούς υπότιτλους.

Αυτή η μέθοδος δημιουργεί σύντομους υπότιτλους μέσω του μοντέλου Panda70M, υπότιτλους πυκνής εικόνας χρησιμοποιώντας το μοντέλο CogView3 και, στη συνέχεια, συνοψίζει χρησιμοποιώντας το μοντέλο GPT-4 για τη δημιουργία του τελικού σύντομου βίντεο.

Επίσης, βελτίωσαν ένα μοντέλο CogVLM2-Caption βασισμένο στο CogVLM2-Video και το Llama 3, το οποίο εκπαιδεύτηκε χρησιμοποιώντας πυκνά δεδομένα υποτίτλων για να επιταχύνει τη διαδικασία δημιουργίας υποτίτλων βίντεο.



Το παραπάνω είναι το τεχνικό πλεονέκτημα πίσω από το CogVideoX.

Ακόμη ένα πράγμα

Στον τομέα της παραγωγής βίντεο, το Runway’sGen-3Υπάρχουν και νέες δράσεις——

Το Vincent Video του Gen-3 Alpha υποστηρίζει τώρα την εικόνα "τροφοδοσίας", η οποία μπορεί να χρησιμοποιηθεί όχι μόνο ως το πρώτο καρέ του βίντεο, αλλά και ως το τελευταίο καρέ του βίντεο.

Αισθάνεται ότι η τεχνητή νοημοσύνη γυρίζει τον χρόνο πίσω.

Ας ρίξουμε μια ματιά στο αποτέλεσμα:



Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g



Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Τέλος, σχετικά με το μεγάλο μοντέλο παραγωγής βίντεο ανοιχτού κώδικα της Zhipu AI, οι σχετικοί σύνδεσμοι επισυνάπτονται παρακάτω~

Αποθετήριο κώδικα:
https://github.com/THUDM/CogVideo

Λήψη μοντέλου:
https://huggingface.co/THUDM/CogVideoX-2b

Τεχνικές εκθέσεις:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

διαδικτυακή εμπειρία:
https://huggingface.co/spaces/THUDM/CogVideoX