Η AI έκδοση του Sora είναι εδώ! Είναι δωρεάν και απεριόριστο για όλους, μπορείτε να το παίξετε αν έχετε κινητό τηλέφωνο και το API είναι επίσης open

Η AI έκδοση του Sora είναι εδώ!Είναι δωρεάν και απεριόριστο για όλους, μπορείτε να το παίξετε αν έχετε κινητό τηλέφωνο και το API είναι επίσης ανοιχτό

2024-07-26

Ο Jin Lei προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Μόλις τώρα,Φάσμα σοφίας AIΜια εκδοχή του Sora γεννήθηκε, με το όνομακαθαρή σκιά。

Χωρίς περαιτέρω καθυστέρηση, ας ρίξουμε μια ματιά στις εικόνες που δημιουργούνται από το Qingyingμια ταινία μικρού μήκους。

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

υπάρχειVincent ΒίντεοΓια παράδειγμα, εάν δώσετε μια προτροπή στο Qingying, μπορείτεΠροκαλέστε τη φαντασία του：

Στη νυχτερινή σκηνή της πόλης σε στυλ cyberpunk με φώτα νέον που αναβοσβήνουν, η κάμερα χειρός μεγεθύνει αργά, δείχνοντας έναν πιθηκάκι μηχανικού στυλ που χρησιμοποιεί εργαλεία υψηλής τεχνολογίας για επισκευές, που περιβάλλεται από ηλεκτρονικό εξοπλισμό που αναβοσβήνει και φουτουριστικά διακοσμητικά υλικά. Στυλ Cyberpunk, μυστηριώδης ατμόσφαιρα, 4K υψηλής ευκρίνειας.

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Είναι γεμάτο cyberpunk και φουτουριστική γεύση και είναι πιο κοντά στην εικόνα που φανταζόμαστε στο μυαλό μας.

Και εκτόςVincent ΒίντεοΕπιπλέον, Qingying αυτή τη φοράβίντεο tushengΟι ικανότητες απελευθερώθηκαν επίσης μαζί.

Τώρα, ας συγκρίνουμε τη φαντασία σας και τη δημιουργικότητα του Qingying για να δούμε ποιος είναι καλύτερος.

Παρακαλώ δείτε την πρώτη φωτογραφία--σπηλαιώδης πολιτισμός：

Στη συνέχεια, το παρακάτω βίντεο είναι η έκδοση που δημιουργήθηκε και βαθμολογήθηκε από τον Qingying χρησιμοποιώντας AI Power:

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Στο τέλος του βίντεο, ο Qingying έμαθε πραγματικά να κουνάει την κάμερα στα βασικά καρέ, κάνοντας το βίντεο πιο μυστηριώδες.

Στη συνέχεια, ας έρθουμε στον 2ο γύρο και συνεχίζουμε να δούμε τις φωτογραφίες μαζί πρώτα——Πνοή Δράκου της Φωτιάς：

Το βίντεο που δημιουργήθηκε από τον Qingying με βάση αυτήν την εικόνα ανοίγει ως εξής:

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Μπορούσα να φανταστώ ότι ο δράκος ετοιμαζόταν να αναπνεύσει φωτιά, αλλά δεν περίμενα ότι θα έκαιγε το χωριό στο έδαφος, αλλά ήταν και λογικό.

Αλλά κοιτάζοντας ολόκληρη την εκδήλωση εκκίνησης του Zhipu AI, τα εφέ υψηλής ευκρίνειας και συνέπειας της εικόνας είναι μόνο ένα μέρος από τα σημαντικότερα σημείααξία ευημερίαςΕίναι γεμάτο!

Δωρεάν για όλους, δεν χρειάζεται ουρά, απεριόριστες ώρες!

Επιπλέον, το αποτέλεσμα είναι να δημιουργήσετε απευθείας ένα μεγάλο μοντέλο από τα δικά σας βίντεο.CogVideoΙκανότηταΠλήρης δύναμη, μην ασχολείστε με το μάρκετινγκ πείνας.

Σύμφωνα με το Zhipu AI, χρειάζονται μόνο 30 δευτερόλεπτα για να δημιουργηθεί ένα βίντεο 6s 1440x960, το οποίο αυξάνει την ταχύτητα συμπερασμάτων του μοντέλου έως και 6 φορές.

Όχι μόνο αυτό, τώρα στο Zhipu QingyanΈκδοση για υπολογιστήκαιΕΦΑΡΜΟΓΗΣτον ιστότοπο, οι λειτουργίες του Wensheng Video/Tusheng Video έχουν ανοίξει.AppletsΑπό την άλλη πλευρά, προς το παρόν υποστηρίζει μόνο βίντεο Tusheng.

Υπάρχουν επίσης καλά νέα για τους προγραμματιστές Αυτή τη φορά το βίντεο δημιουργεί μεγάλα μοντέλα.APIΕπίσης έχει ανοίξει πλήρως, ναιΤο εσωτερικό πρώταω!

Πρέπει να πω ότι από την άποψη της ευκολίας και της αποτελεσματικότητας, το Zhipu AI το έχει επίσης πετύχει αυτή τη φορά.

Στη συνέχεια, λοιπόν, ήρθε η ώρα να χρησιμοποιήσετε τη λειτουργία δημιουργίας βίντεο του Zhipu AI για να κάνετε κάποιες πραγματικές δοκιμές.

Έκδοση τεχνητής νοημοσύνης με μετρημένο φάσμα σοφίας Sora

Ας κάνουμε πρώτα ένα τεστVincent ΒίντεοΑποτέλεσμα.

Ανοίξτε την έκδοση Zhipu Qingyan APP ή PC και η είσοδος στο Vincent Video θα βρίσκεται στον κύριο διάλογο.

Λαμβάνοντας ως παράδειγμα την APP, η διεπαφή είναι η εξής:

Τότε όλα είναι έτοιμα, απλώς εισάγετε την προτροπή.

Αλλά πρέπει να σημειωθεί ότι αυτό είναι το κλειδί για την επιτυχία ή την αποτυχία της δημιουργίας βίντεο.

Μία από τις πιο σημαντικές αρχές είναι: Κόμπος! Δομή! φύλο!Ο τύπος έχει ως εξής:

Απλή φόρμουλα: [Κίνηση κάμερας] + [Σκηνή κατασκευής] + [Περισσότερες λεπτομέρειες]
Πολύπλοκος τύπος: [Γλώσσα φακού] + [Φως και σκιά] + [Θέμα (Περιγραφή θέματος)] + [Κίνηση θέματος] + [Σκηνή (Περιγραφή σκηνής)] + [Διάθεση/Ατμόσφαιρα/Στιλ]

Πόσο χειρότερο θα είναι λοιπόν το αποτέλεσμα;

Για παράδειγμα, αν απλώς εισάγετε:αγοράκι πίνοντας καφέ, το αποτέλεσμα που δημιουργείται έχει ως εξής:

Είναι αρκετά ικανοποιητικό, αλλά μοιάζει με AI με μια ματιά.

Αλλά εάν οι προτρεπτικές λέξεις εμπλουτιστούν σύμφωνα με τον τύπο, τότε η μέθοδος ανοίγματος θα είναι εντελώς διαφορετική:

Η κάμερα κινείται για να αποκαλύψει ένα μικρό αγόρι που κάθεται σε ένα παγκάκι στο πάρκο, κρατώντας ένα φλιτζάνι καφέ στον ατμό. Έδειχνε χαρούμενος με ένα μπλε πουκάμισο, με ένα δεντρόφυτο πάρκο στο βάθος και το φως του ήλιου να διαπερνά τα φύλλα.

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Όχι, η αίσθηση της ταινίας βγήκε ξαφνικά.

Αλλά εκτός από τη φόρμουλα μόλις τώρα, υπάρχουν αρκετές σημαντικές αρχές στις οποίες μπορείτε επίσης να ανατρέξετε.

πρώτα,Η επανάληψη είναι δύναμη。

Η επανάληψη ή η ενίσχυση λέξεων-κλειδιών σε διαφορετικά μέρη του μηνύματος μπορεί να συμβάλει στη βελτίωση της συνέπειας του αποτελέσματος. Για παράδειγμα, η κάμερα διασχίζει τη σκηνή με εξαιρετικά υψηλή ταχύτητα (οι λέξεις "super high speed" και "fast" είναι επαναλαμβανόμενες λέξεις).

Δεύτερον, προσπαθήστε να εστιάσετε τις προτροπές σας σε αυτό που πρέπει να εμφανίζεται στη σκηνή. Για παράδειγμα, θα πρέπει να υποδείξετε έναν καθαρό ουρανό και όχι έναν ουρανό χωρίς σύννεφα.

Με αυτούς τους τύπους και τις αρχές σε ισχύ, μπορούμε να το δοκιμάσουμε.

Ο μικρός πρίγκιπας και η αλεπού κοιτούσαν μαζί τα αστέρια στο φεγγάρι.

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Ρεαλιστική απεικόνιση, σε κοντινή απόσταση, ενός τσίτα που κοιμάται στο έδαφος, με το σώμα του να ανεβαίνει και να πέφτει ελαφρά.

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Επιπλέον, σύμφωνα με την εισαγωγή του Zhipu AI, αν το δοκιμάσετε μερικές φορές, μπορεί να εμφανιστούν απροσδόκητα εφέ (είναι δωρεάν ούτως ή άλλως).

Μετά το βίντεο του Vincent, θα το δοκιμάσουμε ξανάβίντεο tusheng。

Υπάρχουν επίσης δύο βασικές τεχνικές εδώ.

Το πρώτο πράγμα είναι ότι οι μεταφορτωμένες φωτογραφίες πρέπει να είναι όσο το δυνατόν πιο καθαρές, κατά προτίμηση με αναλογία 3:2 και μορφή jpg ή png.

Το δεύτερο είναι ακόμα Prompt,Πρέπει να υπάρχει θέμα, και στη συνέχεια το Prompt μπορεί να γραφτεί σύμφωνα με τον τύπο "[Subject]+[Subject Movement]+[Background]+[Background Movement]".

Φυσικά, είναι δυνατό χωρίς προτροπή, αλλά το AI θα δημιουργήσει βίντεο με βάση τις δικές του ιδέες.

Για παράδειγμα, «ταΐζουμε» μια φωτογραφία του Tang Monk:

Στη συνέχεια, σύμφωνα με την τεχνική του τύπου που μόλις δόθηκε, η προτροπή είναι η εξής:

Ο Τανγκ Σενγκ άπλωσε το χέρι του και φόρεσε τα γυαλιά ηλίου του.

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Από αυτό, υπάρχουν πολλοί τρόποι για να παίξετε (να κάνετε πράγματα).

Για παράδειγμα, αφήστε τον Zhen Huan και τον Shen Meizhuang να «σπάσουν τον τοίχο» και να αγκαλιάσουν ο ένας τον άλλον:

Ο Zhen Huan Meizhuang αγκαλιάζει την οθόνη.

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Είναι εύκολο να αναβιώσετε παλιές φωτογραφίες:

Ο Χου Σι γύρισε και έφυγε.

Διεύθυνση βίντεο: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Κρίνοντας από διάφορα εφέ, το Qingying του Zhipu AI είναι ένα είδος Sora που μπορεί να χρησιμοποιηθεί άμεσα.

Το επόμενο ερώτημα λοιπόν είναι:

Πώς το έκανες;

Στον τομέα της παραγωγής βίντεο, η συνέπεια και η συνοχή του περιεχομένου εξόδου είναι βασικοί παράγοντες που καθορίζουν το τελικό αποτέλεσμα.

Για το σκοπό αυτό, σύμφωνα με το Zhipu AI, η ομάδα ανέπτυξε μια αποτελεσματικήΤρισδιάστατη δομή μεταβλητού αυτόματου κωδικοποιητή(3D VAE), συμπιέζει τον αρχικό χώρο βίντεο στο 2% του μεγέθους, μειώνοντας σημαντικά το κόστος εκπαίδευσης και τη δυσκολία εκπαίδευσης του μοντέλου παραγωγής διάχυσης βίντεο.

Όσον αφορά τη δομή του μοντέλου, η ομάδα Zhipu υιοθετείαιτιατική τρισδιάστατη συνέλιξη(Αιτιακή τρισδιάστατη συνέλιξη) είναι το κύριο στοιχείο του μοντέλου και η μονάδα προσοχής που χρησιμοποιείται συνήθως στους αυτόματους κωδικοποιητές αφαιρείται, δίνοντας στο μοντέλο τη δυνατότητα να μεταναστεύει σε διαφορετικές αναλύσεις.

Ταυτόχρονα, η μορφή της αιτιώδους συνέλιξης στη χρονική διάσταση επιτρέπει επίσης στο μοντέλο να έχει ανεξαρτησία αλληλουχίας εμπρός-πίσω για κωδικοποίηση και αποκωδικοποίηση βίντεο. Ο σκοπός αυτού είναι να διευκολυνθεί η γενίκευση σε υψηλότερους ρυθμούς καρέ και μεγαλύτερους χρόνους - συντονισμός.

Από τη σκοπιά της μηχανικής ανάπτυξης, το Zhipu AI βασίζεται στη διάσταση του χρόνου.παραλληλισμός ακολουθίας(Temporal Sequential Parallel) βελτιστοποιεί και αναπτύσσει τον αυτόματο κωδικοποιητή παραλλαγής για να του επιτρέπει να υποστηρίζει την κωδικοποίηση και την αποκωδικοποίηση βίντεο εξαιρετικά υψηλού ρυθμού καρέ με μικρότερο αποτύπωμα μνήμης γραφικών.

Αλλά εκτός από τη συνέπεια και τη συνοχή του περιεχομένου, υπάρχει ένα άλλο πρόβλημα στη δημιουργία βίντεο - τα περισσότερα από τα τρέχοντα δεδομένα βίντεο δεν διαθέτουν αντίστοιχο περιγραφικό κείμενο ή η ποιότητα περιγραφής είναι χαμηλή.

Για το σκοπό αυτό, η Zhipu AI έχει αναπτύξει ένα μοντέλο κατανόησης βίντεο από άκρο σε άκρο για τη δημιουργία λεπτομερών και φιλικών προς το περιεχόμενο περιγραφών για τεράστια δεδομένα βίντεο.

Με αυτόν τον τρόπο, μπορούν να βελτιωθούν οι δυνατότητες κατανόησης κειμένου και ακόλουθων οδηγιών του μοντέλου, καθιστώντας το παραγόμενο βίντεο πιο συνεπές με την είσοδο του χρήστη και ικανό να κατανοεί εξαιρετικά μεγάλες και πολύπλοκες άμεσες οδηγίες.

Τέλος, η Zhipu AI ανέπτυξε επίσης μια αρχιτεκτονική Transformer που ενσωματώνει τις τρεις διαστάσεις του κειμένου, του χρόνου και του χώρου.

Εγκαταλείπει την παραδοσιακή μονάδα πολλαπλής προσοχής, αλλά συνδυάζει την ενσωμάτωση κειμένου και την ενσωμάτωση βίντεο στο στάδιο εισαγωγής για να αλληλεπιδράσει πληρέστερα με τις δύο λειτουργίες.

Ωστόσο, οι χώροι χαρακτηριστικών των δύο τρόπων είναι πολύ διαφορετικοί. κάνοντας Το μοντέλο μπορεί να χρησιμοποιήσει αποτελεσματικά παραμέτρους για την καλύτερη ευθυγράμμιση των οπτικών πληροφοριών με τις σημασιολογικές πληροφορίες.

Η ενότητα της προσοχής υιοθετεί έναν τρισδιάστατο μηχανισμό πλήρους προσοχής δεν μπορεί να προσαρμοστεί στα υπάρχοντα αποτελεσματικά πλαίσια κατάρτισης.

Η μονάδα κωδικοποίησης θέσης σχεδιάζει 3D RoPE, το οποίο είναι πιο ευνοϊκό για την αποτύπωση της σχέσης μεταξύ των καρέ στη διάσταση του χρόνου και για τη δημιουργία εξαρτήσεων μεγάλης εμβέλειας στο βίντεο.

Τα παραπάνω είναι το βασικό τεχνικό πλεονέκτημα πίσω από το πώς ο Zhipu έγινε Qingying.

Ακόμη ένα πράγμα

Εκτός από αυτήν τη δωρεάν έκδοση, το Zhipu AI έχει επίσης κυκλοφορήσει μια πληρωμένη έκδοση, η τιμή είναι η εξής:

5 γιουάν:Ξεκλειδώστε 24ωρα προνόμια υψηλής ταχύτητας
199 γιουάν: Ξεκλειδώστε ένα έτος δικαιωμάτων υψηλής ταχύτητας

Μετατρέψτε το ετήσιο τέλος, δηλαδήΜόνο 5 λεπτά την ημέρα。

Λοιπόν, πράγματι μυρίζει λίγο αρωματικό.

Ο σύνδεσμος εμπειρίας είναι παρακάτω Οι ενδιαφερόμενοι φίλοι μπορούν να το δοκιμάσουν

https://chatglm.cn/video

Νέα

Η AI έκδοση του Sora είναι εδώ!Είναι δωρεάν και απεριόριστο για όλους, μπορείτε να το παίξετε αν έχετε κινητό τηλέφωνο και το API είναι επίσης ανοιχτό

Έκδοση τεχνητής νοημοσύνης με μετρημένο φάσμα σοφίας Sora

Πώς το έκανες;

Ακόμη ένα πράγμα

Εισαγωγή

τα στοιχεία επικοινωνίας μου