Νέα

Η Zhipu AI κυκλοφορεί ένα μεγάλο μοντέλο παραγωγής βίντεο, η Bilibili συμμετέχει στην έρευνα και την ανάπτυξη και η Yizhuang παρέχει υπολογιστική ισχύ

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Βίντεο μεγάλα μοντέλα μπαίνουν στη μάχη εκατοντάδων μοντέλων.

Συγγραφέας Zhao Jian

Φέτος είναι η πρώτη χρονιά της έκρηξης των μοντέλων «γενιάς βίντεο» μεγάλης κλίμακας. Τους τελευταίους δύο μήνες, είδαμε τα Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 και άλλα μεγάλα μοντέλα βίντεο να κυνηγούν το ένα το άλλο.

Ωστόσο, το πρώτο εξάμηνο του έτους, οι μεγάλες εταιρείες μοντέλων παραγωγής βίντεο έτειναν να επικεντρώνονται μόνο στη λειτουργία παραγωγής βίντεο.

Το δεύτερο εξάμηνο του έτους, οι μεγάλες εταιρείες μοντέλων γλωσσών θα ακολουθήσουν σταδιακά τα βήματα του OpenAI και θα εισέλθουν στην αγορά μεγάλων μοντέλων βίντεο για να ενοποιήσουν τα μοντέλα γλώσσας και τα μοντέλα βίντεο.

Ανάμεσα στα υψηλού προφίλ "Six Big Models", το πιο γρήγορα κινούμενο είναι το Zhipu AI.

Σήμερα το πρωί, αυτός ο μεγάλος μονόκερος με βάση το Tsinghua παρουσίασε το προϊόν παραγωγής μεγάλου μοντέλου "Qingying", το οποίο είναι άμεσα ανοιχτό σε όλους τους χρήστες και υποστηρίζει Wensheng Video και Tusheng Video.

Αφού εισαγάγουν ένα κομμάτι κειμένου ή εικόνας (δηλ. Προτροπή) στον υπολογιστή ή την εφαρμογή Zhipu Qingyan, οι χρήστες μπορούν να επιλέξουν το στυλ που θέλουν να δημιουργήσουν, συμπεριλαμβανομένων τρισδιάστατων κινουμένων σχεδίων, ασπρόμαυρων, ελαιογραφίας, στυλ ταινίας κ.λπ., συνοδευόμενα από το στυλ του Qingying μουσική , δημιουργώντας βίντεο κλιπ γεμάτα φαντασία τεχνητής νοημοσύνης, επιπλέον, το "AI Dynamic Photo Mini Program" υποστηρίζει βίντεο Tusheng.

Όσον αφορά την τρέχουσα κατάσταση στον τομέα των μεγάλων μοντέλων βίντεο, ο Zhang Peng πιστεύει ότι πιθανότατα θα μπει σε μια κατάσταση όπου εκατό σχολές σκέψης θα αντιπαρατεθούν, ακριβώς όπως τα μεγάλα γλωσσικά μοντέλα.

Όσον αφορά τη στρατηγική εμπορευματοποίησης, το τρέχον σχέδιο πληρωμής του Qingying είναι: κατά την αρχική περίοδο δοκιμής, όλοι οι χρήστες μπορούν να το χρησιμοποιήσουν δωρεάν για να ξεκλειδώσουν τα δικαιώματα του καναλιού υψηλής ταχύτητας για μία ημέρα (24 ώρες). πληρωμένη πρόσβαση υψηλής ταχύτητας για δικαιώματα καναλιού ενός έτους. Ο Zhang Peng, Διευθύνων Σύμβουλος της Zhipu AI, δήλωσε: "Η τρέχουσα εμπορευματοποίηση βρίσκεται ακόμα σε πολύ πρώιμο στάδιο και το κόστος είναι πραγματικά πολύ υψηλό. Θα επαναλάβουμε σταδιακά με βάση τα σχόλια της αγοράς."

Το Qingying API κυκλοφορεί ταυτόχρονα στην ανοιχτή πλατφόρμα μεγάλου μοντέλου Zhipu Οι επιχειρήσεις και οι προγραμματιστές μπορούν να δοκιμάσουν και να χρησιμοποιήσουν τις δυνατότητες του μοντέλου του Wensheng Video και του Tusheng Video καλώντας το API.

Η έρευνα και η ανάπτυξη του Qingying έχει λάβει ισχυρή υποστήριξη από το Πεκίνο. Η περιφέρεια Haidian είναι η έδρα της Zhipu AI Παρέχει ολοκληρωμένη υποστήριξη, όπως βιομηχανικές επενδύσεις, επιδοτήσεις υπολογιστικής ισχύος, επιδείξεις σεναρίων εφαρμογών και ταλέντα για τη διεξαγωγή έρευνας και ανάπτυξης μοντέλων μεγάλης κλίμακας του Qingying υπολογιστικό σύμπλεγμα υψηλής απόδοσης στο Πεκίνο Η γέννηση του συμπλέγματος υπολογιστικής ισχύος Yizhuang θα εφαρμοστεί επίσης στο τεράστιο βιομηχανικό σύμπλεγμα υψηλής ακρίβειας στο Yizhuang του Πεκίνου, διαμορφώνοντας μια νέα επιχειρηματική μορφή στην οποία τα μεγάλα μοντέλα ενισχύουν την πραγματική οικονομία.


Όσον αφορά την οικολογική συνεργασία, η bilibili συμμετείχε επίσης στη διαδικασία τεχνολογικής έρευνας και ανάπτυξης της Qingying ως εταίρος και δεσμεύεται να διερευνήσει πιθανά μελλοντικά σενάρια εφαρμογής. Ταυτόχρονα, ο συνεργάτης Huace Film and Television συμμετείχε επίσης στη συν-κατασκευή μοντέλων.

Δημιουργήστε βίντεο από οποιοδήποτε κείμενο σε 1,30 δευτερόλεπτα

Ποια είναι η συγκεκριμένη επίδραση του Qingying; Ας ρίξουμε πρώτα μια ματιά σε μερικές επίσημες θήκες βίντεο (όλα συνοδευόμενα από μουσική).

  • Βίντεο του Vincent:

Προτάσεις: Σπρώξτε προς τα πάνω σε χαμηλή γωνία, σηκώστε αργά το κεφάλι σας και ένας δράκος εμφανίζεται ξαφνικά στο παγόβουνο. Τότε ο δράκος σας εντοπίζει και ορμάει προς το μέρος σας.Στυλ ταινίας του Χόλιγουντ

Προειδοποίηση: Στη νυχτερινή σκηνή της πόλης σε στυλ cyberpunk με φώτα νέον που αναβοσβήνουν, η φωτογραφική μηχανή χειρός μεγεθύνεται αργά και μια μικρή μαϊμού σε μηχανικό στυλ την επισκευάζει με εργαλεία υψηλής τεχνολογίας, που περιβάλλεται από ηλεκτρονικό εξοπλισμό που αναβοσβήνει και φουτουριστικά υλικά διακόσμησης. Στυλ Cyberpunk, μυστηριώδης ατμόσφαιρα, 4K υψηλής ευκρίνειας.

Προειδοποιητική λέξη: Προοπτική λήψης διαφήμισης, κίτρινο φόντο, λευκό τραπέζι, μια πατάτα πετιέται κάτω και μετατρέπεται σε μια μερίδα τηγανιτές πατάτες.

  • βίντεο tusheng

Προειδοποιητική λέξη: Κλασική ομορφιά

Προειδοποιητική λέξη: Ένας δράκος βγάζει φωτιά από το στόμα του και καίει ένα μικρό χωριό.

Προτροπή: Η Capybara πίνει νωχελικά κόκα κόλα μέσα από ένα καλαμάκι, στρέφοντας το κεφάλι της προς την κάμερα

Ο χρόνος δημιουργίας βίντεο του Qingying είναι περίπου 6 δευτερόλεπτα και ο χρόνος αναμονής μετά την εισαγωγή της λέξης προτροπής είναι περίπου 30 δευτερόλεπτα. Ο Zhang Peng είπε ότι αυτή η ταχύτητα γενιάς είναι ήδη πολύ γρήγορη στον κλάδο.

Ο Zhang Peng πιστεύει ότι η εξερεύνηση πολυτροπικών μοντέλων βρίσκεται ακόμη σε πολύ πρώιμο στάδιο. Κρίνοντας από την επίδραση των βίντεο που δημιουργούνται, υπάρχουν πολλά περιθώρια βελτίωσης όσον αφορά την κατανόηση των νόμων του φυσικού κόσμου, την υψηλή ανάλυση, τη συνέχεια των κινήσεων της κάμερας και τη διάρκεια. Από την οπτική γωνία του ίδιου του μοντέλου, απαιτείται μια νέα αρχιτεκτονική μοντέλου με περισσότερη πρωτοποριακή καινοτομία. Θα πρέπει να συμπιέζει τις πληροφορίες βίντεο πιο αποτελεσματικά, να ενσωματώνει πλήρως το περιεχόμενο κειμένου και βίντεο και να κάνει το παραγόμενο περιεχόμενο πιο ρεαλιστικό, ενώ συμμορφώνεται με τις οδηγίες του χρήστη.

2. Αυτο-αναπτυγμένη αρχιτεκτονική DiT

Το μοντέλο παραγωγής βίντεο της Βάσης Qingying είναι το CogVideoX, το οποίο ενσωματώνει τις τρεις διαστάσεις του κειμένου, του χρόνου και του χώρου και αναφέρεται στον αλγόριθμο του Sora. Το CogVideoX είναι επίσης μια αρχιτεκτονική DiT Μέσω της βελτιστοποίησης, η ταχύτητα συμπερασμάτων του CogVideoX αυξάνεται κατά 6 φορές σε σύγκριση με την προηγούμενη γενιά (CogVideo).

Ο Zhipu μοιράστηκε κυρίως τρία τεχνικά χαρακτηριστικά του CogVideoX: συνοχή περιεχομένου, δυνατότητα ελέγχου και δομή μοντέλου.


Πρώτον, προκειμένου να λυθεί το πρόβλημα της συνοχής του περιεχομένου,Η Zhipu έχει αναπτύξει μόνος του μια αποτελεσματική τρισδιάστατη δομή μεταβλητού αυτόματου κωδικοποιητή (3D ​​VAE), η οποία συμπιέζει τον αρχικό χώρο βίντεο στο 2% του μεγέθους, μειώνοντας έτσι το κόστος εκπαίδευσης και τη δυσκολία εκπαίδευσης του μοντέλου παραγωγής διάχυσης βίντεο.

Όσον αφορά τη δομή του μοντέλου, το Wisdom Spectrum χρησιμοποιεί τη συνέλιξη Causal 3D ως το κύριο στοιχείο του μοντέλου και αφαιρεί τη μονάδα προσοχής που χρησιμοποιείται συνήθως στους αυτόματους κωδικοποιητές, καθιστώντας το μοντέλο ικανό για μετεγκατάσταση και χρήση σε διαφορετικές αναλύσεις.

Ταυτόχρονα, η μορφή αιτιώδους συνέλιξης στη διάσταση του χρόνου επιτρέπει επίσης στο μοντέλο να έχει ανεξαρτησία αλληλουχίας εμπρός με πίσω για κωδικοποίηση και αποκωδικοποίηση βίντεο, καθιστώντας ευκολότερη τη γενίκευση σε υψηλότερους ρυθμούς καρέ και μεγαλύτερους χρόνους μέσω της λεπτομέρειας.

Από τη σκοπιά της μηχανικής ανάπτυξης, το Zhipu ρυθμίζει και αναπτύσσει τον αυτόματο κωδικοποιητή παραλλαγής με βάση το Temporal Sequential Parallel στη διάσταση του χρόνου, έτσι ώστε να μπορεί να υποστηρίξει την κωδικοποίηση βίντεο με εξαιρετικά υψηλό ρυθμό καρέ με μικρότερο αποτύπωμα μνήμης γραφικών .

Το δεύτερο σημείο είναι η δυνατότητα ελέγχου.Τα περισσότερα από τα τρέχοντα δεδομένα βίντεο στερούνται αντίστοιχου περιγραφικού κειμένου ή η ποιότητα της περιγραφής είναι χαμηλή Για αυτόν τον λόγο, η Zhipu έχει αναπτύξει ένα μοντέλο κατανόησης βίντεο από άκρο σε άκρο για τη δημιουργία λεπτομερών και φιλικών προς το περιεχόμενο περιγραφών για τεράστια δεδομένα βίντεο, έτσι ώστε να βελτιώνεται η τις δυνατότητες κατανόησης κειμένου και οδηγιών του μοντέλου, καθιστώντας το παραγόμενο βίντεο πιο συνεπές με την εισαγωγή του χρήστη και ικανό να κατανοεί εξαιρετικά μεγάλες και πολύπλοκες άμεσες οδηγίες.

Αυτή είναι και η μέθοδος που χρησιμοποιεί ο Σόρα. Το OpenAI εκπαίδευσε ένα εξαιρετικά περιγραφικό μοντέλο δημιουργίας υποτίτλων χρησιμοποιώντας την «τεχνική επαναληπτικών υποτίτλων» του DALL·E 3 και στη συνέχεια το χρησιμοποίησε για να δημιουργήσει υπότιτλους κειμένου για τα βίντεο στο σύνολο δεδομένων εκπαίδευσης. Επιπλέον, το OpenAI αξιοποιεί το GPT για να μετατρέψει σύντομες προτροπές χρήστη σε πιο λεπτομερείς υπότιτλους, οι οποίοι στη συνέχεια αποστέλλονται στο μοντέλο βίντεο.

Τέλος, υπάρχει μια αρχιτεκτονική μετασχηματιστή που αναπτύχθηκε από τον Zhipu που ενσωματώνει τις τρεις διαστάσεις του κειμένου, του χρόνου και του χώρου.Εγκαταλείπει την παραδοσιακή μονάδα πολλαπλής προσοχής, αλλά συνδυάζει την ενσωμάτωση κειμένου και την ενσωμάτωση βίντεο στο στάδιο εισαγωγής για να αλληλεπιδράσει πληρέστερα με τις δύο λειτουργίες.

Ωστόσο, οι χώροι χαρακτηριστικών των δύο τρόπων είναι πολύ διαφορετικοί επιτρέπει στο μοντέλο να χρησιμοποιεί αποτελεσματικά παραμέτρους για την καλύτερη ευθυγράμμιση των οπτικών πληροφοριών με τις σημασιολογικές πληροφορίες.

Η ενότητα της προσοχής υιοθετεί έναν τρισδιάστατο μηχανισμό πλήρους προσοχής δεν μπορεί να προσαρμοστεί στα υπάρχοντα αποτελεσματικά πλαίσια κατάρτισης.

Η μονάδα κωδικοποίησης θέσης σχεδίασε το 3D RoPE, το οποίο είναι πιο ευνοϊκό για την καταγραφή της σχέσης μεταξύ των καρέ στη διάσταση του χρόνου και για τη δημιουργία εξαρτήσεων μεγάλης εμβέλειας στο βίντεο.

3. Ο νόμος κλιμάκωσης εξακολουθεί να παίζει

Στην αρχή της τεχνητής νοημοσύνης στη διαδρομή μεγάλου μοντέλου, ο Zhipu άρχισε να σχεδιάζει σχετικές διατάξεις στο πεδίο πολλαπλών τρόπων. Από κείμενο σε εικόνες και βίντεο, η κατανόηση του κόσμου από τα μεγάλα μοντέλα γίνεται όλο και πιο περίπλοκη και πολυδιάστατη. Μέσω της εκμάθησης διαφόρων τρόπων, προκύπτουν μεγάλα μοντέλα με την ικανότητα κατανόησης, γνώσης και χειρισμού διαφορετικών εργασιών.

Η έρευνα του Zhipu σχετικά με τα πολυτροπικά μεγάλα μοντέλα μπορεί να αναχθεί στο 2021. Από το 2021, η Zhipu έχει αναπτύξει τα CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24) και CogView3 (2024).


Με βάση το CogView, η ομάδα ανέπτυξε το CogVideo, ένα μοντέλο δημιουργίας κειμένου σε βίντεο βασισμένο σε μεγάλα μοντέλα. Υιοθέτησε μια ιεραρχική στρατηγική εκπαίδευσης με ρυθμό πολλαπλών καρέ για τη δημιουργία κλιπ βίντεο υψηλής ποιότητας και πρότεινε μια μέθοδο που βασίζεται σε αναδρομική παρεμβολή. Δημιουργήστε σταδιακά κείμενο που αντιστοιχεί σε κάθε υποπεριγραφή και παρεμβάλετε αυτά τα βίντεο κλιπ επίπεδο προς στρώμα για να λάβετε τα τελικά βίντεο κλιπ. Αυτή η εργασία έχει προσελκύσει ευρεία προσοχή από το Facebook, την Google και τη Microsoft και έχει αναφερθεί σε επόμενες εργασίες μοντέλων δημιουργίας βίντεο, όπως το Make-A-Video του Facebook, το Phenaki και το MAGVIT της Google, το DragNUWA της Microsoft και τα Video LDM της NVIDIA.

Τον Μάιο του 2024, η τεχνική ομάδα μεγάλων μοντέλων GLM ανέπτυξε διεξοδικά τις τρεις κύριες τεχνικές τάσεις των μεγάλων μοντέλων GLM για AGI κατά τη διάρκεια της κεντρικής ομιλίας του ICLR 2024, στην οποία τα εγγενή πολυτροπικά μεγάλα μοντέλα διαδραματίζουν σημαντικό ρόλο: Η ομάδα μεγάλων μοντέλων GLM πιστεύει ότι Το κείμενο κατασκευάζεται Το βασικό θεμέλιο για μεγάλα μοντέλα, το επόμενο βήμα είναι η ανάμειξη κειμένου, εικόνων, βίντεο, ήχου και άλλων τρόπων για εκπαίδευση για τη δημιουργία ενός πραγματικά εγγενούς πολυτροπικού μοντέλου.


Το Zhipu έχει μια ολοκληρωμένη διάταξη προϊόντων μεγάλης σειράς μοντέλων και τα πολυτροπικά μοντέλα παίζουν πάντα σημαντικό ρόλο. Η Zhipu επαλήθευσε την αποτελεσματικότητα του νόμου κλιμάκωσης στη δημιουργία βίντεο. Στο μέλλον, ενώ θα συνεχίσουμε να αυξάνουμε την κλίμακα δεδομένων και την κλίμακα μοντέλων, θα εξερευνήσουμε νέες αρχιτεκτονικές μοντέλων με πιο πρωτοποριακή καινοτομία, θα συμπιέσουμε πληροφορίες βίντεο πιο αποτελεσματικά και θα συνδυάσουμε πληρέστερα κείμενο. και περιεχόμενο βίντεο.

Ο Zhang Peng πιστεύει ότι μία από τις τεχνολογικές πρωτοποριακές κατευθύνσεις για μεγάλα μοντέλα στο μέλλον είναι τα εγγενή πολυτροπικά μεγάλα μοντέλα και το Scaling Law θα συνεχίσει να παίζει ρόλο τόσο στους αλγόριθμους όσο και στα δεδομένα.

«Δεν έχουμε δει ακόμη σημάδια επιβράδυνσης της καμπύλης τεχνολογίας», είπε ο Zhang Peng.

(Πηγή εικόνας εξωφύλλου και συνοδευτικών εικόνων κειμένου: Zhipu)