Νέα

Το Zhipu AI εισέρχεται στη δημιουργία βίντεο: Το "Qingying" είναι διαδικτυακό, διάρκειας 6 δευτερολέπτων, δωρεάν και απεριόριστο

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Αναφορά Μηχανικής Καρδιάς

Τμήμα Σύνταξης Machine Heart

Η μεγάλη ομάδα μοντέλων Zhipu είναι αυτο-αναπτύχθηκε και χτίστηκε.

Δεδομένου ότι το Kuaishou Keling AI έχει γίνει δημοφιλές στο εσωτερικό και στο εξωτερικό, η εγχώρια παραγωγή βίντεο γίνεται όλο και πιο δημοφιλής όπως το μοντέλο μεγάλου κειμένου το 2023.

Μόλις τώρα κυκλοφόρησε επίσημα ένα άλλο προϊόν μοντέλου μεγάλης γενιάς βίντεο: το Zhipu AI κυκλοφόρησε επίσημα το "Qingying". Εφόσον έχετε καλές ιδέες (λίγες λέξεις έως εκατοντάδες λέξεις) και λίγη υπομονή (30 δευτερόλεπτα), το "Qingying" μπορεί να δημιουργήσει βίντεο υψηλής ακρίβειας με ανάλυση 1440x960.



Σύνδεσμος βίντεο: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Από εδώ και στο εξής, το Qingying θα κυκλοφορήσει την εφαρμογή Qingyan και όλοι οι χρήστες μπορούν να βιώσουν πλήρως τις λειτουργίες του διαλόγου, των εικόνων, των βίντεο, των κωδικών και της δημιουργίας πρακτόρων. Εκτός από την κάλυψη του ιστού και της εφαρμογής του Zhipu Qingyan, μπορείτε επίσης να χρησιμοποιήσετε το "AI Dynamic Photo Mini Program" για να επιτύχετε γρήγορα δυναμικά εφέ για φωτογραφίες στο τηλέφωνό σας.



Το βίντεο που δημιουργείται από τον Zhipu "Qingying" έχει διάρκεια 6 δευτερόλεπτα και έχει ανάλυση 1440×960 Όλοι οι χρήστες μπορούν να το χρησιμοποιήσουν δωρεάν.



  • Σύνδεσμος πρόσβασης υπολογιστή: https://chatglm.cn/
  • Σύνδεσμος πρόσβασης για κινητά: https://chatglm.cn/download?fr=web_home

Η Zhipu AI δήλωσε ότι με τη συνεχή ανάπτυξη της τεχνολογίας, οι δυνατότητες παραγωγής του "Qingying" θα χρησιμοποιηθούν σύντομα στην παραγωγή βίντεο μικρού μήκους, στη δημιουργία διαφημίσεων, ακόμη και στην επεξεργασία ταινιών.

Στην ανάπτυξη παραγωγικών μοντέλων βίντεο τεχνητής νοημοσύνης, το Scaling Law συνεχίζει να παίζει ρόλο τόσο σε αλγόριθμους όσο και σε δεδομένα. «Εξερευνούμε ενεργά πιο αποτελεσματικές μεθόδους κλιμάκωσης σε επίπεδο μοντέλου Στην ανοιχτή ημέρα Zhipu, ο Zhang Peng, Διευθύνων Σύμβουλος της Zhipu AI, δήλωσε: «Με τη συνεχή επανάληψη αλγορίθμων και δεδομένων, πιστεύω ότι το Scaling Law θα συνεχίσει να παίζει ένα». ισχυρός ρόλος».



Διαλέξτε διάφορα στυλ

Κρίνοντας από ορισμένες τρέχουσες επιδείξεις και απλές δοκιμές, το "Qingying" του Zhipu AI έχει τα ακόλουθα χαρακτηριστικά:

  • Η απόδοση είναι καλύτερη κατά τη δημιουργία περιεχομένου βίντεο με τοπία, ζώα, επιστημονική φαντασία, ανθρωπιστικές επιστήμες και ιστορία, κ.λπ.
  • Τα στυλ βίντεο που είμαστε καλοί στη δημιουργία περιλαμβάνουν στυλ κινουμένων σχεδίων, πραγματικό στυλ φωτογραφίας, στυλ δισδιάστατων κινούμενων σχεδίων κ.λπ.
  • Όσον αφορά το αποτέλεσμα παρουσίασης τύπου οντότητας, ζώα > φυτά > αντικείμενα > κτίρια > άνθρωποι.

Μπορεί να δημιουργήσει βίντεο με κείμενο ή εικόνες και το στυλ που δημιουργείται καλύπτει το στυλ φαντασίας κινουμένων σχεδίων.

Vincent Βίντεο

Προτάσεις: Σπρώξτε προς τα πάνω σε χαμηλή γωνία, σηκώστε αργά το κεφάλι σας και ένας δράκος εμφανίζεται ξαφνικά στο παγόβουνο. Τότε ο δράκος σας εντοπίζει και ορμάει προς το μέρος σας. Στυλ ταινίας του Χόλιγουντ.



Προτροπή: Ένας μάγος κάνει ένα ξόρκι στα κύματα Το στολίδι μαζεύει το θαλασσινό νερό και ανοίγει μια μαγική πύλη.



Προειδοποιητική λέξη: Το μανιτάρι μετατρέπεται σε αρκούδα.



Στην πραγματική σκηνή:

Προειδοποιητική λέξη: Σε ένα δάσος, από την ανθρώπινη οπτική γωνία, τα πανύψηλα δέντρα μπλοκάρουν τον ήλιο και λίγο ηλιακό φως λάμπει μέσα από τα κενά στα φύλλα, φαινόμενο Tyndall.



Προειδοποιητική λέξη: Ένα capybara στέκεται σαν άνθρωπος, κρατώντας το παγωτό στο χέρι του και το τρώει χαρούμενα.



βίντεο tusheng

Εκτός από τα βίντεο που δημιουργούνται με κείμενο, μπορείτε επίσης να παίξετε με βίντεο που δημιουργούνται από εικόνες στο Qingying. Το Tusheng Video φέρνει περισσότερους νέους τρόπους αναπαραγωγής, όπως emoticons, διαφημιστική παραγωγή, δημιουργία πλοκής, δημιουργία μικρού βίντεο κ.λπ. Ταυτόχρονα, η μικροεφαρμογή "Old Photos Animated" που βασίζεται στο Qingying θα ξεκινήσει επίσης ταυτόχρονα. Χρειάζεται μόνο να ανεβάσετε παλιές φωτογραφίες σε ένα βήμα και η τεχνητή νοημοσύνη μπορεί να κάνει κίνηση στις φωτογραφίες που είχαν συμπυκνωθεί στον παλιό χρόνο.

Προειδοποιητική λέξη: Ένα πολύχρωμο ψάρι που κινείται ελεύθερα.



Προειδοποιητική λέξη: Ο άνδρας στην εικόνα είναι όρθιος, ο άνεμος φυσάει τα μαλλιά του.



Προειδοποιητική λέξη: Μικρό κίτρινο παιχνίδι πάπιας που επιπλέει στην επιφάνεια της πισίνας, κοντινό πλάνο.



Και μετά στη σύγχρονη τέχνη:

Λέξη υπόδειξης: Η κάμερα περιστρέφεται γύρω από μια δέσμη vintage τηλεοράσεων που προβάλλουν διαφορετικές εκπομπές - ταινίες επιστημονικής φαντασίας της δεκαετίας του 1950, ταινίες τρόμου, ειδήσεις, στιγμιότυπα, κωμωδίες της δεκαετίας του '70 κ.λπ., σε ένα μουσείο της Νέας Υόρκης σε μια μεγάλη γκαλερί.



Συμβουλή: Βγάλτε ένα iPhone και τραβήξτε μια φωτογραφία.



Χωρίς πρόχειρα λόγια.



Τα συνήθως χρησιμοποιούμενα emoticon σας, το Zhipu AI μπορεί να τα επεκτείνει σε "σειρές".

Προειδοποιητικός λόγος: Οι τέσσερις δάσκαλοι και οι μαθητευόμενοι άπλωσαν το χέρι και έριξαν ψηλά ο ένας τον άλλον, με μπερδεμένες εκφράσεις στα πρόσωπά τους.



Σύνδεσμος βίντεο: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Προτάσεις: Το γατάκι άνοιξε διάπλατα το στόμα του, με μια μπερδεμένη έκφραση και πολλά ερωτηματικά στο πρόσωπό του.



Σύνδεσμος βίντεο: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Μπορεί να φανεί ότι το Qingying μπορεί να χειριστεί διάφορα στυλ και υπάρχουν περισσότεροι τρόποι για να παίξετε περιμένοντας να ανακαλύψουν οι άνθρωποι. Απλώς κάντε κλικ στη λειτουργία "Qingying Intelligent" στον υπολογιστή/APP Zhipu Qingyan και κάθε ιδέα που έχετε μπορεί να γίνει πραγματικότητα σε μια στιγμή.

Όλη η αυτοαναπτυγμένη τεχνολογία

Όλα σε μεγάλα μοντέλα Wisdom AI έχει αναπτύξει πολυτροπικά παραγωγικά μοντέλα AI για μεγάλο χρονικό διάστημα. Ξεκινώντας από το 2021, η Zhipu AI έχει κυκλοφορήσει πολλές μελέτες όπως CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024) κ.λπ.

Σύμφωνα με αναφορές, το "Qingying" βασίζεται στο CogVideoX, μια νέα γενιά μοντέλου παραγωγής μεγάλων βίντεο που αναπτύχθηκε ανεξάρτητα από την ομάδα μεγάλων μοντέλων Zhipu AI.

Τον Νοέμβριο του περασμένου έτους, η ομάδα του δημιούργησε το μοντέλο παραγωγής κειμένου σε βίντεο CogVideo με βάση το μοντέλο γραφήματος Vincent CogView2 και στη συνέχεια το έκανε ανοιχτό κώδικα.



Το CogVideo έχει 9,4 δισεκατομμύρια παραμέτρους Δημιουργεί μια σειρά από αρχικά καρέ μέσω του CogView2 και υλοποιεί τη δημιουργία βίντεο παρεμβάλλοντας καρέ εικόνων με βάση το μοντέλο αμφίδρομης προσοχής. Επιπλέον, το CogVideo δημιουργεί ένα τρισδιάστατο περιβάλλον που βασίζεται σε περιγραφές κειμένου και μπορεί να χρησιμοποιήσει άμεσα προεκπαιδευμένα μοντέλα για να αποφύγει την δαπανηρή εκπαίδευση.

Το μοντέλο παραγωγής βίντεο του Qingying Base αυτή τη φορά είναι το CogVideoX, το οποίο μπορεί να ενσωματώσει τις τρεις διαστάσεις του κειμένου, του χρόνου και του χώρου. Είναι επίσης μια αρχιτεκτονική DiT μέσω της βελτιστοποίησης. Η ταχύτητα συμπερασμάτων αυξήθηκε κατά 6 φορές.

Η εμφάνιση του Sora του OpenAI επέτρεψε στην τεχνητή νοημοσύνη να σημειώσει σημαντική πρόοδο στη δημιουργία βίντεο, αλλά τα περισσότερα μοντέλα εξακολουθούν να αντιμετωπίζουν δυσκολίες στη δημιουργία περιεχομένου βίντεο με συνοχή και λογική συνέπεια.

Για να λύσει αυτά τα προβλήματα, η Zhipu AI έχει αναπτύξει μια αποτελεσματική τρισδιάστατη δομή μεταβλητού αυτόματου κωδικοποιητή (3D ​​VAE), η οποία μπορεί να συμπιέσει τον αρχικό χώρο βίντεο στο 2%, μειώνοντας σημαντικά το κόστος της εκπαίδευσης μοντέλων και μειώνοντας σημαντικά τη δυσκολία της εκπαίδευσης.

Η δομή του μοντέλου χρησιμοποιεί τη συνέλιξη Causal 3D ως το κύριο στοιχείο του μοντέλου και αφαιρεί τη μονάδα προσοχής που χρησιμοποιείται συνήθως στους αυτόματους κωδικοποιητές, έτσι ώστε το μοντέλο να έχει τη δυνατότητα να μεταφέρεται σε διαφορετικές αναλύσεις.

Ταυτόχρονα, η αιτιολογική συνέλιξη στη χρονική διάσταση καθιστά την ακολουθία κωδικοποίησης και αποκωδικοποίησης βίντεο του μοντέλου ανεξάρτητη από εμπρός προς τα πίσω, γεγονός που βοηθά στην επέκταση του μοντέλου σε υψηλότερους ρυθμούς καρέ και μεγαλύτερες σκηνές μέσω της τελειοποίησης.

Επιπλέον, η δημιουργία βίντεο αντιμετωπίζει επίσης το πρόβλημα ότι τα περισσότερα δεδομένα βίντεο δεν διαθέτουν αντίστοιχο περιγραφικό κείμενο ή έχουν χαμηλή ποιότητα περιγραφής που ταιριάζουν στο περιεχόμενο και, στη συνέχεια, δημιουργούν έναν μεγάλο αριθμό ζευγών βίντεο-κειμένου υψηλής ποιότητας, καθιστώντας το εκπαιδευμένο μοντέλο εξαιρετικά συμβατό με τις οδηγίες.

Τέλος, αξίζει να αναφέρουμε ότι η Zhipu AI έχει αναπτύξει μια αρχιτεκτονική μετασχηματιστή που ενσωματώνει κείμενο, χρόνο και χώρο για πληρέστερη αλληλεπίδραση μεταξύ των δύο τρόπων.

Ωστόσο, υπάρχουν μεγάλες διαφορές στους χώρους χαρακτηριστικών κειμένου και βίντεο Zhipu AI και οι δύο χωριστά μέσω της ειδικής προσαρμοστικής κανονικής στρώσης, επιτρέποντας στο μοντέλο να χρησιμοποιεί αποτελεσματικά παραμέτρους για την καλύτερη ευθυγράμμιση των οπτικών πληροφοριών με τις σημασιολογικές πληροφορίες.

Το Zhipu AI δήλωσε ότι μέσω της τεχνολογίας βελτιστοποίησης, η ταχύτητα συμπερασμάτων του μοντέλου παραγωγής βίντεο του Zhipu AI έχει αυξηθεί κατά 6 φορές. Επί του παρόντος, ο θεωρητικός χρόνος που αφιερώνει το μοντέλο για τη δημιουργία ενός βίντεο 6s είναι 30 δευτερόλεπτα.

Τώρα με την κυκλοφορία του "Qingying", η Zhipu AI, ένας σημαντικός παίκτης στο κομμάτι παραγωγής βίντεο, εμφανίστηκε ξανά.

Εκτός από τις εφαρμογές που μπορούν να δοκιμάσουν όλοι, το Qingying API κυκλοφορεί ταυτόχρονα στην ανοιχτή πλατφόρμα μεγάλου μοντέλου bigmodel.cn, οι επιχειρήσεις και οι προγραμματιστές μπορούν να δοκιμάσουν και να χρησιμοποιήσουν τις δυνατότητες του μοντέλου Wensheng Video και Tusheng Video καλώντας το API.

Καθώς διάφορες εταιρείες συνεχίζουν να λανσάρουν λειτουργίες δημιουργίας βίντεο τεχνητής νοημοσύνης, ο φετινός διαγωνισμός παραγωγής τεχνητής νοημοσύνης έχει εισέλθει σε ένα άσπρο στάδιο. Για τους περισσότερους χρήστες, υπάρχουν περισσότερες επιλογές: τώρα, τόσο άτομα χωρίς υπόβαθρο παραγωγής βίντεο όσο και επαγγελματίες δημιουργοί περιεχομένου μπορούν να επιτύχουν τη δημιουργία βίντεο με τη βοήθεια μεγάλων δυνατοτήτων μοντέλων.