Video Generation War 2.0! Ο Dachang τρελαίνεται με το υποκείμενο model

Video Generation War 2.0!Ο Dachang κυλά τρελά το κάτω μοντέλο

2024-07-24

Έξυπνα πράγματα (δημόσιος λογαριασμός:zhidxcom）
συγγραφέαςβανίλια
επεξεργασίαLi Shuiqing

Για να μιλήσουμε για τα πιο δημοφιλή κομμάτια για μεγάλα μοντέλα το 2024, η δημιουργία βίντεο πρέπει να είναι στη λίστα.

Αφού ο Sora άνοιξε μια νέα εποχή παραγωγής βίντεο AI τον Φεβρουάριο, η εντατική κυκλοφορία του μοντέλου τον Ιούνιο του τρέχοντος έτους ώθησε τον πόλεμο της γενιάς βίντεο σε μια νέα κορύφωση.

«Η επόμενη γενιά ταινιών και τηλεόρασης AI είναι εδώ», «Είναι τόσο όγκος, σαν να τραγουδάς και μετά εμφανιζόμαστε», «Υπάρχει επιτέλους ελπίδα να απαλλαγούμε από την εποχή PPT», «Φαίνεται ότι θα χρησιμοποιηθεί η τεχνητή νοημοσύνη για την παραγωγή MV σύντομα «... Μεταξύ των δημιουργών ή των επαγγελματιών βίντεο τεχνητής νοημοσύνης, το πιο κοινό συναίσθημα που μπορούμε να δούμε είναι ο «ενθουσιασμός».

Από την κυκλοφορία του Sora, σούπερ8ΣπίτιΕγχώριες και ξένες εταιρείες τεχνητής νοημοσύνης λανσάρουν νέα προϊόντα ή μοντέλα το ένα μετά το άλλο, δημιουργώντας νέα προϊόντα σε κάθε βήμα.περισσότερο από 10 δευτερόλεπταΤα βίντεο είναι δημόσια διαθέσιμα και ορισμένα λέγεται ότι έχουν εφαρμοστεί για όσο διάστημα2 λεπτάΤο κομμάτι παραγωγής βίντεο εξαιρετικά μεγάλης διάρκειας, τεχνητής νοημοσύνης, έχει πυροδοτήσει έναν καυτό πόλεμο 2.0.

Με αυτόν τον τρόπο,ψηφιόλεξηΓίνετε ο πρώτος που θα λανσάρει το προϊόν παραγωγής βίντεο τεχνητής νοημοσύνης Jimeng, το οποίο επεκτείνει τον χρόνο δημιουργίας βίντεο από τα κοινά 3-4 δευτερόλεπτα σε 12 δευτερόλεπτα.γρήγορος εργάτηςΤο μεγάλο μοντέλο του Ke Ling κυκλοφόρησε ξαφνικά και το εντυπωσιακό αποτέλεσμα προκάλεσε έντονη συζήτηση στο Διαδίκτυο.

▲Ο αριθμός των αιτούντων που περιμένουν στην ουρά για το Kuaishou Keling

Εκεί, startupsLuma AI"Εγκατέλειψε την προβολή βίντεο 3D" και απελευθερώστε το Dream Machine για να μπείτε στο παιχνίδι με παίκτες υψηλού προφίλΔιάδρομος αεροδρομίουΓια να μην μακρηγορούμε, λάνσαρε μια νέα γενιά μοντέλων Gen-3, ωθώντας τις δυνατότητες φυσικής προσομοίωσης σε νέα ύψη.

▲Εφέ δημιουργίας βίντεο Gen-3

Στο πεδίο της μάχης χρηματοδότησης, ο πόλεμος είναι εξίσου σκληρός. οικιακός,Aishi Technology, Shengshu TechnologyΑπό τον Μάρτιο, έχει λάβει διαδοχικά χρηματοδότηση σε επίπεδο δισεκατομμυρίων στο εξωτερικό.ΠίκαΤον Ιούνιο, έλαβε χρηματοδότηση 80 εκατομμυρίων δολαρίων, διπλασιάζοντας την αποτίμησή της στα 500 εκατομμύρια δολάρια.Διάδρομος αεροδρομίουΑποκαλύφθηκε ότι ετοιμάζει χρηματοδότηση έως και 450 εκατ. δολαρίων ΗΠΑ.

Το Sora είναι σαν μια υπερπαραγωγή που συγκλόνισε τον κόσμο της γενιάς βίντεο AI. Τώρα, μετά από πέντε μήνες έντονης αναζήτησης, ποια είναι η πρόοδος των προϊόντων παραγωγής βίντεο AI στο εσωτερικό και στο εξωτερικό; Μπορούν να ανταγωνιστούν τον Σόρα; Ποιες προκλήσεις θα αντιμετωπίσει; Μέσω της οριζόντιας εμπειρίας των διαθέσιμων προϊόντων και των συζητήσεων με επαγγελματίες και δημιουργούς, η Zhidongxi παρέχει μια εις βάθος ανάλυση αυτών των ζητημάτων.

Στην πραγματική μέτρηση, μπορώ ξεκάθαρα να αισθανθώ ότι η ταχύτητα δημιουργίας βίντεο έχει γίνει πιο γρήγορη, το φαινόμενο "ανατροπής" έχει μειωθεί σημαντικά και το απλό panning "στυλ PPT" έχει εξελιχθεί σε κινήσεις με γωνίες και αλλαγές στις κινήσεις. Με βάση τη συνολική εμπειρία, τα καλύτερα αποτελέσματα μεταξύ των δωρεάν προϊόντων είναι τα Jimeng και Keling, τα οποία είναι οι ηγέτες όσον αφορά τη διάρκεια, τη σταθερότητα και τη φυσική προσομοίωση.

Όσον αφορά τη χρηματοδότηση, σε σύγκριση με πριν από την κυκλοφορία του Sora, η πυκνότητα και το ποσό της χρηματοδότησης που σχετίζεται με τη δημιουργία βίντεο με τεχνητή νοημοσύνη έχουν αυξηθεί σημαντικά, προσελκύοντας περισσότερα από 4,4 δισεκατομμύρια σε πέντε μήνες. της διαδικασίας παραγωγής βίντεο, όπως το AI editing, το AI Lighting κ.λπ. ευνοούνται από το κεφάλαιο. Επιπλέον, υπάρχουν πολλοί νέοι παίκτες που μπαίνουν στο παιχνίδι και ορισμένοι έχουν συγκεντρώσει εκατοντάδες εκατομμύρια χρήματα πριν κυκλοφορήσουν προϊόντα ή τεχνολογίες.

1. Τεχνική μάχη: διάρκεια ρολού, ρολό υψηλής ευκρίνειας, προσομοίωση φυσικής ρολού

Στις 16 Φεβρουαρίου, το OpenAI κυκλοφόρησε το Sora, το οποίο ανέτρεψε το κομμάτι δημιουργίας βίντεο AI μέσα σε μια νύχτα. Ωστόσο, πέντε μήνες αργότερα, το Sora εξακολουθεί να είναι προϊόν μελλοντικής εκπλήρωσης και φαίνεται πολύ μακριά πότε θα είναι διαθέσιμο στο ευρύ κοινό.

Κατά τη διάρκεια αυτής της περιόδου, μεγάλοι εγχώριοι και ξένοι κατασκευαστές και νεοφυείς επιχειρήσεις έσπευσαν να κυκλοφορήσουν νέα προϊόντα ή αναβαθμίσεις μοντέλων και οι περισσότεροι από αυτούς ήταν ανοιχτοί σε όλους τους χρήστες και πάλι γενιά. Τελικά, όσο καλός κι αν είναι ο Sora, τι αξία έχει αν δεν μπορείτε να το χρησιμοποιήσετε;

Σύμφωνα με ελλιπή στατιστικά στοιχεία από το Zhidongxi, από την κυκλοφορία του Sora, υπήρξαν τουλάχιστον8 σπίτιαΗ εταιρεία κυκλοφόρησε νέα προϊόντα ή μοντέλα, εκ των οποίων όλα εκτός από τη Vidu από την τεχνολογία ShengshuΔημόσια διαθέσιμο。

▲Αναβάθμιση προϊόντος παραγωγής βίντεο AI (Έξυπνος πίνακας Ανατολής-Δύσης)

21 Φεβρουαρίου,Σταθερότητα AI Η διαδικτυακή έκδοση του προϊόντος παραγωγής βίντεο με τεχνητή νοημοσύνη Stable Video κυκλοφόρησε επίσημα και είναι ανοιχτή σε όλους τους χρήστες. Αν και το υποκείμενο μοντέλο του, το Stable Video Diffusion, κυκλοφόρησε ως ανοιχτού κώδικα τον Νοέμβριο του περασμένου έτους, εξακολουθεί να έχει ορισμένα όρια ανάπτυξης και χρήσης ως μοντέλο Αφού συσκευαστεί και κυκλοφορήσει ως έκδοση web, περισσότεροι χρήστες μπορούν να ξεκινήσουν εύκολα και άνετα.

27 Απριλίου,Τεχνολογία ShengshuΑπό κοινού με το Πανεπιστήμιο Tsinghua, η Vidu κυκλοφόρησε ένα μοντέλο βίντεο μεγάλης διάρκειας, εξαιρετικά συνεπές και δυναμικό, το οποίο λέγεται ότι μπορεί να δημιουργήσει βίντεο διάρκειας έως 16 δευτερολέπτων και ανάλυσης 1080 P και μπορεί να μιμηθεί τον πραγματικό φυσικό κόσμο .

Κρίνοντας από το demo που κυκλοφόρησε, το Vidu έχει πράγματι πετύχει καλά αποτελέσματα όσον αφορά την ευκρίνεια, το εύρος κίνησης, τη φυσική προσομοίωση κ.λπ. Ωστόσο, δυστυχώς, το Vidu, όπως και ο Sora, δεν έχει ανοίξει ακόμη. Ο Zhidongxi ρώτησε την Shengshu Technology και έμαθε ότι το προϊόν θα ξεκινήσει εσωτερικές δοκιμές στο εγγύς μέλλον.

▲ Shengshu Technology Vidu Video Demo

9 Μαΐου,ψηφιόλεξηΗ Dreamina, η πλατφόρμα δημιουργίας τεχνητής νοημοσύνης που ανήκει στον Jiuying, μετονομάστηκε σε "Jimeng" και κυκλοφόρησε τις λειτουργίες σχεδίασης και δημιουργίας βίντεο AI, υποστηρίζοντας τη δημιουργία βίντεο διάρκειας έως και 12 δευτερολέπτων.

6 Ιουνίου,γρήγορος εργάτης Το μεγάλο μοντέλο βίντεο με τεχνητή νοημοσύνη Keling κυκλοφορεί και κυκλοφορεί στην εφαρμογή Kuaiying Οι χρήστες χρειάζεται μόνο να συμπληρώσουν ένα ερωτηματολόγιο για να υποβάλουν αίτηση για χρήση. Το Keling Large Model εστιάζει στην προσομοίωση υψηλής έντασης των χαρακτηριστικών του φυσικού κόσμου, όπως το πρόβλημα «τρώγοντας noodles» που κολλάει πολλά AI, τα οποία αντικατοπτρίζονται στις περιπτώσεις βίντεο που παρέχει.

Επί του παρόντος, η Keling υποστηρίζει τη δημιουργία βίντεο σταθερής διάρκειας 5 δευτερολέπτων και 10 δευτερολέπτων. Σύμφωνα με την επίσημη ιστοσελίδα του, το μοντέλο μπορεί να δημιουργήσει έως και 2 λεπτά βίντεο με ρυθμό καρέ 30 καρέ ανά δευτερόλεπτο και ανάλυση 1080P. Λειτουργίες όπως η συνέχεια βίντεο θα κυκλοφορήσουν στο μέλλον.

Στις 13 Ιουνίου, μια startup που προηγουμένως επικεντρωνόταν κυρίως στο 3D που δημιουργήθηκε από την τεχνητή νοημοσύνηLuma AIΑνακοινώθηκε η κυκλοφορία του εργαλείου δημιουργίας βίντεο Dream Machine, το οποίο υποστηρίζει τη δημιουργία βίντεο 5 δευτερολέπτων από κείμενο και εικόνες. Παρέχει επίσης μια λειτουργία επέκτασης βίντεο που μπορεί να επεκτείνει το παραγόμενο βίντεο κατά 5 δευτερόλεπτα.

17 Ιουνίου,Διάδρομος αεροδρομίου Κυκλοφορεί η νέα γενιά μοντέλου Gen-3 Alpha έκδοση και θα είναι διαθέσιμη σε όλους τους χρήστες επί πληρωμή στις 2 Ιουλίου, με ελάχιστη συνδρομή 15 $ το μήνα. Το Gen-3 υποστηρίζει αυτήν τη στιγμή τη δημιουργία βίντεο 5 και 10 δευτερολέπτων που βασίζονται σε κείμενο και άλλα ελεγχόμενα εργαλεία δεν είναι ακόμα διαθέσιμα.

▲Το Gen-3 Alpha δημιουργεί εφέ βίντεο

6 Ιουλίου,Ευφυές μέλλον(HiDream) κυκλοφόρησε το Intelligent Image Model 2.0 στο WAIC, παρέχοντας τρεις διάρκειες παραγωγής βίντεο 5, 10 και 15 δευτερολέπτων και προσθέτοντας δυνατότητες όπως δημιουργία ενσωμάτωσης κειμένου, δημιουργία βίντεο πολλαπλών λήψεων σεναρίου και συνέπεια IP.

Στις 17 Ιουλίου, μια βρετανική startup τεχνητής νοημοσύνης που προηγουμένως επικεντρωνόταν στην ανακατασκευή του AI 3DHaiper AI, ανακοίνωσε ότι το προϊόν παραγωγής βίντεο με τεχνητή νοημοσύνη Haiper έχει αναβαθμιστεί σε v1.5, με τη διάρκεια να επεκτείνεται στα 8 δευτερόλεπτα και να παρέχει λειτουργίες όπως επέκταση βίντεο και βελτίωση ποιότητας εικόνας.

Ο παρακάτω πίνακας δείχνει τον χρόνο παραγωγής, την ανάλυση, το ρυθμό καρέ και άλλες παραμέτρους αυτών των μοντέλων, καθώς και πρόσθετες δυνατότητες πέρα από τη βασική παραγωγή.

▲ Αναβαθμισμένες παράμετροι παραγωγής βίντεο AI (Έξυπνος πίνακας Ανατολής-Δύσης)

Από την άποψη των παραμέτρων, αυτά τα προϊόντα παραγωγής βίντεο τεχνητής νοημοσύνης σημείωσαν πρώτα σημαντική πρόοδο στο χρόνο παραγωγής Ο βασικός χρόνος παραγωγής επεκτάθηκε από τα προηγούμενα 2-4 δευτερόλεπτα σε 5 δευτερόλεπτα και περισσότερα από τα μισά από αυτά υποστηρίζουν διάρκειες που υπερβαίνουν τα 10. δευτερόλεπτα, και μερικά Το προϊόν παρέχει λειτουργίες επέκτασης. Μεταξύ των προϊόντων που διατίθενται επί του παρόντος δωρεάν, το μεγαλύτερο βίντεο που δημιουργήθηκε είναι 12 δευτερόλεπτα από τον Jimeng.

Όσον αφορά τα οπτικά εφέ, η ανάλυση και ο ρυθμός καρέ έχουν βελτιωθεί σημαντικά. Υπάρχουν περισσότερα προϊόντα που υποστηρίζουν 720P και άνω, ενώ ο ρυθμός καρέ πλησιάζει επίσης τα 24/30 fps *576 και ο ρυθμός καρέ ήταν περίπου 1024*576 Ο ρυθμός είναι κυρίως 8-12 fps.

2. Πόλεμος προϊόντων:Πρόχειρη δοκιμή6 ελεύθερα "σποτ", το "Dikkuai" οδηγεί τον δρόμο

Όταν κυκλοφόρησε για πρώτη φορά το Sora, το Zhixixi είχε μια εις βάθος εμπειρία με 8 εργαλεία δημιουργίας βίντεο τεχνητής νοημοσύνης που ήταν διαθέσιμα στην Κίνα. (Η πρώτη "κινεζική έκδοση του Sora" σε ολόκληρο το δίκτυο αναθεωρήθηκε! Διαγωνίστηκαν 15 εταιρείες, με την Byte να πρωτοστατεί)

Έτσι, μετά από αρκετούς μήνες επαναληπτικών αναβαθμίσεων, πώς αποδίδονται αυτοί οι παίκτες που έχουν υποβάλει νέες απαντήσεις; Το Zhidongxi έχει γνωρίσει τα νέα ή αναβαθμισμένα προϊόντα παραγωγής βίντεο AI Για λόγους δικαιοσύνης, δοκιμάσαμε μόνο τις δωρεάν δυνατότητες και επιλέξαμε τα βίντεο που δημιουργήθηκαν για πρώτη φορά.

Θα πρέπει να σημειωθεί ότι η ίδια η δημιουργία βίντεο έχει ένα στοιχείο τύχης παρόμοιο με το "τραβήσιμο καρτών" και σχετίζεται επίσης στενά με τη σύνταξη προτρεπτικών λέξεων, επομένως, ένας μικρός αριθμός περιπτώσεων δεν αντιπροσωπεύει πλήρως την ικανότητα του μοντέλου.

Διάλεξα το πρώτο επίπεδοσκηνή νεκρής φύσης, η προτρεπόμενη λέξη είναι:Κοντινό πλάνο τουλίπες λουσμένες στο ζεστό φως του ηλιοβασιλέματος。

Το Stable Video δείχνει υψηλή σταθερότητα σε αυτήν την προτροπή και, ταυτόχρονα, η ευκρίνεια της εικόνας και ο χρωματικός πλούτος είναι σχετικά υψηλοί Όσον αφορά την κίνηση, η κίνηση του φακού είναι η κύρια εστίαση.

▲ Το σταθερό βίντεο δημιουργεί βίντεο

Η ευκρίνεια της εικόνας του Dream Machine είναι προφανώς χαμηλότερη, αλλά η απόδοση των προτρεπτικών λέξεων εξακολουθεί να είναι σχετικά ακριβής και η κίνηση βασίζεται επίσης κυρίως στη μετάφραση του φακού.

▲Η Dream Machine δημιουργεί βίντεο

Το βίντεο που δημιουργείται από τη Haiper έχει καλά οπτικά εφέ, αλλά το εύρος κίνησης είναι ελαφρώς μικρότερο.

▲ Η Haiper δημιουργεί βίντεο

Η απόδοση του μεγάλου μοντέλου Zhixiang είναι επίσης καλή και η εικόνα έχει έντονο βάθος πεδίου, ωστόσο, αν κοιτάξετε προσεκτικά τα πέταλα, θα διαπιστώσετε ότι υπάρχουν ελαττώματα στις λεπτομέρειες και αστάθεια.

▲ Zhixiang βίντεο γενιάς μεγάλου μοντέλου

Ο Ji Meng δημιούργησε μια εικόνα σταθερού φακού, με την κίνηση να κυριαρχείται κυρίως από το τίναγμα των τουλιπών και το συνολικό αποτέλεσμα ήταν σχετικά σταθερό.

Το βίντεο που δημιουργείται από τον Keling δείχνει την άμεση λέξη "από κοντά" στο άκρο. Ταυτόχρονα, η εικόνα έχει υψηλή ευκρίνεια και απεικονίζει την υφή στα πέταλα. Αλλά έχοντας πει αυτό, το πώς να κατανοήσουμε το "από κοντά τις τουλίπες" δεν είναι μια ερώτηση με σταθερή απάντηση, επομένως είναι αδύνατο να πούμε ποιος έχει δίκιο και ποιος άδικο.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲ Ο Keling δημιουργεί βίντεο

Συνολικά, η απόδοση διαφόρων συσκευών αναπαραγωγής σε σκηνές νεκρής φύσης είναι πολύ σταθερή και η χρηστικότητα των βίντεο που δημιουργούνται είναι πολύ υψηλή.

Επέλεξα το δεύτερο επίπεδοσκηνή ζώων, και προστέθηκαν στοιχεία στυλιζαρίσματος και δυναμικής δράσης Οι προτρεπτικές λέξεις είναι:Ένα κινούμενο σχέδιο καγκουρό που χορεύει ντίσκο . Αυτή είναι στην πραγματικότητα μία από τις περιπτώσεις που παρέχονται από τη Sora Πρώτον, ας ρίξουμε μια ματιά στη διόρθωση του Sora.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲Η Sora δημιουργεί θήκη βίντεο

Σταθερό βίντεο "χτύπησε το δρόμο" σε αυτό το επίπεδο. Το πρώτο καρέ της εικόνας είναι τέλειο - αυτό μπορεί να σχετίζεται με τη διαδρομή που έχει επιλέξει το Stable Video κατά τη δημιουργία του βίντεο, κατά τη διαδικασία δημιουργίας, θα δημιουργήσει πρώτα 4 εικόνες για να επιλέξει ο χρήστης και στη συνέχεια θα δημιουργήσει το βίντεο με βάση το εικόνα που επιλέχθηκε από τον χρήστη - και μετά το καγκουρό Όλο το σώμα του άρχισε να στρίβει και να παραμορφώνεται.

Αυτό που είναι πιο ενδιαφέρον είναι ότι οι χαρακτήρες και τα ανθρωπόμορφα ζώα στο φόντο της εικόνας δεν έχουν μεγάλο πρόβλημα, αναρωτιέμαι αν είναι η δράση «ντίσκο χορού» που παραβίασε το Stable Video.

▲ Το σταθερό βίντεο δημιουργεί εφέ βίντεο

Η συνολική σταθερότητα του βίντεο που δημιουργείται από το Dream Machine είναι καλή, αλλά υπάρχει έλλειψη σταθερότητας σε λεπτομέρειες όπως τα πόδια και τα χέρια του καγκουρό. Όσον αφορά το εύρος κίνησης, εκτός από την κίνηση του ίδιου του καγκουρό, υφίσταται και μια μετάβαση του φακού από το κοντινό στο πανόραμα.

Δοκίμασα ξανά τη λειτουργία επέκτασης βίντεο του Dream Machine και τα 5 δευτερόλεπτα μετά το βίντεο είναι το περιεχόμενο που δημιουργείται από την επέκταση. Μπορεί να φανεί ότι δεν περιορίζεται σε μία μόνο λήψη, αλλά αλλάζει από ολόσωμη λήψη σε κοντινή λήψη του πάνω μέρους του σώματος. Ωστόσο, στο εκτεταμένο βίντεο, αν και οι χαρακτήρες στο βάθος είναι πιο σταθεροί, το καγκουρό είναι ακόμα πιο ασταθές.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

▲Το Dream Machine δημιουργεί εφέ βίντεο

Το καγκουρό που δημιουργείται από τον Haiper είναι παραμορφωμένο σε κάποιο βαθμό και δεν αντικατοπτρίζει τη λέξη-κλειδί "disco".

▲ Η Haiper δημιουργεί βίντεο

Το μεγάλο μοντέλο του Zhixiang ανατράπηκε σοβαρά σε αυτό το επίπεδο, όπως το Stable Video, το κύριο σώμα της εικόνας ήταν πολύ παραμορφωμένο και δεν αντανακλούσε το εφέ "ντίσκο".

▲Το έξυπνο μοντέλο ελέφαντα δημιουργεί εφέ βίντεο

Το συνολικό οπτικό αποτέλεσμα του βίντεο που δημιουργείται από τον Jimeng είναι σχετικά καλό, με υψηλή ευκρίνεια και πλούσια χρώματα. Όσον αφορά τη σταθερότητα, ήταν σχετικά φυσιολογικό στα πρώτα δευτερόλεπτα, αλλά εμφανίστηκε εμφανής παραμόρφωση τα τελευταία 3 δευτερόλεπτα περίπου, και ο βαθμός παραμόρφωσης ήταν παρόμοιος με αυτόν του Dream Machine.

Όσον αφορά τη σημασιολογική κατανόηση, η εικόνα δείχνει ορισμένες «χορευτικές» κινήσεις, αλλά ελάχιστη σχέση έχει με τη «ντίσκο». Επιπλέον, το κείμενο στο φόντο της εικόνας μοιάζει με "σύμβολα σχεδίασης φαντασμάτων".

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲ Εφέ βίντεο που δημιουργούνται από όνειρα

Τα βίντεο που δημιουργούνται από τον Keling είναι σχετικά σταθερά συνολικά και τα κύρια προβλήματα επικεντρώνονται στα χέρια και τα μάτια. Αλλά όσον αφορά τη σημασιολογική κατανόηση, η λέξη-κλειδί «ντίσκο» δεν αντικατοπτρίζεται.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲Μπορεί να χρησιμοποιηθεί για τη δημιουργία εφέ βίντεο

Συνολικά, οι Dream Machine, Ji Meng και Ke Ling είχαν καλύτερες επιδόσεις σε αυτό το επίπεδο, αλλά κανένας από αυτούς δεν μπόρεσε να φτάσει στο επίπεδο του Sora. Επιπλέον, αυτή η προτρεπτική λέξη δείχνει επίσης τις αισθητικές διαφορές κάθε μοντέλου, συμπεριλαμβανομένης της τάσης χρώματος, της επιλογής στυλ, της εναλλαγής φακού κ.λπ.

Το τρίτο επίπεδο έχει οριστεί σεΚοντινό πλάνο χαρακτήρων, οι προτρεπτικές λέξεις που χρησιμοποιούνται είναι:Κοντινό πλάνο ενός αστροναύτη που επιπλέει έξω από τον διαστημικό σταθμό με τη Γη και το φεγγάρι στο φόντο και τα αστέρια να αντανακλώνται στο γείσο του κράνους του。

Το Stable Video είχε καλή απόδοση σε αυτό το επίπεδο, απεικονίζοντας με ακρίβεια λέξεις-κλειδιά όπως "αστροναύτης", "γη", "φεγγάρι" και "αντανάκλαση αστεριών" και η σταθερότητά του ήταν επίσης πολύ υψηλή. Όσον αφορά την κίνηση, δεν είναι μια απλή μετάφραση φακού, αλλά η κίνηση του θέματος της εικόνας σε σχέση με το φόντο.

▲ Το σταθερό βίντεο δημιουργεί βίντεο

Το Dream Machine ανατράπηκε, ξεχνώντας εντελώς τον «αστροναύτη» και ζωγράφισε μια κοσμική σκηνή.

▲Η Dream Machine δημιουργεί βίντεο

Ο Haiper είχε καλή απόδοση σε αυτό το επίπεδο Παρόλο που το "φεγγάρι" έλειπε, άλλες λέξεις-κλειδιά αντικατοπτρίστηκαν και η αντανάκλαση στο κράνος ήταν επίσης πολύ φυσική.

▲ Η Haiper δημιουργεί βίντεο

Το μεγάλο μοντέλο του Zhixiang αρχικά αρνήθηκε να δημιουργήσει την προτρεπτική λέξη, υποδεικνύοντας ότι υπήρχε ευαίσθητο περιεχόμενο. Μετά από πολλές περικοπές, τελικά δημιούργησα ένα βίντεο με "ένα κοντινό πλάνο ενός άνδρα που επιπλέει έξω από τον διαστημικό σταθμό."

Το συνολικό αποτέλεσμα της εικόνας είναι σχετικά ρεαλιστικό Αν και η τελική προτροπή περιέχει μόνο τη λέξη-κλειδί "διαστημικός σταθμός" που αντικατοπτρίζει το περιεχόμενο, εξακολουθεί να απεικονίζει στοιχεία όπως η γη και οι διαστημικές στολές. Ωστόσο, ο πρωταγωνιστής δεν φορά διαστημικό κράνος, και δεν ξέρει πώς να αναπνέει ούτε καν να μιλάει (δόγης).

▲Το έξυπνο μοντέλο ελέφαντα δημιουργεί εφέ βίντεο

Ο Τζι Μενγκ είναι καλύτερος στο να απεικονίζει τις λεπτομέρειες των χαρακτήρων πιο «από κοντά» παρά «από κοντά».

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲ Βίντεο άμεσης γενιάς ονείρων

Στην αρχή δεν υπήρχαν χαρακτήρες στο βίντεο που δημιούργησε ο Keling και μετά ο αστροναύτης μπήκε σιγά σιγά στο πλάνο, αλλά το φόντο ήταν ακίνητο, το οποίο φαινόταν να έχει μια νότα χιούμορ. Ωστόσο, η ακρίβεια και η σταθερότητα της ίδιας της εικόνας είναι ακόμα πολύ υψηλή, αντικατοπτρίζοντας κάθε λέξη-κλειδί και απεικονίζοντας επίσης τον "διαστημικό σταθμό" που έχασαν ορισμένοι παίκτες.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲ Ο Keling δημιουργεί βίντεο

Αν και η συνολική απόδοση του επιπέδου χαρακτήρων δεν είναι τόσο σταθερή όσο η σκηνή νεκρής φύσης, είναι πολύ καλύτερη από το προηγούμενο επίπεδο. Αυτό μπορεί να σχετίζεται με τα πλούσια δεδομένα προπόνησης και το μικρό εύρος κίνησης. Αυτά που αποδίδουν καλύτερα σε αυτό το επίπεδο είναι τα Stable Video, Haiper, Ji Meng και Ke Ling.

Συνολικά, μεταξύ των 6 προϊόντων παραγωγής βίντεο AI που βίωσε αυτή τη φορά η Zhidongxi,Όνειρο, πνεύμα Το πλεονέκτημα του αποτελέσματος παραγωγής είναι σχετικά προφανές και έχει καλές δυνατότητες όσον αφορά τη διάρκεια και τη σταθερότητα. Επιπλέον, τα εγχώρια προϊόντα όπως το Morph Studio και το NeverEnds είναι επίσης πολύ αποτελεσματικά, αλλά επειδή δεν είχαν νέα προϊόντα ή αναβαθμίσεις μοντέλων από την κυκλοφορία του Sora, δεν εμπίπτουν στο πεδίο αυτής της εμπειρίας.

3. Η μάχη για το κεφάλαιο:5Μηνιαίο κέρδος44δισεκατομμύρια, εμφανίζονται νέοι παίκτες

Όταν κυκλοφόρησε το Sora, πυροδότησε για άλλη μια φορά μια γενεσιουργή τρέλα με την τεχνητή νοημοσύνη όπως το αρχικό GPT-4, ενεργοποιώντας το συλλογικό ημερήσιο όριο των μετοχών του Vincent Video concept.

Η πρωτογενής αγορά εισάγει επίσης ένα νέο κύμα καρναβαλιού.Σύμφωνα με ελλιπή στατιστικά στοιχεία του Zhidongxi, τουλάχιστον στους πέντε μήνες από την απελευθέρωση του Sora5Κέρδισε μια εκκίνηση στο κομμάτι δημιουργίας βίντεο AIΠάνω από 100 εκατομμύρια γιουάνΤο συνολικό ποσό της χρηματοδότησης είναι περίπου 1,2 δισεκατομμύρια γιουάν.

▲Μεγάλη επένδυση και χρηματοδότηση που σχετίζεται με τη δημιουργία βίντεο AI (Έξυπνος πίνακας Ανατολής-Δύσης)

οικιακός,Τεχνολογία AishiΣυγκέντρωσε κεφάλαια δύο δισεκατομμυρίων δολαρίων τον Μάρτιο και τον Απρίλιο αντίστοιχα, και ευνοήθηκε από γνωστούς επενδυτές, όπως ο Ant.

Τον Ιανουάριο του τρέχοντος έτους, η Aishi Technology κυκλοφόρησε την έκδοση στο εξωτερικό του προϊόντος παραγωγής βίντεο με τεχνητή νοημοσύνη PixVerse Εκείνη την εποχή, έγινε ένα ισχυρό σκοτεινό άλογο που ανταγωνιζόταν τα Pika και Runway. Μετά την απελευθέρωση του Sora, ο ιδρυτής του Wang Changhu είπε κάποτε ότι θα το έφτανε μέσα σε 3-6 μήνες.

Έχουν περάσει πέντε μήνες και η Aishi Technology δεν έχει κυκλοφορήσει ακόμη μια επαναληπτική ενημέρωση του υποκείμενου μοντέλου, αλλά έχει κυκλοφορήσει διαδοχικά νέα χαρακτηριστικά, όπως η συνέπεια χαρακτήρων και τα πινέλα κίνησης. Η Zhidongxi ρώτησε για την πρόοδο του προϊόντος της και έμαθε ότι το μοντέλο νέας γενιάς και οι νέες λειτουργίες του "Ταινία μεγάλου μήκους βίντεο Vincent” θα κυκλοφορήσει αυτή την εβδομάδα και μπορεί να δημιουργήσειΔιάρκεια 8 δευτερόλεπταβίντεο και μπορείΔημιουργήστε 3-5 συνεχόμενα βίντεο ήχου ταυτόχρονα。

▲ Το PixVerse εκκινεί τη λειτουργία motion brush (Πηγή: Aishi Technology)

Τεχνολογία Shengshu Έλαβε επίσης δύο διαδοχικούς γύρους χρηματοδότησης αξίας εκατοντάδων εκατομμυρίων γιουάν σε μόλις τρεις μήνες, με την Baidu Venture Capital να συνεχίζει να επενδύει ως παλιός μέτοχος. Προηγουμένως, η Shengshu Technology έλαβε 2 γύρους χρηματοδότησης με ένα σωρευτικό σύνολο άνω των 100 εκατομμυρίων γιουάν.

Sand AI Είναι μια startup που μόλις μπήκε στη δημοσιότητα πρόσφατα και δεν έχει ακόμη κυκλοφορίες προϊόντων. Στις 10 Ιουλίου, η Sand AI αποκαλύφθηκε ότι είχε λάβει δεκάδες εκατομμύρια δολάρια σε χρηματοδότηση της Series A με επικεφαλής την Capital Today τον Μάιο.

Η Sand AI ιδρύθηκε τον Οκτώβριο του 2023 και αναπτύσσει κυρίως τεχνολογία παραγωγής βίντεο παρόμοια με τη Sora.Αξίζει να σημειωθεί ότι ο ιδρυτής τουCao YueΝαίΈνας από τους συνιδρυτές του Light Years Beyond, υπηρέτησε ως επικεφαλής του Visual Model Research Center του Beijing Zhiyuan AI Research Institute και κορυφαίος ερευνητής της Microsoft Research Asia.

Οι δημόσιες πληροφορίες δείχνουν ότι ο Cao Yue αποφοίτησε από το Πανεπιστήμιο Tsinghua με προπτυχιακό και διδακτορικό δίπλωμα. Έχει κερδίσει το βραβείο Marr για την καλύτερη εργασία στο ICCV, το κορυφαίο συνέδριο υπολογιστικής όρασης, και έχει αναφερθεί περισσότερες από 40.000 φορές στο Google Scholar.

▲Cao Yue (πηγή εικόνας από την προσωπική του σελίδα)

Haiper AI Είναι επίσης μια startup που είναι νέα στη βιομηχανία παραγωγής βίντεο. Η εταιρεία ιδρύθηκε το 2022 και εδρεύει στο Λονδίνο της Αγγλίας.

Σύμφωνα με αναφορές ξένων μέσων ενημέρωσης τον Μάρτιο, η Haiper AI έλαβε 13,8 εκατομμύρια δολάρια ΗΠΑ (περίπου 100 εκατομμύρια RMB) σε χρηματοδότηση εκκίνησης, έχοντας προηγουμένως συγκεντρώσει 5,4 εκατομμύρια δολάρια ΗΠΑ τον Απρίλιο του 2022.

Η ιδρυτική ομάδα της Haiper AI αποτελείται από δύο Κινέζους, ο Yishu Miao που κάποτε υπηρετούσε στην παγκόσμια ομάδα εμπιστοσύνης και ασφάλειας της TikTok και ο Ziyu Wang εργάστηκε ως ερευνητής στο DeepMind. Στα τέλη του περασμένου έτους, η ομάδα της Haiper AI αποφάσισε να επικεντρωθεί στη δημιουργία βίντεο και κυκλοφόρησε μια beta έκδοση του πρώτου προϊόντος γενιάς βίντεο με το ίδιο όνομα τον Δεκέμβριο.

▲Η Haiper κυκλοφορεί μια beta έκδοση του ομώνυμου προϊόντος της

Πίκα Τον Ιούνιο, ανακοίνωσε ότι είχε λάβει έναν νέο γύρο χρηματοδότησης περίπου 80 εκατομμυρίων δολαρίων ΗΠΑ (περίπου 581 εκατομμύρια RMB), με την αποτίμησή του να διπλασιάζεται σε σχεδόν 500 εκατομμύρια δολάρια ΗΠΑ. Τον Νοέμβριο του περασμένου έτους, η Pika ανακοίνωσε ότι είχε ολοκληρώσει συνολικά 55 εκατομμύρια δολάρια σε χρηματοδότηση, με αποτίμηση 200-300 εκατομμύρια δολάρια.

2 Ιουλίου, "Old player" του κομματιού δημιουργίας βίντεο AIΔιάδρομος αεροδρομίουΑποκαλύφθηκε ότι διαπραγματεύεται 450 εκατομμύρια δολάρια ΗΠΑ (περίπου 3,268 δισεκατομμύρια RMB) για νέα χρηματοδότηση, με αποτίμηση 4 δισεκατομμυρίων δολαρίων.

Η τελευταία χρηματοδότηση της Runway ολοκληρώθηκε τον Ιούνιο του περασμένου έτους, μεταξύ των επενδυτών της Google, της NVIDIA, κ.λπ., και έφτασε τα 1,5 δισεκατομμύρια δολάρια σε χρηματοδότηση με 141 εκατομμύρια δολάρια, ανεβάζοντας τη συνολική χρηματοδότηση στα 237 εκατομμύρια δολάρια. Εάν πραγματοποιηθεί αυτός ο γύρος χρηματοδότησης, τόσο το ποσό χρηματοδότησης όσο και η αποτίμηση θα υπερδιπλασιαστούν.

Γενικά, τους τελευταίους μήνες μετά την κυκλοφορία του Sora, συνέχισαν να εμφανίζονται στην πρωτογενή αγορά η συχνότητα, αλλά και το ποσό της μεμονωμένης χρηματοδότησης έχει υπερβεί την προηγούμενη συνολική χρηματοδότηση. Ακόμα κι αν ορισμένες νεοφυείς επιχειρήσεις δεν έχουν εκδόσεις προϊόντων ή αναβαθμίσεις μοντέλων, αυτό δεν σταματά τον ενθουσιασμό των επενδυτών.

4. 150 ημέρες βιντεοπόλεμου AI, από "PPT" σε πραγματικό "βίντεο"

Κατά τη διάρκεια των 150 ημερών της «αορατότητας» του Sora, υπό την «πολιορκία» πολλών μεγάλων κατασκευαστών και startups, το χάσμα μεταξύ των mainstream προϊόντων παραγωγής βίντεο τεχνητής νοημοσύνης και του Sora έχει μειωθεί σημαντικά και υπάρχει ένα κρίσιμο σημείο -Ετοιμο για χρήση, και ακόμη και πολλές δυνατότητες εξακολουθούν να είναι δωρεάν.

Προς το παρόν, το κύριο προϊόν παραγωγής βίντεο AI έχει επιτύχει καλή διάρκεια και σταθερότητα και το επίκεντρο της επόμενης επανάληψης είναι η φυσική προσομοίωση. Κρίνοντας από τα επίσημα επιδείξεις που εμφανίζονται, τα Gen-3, Keling, Jimeng και Vidu προσομοιώνουν τον πραγματικό κόσμο σε υψηλό βαθμό και οι περιπτώσεις που προβάλλονται είναι σχεδόν ίδιες με αυτές που κυκλοφόρησε ο Sora.

Έτσι, από την οπτική γωνία ενός δημιουργού, πώς είναι η τρέχουσα εμπειρία προϊόντος;

πρόσφατα,Σκηνοθέτης και δημιουργός ταινιών και τηλεόρασης AI Chen Kun(Xianren Yikun) παρήγαγε ένα ριμέικ του τρέιλερ της μικρού μήκους δράματος της τεχνητής νοημοσύνης "Mountains and Seas" και το σύγκρινε με την αρχική έκδοση.

Στην πρεμιέρα του έργου μικρού μήκους, είπε στο Zhixixi και σε άλλα μέσα ενημέρωσης ότι η πρόοδος της τεχνητής νοημοσύνης σε μισό χρόνο είναι ακόμα πολύ εμφανής, ειδικά σεπροσομοίωση φυσικήςΑπό πλευράς πτυχών, κατά τη γνώμη του, έχει επιτευχθεί "διαγενεακή"Επανάληψη. Συγκεκριμένα, σε αυτό το στάδιο, τα μοντέλα παραγωγής βίντεο όπως το Keling έχουν επιτύχει εγγενή υψηλή ευκρίνεια και δεν οδηγούνται πλέον από κομμένο περιεχόμενο εικόνας. Η κίνηση του θέματος είναι λογική, το εύρος των κινήσεων δεν είναι μόνο μεγάλο αλλά και ομαλό , και ανταποκρίνεται θετικά σε προτρεπτικές λέξεις, αλλά ταυτόχρονα, η τεχνολογία δημιουργίας βίντεο AI εξακολουθεί να αντιμετωπίζει πολλά σημαντικά σημεία πόνου: συνέπεια χαρακτήρων, συνέπεια σκηνής, απόδοση χαρακτήρων, αλληλεπίδραση δράσης και εύρος κίνησης.

▲Σύγκριση μεταξύ του ριμέικ και του αρχικού τρέιλερ του τρέιλερ "Mountains and Seas"

Από την σκοπιά των εφαρμογών, η τεχνητή νοημοσύνη βρίσκεται ακόμη στη διαδικασία να πλησιάσει την παραδοσιακή ταινία και την τηλεόραση σε σενάρια όπως η παραγωγή ταινιών και τηλεόρασης.

Σε μια ολοκληρωμένη διαδικασία παραγωγής, η τεχνητή νοημοσύνη εξακολουθεί να είναι ένα βοηθητικό μέσο και όχι το κύριο εργαλείο, όπως σενάρια, μεταγλώττιση, μοντάζ, post-production κ.λπ. Επί του παρόντος, δεν υπάρχει προϊόν που να μπορεί να φτάσει το επίπεδο παραγωγικότητας.

Ωστόσο, όσον αφορά το κόστος, συμπεριλαμβανομένου του λόγου ανθρώπινης απόδοσης, οι διαδικασίες που βασίζονται στην τεχνητή νοημοσύνη έχουν συμπιεστεί πολύ, φτάνοντας στο επίπεδο των παραδοσιακών διαδικασιών παραγωγής.Κάτω από το 1/4。

▲Ο Τσεν Κουν πήρε συνέντευξη στην προβολή

Στο WAIC 2024,Xie Xuzhang, συνιδρυτής της Aishi TechnologyΟ Ταν είπε ότι αυτό που ονομάζουμε "γενιά βίντεο" είναι στην πραγματικότητα απλώς η παραγωγή υλικού βίντεο, το οποίο είναι μόνο ένα μικρό μέρος της πλήρους διαδικασίας παραγωγής βίντεο. Δεν υπάρχει ήχος, επεξεργασία, μεταβάσεις, σενάρια, κ.λπ τεχνική ή επιχειρηματική προοπτική, είναι Υπάρχει πολύς δρόμος μπροστά μας.

Αυτή είναι επίσης μια άλλη σημαντική κατεύθυνση για την ανάπτυξη του βίντεο AI εκτός από τη συνέχιση της επανάληψης του υποκείμενου μοντέλου για να ξεπεραστούν τα υπάρχοντα σημεία πόνου της δημιουργίας βίντεο.

Υπάρχουν επίσης πολλές εταιρείες στην αγορά που πειραματίζονται με διάφορες διαδικασίες παραγωγής βίντεο και ευνοούνται και από την πρωτογενή αγορά.Μόνο την τελευταία εβδομάδα, υπήρξαν εργαλεία επεξεργασίας βίντεο με τεχνητή νοημοσύνηΛεζάντες, το εικονικό περιβάλλον AI παρέχει εργαλεία φωτισμού και σύνθεσηςBeebleΈλαβε 60 εκατομμύρια δολάρια ΗΠΑ και 4,75 εκατομμύρια δολάρια ΗΠΑ αντίστοιχα.

Συμπέρασμα:Όλα συμπεριλαμβάνονταιΓενιά βίντεο, περιμένει έναGPT-4 στιγμή

Η κυκλοφορία του Sora έχει πυροδοτήσει τον ενθουσιασμό των εγχώριων και ξένων ομάδων και επιχειρηματιών, ωστόσο, γενικά βρίσκεται ακόμη στα πρώτα του στάδια, η τεχνική διαδρομή δεν έχει ακόμη επιτευχθεί συναίνεση και τα αποτελέσματα που δημιουργούνται απέχουν ακόμη πολύ από τα εμπορικά πρότυπα. Όσον αφορά το συγκεκριμένο στάδιο, πολλοί άνθρωποι του κλάδου το συγκρίνουν με τα πρώτα στάδια των μοντέλων γλώσσας και εικόνας, όπως η «εποχή GPT-3», «η παραμονή του 2022 για τη δημιουργία εικόνας» κ.λπ.

Το σίγουρο όμως είναι ότι η τεχνολογία δημιουργίας βίντεο AI αναπτύσσεται με εκθετικούς ρυθμούς και νέα προϊόντα και τεχνολογίες βγαίνουν συνεχώς. Αν και υπάρχουν ορισμένα τεχνικά σημεία πόνου και προκλήσεις, με την επανάληψη της τεχνολογίας και την προώθηση της αγοράς, αυτό το πεδίο αναμένεται να επιτύχει περισσότερες ανακαλύψεις και εφαρμογές.

Ο πόλεμος παραγωγής βίντεο AI δεν είναι μόνο ένας ανταγωνισμός τεχνολογίας, αλλά και ένας ανταγωνισμός κεφαλαίων. Θα περιμένουμε να δούμε ποιος θα έχει το τελευταίο γέλιο σε αυτόν τον καταιγισμό κερδοσκοπίας.

Νέα

Video Generation War 2.0!Ο Dachang κυλά τρελά το κάτω μοντέλο

Εισαγωγή

τα στοιχεία επικοινωνίας μου