Η δωρεάν δημόσια έκδοση beta γέμισε τον διακομιστή και η Sora κέρδισε τον έπαινο για το φυσικό sense

Η δωρεάν δημόσια beta κατέκλυσε τον διακομιστή και ο Sora κέρδισε έπαινο για τη φυσική του αίσθηση.

2024-07-24

Συγγραφέας丨Zimo

Μετά τα Sora, Runway και Pika, ένα άλλο προϊόν τεχνητής νοημοσύνης που βασίζεται σε εικόνες και έχει δημιουργηθεί από βίντεο έχει εκτιναχθεί σε δημοτικότητα - το Dream Machine.

Η Behind Dream Machine είναι μια αμερικανική εταιρεία που ιδρύθηκε το 2021 και ονομάζεται Luma AI. Τα τελευταία τρία χρόνια, πραγματοποίησε με επιτυχία τρεις γύρους χρηματοδότησης, με συνολικό ποσό χρηματοδότησης 67,3 εκατομμυρίων δολαρίων ΗΠΑ. Η πιο πρόσφατη χρηματοδότηση της Σειράς Β ύψους 43 εκατομμυρίων δολαρίων ΗΠΑ πραγματοποιήθηκε τον Ιανουάριο του τρέχοντος έτους, με επικεφαλής τον γνωστό οργανισμό επιχειρηματικών κεφαλαίων a16z, με τη δεύτερη επένδυση της NVIDIA, και η αποτίμηση μετά το χρήμα έφτασε τα 200-300 εκατομμύρια δολάρια ΗΠΑ.

Τον Ιούνιο του τρέχοντος έτους, η Dream Machine κυκλοφόρησε μια δωρεάν δημόσια beta σε όλο τον κόσμο Κάθε χρήστης έχει 30 ευκαιρίες να δημιουργεί δωρεάν βίντεο κάθε μήνα και κάθε βίντεο διαρκεί 5 δευτερόλεπτα. Προκειμένου να συγκριθεί και να ανταγωνιστεί αυτούς που έχουν μπει πρώτοι στο παιχνίδι, αναδεικνύει τα χαρακτηριστικά της «αποτελεσματικότητας», της «φυσικής» και της «κίνησης καθρέφτη». Ένα από τα κύρια χαρακτηριστικά είναι ότι χρειάζονται μόνο 120 δευτερόλεπτα για να δημιουργηθεί ένα βίντεο 120 καρέ (ωστόσο, υπήρχαν πάρα πολλά άτομα σε ουρά κατά τη δημόσια περίοδο beta και οι χρήστες ανέφεραν γενικά ότι χρειάζονται 10-20 λεπτά για να δημιουργηθεί ένα βίντεο, και μερικά χρειάζονται ακόμη και 2 ώρες). Ο καταιγισμός ιδεών των χρηστών καθιστά τα παραγόμενα βίντεο γεμάτα δημιουργικότητα και φαντασία και η εφαρμογή τους στη διαφήμιση, τη διδασκαλία και την εκπαίδευση, τη δημιουργία ιστοριών και άλλους τομείς έχει επίσης διαδραματίσει σημαντικό ρόλο στη μείωση του κόστους και στην αύξηση της αποτελεσματικότητας.

Ποιο προϊόν παραγωγής βίντεο AI είναι το καλύτερο;

Όσον αφορά τη σχεδίαση, η σελίδα του Dream Machine είναι διαισθητική και απλή, με δύο λειτουργίες: Vincent Video και Tusheng Video. Στα βίντεο Wensheng, το αποτέλεσμα της περιγραφής στα αγγλικά θα είναι καλύτερο έκφραση για να γίνει το αποτέλεσμα πιο ρεαλιστικό.

Ωστόσο, για χρήστες που δεν είναι τόσο δυνατοί στην ικανότητα δημιουργίας κειμένου, η λειτουργία βίντεο Tusheng θα είναι πιο δημοφιλής, επειδή μοιάζει περισσότερο με δευτερεύουσα επεξεργασία σε ένα έργο. Απλώς ανεβάστε μια εικόνα και προσθέστε μια περιγραφή κειμένου με βάση τη σκηνή στο μυαλό σας για να ζωντανέψετε τη στατική εικόνα και να πείτε την ιστορία με τη μορφή βίντεο.

Στο Twitter, μπορούμε να δούμε διάφορα δημιουργικά βίντεο που μοιράζονται οι χρήστες, συμπεριλαμβανομένων αστείων που κάνουν τη Μόνα Λίζα να κινείται, να χρησιμοποιούν selfies για να επαναφέρουν τη σκηνή όταν βγάζουν selfies και να «ανασταίνουν» σημαντικά άτομα για να αναδημιουργήσουν τη σκηνή. Μπορούμε να πούμε ότι τα εργαλεία δημιουργίας AI και η πλούσια φαντασία των χρηστών δίνουν νέα ζωτικότητα στις εργασίες.

Σε αυτό το κομμάτι, η συγκριτική αξιολόγηση ήταν πάντα ένα αδιαχώριστο θέμα. Από αρχιτεκτονικής άποψης, η Dream Machine και η Sora χρησιμοποιούν την αρχιτεκτονική Diffusion Transformer και ο συσχετισμός θα είναι υψηλότερος από την άποψη του παραγόμενου περιεχομένου, σε σύγκριση με το Runway και το Pika, η διαφοροποίηση του Dream Machine αντανακλάται στο μεγαλύτερο εύρος κινήσεων και Εναλλαγή φακού Υπάρχουν περισσότερες γωνίες και γρηγορότερα, αντί να κάνουν απλώς τα αντικείμενα στο βίντεο να μετακινούνται ελαφρώς, αλλά καθώς το μοντέλο είναι ακόμα σε αρχικό στάδιο, προκύπτουν επίσης προβλήματα ελέγχου. Για παράδειγμα, κατά τη διάρκεια της δοκιμής χρήστη, παρουσιάστηκε ένα αδικαιολόγητο φαινόμενο πολλαπλών κεφαλών κατά την εναλλαγή φακών ζώων Συνολικά, υπάρχουν πολλά σημεία που μπορούν να βελτιστοποιηθούν στα δεδομένα και στο μοντέλο.

Εξετάζοντας τη διάρκεια μιας μεμονωμένης γενιάς βίντεο, το Dream Machine μπορεί να δημιουργήσει ένα βίντεο 5 δευτερολέπτων σε 120 δευτερόλεπτα, το Runway είναι πιο γρήγορο και μπορεί να δημιουργήσει ένα βίντεο 10 δευτερολέπτων σε 90 δευτερόλεπτα. Στην τελευταία έκδοση, μπορεί να επεκταθεί στα 18 δευτερόλεπτα, ενώ το Pika είναι ακόμα ένα βίντεο διάρκειας μόνο 3 δευτερολέπτων. . Συγκρίνοντας τις τιμές χρέωσης πολλών προϊόντων, μετά τη δωρεάν δοκιμαστική περίοδο, το Dream Machine έχει την υψηλότερη συνολική τιμή φόρτισης, ενώ η επαγγελματική έκδοση του Pika έχει 6 φορές μεγαλύτερη τιμή από την τυπική του έκδοση και άλλα προϊόντα είναι περίπου 2-3,5 φορές.

(Σύγκριση τιμών προϊόντος παραγωγής βίντεο AI)

Τέλος, κρίνοντας από το εφέ δημιουργίας βίντεο, η ίδια παράγραφος κειμένου εκφράζεται σε διαφορετικά στυλ βίντεο που δημιουργούνται από διαφορετικά προϊόντα. Σε σύγκριση με άλλα προϊόντα, η κινηματογραφική αίσθηση και ο φυσικός ρεαλισμός είναι ένα από τα κοινά συναισθήματα που έχουν οι χρήστες όταν χρησιμοποιούν το Dream Machine. Συνοψίζοντας, υπάρχουν δύο πιθανοί λόγοι Πρώτον, το προϊόν χρησιμοποιεί μεγάλο αριθμό κλιπ ταινιών κατά τη διάρκεια της εκπαίδευσης μοντέλων, γεγονός που κάνει το παραγόμενο βίντεο να είναι γεμάτο φαντασία, αλλά προσθέτει κάποια επιπλέον σκηνές και επίσης Η επεξεργασία των κινούμενων χαρακτήρων και η προσθήκη κινήσεων του στόματος τους κάνει να φαίνονται πιο ρεαλιστικοί.

Οι τρισδιάστατες μίνι φιγούρες του Vincent γίνονται δυνατές χάρη στη συσσώρευση τεχνολογίας.

Η Luma AI έχει επικεντρωθεί στη δημιουργία 3D περιεχομένου από την ίδρυσή της. Η εφαρμογή έχει μια έκδοση web για υπολογιστή και μια έκδοση APP για κινητά (που ονομάζεται Luma AI), και μπορεί επίσης να χρησιμοποιηθεί σε διακομιστές Discord που χρησιμοποιούνται ευρέως στο εξωτερικό.

Απλώς εισαγάγετε μια περιγραφή κειμένου και 4 ρεαλιστικά τρισδιάστατα μοντέλα μπορούν να δημιουργηθούν σε 10 δευτερόλεπτα, παρόμοια με μια "μικρή φιγούρα", αφού επιλέξετε σύμφωνα με τις προσωπικές προτιμήσεις, μπορείτε επίσης να επεξεργαστείτε την υφή μόνοι σας, συμπεριλαμβανομένης της αρχικής, λείας και αντανακλαστικής. Τέλος, μπορεί να βγει σε πολλαπλές μορφές όπως fbx, gltf, obj κ.λπ., για να επιτευχθεί απρόσκοπτη σύνδεση με άλλα λογισμικά επεξεργασίας 3D (όπως Unity και Blender), ώστε το μοντέλο να μπορεί να κινείται, ταιριάζοντας τέλεια παιχνίδια, κινούμενα σχέδια και άλλες σκηνές, επιτυγχάνοντας πραγματικά τον στόχο της παροχής μεταγενέστερων υπηρεσιών Παρέχετε ενδυνάμωση της σκηνής.

Το χαμηλό τεχνικό όριο του Genie1.0 επιτρέπει επίσης στους χρήστες να ανασυνθέτουν τρισδιάστατες σκηνές τραβώντας απλά βίντεο κλιπ. Σύμφωνα με τις απαιτήσεις, τραβήξτε λήψεις 360° του αντικειμένου από τρεις γωνίες: κοιτάζοντας προς τα πάνω, κοιτάζοντας προς τα κάτω και κοιτάζετε ψηλά Μετά τη μεταφόρτωση, περιμένετε μερικά λεπτά για να ολοκληρώσει το Genie 1.0 την τρισδιάστατη απόδοση του βίντεο.

Όσον αφορά την τεχνολογία, το Luma AI μπορεί να ειπωθεί ότι έχει φτάσει το NeRF (Neural Radiation Field) στα άκρα του. Το παραδοσιακό NeRF απαιτεί τη χρήση επαγγελματικού εξοπλισμού για τη λήψη μεγάλου αριθμού φωτογραφιών και οι τοποθεσίες των συντεταγμένων πρέπει να τηρούνται αυστηρά. Σήμερα, χάρη στον ανοιχτό κώδικα του υποκείμενου κώδικα, έχουν αναπτυχθεί όλο και περισσότερα απλουστευμένα μοντέλα και οι απαιτούμενες φωτογραφίες και οι απαιτήσεις γωνίας λήψης έχουν μειωθεί σημαντικά χρησιμοποιείται ανά πάσα στιγμή, οπουδήποτε.

Η συσσώρευση τεχνολογίας και προϊόντων 3D βοήθησε την εταιρεία να μεταβεί ομαλά από τη γενιά 3D στη δημιουργία βίντεο, αλλά αντίστροφα, η παραγωγή βίντεο δημιούργησε επίσης συνθήκες υψηλής ποιότητας για το 3D. Στην ιδέα του Luma AI, ο σκοπός της δημιουργίας προϊόντων παραγωγής βίντεο είναι να προστεθούν διαστάσεις 3D και χρόνου για καλύτερη δημιουργία 4D και το βίντεο παίζει έναν ενδιάμεσο ρόλο εδώ.

Μπορούμε να συνδυάσουμε τα δύο προϊόντα Genie1.0 και Dream Machine Το πρώτο μπορεί να δημιουργήσει τρισδιάστατα μοντέλα μέσω βίντεο πολλαπλών γωνιών και το δεύτερο χρησιμοποιεί τη συσσώρευση μοντέλων 3D για να δημιουργήσει καλύτερα βίντεο. Και επειδή το 3D έχει περιορισμούς δεδομένων σε σύγκριση με τις εικόνες και τα βίντεο, εάν θέλετε να δημιουργήσετε καλύτερα 3D, χρειάζεστε περισσότερα μεγάλα δεδομένα μοντέλου για να το οδηγήσετε. Προκειμένου να επιτευχθεί ο τελικός στόχος 4D, συλλέγονται δεδομένα πολλαπλών προβολών από το παραγόμενο βίντεο και στη συνέχεια χρησιμοποιούνται για τη δημιουργία 4D εφέ Ανοίγει μια πλήρης αλυσίδα.

Πού είναι τελικά η διέξοδος;

Από φέτος, η πίστα δημιουργίας βίντεο με τεχνητή νοημοσύνη έχει γίνει σταδιακά γεμάτη, ειδικά οι μεγάλες εταιρείες του Διαδικτύου είτε πρόκειται για μοντέλα που έχουν αναπτύξει μόνοι τους είτε για επενδύσεις, έχουν κάνει ορισμένες ρυθμίσεις σε αυτόν τον τομέα. Καθώς ο αριθμός των συμμετεχόντων συνεχίζει να αυξάνεται, ορισμένα προβλήματα αποκαλύπτονται σταδιακά, τα οποία αντικατοπτρίζονται κυρίως στη δυνατότητα ελέγχου και τη συνέπεια των βίντεο που δημιουργούνται.

Αυτά τα δύο προβλήματα προκύπτουν κυρίως όταν αλλάζει η γωνία βίντεο, όπως η σκηνή με πολλά κεφάλια ζώων που αναφέρθηκε προηγουμένως, και στη σκηνή με πορτρέτο, καθώς οι εκφράσεις του προσώπου και οι λεπτομέρειες των ανθρώπων αλλάζουν γρήγορα και είναι δύσκολο να αποτυπωθούν, στο βίντεο κατά την εναλλαγή η γωνία του προσώπου, το πρόσωπο μπορεί να παραμορφωθεί το επόμενο δευτερόλεπτο, ή ακόμα και να μην είναι το ίδιο πρόσωπο, και αυτός είναι ένας από τους λόγους για τους οποίους η διάρκεια του βίντεο είναι περιορισμένη. Όσο περισσότερος χρόνος χρειάζεται για τη δημιουργία ενός βίντεο, τόσο πιο δύσκολο είναι να διασφαλιστεί η συνέπεια.

(Ζώα με πολλά κεφάλια εμφανίζονται στο βίντεο που δημιουργήθηκε)

Αυτό το πρόβλημα του σημείου πόνου έχει επίσης προβληματίσει πολλούς προγραμματιστές Αν και δεν υπάρχει ακόμα τέλεια λύση, μπορεί να φανεί από τις δράσεις ανάπτυξής τους ότι ήδη εργάζονται προς αυτή τη βασική κατεύθυνση. Για παράδειγμα, το VideoCrafter2 που αναπτύχθηκε από την Tencent AI Lab χρησιμοποιεί βίντεο χαμηλής ποιότητας για να διασφαλίσει τη συνέπεια της κίνησης των πραγμάτων στην εικόνα. χαρακτήρες και δυνατότητα ελέγχου.

Όσον αφορά τις ομάδες κοινού, τα προϊόντα δημιουργίας βίντεο τεχνητής νοημοσύνης στοχεύουν επί του παρόντος κυρίως σε χρήστες C. Σε αυτό το στάδιο, οι χρήστες δοκιμάζουν τα αναδυόμενα πράγματα από τη δυνατότητα αναπαραγωγής και τη δημιουργικότητα θα βασίζεται επίσης στην υποστήριξη της πλευράς Β. Προς το παρόν, αυτός ο τύπος προϊόντων οδηγεί επίσης τη ζήτηση για API να συνεχίσει να αυξάνεται, δίνοντας στις μεταγενέστερες εταιρείες περισσότερες δυνατότητες, είτε πρόκειται για επανεπεξεργασία είτε για άμεση χρήση των παραγόμενων βίντεο, μειώνει σημαντικά τον χρόνο και το κόστος δημιουργίας.

Επιπλέον, ο Kuaishou συνεργάστηκε πρόσφατα με τον Bona για να ξεκινήσει το πρώτο πρωτότυπο μικρού μήκους δράμα της Κίνας AIGC, το οποίο επίσης ανέτρεψε τη δημιουργική σκέψη της παραδοσιακής βιομηχανίας ταινιών και τηλεόρασης. Ο συνδυασμός των δύο αναδυόμενων καυτών κομματιών έχει επίσης φέρει νέες ανακαλύψεις στα σενάρια εφαρμογών της δημιουργίας βίντεο με τεχνητή νοημοσύνη και θα ανοίξουν περισσότερες δυνατότητες Παρόλο που και τα δύο βρίσκονται στα αρχικά στάδια ανάπτυξης, ούτε η τεχνολογία ούτε τα προϊόντα είναι ώριμα, αλλά αντιμετωπίζουν Οι διπλές τάσεις και τα δύο μερίσματα, το «co-branding» είναι βέβαιο ότι θα οδηγήσει γρήγορα τη διαδικασία ανάπτυξης του κλάδου.

Η καινοτομία των προϊόντων που δημιουργήθηκαν με τεχνητή νοημοσύνη φέρνει απεριόριστη δημιουργικότητα και εκπλήξεις στη ζωή των ανθρώπων και επίσης μειώνει τη δυσκολία και το κόστος παραγωγής. Κρίνοντας από τα τρέχοντα προϊόντα, τόσο το Wensheng Video όσο και το Tusheng Video έχουν δημιουργήσει πολύ ενδιαφέρον και πρωτότυπο gameplay, στο οποίο η προσωπική δημιουργικότητα είναι ο βασικός παράγοντας για την επίτευξη καλύτερης απόδοσης AI. Αν και ορισμένα τεχνικά προβλήματα έχουν οδηγήσει σε περιστασιακά σφάλματα και η μορφή του προϊόντος εξαρτάται σε μεγάλο βαθμό από τις πραγματικές δυνατότητες του μοντέλου, μέσω επαναληπτικών ενημερώσεων, υγιούς ανταγωνισμού στην αγορά και συνδυασμού κομματιών, πιστεύω ότι το μοντέλο τελικά θα εκπαιδεύεται όλο και πιο τέλειο. Ταυτόχρονα, προσβλέπουμε επίσης στο μέλλον των εγχώριων προϊόντων μεγάλων μοντέλων για να δημιουργήσουν μια δική τους θέση στην παγκόσμια αγορά.

Νέα

Η δωρεάν δημόσια beta κατέκλυσε τον διακομιστή και ο Sora κέρδισε έπαινο για τη φυσική του αίσθηση.

Εισαγωγή

τα στοιχεία επικοινωνίας μου