το minimax εντάσσεται στο melee της γενιάς βίντεο, είναι το τέλος του κόσμου για τη δημιουργία βίντεο με μεγάλα μοντέλα;

2024-09-01

ένας άλλος εγχώριος μονόκερος εντάσσεται στη μάχη σώμα με σώμα των μοντέλων παραγωγής βίντεο.

στις 31 αυγούστου, το minimax, ένα από τα πάντα χαμηλών τόνων «six little dragons of ai», έκανε επίσημα την πρώτη του δημόσια εμφάνιση και πραγματοποίησε μια εκδήλωση «minimax link partner day» στη σαγκάη. στη συνάντηση, ο ιδρυτής της minimax, yan junjie, ανακοίνωσε την κυκλοφορία μοντέλων παραγωγής βίντεο και μοντέλων μουσικής. επιπλέον, προέβλεψε ότι μια νέα έκδοση του μεγάλου μοντέλου abab7, που μπορεί να ανταγωνιστεί το gpt-4o ως προς την ταχύτητα και το αποτέλεσμα, θα κυκλοφορήσει τις επόμενες εβδομάδες.

το εξωτερικό όνομα αυτού του μοντέλου παραγωγής βίντεο είναι video-1 και το minimax δεν παρουσιάζει πολλά σχετικά με τις συγκεκριμένες παραμέτρους. ο yan junjie ανέφερε ότι σε σύγκριση με τα μοντέλα βίντεο στην αγορά, το video-1 έχει τα χαρακτηριστικά του υψηλού ρυθμού συμπίεσης, της καλής απόκρισης κειμένου και των διαφορετικών στυλ και μπορεί να δημιουργήσει εγγενή βίντεο υψηλής ανάλυσης και υψηλού ρυθμού καρέ. προς το παρόν, το video-1 παρέχει μόνο βίντεο wensheng στο μέλλον, το προϊόν θα επαναλαμβάνεται σε βίντεο wensheng, δυνατότητα επεξεργασίας, δυνατότητα ελέγχου και άλλες λειτουργίες.

προς το παρόν, όλοι οι χρήστες μπορούν να συνδεθούν στον επίσημο ιστότοπο conch ai για να βιώσουν τη λειτουργία δημιουργίας βίντεο του βίντεο-1. ο ρεπόρτερ το βίωσε στον ιστότοπο. μπορεί να δημιουργηθεί δεύτερο βίντεο. κρίνοντας από το αποτέλεσμα εξόδου, η εικόνα καλύπτει βασικά τα σημεία που αναφέρονται στις προτρεπτικές λέξεις. οι τόνοι υψηλής ευκρίνειας και τα χρώματα είναι αισθητικά αποδεκτοί.

κατά τη διάρκεια της συζήτησης του συνεδρίου, ο yan junjie ανέφερε ότι τα μοντέλα μεγάλης κλίμακας είναι ένα πεδίο που φαίνεται να είναι πολύ καυτό, αλλά υπάρχουν επίσης πολλοί τομείς που δεν έχουν συναίνεση «είτε θέλουμε να κάνουμε 2b είτε 2c, είτε το θέλουμε το κάνετε στο εσωτερικό ή στο εξωτερικό, είτε ο νόμος κλιμάκωσης μπορεί συνέχεια...» και ούτω καθεξής.

παρά τις τόσες πολλές μη συναινέσεις, η δημιουργία βίντεο μπορεί να είναι η συναίνεση των μεγάλων κατασκευαστών μοντέλων φέτος.

από τότε που το openai κυκλοφόρησε το μεγάλο μοντέλο βίντεο sora τον φεβρουάριο, υπήρξαν πολλές εκδόσεις με ονόματα στη βιομηχανία τον απρίλιο, η shengshu technology κυκλοφόρησε το μεγάλο μοντέλο βίντεο της γενιάς keling a μια εβδομάδα αργότερα, το μοντέλο βίντεο της luma ai κυκλοφόρησε στις αρχές ιουλίου ότι το μοντέλο βίντεο του vincent gen-3 alpha είναι ανοιχτό για όλους τους χρήστες τέλη ιουλίου, η aishi technology κυκλοφόρησε το pixverse v2 και στη συνέχεια η zhipu κυκλοφόρησε επίσημα το βίντεο qingying και στις αρχές αυγούστου, το bytedream ai κυκλοφόρησε στο κατάστημα εφαρμογών...

πριν από ένα χρόνο, υπήρχαν πολύ λίγα μοντέλα βίντεο vincent στην αγορά. σε λίγους μόνο μήνες, γίναμε μάρτυρες της εμφάνισης δεκάδων μοντέλων γενιάς βίντεο γενιά βίντεο ai μια ιστορική στιγμή.

στη συνέντευξη, ένας ρεπόρτερ από το china business news ρώτησε την αναγκαιότητα της δημιουργίας βίντεο διάταξης minimax, ο yan junjie είπε ότι ο βασικός λόγος είναι ότι οι πληροφορίες της ανθρώπινης κοινωνίας αντικατοπτρίζονται περισσότερο στο πολυτροπικό περιεχόμενο κάθε μέρα είναι δεν είναι κείμενο, είναι όλο δυναμικό περιεχόμενο όταν ανοίγετε το xiaohongshu, είναι όλα εικόνες και κείμενα, όταν ανοίγετε το douyin, είναι όλα βίντεο, και ακόμη και όταν ανοίγετε το pinduoduo, τις περισσότερες φορές είναι εικόνες. η αλληλεπίδραση κειμένου είναι πολύ συνηθισμένη. το μικρότερο μέρος αφορά περισσότερο την αλληλεπίδραση φωνής και βίντεο.

επομένως, για να έχουμε πολύ υψηλή κάλυψη χρήστη και μεγαλύτερο βάθος χρήσης, ως μεγάλος κατασκευαστής μοντέλων, ο μόνος τρόπος είναι να μπορούμε να εξάγουμε περιεχόμενο πολλαπλών τρόπων αντί να βγάζουμε απλώς περιεχόμενο που βασίζεται σε κείμενο, εξήγησε ο yan junjie. μια βασική κρίση.

"απλώς κάναμε αρχικά κείμενο, μετά ήχο και εικόνες πολύ νωρίς. τώρα που η τεχνολογία έχει γίνει ισχυρότερη, μπορούμε επίσης να κάνουμε βίντεο. αυτή η διαδρομή είναι συνεπής και πρέπει να είμαστε σε θέση να κάνουμε κατάσταση πολλαπλών λειτουργιών." είπε ο τζούντζι.

ωστόσο, το κομμάτι δημιουργίας βίντεο είναι δύσκολο ακριβώς κοιτάζοντας την κυκλοφορία του sora από το openai στις αρχές του έτους, δεν έχει κυκλοφορήσει επίσημα στον έξω κόσμο και μπορούμε επίσης να πάρουμε μια γεύση από ορισμένες προκλήσεις στον κλάδο.

από τη μία πλευρά, τα τρέχοντα αποτελέσματα δημιουργίας βίντεο απέχουν πολύ από το να ανταποκρίνονται στις προσδοκίες των χρηστών. το μοντέλο δεν κατανοεί τους φυσικούς κανόνες και η διαδικασία παραγωγής είναι δύσκολο να ελεγχθεί. οι αλγόριθμοι δημιουργίας βίντεο, εικόνας και τρισδιάστατων θα αντιμετωπίσουν πολλά δομικά και λεπτομερή προβλήματα με βίντεο με φυσικούς κανόνες είναι επί του παρόντος δύσκολο να δημιουργηθούν.

στη συνέντευξη, ο yan junjie είπε επίσης ότι "αυτό το θέμα είναι αρκετά δύσκολο", διαφορετικά τόσες πολλές εταιρείες που ισχυρίζονται ότι το κάνουν αυτό θα το είχαν ήδη κάνει. η πολυπλοκότητα εργασίας του βίντεο είναι πιο δύσκολη από αυτή του κειμένου, επειδή το κείμενο του βίντεο με βάση τα συμφραζόμενα είναι φυσικά πολύ μεγάλο. για παράδειγμα, ένα βίντεο έχει δεκάδες εκατομμύρια εισόδους και εξόδους, κάτι που είναι φυσικά μια δύσκολη διαδικασία. δεύτερον, ο όγκος του βίντεο είναι πολύ μεγάλος. ένα βίντεο 5 δευτερολέπτων μπορεί να είναι αρκετά megabyte, αλλά ένα βίντεο 5 δευτερολέπτων περίπου 100 λέξεων μπορεί να μην ανέρχεται καν στο 1k δεδομένων.

«η πρόκληση εδώ είναι ότι ο τρόπος με τον οποίο η υποδομή που έχει δημιουργηθεί με βάση το κείμενο χρησιμοποιείται για την επεξεργασία δεδομένων, ο τρόπος καθαρισμού των δεδομένων και ο τρόπος επισήμανσης τους δεν είναι κατάλληλοι για βίντεο το δεύτερο πράγμα είναι η υπομονή. υπάρχουν πολλές ανοιχτές πηγές για τη σύνταξη κειμένου το περιεχόμενο φτιάχτηκε, θα διαπιστώσετε ότι πρέπει να επαναληφθεί, κάτι που απαιτεί περισσότερη υπομονή.

οι επαγγελματίες του κλάδου είπαν προηγουμένως στους δημοσιογράφους ότι η τρέχουσα γενιά βίντεο μοιάζει λίγο με τη δημιουργία εικόνων την παραμονή του 2022, αφότου το stable diffusion έγινε ανοιχτού κώδικα τον αύγουστο του 2022, η δημιουργία εικόνων aigc άρχισε να εκρήγνυται, αλλά προς το παρόν δεν υπάρχει ιδιαίτερα ισχυρός "ανοιχτός κώδικας". το "στον τομέα της παραγωγής βίντεο. σόρα" κυκλοφόρησε, όλοι πρέπει ακόμα να εξερευνήσουν το μονοπάτι.

η qiming venture partners κυκλοφόρησε το "ten prospects for generative ai in 2024" τον ιούλιο, ένα από αυτά είναι ότι η παραγωγή βίντεο θα εκραγεί σε τρία χρόνια. κινουμένων σχεδίων και ταινιών μικρού μήκους το μοντέλο παραγωγής επιφέρει αλλαγές. στο μέλλον, ο ρυθμός συμπίεσης της αναπαράστασης λανθάνοντος χώρου των εικόνων και των βίντεο θα αυξηθεί κατά περισσότερο από πέντε φορές, με αποτέλεσμα περισσότερο από πέντε φορές ταχύτερη παραγωγή.

(αυτό το άρθρο προέρχεται από το china business news)

αναφορά/σχόλια

νέα

το minimax εντάσσεται στο melee της γενιάς βίντεο, είναι το τέλος του κόσμου για τη δημιουργία βίντεο με μεγάλα μοντέλα;

εισαγωγή

τα στοιχεία επικοινωνίας μου