Το "Jimeng AI" είναι στα ράφια, μπορεί η Byte να προλάβει τον Kuaishou;

2024-08-13

Δημοσιογράφος: Yang Xinyi Επιμέλεια: Wei Guanhong

"Η πίεση είναι στο Douyin Όταν εμφανίστηκαν φαινομενικά προϊόντα τεχνητής νοημοσύνης τον Ιούνιο του τρέχοντος έτους, τα οποία αντιπροσωπεύονταν από το μοντέλο μεγάλης γενιάς βίντεο της Kuaishou, ο έξω κόσμος ανυπομονούσε για την περαιτέρω απόδοση του Byte.

Πρόσφατα, η έκδοση για φορητές συσκευές του "Jimeng AI", μιας πλατφόρμας δημιουργίας τεχνητής νοημοσύνης μίας στάσης που αναπτύχθηκε από την ομάδα επεξεργασίας της ByteDance, κυκλοφόρησε επίσημα στο Apple App Store.

Ο δημοσιογράφος της "Daily Economic News" έμαθε ότι η εφαρμογή αυτή τη στιγμή διαθέτει λειτουργίες όπως εικόνες που βασίζονται σε κείμενο και βίντεο που βασίζονται σε κείμενο/εικόνες. Επιπλέον, η Jimeng έχει λανσάρει ένα σύστημα μελών και έχει λανσάρει πολλαπλές μεθόδους συνδρομής.

Συγκρίνοντας τις πραγματικές εφαρμογές των Ji Meng, Ke Ling και Sora, οι δημοσιογράφοι από το "Daily Economic News" διαπίστωσαν ότι τα τρία μεγάλα μοντέλα παραγωγής βίντεο είναι πιο ακριβή και ολοκληρωμένα στην αποτύπωση και κατανόηση των προτρεπόμενων λέξεων, αλλά οι χαρακτήρες του Ji Meng Δυνατότητες όπως π.χ. Η διαμόρφωση, ο πλούτος περιεχομένου και η ευχέρεια βίντεο λείπουν σχετικά. Όσον αφορά τη διάρκεια του παραγόμενου περιεχομένου, το Jimeng υποστηρίζει τη δημιουργία βίντεο έως και 12 δευτερολέπτων.

"Ο αριθμός των δευτερολέπτων που χρειάζονται για να δημιουργηθεί ένα ομαλό βίντεο είναι ένας βασικός παράγοντας για να κρίνουμε την ικανότητα ενός βίντεο να δημιουργήσει ένα μεγάλο μοντέλο." Το "Smooth" πρέπει να μετρηθεί από πολλές διαστάσεις. Κοιτάξτε, για παράδειγμα, εάν υπάρχουν πραγματικά σφάλματα στο περιεχόμενο που δημιουργείται, πόσο καλή είναι η μνήμη σας και εάν η αίσθηση του χώρου είναι σωστή.

Η έκδοση για κινητά "Jimeng AI" βρίσκεται στα ράφια Πηγή εικόνας: Στιγμιότυπα οθόνης

Το "Jimeng AI" είναι στα ράφια, μπορεί το εφέ να φτάσει τη διαφορά του Ling;

Στις αρχές του τρέχοντος έτους, η εμφάνιση του Sora εγκαινίασε την «εποχή του ChatGPT του βίντεο». Η ByteDance, η μητρική εταιρεία του Douyin, η οποία είναι επίσης κολοσσός βίντεο μικρού μήκους, θεωρείται ένας από τους παίκτες με τις περισσότερες δυνατότητες να προλάβουν τη διαφορά στην πίστα.

Πηγή εικόνας της ιστοσελίδας Keling AI: Επίσημο στιγμιότυπο οθόνης ιστότοπου

Στα τέλη Μαρτίου, η πλατφόρμα δημιουργίας AI "Jimeng AI" που αναπτύχθηκε από την ομάδα αιχμής της Byte άνοιξε για εσωτερικές δοκιμές στις 9 Μαΐου, η εφαρμογή κυκλοφόρησε στην έκδοση web κύριες λειτουργίες: δημιουργία εικόνων, έξυπνος καμβάς και δημιουργία βίντεο Επί του παρόντος, μια νέα λειτουργία δημιουργίας ιστορίας κυκλοφόρησε στις 6 Αυγούστου, η έκδοση για κινητά της εφαρμογής κυκλοφόρησε επίσημα στο Apple App Store και τώρα διαθέτει λειτουργίες όπως το κείμενο. εικόνες και βίντεο με βάση κείμενο/εικόνα.

Πηγή εικόνας ιστοσελίδας Jimeng AI: Επίσημο στιγμιότυπο οθόνης ιστότοπου

Όσο για το πραγματικό αποτέλεσμα του Jimeng, στις αρχές Ιουλίου του τρέχοντος έτους, η πρώτη παραγωγική συνεχής αφήγηση μικρού μήκους σειράς επιστημονικής φαντασίας AIGC της χώρας "Sanxingdui: Future Apocalypse" κυκλοφόρησε στο Douyin. Σε αυτή τη σύντομη σειρά με συνολικά 13 επεισόδια, ο Jimeng, ως κύριος υποστηρικτής τεχνολογίας AI, χρησιμοποίησε 10 τεχνολογίες AI, συμπεριλαμβανομένων δημιουργίας σεναρίου AIGC, σχεδίασης σχεδίου σεναρίου, μετατροπής εικόνας σε βίντεο, επεξεργασίας βίντεο και βελτίωσης περιεχομένου πολυμέσων.

Σύμφωνα με δημοσιεύματα μέσων ενημέρωσης, στη διαδικασία συνεργασίας με την Bona Pictures για την κυκλοφορία του "Sanxingdui: Future Apocalypse", η Jimeng AI βελτίωσε τη λειτουργία "δημιουργία βίντεο", συμπεριλαμβανομένης της υποστήριξης πλήρωσης καρέ 24fps, 30fps, 60fps και τη δυνατότητα διπλασιασμού της σούπερ βαθμολογίας. , προσθήκη οριζόντιας κίνησης του φακού, κίνηση προς τα πάνω και προς τα κάτω, υποστήριξη για έλεγχο κατεύθυνσης και πλάτους της κίνησης του φακού κ.λπ.

Πηγή εικόνας: Στιγμιότυπο οθόνης του δημόσιου λογαριασμού Jianying WeChat

Μετά την κυκλοφορία της εφαρμογής Jimeng, ένας ρεπόρτερ από το "Daily Economic News" επέλεξε μια σειρά από λέξεις προτροπής βίντεο Sora που κυκλοφόρησαν επίσημα από το OpenAI για να πραγματοποιήσει μια συγκριτική δοκιμή στους Jimeng, Keling και Sora.

Κρίνοντας από τα αποτελέσματα των δοκιμών του ρεπόρτερ, τα τρία μεγάλα μοντέλα παραγωγής βίντεο είναι σχετικά ακριβή και πλήρη στην καταγραφή και κατανόηση των προτρεπόμενων λέξεων και η απόδοση της οθόνης του παραγόμενου περιεχομένου βίντεο είναι επίσης συνεκτική και ομαλή.

Ωστόσο, όσον αφορά την ακρίβεια της απεικόνισης των χαρακτήρων, η Sora έχει ορισμένα πλεονεκτήματα έναντι της Ji Meng και της Ke Ling όσον αφορά τη φυσικότητα των κινήσεων, η Ji Meng είναι ελαφρώς κατώτερη από τα τρία δοκιμαστικά προϊόντα Βίντεο με θέμα Streets of Tokyo" "" δείχνει ότι το κεφάλι και ο λαιμός του χαρακτήρα που δημιουργείται από το όνειρο παραμορφώνονται ελαφρώς όταν γυρίζει το κεφάλι του και οι κινήσεις των χεριών κατά τη μεταφορά της τσάντας παραμορφώνονται επίσης.

Πηγή εικόνας: Στιγμιότυπο οθόνης βίντεο που δημιουργήθηκε από τον δημοσιογράφο

Όσον αφορά τον πλούτο στοιχείων στο περιεχόμενο παραγωγής, ο Sora αποδίδει επίσης καλύτερα μεταξύ των τριών. Για παράδειγμα, στο περιεχόμενο βίντεο που δημιουργήθηκε με θέμα τον «Αστροναύτη», ο Σόρα έδωσε πολλούς συσχετισμούς που σχετίζονται με λέξεις όπως διαστημόπλοια και σκηνές εκτός οχήματος, ενώ ο Τζι Μενγκ και ο Κε Λινγκ παρουσίασαν μόνο έναν άνδρα που φορούσε διαστημική στολή.

Πηγή εικόνας: Στιγμιότυπο οθόνης βίντεο που δημιουργήθηκε από τον δημοσιογράφο

Ο Ερευνητικός Εταίρος Analysys Analysis Chen Chen είπε σε μια συνέντευξη με έναν δημοσιογράφο από το "Daily Economic News" ότι όσον αφορά το εφέ δημιουργίας, η συνολική ποιότητα των εικόνων AI της Dream είναι καλύτερη, ενώ τα βίντεο AI είναι καλύτερα όσον αφορά τη διάρκεια, τον πλούτο στοιχείων, τη δράση συνοχή κ.λπ. Λείπουν ακόμη οι λεπτομέρειες.

"(Το περιεχόμενο των στοιχείων δεν είναι αρκετά πλούσιο) Αφορά περισσότερο την ευθυγράμμιση του μοντέλου, αλλά αν λείπει η δυνατότητα συσχέτισης από "αστροναύτης" σε "διαστημόπλοιο", είναι πρόβλημα με τις δυνατότητες του βασικού μοντέλου." Ένας μεγάλος μηχανικός μοντέλων είπε στο "Daily Economics" News" ο δημοσιογράφος επεσήμανε ότι ο αριθμός των δευτερολέπτων που απαιτούνται για να δημιουργηθεί ένα ομαλό βίντεο είναι βασικός παράγοντας για την κρίση της ικανότητας ενός βίντεο να δημιουργεί μεγάλα μοντέλα. "Το "Smooth" πρέπει να προβληθεί από πολλαπλές διαστάσεις, όπως αν το περιεχόμενο που δημιουργείται έχει πραγματικά λάθη, πόσο καλή είναι η μνήμη και Η αίσθηση του χώρου δεν είναι ίση."

Οι δημοσιογράφοι της "Daily Economic News" ανακάλυψαν μέσω δοκιμών ότι όταν εισάγονται οι ίδιες προτρεπτικές λέξεις, όσο μεγαλύτερο χρονικό διάστημα απαιτείται να δημιουργηθεί το βίντεο, η ακρίβεια και η ομαλότητα της κύριας εικόνας και των κινήσεων του βίντεο είναι πιθανό να καταστραφούν ανάλογα.

Επί του παρόντος, η Jimeng υποστηρίζει τη δημιουργία περιεχομένου βίντεο 3 δευτερολέπτων, 6 δευτερολέπτων, 9 δευτερολέπτων και 12 δευτερολέπτων, που αντιστοιχούν σε διαφορετικά σημεία κατανάλωσης. Ο Sora μπόρεσε να συνθέσει βίντεο διάρκειας 1 λεπτού ήδη από τη στιγμή που κυκλοφόρησε στις 21 Ιουνίου, η Keling κυκλοφόρησε τη λειτουργία βίντεο Tusheng, η οποία υποστηρίζει τη μετατροπή στατικών εικόνων σε ζωντανά βίντεο διάρκειας 5 δευτερολέπτων με βάση διαφορετικά περιεχόμενα κειμένου. εγγραφή Η λειτουργία μπορεί να κάνει το βίντεο να διαρκέσει περίπου 5 δευτερόλεπτα και το μεγαλύτερο βίντεο μπορεί να δημιουργηθεί για περίπου 3 λεπτά.

Το βίντεο AI θα είναι χρυσωρυχείο για μεγάλα μοντέλα;

Η εμφάνιση του Sora άνοιξε αναμφίβολα ένα νέο πεδίο παιχνιδιού για τα μεγάλα μοντέλα - τον Ιούλιο του τρέχοντος έτους, η Alibaba Damo Academy κυκλοφόρησε μια ενιαία πλατφόρμα δημιουργίας βίντεο AI "Xunguang" και το SenseTime ξεκίνησε την πρώτη ελεγχόμενη πλατφόρμα δημιουργίας βίντεο AI για C- Οι τελικοί χρήστες, ένα μεγάλο μοντέλο για τη δημιουργία βίντεο χαρακτήρων, και η Zhipu ανακοίνωσαν επίσης ότι το μοντέλο βίντεο Qingying (Ying) που δημιουργείται από AI θα κυκλοφορήσει επίσημα στο Zhipu Qingyan⋯⋯.

Όταν κορυφαίοι παίκτες τεχνητής νοημοσύνης εξαπολύουν συλλογικά μια σφοδρή επίθεση σε μεγάλα μοντέλα που δημιουργούνται από βίντεο, μια αναπόφευκτη ερώτηση είναι ακριβώς μπροστά μας: Μπορούν τα βίντεο AI να κάνουν μεγάλες εταιρείες μοντέλων να βγάλουν χρήματα;

Πάρτε για παράδειγμα την OpenAI, μια εταιρεία σταρ του κλάδου, αφού κυκλοφόρησε μια σειρά μοντέλων μεγάλης κλίμακας με κορυφαίες δυνατότητες, όπως η Sora, τον Ιούλιο του τρέχοντος έτους, ορισμένα μέσα ενημέρωσης ανέφεραν άτομα που είναι εξοικειωμένα με το θέμα και άγνωστη εσωτερική ανάλυση οικονομικών δεδομένων. λέγοντας ότι το OpenAI μπορεί να αντιμετωπίσει έως και 5 δισεκατομμύρια δολάρια φέτος. Με μια τεράστια απώλεια 3,5 δισεκατομμυρίων δολαρίων, τα έσοδα της εταιρείας για ολόκληρο το έτος υπολογίζονται μεταξύ 3,5 δισεκατομμυρίων και 4,5 δισεκατομμυρίων δολαρίων ΗΠΑ, που είναι πολύ χαμηλότερα από το λειτουργικό κόστος.

Ταυτόχρονα, τα εγχώρια μοντέλα βίντεο μεγάλης κλίμακας δείχνουν επίσης να είναι λίγο «ανήσυχα» όσον αφορά την εμπορευματοποίηση. Στις 30 Ιουλίου, η Keling κυκλοφόρησε ένα παγκόσμιο σύστημα συνδρομής, το οποίο είναι παρόμοιο με το σύστημα μελών που κυκλοφόρησε στην εγχώρια αγορά. Για παράδειγμα, η μηνιαία κάρτα χωρίζεται σε τρία επίπεδα: 10 δολάρια ΗΠΑ, 37 δολάρια ΗΠΑ και 92 δολάρια ΗΠΑ. δημιουργήστε περίπου 66, 300 και 800 βίντεο 5 δευτερολέπτων.

Ο δημοσιογράφος της "Daily Economic News" παρατήρησε ότι η Jimeng έχει ξεκινήσει ένα σύστημα μελών, με διαφορετικές μεθόδους συνδρομής για βασική συνδρομή 79 γιουάν για έναν μόνο μήνα, 69 γιουάν για συνεχή μηνιαία συνδρομή και 659 γιουάν για ετήσια συνδρομή. Συγκεκριμένα, τα βασικά μέλη μπορούν να χρησιμοποιήσουν 505 πόντους το μήνα για να δημιουργήσουν περίπου 2.020 εικόνες ή 168 βίντεο τεχνητής νοημοσύνης. Επιπλέον, υπάρχουν τυπικές υπηρεσίες συνδρομής με 2020 πόντους το μήνα και προηγμένες υπηρεσίες συνδρομής με 6555 πόντους ανά μήνα που θα λανσαριστούν σύντομα.

«Λόγω του υψηλού κόστους εκπαίδευσης μοντέλων και συμπερασμάτων των μεγάλων μοντέλων τεχνητής νοημοσύνης, σε συνδυασμό με τη σχετικά διάσπαρτη ζήτηση για εργαλεία τεχνητής νοημοσύνης από χρήστες C-end και την έλλειψη προθυμίας πληρωμής, η εμπορευματοποίηση μεγάλων μοντέλων βίντεο στην αγορά C-end θα εξακολουθούν να αντιμετωπίζουν μια μακρά περίοδο καλλιέργειας." Ο Chen Chen πιστεύει ότι για την αγορά C-end, η εμπορευματοποίηση μοντέλων βίντεο μεγάλης κλίμακας έχει ακόμη πολύ δρόμο να διανύσει.

Ξεκινώντας από την αγορά B-side, ο Chen Chen είπε στον δημοσιογράφο της «Daily Economic News», «Για την B-side, η επανάσταση της τεχνολογίας AI αναδιαμορφώνει την αρχική ροή εργασίας, συμπιέζοντας περιττούς συνδέσμους και πυροδοτώντας νέα ζήτηση για δημιουργικά εργαλεία. Σε αυτή τη διαδικασία, τα μεγάλα μοντέλα βίντεο AI μπορούν σταδιακά να ενσωματωθούν με την υπάρχουσα παραγωγή ταινιών και τηλεόρασης, τη διαφημιστική δημιουργικότητα και τον προγραμματισμό περιεχομένου μέσων για να βοηθήσουν στην αυτοματοποίηση σύνθετων διαδικασιών και έξυπνης παραγωγής περιεχομένου και στο εάν οι δυνατότητες του μοντέλου μπορούν να ενσωματωθούν αποτελεσματικά στο Οι πραγματικές ροές εργασίας θα φέρουν ουσία. Η βελτίωση της σεξουαλικής απόδοσης και η μείωση του κόστους είναι βασικοί παράγοντες για τη δημιουργία δυνατοτήτων εμπορευματοποίησης».

"Η εμπορευματοποίηση του Kimi θα αρχίσει σταδιακά να διερευνάται, αλλά δεν είναι η τρέχουσα εστίαση. Η τρέχουσα εστίαση είναι η κατασκευή ενός μοντέλου επόμενης γενιάς με ισχυρότερες δυνατότητες Τον Αύγουστο του τρέχοντος έτους, το Dark Side of the Moon έδωσε συνέντευξη." Ο δημοσιογράφος από την "Daily Economic News" Shi Zeng είπε ότι σε αυτό το στάδιο, δεν είναι η ώρα να επικεντρωθούμε στην εμπορευματοποίηση.

Ίσως, το ίδιο να ισχύει και για το «πρωτόγονο» Όνειρο, που έχει ακόμα το ένα ορόσημο μετά το άλλο να φτάσει και να ξεπεράσει. "Οι τρέχουσες λειτουργίες προϊόντων και τα επιχειρηματικά μοντέλα της Jimeng επικεντρώνονται στην εξυπηρέτηση του UGC (περιεχόμενο που δημιουργείται από χρήστες) και η οικολογική ενοποίηση με τον Douyin θα είναι επίσης το επίκεντρο της μελλοντικής ανάπτυξης, "Ίσως όσον αφορά τη διάρκεια, τον ρυθμό καρέ, την εικόνα." λεπτομέρειες και άλλες τεχνολογίες Η άμεση συγκριτική αξιολόγηση των παραμέτρων δεν είναι αυτό στο οποίο η Jimeng πρέπει να δώσει μεγαλύτερη προσοχή σε αυτό το στάδιο, το κλειδί βρίσκεται στην εφαρμογή εφαρμογών και στις δυνατότητες οικολογικής ενσωμάτωσης».

νέα

Το "Jimeng AI" είναι στα ράφια, μπορεί η Byte να προλάβει τον Kuaishou;

Εισαγωγή

Τα στοιχεία επικοινωνίας μου