ο zhang yiming έφτασε αργά, αλλά ακόμα αργότερα

2024-09-25

μπαίνοντας στον σεπτέμβριο, τα μεγάλα μοντέλα βίντεο έχουν γίνει το νέο σημείο ανταγωνισμού ai για τους μεγάλους κατασκευαστές. αλλά αυτή τη φορά, ο zhang yiming άργησε και πάλι.

έχουν περάσει 5 ημέρες από τότε που κυκλοφόρησε το alibaba tongyi qianwen wensheng video και 3 μήνες από τότε που η kuaishou κυκλοφόρησε το keling τον ιούνιο, στις 24 σεπτεμβρίου, η byte κυκλοφόρησε τελικά το δικό της μοντέλο της γενιάς βίντεο doubao.

αυτό που αξίζει να σημειωθεί είναι ότι ο zhang yiming, ο οποίος ανέκαθεν εκτιμούσε την απόδοση επένδυσης (roi) και είναι ρεαλιστής, έθεσε από την αρχή τον τόνο της «εμπορευματοποίησης» για το μοντέλο βίντεο doubao.

στην εκδήλωση, ο tan dai, πρόεδρος της volcano engine, είπε:η εμπορευματοποίηση έχει εξεταστεί από τότε που κυκλοφόρησε το μοντέλο παραγωγής βίντεο doubao.οι τομείς εφαρμογής περιλαμβάνουν το μάρκετινγκ ηλεκτρονικού εμπορίου, την εκπαίδευση κινουμένων σχεδίων, τον αστικό πολιτιστικό τουρισμό και τα μικροσενάρια, όπως μουσικά mv, μικροταινίες και μικρού μήκους θεατρικά έργα.

θρύλος: εισαγάγετε "ένα μικρό κορίτσι με καπέλο άγιου βασίλη που κρατά μια γάτα ragdoll" για να δημιουργήσετε την πηγή απόδοσης: λίστα αλφαβήτου

παράλληλα, ο tan dai τόνισε επίσης ότι πριν κυκλοφορήσει το μοντέλο βίντεο doubao, είχε ήδη «εμφανιστεί» σε πολλά μικρά δραματικά πρότζεκτ στο douyin. τον περασμένο μήνα, ο kunlun wanwei κυκλοφόρησε το skyreels, μια πλατφόρμα δημιουργίας μικρού μήκους δράματος με τεχνητή νοημοσύνη, και τον ιούλιο, η meitu xiuxiu κυκλοφόρησε το moki, ένα εργαλείο δημιουργίας σύντομων δραμάτων με τεχνητή νοημοσύνη.

«υπάρχουν πλέον εκατοντάδες εταιρείες που πωλούν μικρού μήκους στο εξωτερικό και έχουν γίνει χρήστες μεγάλων μοντέλων τεχνητής νοημοσύνης ένας κορυφαίος πάροχος υπηρεσιών εργαλείων τεχνητής νοημοσύνης είπε επίσης ότι για μεγάλους κατασκευαστές μοντέλων όπως η byte, η τεχνητή νοημοσύνη χρησιμοποιείται για τη μείωση του υψηλού κόστους παραγωγής ταινιών και τηλεόρασης». με την ευλογία της τεχνητής νοημοσύνης, τα σύντομα παιχνίδια και τα mv θα γίνουν προϊόντα περιεχομένου παρόμοιο με τα διαδικτυακά άρθρα και τα σύντομα βίντεο με μεγαλύτερη συμμετοχή χρηστών.

στην πραγματικότητα, όταν ο sora εξερράγη, το αν θα μπορούσε να λανσάρει ένα μεγάλο μοντέλο βίντεο έγινε το «νέο πρότυπο» για τη μέτρηση εάν η τεχνολογία των μεγάλων κατασκευαστών μοντέλων έχει προχωρήσει το 2024.

σε αυτήν την επιδίωξη του sora, ο byte «δεν βιάζεται» καθυστέρησε μέχρι τα τέλη σεπτεμβρίου να «κρατήσει χώρο» για το μοντέλο βίντεο όταν αναβαθμίστηκε το doubao model pro.

όταν η alphabet άνοιξε το jimeng ai, παρατηρήθηκε ότι μετά την εφαρμογή του μοντέλου βίντεο beanbao, οι χρήστες c-end μπορούν να δοκιμάσουν τη δημιουργία βίντεο στο jimeng ai.

ο μέγιστος χρόνος δημιουργίας των 12 δευτερολέπτων είναι "δίκαιος" και το εφέ γενιάς του qi keling "δεν είναι εκπληκτικό, αλλά έχει καθυστερήσει μερικούς μήνες και δεν έχει ξεφύγει από το τεχνικό κενό από το πρώτο μεγάλο μοντέλο βίντεο as." η πρώτη παρτίδα εσωτερικών δοκιμών ο zhang yang, επαγγελματίας τεχνητής νοημοσύνης του μοντέλου βίντεο doubao, είπε στην alphabet ότι αν και τα εγχώρια μοντέλα βίντεο ενημερώνονται εντατικά,η σιγουριά της καθυστερημένης άφιξης του byte μπορεί να οφείλεται στο γεγονός ότι τα αποτελέσματα της προηγούμενης γενιάς βίντεο με τεχνητή νοημοσύνη δεν έχουν «καταπλήξει» τους χρήστες.

ενώ τα εγχώρια μοντέλα κυνηγούν το sora, το openai έχει ήδη επιδείξει ένα νέο μονοπάτι ενισχυτικής μάθησης για βασικά μοντέλα μεγάλης κλίμακας μέσω της κυκλοφορίας του gpt-o1 μπορεί να εισαγάγει μια νέα εποχή με αποτίμηση που ξεπερνά το ένα τρισεκατομμύριο κατασκευαστές, θα υπάρξουν επίσης νέα σημεία αντιστοίχισης.

το jimeng ai που κυκλοφόρησε προηγουμένως από την jianying υποστηρίζει μόνο 3 δευτερόλεπτα διάρκειας βίντεο μετά τη φόρτωση του μοντέλου μεγάλης σακούλας φασολιών, το jimeng ai μπορεί να δημιουργήσει βίντεο 3-12 δευτερολέπτων.

αντίθετα, η keling έκδοση 1.0 μπορεί να ζήσει μόνο 5 δευτερόλεπτα δημιουργίας βίντεο χωρίς συνδρομή, ενώ το jimeng ai της byte υποστηρίζει τις δωρεάν δοκιμές των χρηστών εκδίδοντας 66 πόντους με τη σύνδεση κάθε μέρα.

ωστόσο, σε αντίθεση με το μοντέλο doubao, το οποίο έχει αρχίσει να προκαλεί «μηδενική αγορά γουάν μεγάλων μοντέλων» με τιμή χαμηλότερη από το 98% της βιομηχανίας, προκαλώντας έντονες συζητήσεις, το μοντέλο doubao δεν φαίνεται να συνάδει με την παράδοση της byte. «κάνω μεγάλα πράγματα ήσυχα».

εισαγάγετε τη λέξη-κλειδί "ένα μικρό κορίτσι που κρατά μια γάτα ragdoll στην εσωτερική έκδοση beta πριν από την κυκλοφορία του μοντέλου βίντεο doubao, για πρώτη φορά, η τεχνητή νοημοσύνη φαίνεται να κατανοεί τη γάτα ragdoll ως κούκλα και το βίντεο που δημιουργείται". είναι μια ψεύτικη γάτα στην αγκαλιά της, τα πρόσωπα στο βίντεο είναι επίσης ελαφρώς άκαμπτα.

αφού δημιουργήθηκε ξανά στις 25 σεπτεμβρίου, η γάτα ragdoll μετατράπηκε ξανά σε γάτα κήπου μόνο όταν δημιουργήθηκε για τρίτη φορά, το μεγάλο μοντέλο ai ολοκλήρωσε με ακρίβεια τις οδηγίες. ο zhang yang είπε στην alphabet ότι ως ένας από τους πρώτους επαγγελματίες τεχνητής νοημοσύνης σε εσωτερικές δοκιμές, το αποτέλεσμα της χρήσης του μεγάλου μοντέλου βίντεο doubao δεν είναι εκπληκτικό.

ωστόσο, το μεγάλο μοντέλο του doubao video μπορεί να κάνει εναλλαγή μεταξύ διαφορετικών στυλ, όπως 3d animation, 2d animation, κινέζικη ζωγραφική, ασπρόμαυρη και χοντρή βαφή σε σύγκριση με τις αναλογίες 16:9, 9:16 και 1:1, το doubao είναι προφανώς πιο κατάλληλο για διαφορετικές αναλογίες οθόνης, όπως 3:4, 2:3, 4:3, 2 και περισσότερες επιλογές αναλογίας.

κατά την άποψη του zhang yang, το doubao παρέχει περισσότερες επιλογές όσον αφορά την εμπειρία αλληλεπίδρασης με τον χρήστη. ωστόσο, παρόλο που το μεγάλο μοντέλο βίντεο beanbao μπορεί να πραγματοποιήσει την εναλλαγή πολλαπλών φακών μέσα σε μια προτροπή, "η σύνδεση της συνολικής εικόνας εξακολουθεί να είναι λίγο ακανόνιστη και οι εκφράσεις των χαρακτήρων είναι κάπως παραμορφωμένες."

ωστόσο, ο zhang yiming χάραξε χωρίς έκπληξη τον «πραγματισμό» στο dna του μοντέλου doubao video αυτή τη φορά.

μόλις κυκλοφόρησε το μεγάλο μοντέλο του doubao video, προσκλήθηκε να δοκιμάσει για την επιχειρηματική αγορά, την ίδια στιγμή, ο tan daigeng, πρόεδρος της volcano engine, είπε:η εμπορευματοποίηση έχει εξεταστεί από τότε που κυκλοφόρησε το μοντέλο παραγωγής βίντεο doubao.οι τομείς εφαρμογής περιλαμβάνουν το μάρκετινγκ ηλεκτρονικού εμπορίου, την εκπαίδευση κινουμένων σχεδίων, τον αστικό πολιτιστικό τουρισμό και τα μικροσενάρια, όπως μουσικά mv, μικροταινίες και μικρού μήκους θεατρικά έργα.

διαφορετικά από άλλες startups ai που «ψάχνουν καρφιά με σφυρί», είτε είναι bytedance είτε kuaishou, «έχει το δικό της περιεχόμενο και πλατφόρμα και τα καρφιά είναι στο χέρι, οπότε η κατασκευή μεγάλων μοντέλων βίντεο έχει φυσικά περισσότερα σενάρια εφαρμογής». ο ζανγκ γιανγκ είπε,

στις 24 ιουλίου, η επίσημη ανάρτηση του keling ai στο wechat αποκάλυψε ότι ο αριθμός των χρηστών που έχουν υποβάλει αίτηση για άδειες έχει ξεπεράσει το 1 εκατομμύριο και ένα σύστημα μελών επί πληρωμή κυκλοφόρησε την ίδια ημέρα, συμπεριλαμβανομένων τριών κατηγοριών μελών: χρυσού, πλατίνας και διαμαντιού η ετήσια τιμή συνδρομής ξεκινά από περισσότερα από 500 γιουάν. για το byte, το οποίο έχει καθυστερήσει στο παιχνίδι, μπορεί τεχνικά να είναι στο ίδιο επίπεδο με το keling, αλλά στην πορεία εμπορευματοποίησης, το keling, που έχει ήδη αρχίσει να πληρώνει για το c-side, φαίνεται να είναι και πάλι ένα βήμα μπροστά.

τον μάιο, αντιμέτωποι με το θέμα "το openai κυκλοφόρησε το gpt-4o την ημέρα πριν η google κυκλοφορήσει το i/o", η μητρική εταιρεία της google, η alphabet και ο διευθύνων σύμβουλος της google, sundar pichai, είπαν ωμά: "όταν βρισκόμαστε στο σημείο καμπής της ai, αυτό που βλέπω είναι ευκαιρίες, οπότε αν επεκτείνετε αυτό το χρονοδιάγραμμα, τότε ένα συγκεκριμένο πράγμα που συμβαίνει μια συγκεκριμένη ημέρα δεν θα έχει σημασία.

ακριβώς όπως η google, η οποία χτυπιέται συνεχώς από το openai,αντίο, που ήρθε αργά, κρατά το καρφί στο χέρι του και φαίνεται να προσπαθεί να προλάβει από πίσω.

σύμφωνα με στοιχεία της questmobile, από τον ιούλιο, ο αριθμός των μηνιαίων ενεργών χρηστών του ai app έχει ξεπεράσει τα 66,3 εκατομμύρια. μεταξύ αυτών, οι doubao, wen xiaoyan, kimi, hoshino και tongyi κατατάσσονται στις 5 πρώτες θέσεις, με μηνιαίους ενεργούς χρήστες 30,42 εκατομμύρια, 10,08 εκατομμύρια, 6,25 εκατομμύρια, 4,66 εκατομμύρια και 4,24 εκατομμύρια αντίστοιχα.

αν και το doubao app κυκλοφόρησε σημαντικά αργότερα από το tongyi qianwen της alibaba και ακόμη αργότερα από το wen xinyiyan και το kimi της baidu, οι μηνιαίοι ενεργοί χρήστες του doubao είναι ήδη μεγαλύτεροι από τον συνολικό αριθμό ενεργών χρηστών των άλλων τεσσάρων app.

επομένως, στον τομέα της δημιουργίας βίντεο ai,αντιμέτωπη με την τρέχουσα κατάσταση των υποτονικών εγχώριων τεχνολογικών καινοτομιών, η byte φαίνεται επίσης να έχει την εμπιστοσύνη να φτάσει αργά.

είτε είναι ο keling, ο οποίος έφυγε πρώτος από τη βιομηχανία, είτε το πολυαναμενόμενο μοντέλο βίντεο byte beanbag, κανείς δεν φαίνεται να μπορεί να φτάσει τη sora μεταξύ των κατασκευαστών που παρουσίασαν μοντέλα βίντεο τον ιούλιο και τον σεπτέμβριο.

από το «mountains and seas’ strange mirror: cutting the waves» του kuaishou μέχρι το «sanxingdui: future apocalypse» του byte, η χρήση τεχνητής νοημοσύνης για τη δημιουργία μικρού μήκους θεατρικών έργων έχει γίνει ο «λίθος αλχημείας» για εφέ δημιουργίας βίντεο ai κορυφαίων κατασκευαστών.

προφανώς, σε σύγκριση με τα παραδοσιακά μικρού μήκους δράματα που απαιτούν πραγματικούς χαρακτήρες για να εμφανιστούν και να αλληλεπιδράσουν, τα σύντομα δράματα μυθολογίας, επιστημονικής φαντασίας και άλλων τύπων είναι πιο κατάλληλα για μεγάλα μοντέλα ai στην τρέχουσα φάση.

«το τρέχον επίπεδο παραγωγής τεχνητής νοημοσύνης είναι ασταθές και είναι δύσκολο να γίνει διάκριση μεταξύ πραγματικών και ψεύτικων εφέ, όπως εκρήξεις βομβών και πυροτεχνήματα σε μεγάλες σκηνές, αλλά εξακολουθεί να απαιτεί το προσωπικό εντοπισμού σφαλμάτων για να κάνει προσαρμογές για άλλες 1-2 ώρες», δήλωσε ο zhang yang. σύμφωνα με τη λίστα της alphabet, το τρέχον μεγάλο μοντέλο ai που δημιουργεί βίντεο, πιο λεπτομερείς εκφράσεις και ενέργειες χαρακτήρων, εξακολουθεί να έχει τα προβλήματα αφύσικων εκφράσεων, μικρής κλίμακας κινήσεων και μηχανικών εκφράσεων.

η zhu jiang, η πλατφόρμα μικρού μήκους δράματος ai reel.ai, είπε επίσης ωμά στη συνέντευξη: «τα μικρού μήκους δράματα χωρίς κινούμενα σχέδια αναμένεται να φτάσουν σε αναλώσιμα επίπεδα το δεύτερο εξάμηνο του τρέχοντος έτους.

ο robin li είπε κάποτε, "δεν έχει σημασία αν είσαι 12 μήνες μπροστά ή 18 μήνες πίσω. κάθε εταιρεία βρίσκεται σε μια απόλυτα ανταγωνιστική αγορά. ό,τι και να κάνεις, θα υπάρχουν πολλοί ανταγωνιστές."

με την εφαρμογή douyin με βάση χρηστών 100 εκατομμυρίων, δεν είναι δύσκολο να εξηγηθεί η ευκολία του byte. ακόμη και η tencent, η οποία δεν έχει κυκλοφορήσει ακόμη ένα μοντέλο μεγάλου βίντεο, έχει το wechat, το μεγαλύτερο κοινωνικό app, και φαίνεται να έχει περισσότερες επιλογές για τους zhang yiming και ma huateng, που «κρατούν καρφιά».

"ανεξάρτητα από το μοντέλο βίντεο της εταιρείας που χρησιμοποιείτε τώρα, όλα έχουν να κάνουν με το σχέδιο καρτών."

"περίπου 1 στις 10 φορές μπορεί πραγματικά να πληροί τα εμπορικά πρότυπα, αλλά η διαδικασία εντοπισμού σφαλμάτων 10 φορές μπορεί να μην είναι τόσο αποτελεσματική όσο η χειρωνακτική εργασία, αφού δοκίμασε πολλά μεγάλα μοντέλα βίντεο στην αγορά, η shan shan, επαγγελματίας ταινιών και τηλεόρασης." , είπε ωμά, το τρέχον μεγάλο μοντέλο δεν ανταποκρίνεται στις προσδοκίες του χρήστη όσον αφορά το αποτέλεσμα παραγωγής.

"η είσοδος δημιουργεί ένα βίντεο μιας γάτας ragdoll. το αποτέλεσμα είναι είτε μια γάτα-παιχνίδι είτε μια γάτα κήπου. όταν οι χρήστες δεν μπορούν να λάβουν σταθερά και απροσδόκητα αποτελέσματα μετά από 2-3 δοκιμές, θα είναι δύσκολο να ολοκληρωθεί πραγματικά η διατήρηση του χρήστη .στα μάτια του shan shan, αυτό μπορεί επίσης να εξηγήσει γιατί το sora δεν έχει ακόμη κυκλοφορήσει για δημόσιες δοκιμές περισσότερο από μισό χρόνο μετά την κυκλοφορία του.

στην αρχή του έτους, υπήρχαν αναφορές ότι ο διευθύνων σύμβουλος του openai, altman, θα επένδυε 7 τρισεκατομμύρια δολάρια σε συνεργασία με την tsmc για την κατασκευή ενός εργοστασίου γκοφρετών, με σκοπό να παρακάμψει τα τσιπ της nvidia που αναπτύχθηκαν από μόνη της "sore video model" "ο σκοπός της ανάπτυξης ενός προσαρμοσμένου τσιπ επεξεργασίας σε επίπεδο angstrom a16 είναι να βελτιώσει τις δυνατότητες παραγωγής βίντεο.

η πυκνότητα αυτού του τσιπ a16 αυξάνεται κατά 1,10 φορές κάτω από την ίδια τάση λειτουργίας, η ταχύτητα αυξάνεται κατά 8%-10% στην ίδια ταχύτητα, η κατανάλωση ενέργειας μειώνεται κατά 15%-20%.η χρήση "χαμηλότερης τιμής και κατανάλωσης ενέργειας για την προώθηση της ταχύτερης δημιουργίας βίντεο ai" είναι προφανώς ένας σημαντικός λόγος για τον οποίο το openai ανέβαλε τη δημόσια beta του sora.

προκειμένου να επιτευχθούν καλύτερα εφέ δημιουργίας βίντεο τεχνητής νοημοσύνης, το μεγαλύτερο κόστος υπολογιστικής ισχύος, οι χαμηλότερες τιμές και η κατανάλωση ενέργειας έχουν γίνει επίσης βασικοί παράγοντες για το εάν τα μεγάλα εγχώρια μοντέλα βίντεο μπορούν τελικά να «εξαντληθούν».

πρόσφατα, αποκαλύφθηκε ότι η byte σχεδιάζει να συνεργαστεί με την tsmc για τσιπ τεχνητής νοημοσύνης, αν και η byte αργότερα απάντησε ότι η αναφορά ήταν αναληθής και δήλωσε ότι η εξερεύνηση στον τομέα των τσιπ επικεντρώνεται περισσότερο στην επιχειρηματική βελτιστοποίηση των συστάσεων και της διαφήμισης.ωστόσο, εάν εισαγάγετε λέξεις-κλειδιά όπως "τσιπ" στον ιστότοπο πρόσληψης byte, υπάρχουν ήδη περισσότερες από 200 σχετικές θέσεις, συμπεριλαμβανομένης της αρχιτεκτονικής τσιπ ai και των μηχανικών δοκιμών chip sil.

αλλά για τον zhang yiming, ακόμη και για εγχώριους κατασκευαστές μεγάλων μοντέλων, οι προκλήσεις που αντιμετωπίζουν μπορεί να είναι πιο δύσκολες.

στις 19 σεπτεμβρίου, στο συνέδριο yunqi του 2024, ο ιδρυτής του dark side of the moon yang zhilin είπε ότι η κύρια σημασία της εκτόξευσης του gpt-o1 είναι να αυξηθεί το ανώτερο όριο της τεχνητής νοημοσύνης. «η αύξηση της παραγωγικότητας κατά 10% ή 10 φορές το αεπ, το πιο σημαντικό ερώτημα εδώ είναι εάν μπορεί να κλιμακωθεί περαιτέρω μέσω της ενισχυτικής μάθησης».

στην εποχή του gpt-o1, η άμεση συνομιλία των doubao, tongyi qianwen, wenxin και kimi έχει ξεφύγει από τη σκέψη για 10 δευτερόλεπτα ή 20 δευτερόλεπτα για να δημιουργήσει απαντήσεις και να μπορεί να καλέσει διάφορα εργαλεία για να εκτελέσει εργασίες στο λεπτό επίπεδο ή ακόμα και επίπεδο ημέρας, η φόρμα του προϊόντος άμεσης συνομιλίας με την τεχνητή νοημοσύνη με την οποία είναι ήδη εξοικειωμένοι οι εγχώριοι χρήστες θα οδηγήσει σε μια τεράστια αλλαγή "αυτό φαίνεται να είναι το επόμενο νέο πρόγραμμα για το dark". side of the moon για να καλύψει τη διαφορά με το openai.

όταν έρχεται ξανά μια νέα στιγμή ανταγωνισμού, τα μεγάλα βασικά μοντέλα των εγχώριων μεγάλων κατασκευαστών μοντέλων δεν έχουν δει «νέες πιτσιλιές» εκείνη την εποχή, αλλά για τον zhang yiming και άλλους, έρχονται και πάλι αντιμέτωποι με μια επιλογή.

πρέπει να συνεχίσουμε να επενδύουμε πολλά «άνθρωποι, χρήματα και υπολογιστική ισχύς» σε λειτουργικά σενάρια όπως το vincent video για επανάληψη ή πρέπει να μάθουμε από το openai και να εισαγάγουμε μια βελτιωμένη διαδρομή επανάληψης; για το byte, που δεν στερείται χρημάτων, φυσικά μπορεί να «έχει και τα δύο».

και όταν ο χώρος της φαντασίας που φέρνει η "ενισχυτική μάθηση" είναι αρκετά μεγάλος και αρκετά δελεαστικός, εκτοξεύεται ένα νέο όπλο εκκίνησης.

(ο zhang yang και ο shan shan είναι ψευδώνυμα στο άρθρο)

νέα

ο zhang yiming έφτασε αργά, αλλά ακόμα αργότερα

εισαγωγή

τα στοιχεία επικοινωνίας μου