"king of beanbao": η bytedance κυκλοφορεί δύο μεγάλα μοντέλα παραγωγής βίντεο σε μία ημέρα

the "king of beanbao": η bytedance κυκλοφορεί δύο μεγάλα μοντέλα παραγωγής βίντεο σε μια μέρα

2024-09-24

η bytedance ανακοίνωσε επίσημα την είσοδό της στη δημιουργία βίντεο ai. στις 24 σεπτεμβρίου, η volcano engine, θυγατρική της bytedance, πραγματοποίησε μια περιοδεία καινοτομίας τεχνητής νοημοσύνης στο shenzhen, και κυκλοφόρησε δύο μεγάλα μοντέλα παραγωγής βίντεο doubao-pixeldance και παραγωγής βίντεο doubao-seaweed και ξεκίνησε μια δοκιμή πρόσκλησης για την επιχειρηματική αγορά.

η γενιά του βίντεο που παρουσιάστηκε στην εκδήλωση ήταν εκπληκτική. είτε πρόκειται για δυνατότητες σημασιολογικής κατανόησης, σύνθετες διαδραστικές εικόνες πολλαπλών κινήσεων θέματος ή συνέπεια περιεχομένου στην εναλλαγή πολλών φακών, τα μεγάλα μοντέλα παραγωγής βίντεο doubao έχουν φτάσει στο προηγμένο επίπεδο της βιομηχανίας. ο tan dai, πρόεδρος της volcano engine, δήλωσε: "υπάρχουν πολλές δυσκολίες στη δημιουργία βίντεο που πρέπει να ξεπεραστούν. τα δύο μοντέλα doubao θα συνεχίσουν να εξελίσσονται, να εξερευνούν περισσότερες δυνατότητες για την επίλυση βασικών προβλημάτων και να επιταχύνουν την επέκταση του δημιουργικού χώρου και εφαρμογή βίντεο ai."

εικόνα: ο πρόεδρος της volcano engine tan dai κυκλοφόρησε το μοντέλο παραγωγής βίντεο με σακούλα φασολιών

καινοτόμος τεχνολογία για την επίλυση του προβλήματος της αλληλεπίδρασης και της συνέπειας πολλών πρακτόρων

τα περισσότερα από τα προηγούμενα μοντέλα παραγωγής βίντεο μπορούσαν να ολοκληρώσουν μόνο απλές οδηγίες, ενώ το μοντέλο παραγωγής βίντεο doubao μπορεί να επιτύχει φυσικές και συνεκτικές ενέργειες πολλαπλών λήψεων και σύνθετες αλληλεπιδράσεις πολλών θεμάτων. ορισμένοι δημιουργοί ανακάλυψαν κατά την πρώιμη πρόσβαση στο μοντέλο παραγωγής βίντεο doubao ότι τα βίντεο που δημιουργούνται μπορούν όχι μόνο να ακολουθούν περίπλοκες οδηγίες και να επιτρέπουν σε διαφορετικούς χαρακτήρες να ολοκληρώσουν την αλληλεπίδραση πολλαπλών οδηγιών δράσης, αλλά διατηρούνται επίσης η εμφάνιση των χαρακτήρων, οι λεπτομέρειες των ρούχων και ακόμη και το κάλυμμα κεφαλής. κάτω από διαφορετικές κινήσεις συνεπές, κοντά στο πραγματικό εφέ βολής.

σύμφωνα με το volcano engine, το μοντέλο δημιουργίας βίντεο doubao βασίζεται στην αρχιτεκτονική dit μέσω της αποδοτικής υπολογιστικής μονάδας σύντηξης dit, το βίντεο μπορεί ελεύθερα να εναλλάσσεται μεταξύ μεγάλων δυναμικών και κινούμενων φακών και διαθέτει δυνατότητες γλώσσας πολλαπλών φακών, όπως ζουμ, surround. , μετατόπιση, μεγέθυνση και στόχευση παρακολούθησης. η πρόσφατα σχεδιασμένη μέθοδος εκπαίδευσης μοντέλου διάχυσης έχει ξεπεράσει το πρόβλημα συνέπειας της εναλλαγής πολλαπλών λήψεων και μπορεί να διατηρήσει τη συνοχή του θέματος, του στυλ και της ατμόσφαιρας ταυτόχρονα κατά την εναλλαγή λήψεων αυτή είναι επίσης μια μοναδική τεχνολογική καινοτομία του βίντεο doubao μοντέλο γενιάς.

μετά από γυάλισμα και συνεχή επανάληψη επιχειρηματικών σεναρίων όπως το cutting και το dream ai, το μοντέλο παραγωγής βίντεο doubao έχει διάταξη φωτός και σκιάς και συντονισμό χρωμάτων σε επαγγελματικό επίπεδο και η οπτική εμφάνιση είναι εξαιρετικά όμορφη και ρεαλιστική. η βαθιά βελτιστοποιημένη δομή transformer βελτιώνει σημαντικά την ικανότητα γενίκευσης της δημιουργίας βίντεο doubao, υποστηρίζει 3d animation, 2d animation, κινέζικη ζωγραφική, ασπρόμαυρη, χοντρή βαφή και άλλα στυλ και είναι κατάλληλη για ταινίες, τηλεόραση, υπολογιστές, κινητά τηλέφωνα και άλλες συσκευές το proportion δεν είναι μόνο κατάλληλο για εταιρικά σενάρια όπως το μάρκετινγκ ηλεκτρονικού εμπορίου, η εκπαίδευση κινούμενων σχεδίων, ο αστικός πολιτιστικός τουρισμός και τα μικροσενάρια, αλλά μπορεί επίσης να προσφέρει δημιουργική βοήθεια σε επαγγελματίες δημιουργούς και καλλιτέχνες.

επί του παρόντος, το νέο μοντέλο παραγωγής βίντεο bean bag δοκιμάζεται σε μικρή κλίμακα στην εσωτερική beta έκδοση του jimeng ai και θα ανοίξει σταδιακά σε όλους τους χρήστες στο μέλλον. ο chen xinran, ηγέτης της αγοράς των jianying και jimeng ai, πιστεύει ότι η τεχνητή νοημοσύνη μπορεί να αλληλεπιδράσει βαθιά με τους δημιουργούς και να δημιουργήσει μαζί, φέρνοντας πολλές εκπλήξεις και εμπνεύσεις η jimeng ai ελπίζει να γίνει ο πιο στενός και σοφός δημιουργικός συνεργάτης των χρηστών.

το doubao big model λανσάρει το εξαιρετικά υψηλό πρότυπο ταυτόχρονης κυκλοφορίας της βιομηχανίας

σε αυτήν την εκδήλωση, το doubao big model όχι μόνο πρόσθεσε ένα νέο μοντέλο γενιάς βίντεο, αλλά κυκλοφόρησε επίσης ένα μοντέλο μουσικής και μοντέλο ταυτόχρονης διερμηνείας doubao, το οποίο έχει καλύψει πλήρως όλους τους τρόπους λειτουργίας όπως γλώσσα, φωνή, εικόνα, βίντεο κ.λπ., και πληροί πλήρως τις ανάγκες των διαφόρων βιομηχανιών και τομέων.

ενώ οι δυνατότητες του προϊόντος βελτιώνονται ολοένα και περισσότερο, η χρήση μοντέλων μεγάλων σακουλών φασολιών αυξάνεται επίσης με ταχείς ρυθμούς. σύμφωνα με το volcano engine, από τον σεπτέμβριο, η μέση ημερήσια χρήση διακριτικών του μοντέλου της γλώσσας doubao έχει ξεπεράσει τα 1,3 τρισεκατομμύρια, μια δεκαπλάσια αύξηση σε σύγκριση με την πρώτη έκδοση του μαΐου εκατομμύρια εικόνες ανά ημέρα αντίστοιχα.

προηγουμένως, τα μεγάλα μοντέλα doubao ανακοίνωσαν τιμές χαμηλότερες από το 99% του κλάδου, οδηγώντας στην τάση μείωσης των τιμών για τα εγχώρια μεγάλα μοντέλα. ο tan dai πιστεύει ότι η τιμή των μεγάλων μοντέλων δεν αποτελεί πλέον εμπόδιο στην καινοτομία με την εφαρμογή μεγάλης κλίμακας από τις επιχειρήσεις, τα μεγάλα μοντέλα που υποστηρίζουν μεγαλύτερη ταυτόχρονη κίνηση γίνονται βασικός παράγοντας στην ανάπτυξη του κλάδου.

σύμφωνα με τον tan dai, πολλά μεγάλα μοντέλα στον κλάδο υποστηρίζουν επί του παρόντος μόνο έως 300k ή ακόμα και 100k tpm (tokens ανά λεπτό), κάτι που είναι δύσκολο να μεταφέρει την κίνηση σε περιβάλλοντα παραγωγής επιχειρήσεων. για παράδειγμα, στο σενάριο μετάφρασης εγγράφων ενός επιστημονικού ερευνητικού ιδρύματος, η μέγιστη tpm είναι 360k, η μέγιστη tpm ενός συγκεκριμένου έξυπνου πιλοτηρίου αυτοκινήτου είναι 420k και η μέγιστη tpm μιας εταιρείας εκπαίδευσης ai φτάνει τα 630k. για αυτόν τον λόγο, το μεγάλο μοντέλο beanbao υποστηρίζει ένα αρχικό tpm 800k από προεπιλογή, το οποίο είναι πολύ υψηλότερο από τον μέσο όρο του κλάδου οι πελάτες μπορούν επίσης να επεκτείνουν ευέλικτα τη χωρητικότητα ανάλογα με τις ανάγκες.

"με τις προσπάθειές μας, το κόστος εφαρμογής των μεγάλων μοντέλων έχει λυθεί καλά. τα μεγάλα μοντέλα πρέπει να μετακινηθούν από την τιμή όγκου στην απόδοση όγκου, με καλύτερες δυνατότητες και υπηρεσίες μοντέλων."

yidan xiaofeng

αναφορά/σχόλια

νέα

the "king of beanbao": η bytedance κυκλοφορεί δύο μεγάλα μοντέλα παραγωγής βίντεο σε μια μέρα

εισαγωγή

τα στοιχεία επικοινωνίας μου