η byte χρησιμοποιεί τεχνητή νοημοσύνη για να αναζωογονήσει την παλιά της επιχείρηση: εισέρχεται σε μοντέλα παραγωγής βίντεο μεγάλης κλίμακας, κοντά στα αποτελέσματα της πραγματικής ζωής

η byte χρησιμοποιεί τεχνητή νοημοσύνη για να αναζωογονήσει την παλιά της επιχείρηση: εισέρχεται σε μοντέλα παραγωγής βίντεο μεγάλης κλίμακας, κοντά σε εφέ της πραγματικής ζωής

2024-09-27

πηγή αυτού του άρθρου: times weekly συγγραφέας: he shanshan

ο τομέας της παραγωγής βίντεο μεγάλων μοντέλων καλωσορίζει σημαντικούς παίκτες.

στις 24 σεπτεμβρίου, η volcano engine, θυγατρική της bytedance, πραγματοποίησε μια περιοδεία καινοτομίας τεχνητής νοημοσύνης στο shenzhen, κυκλοφόρησε δύο μεγάλα μοντέλα παραγωγής βίντεο beanbag-pixeldance και beanbag video-seaweed, και άνοιξε επίσης μια δοκιμή πρόσκλησης για την επιχειρηματική αγορά.

για μεγάλα μοντέλα παραγωγής βίντεο, η διάρκεια του παραγόμενου βίντεο είναι πολύ σημαντική. επί του παρόντος, η διάρκεια δημιουργίας βίντεο pixeldanc είναι 5 δευτερόλεπτα ή 10 δευτερόλεπτα και το seaweed είναι 5 δευτερόλεπτα. ο tan dai, πρόεδρος της volcano engine, δήλωσε στο time weekly και σε άλλα μέσα ενημέρωσης: "υπάρχουν πολλές δυσκολίες στη δημιουργία βίντεο που πρέπει να ξεπεραστούν. τα πλεονεκτήματα του volcano engine περιλαμβάνουν την ικανότητα να ακολουθείτε οδηγίες, την κίνηση της κάμερας (συνοχή του θέματος κάτω από πολλαπλούς φακούς) , κ.λπ., πίσω από τις οποίες υπάρχουν τεχνολογικές ανακαλύψεις και δυνατότητες πλήρους στοίβας. επιπλέον, η κατανόηση των βίντεο από τους douyin και jianying.

ο tan dai πιστεύει ότι τα μεγάλα μοντέλα παραγωγής βίντεο δεν πρέπει να συζητούν μόνο τη διάρκεια, αλλά και να εξετάζουν τα σενάρια εφαρμογών. "

αξίζει να σημειωθεί ότι το νέο μοντέλο παραγωγής βίντεο bean bag δοκιμάζεται σε μικρή κλίμακα από την jimeng ai και θα ανοίξει σταδιακά σε όλους τους χρήστες στο μέλλον.

τον φεβρουάριο του τρέχοντος έτους, ο zhang nan, ο πρώην διευθύνων σύμβουλος του ομίλου douyin, ανακοίνωσε ξαφνικά ότι θα στραφεί στο μοντάζ ταινιών και θα προωθήσει την εφαρμογή της τεχνητής νοημοσύνης στο μοντάζ ταινιών. μόλις μία εβδομάδα μετά την ανακοίνωση ότι ήταν υπεύθυνος για την επεξεργασία, στις 16 φεβρουαρίου, το openai κυκλοφόρησε το sora, το οποίο μπορεί να δημιουργήσει βίντεο διάρκειας 1 λεπτού, κάνοντας τη λειτουργία βίντεο του vincent ξανά δημοφιλή σε όλο τον κόσμο. την ίδια στιγμή, ο zhang nan, ως υπεύθυνος της επιχείρησης μοντάζ, ανακοίνωσε την κυκλοφορία του ji meng στο wechat moments, επίσης, η πρώτη σημαντική ενημέρωση προϊόντος του zhang nan μετά τη μεταγραφή του.

στην περιοδεία ai innovation tour, ο chen xinran, επικεφαλής μάρκετινγκ ai για τις jianying και jimeng, παρουσίασε την πιο πρόσφατη κατάσταση της "ai-ization" των δύο εφαρμογών. είπε ότι στο παρελθόν, η παραγωγή περιεχομένου παρόμοιας ποιότητας απαιτούσε μια ομάδα 5-10 ατόμων, συμπεριλαμβανομένης της δημιουργίας σειρών ιστορίας, της στίλβωσης ειδικών εφέ, της συσκευασίας και της επεξεργασίας κ.λπ. η διαδικασία συνεργασίας ήταν περίπλοκη, ο κύκλος παραγωγής διήρκεσε 1-2 μήνες , και απαιτήθηκε μεγάλο χρηματικό ποσό και επένδυση πόρων. αλλά με τη βοήθεια του ai, οι περισσότεροι δημιουργοί μπορούν να ολοκληρώσουν τη δημιουργία μόνοι τους και ο χρόνος παραγωγής έχει μειωθεί σε 1-2 εβδομάδες.

ο tan dai ανέφερε επίσης στην ομιλία του: "υπάρχουν πολλές δυσκολίες στη δημιουργία βίντεο που πρέπει να ξεπεραστούν. τα δύο μοντέλα doubao θα συνεχίσουν να εξελίσσονται, να εξερευνούν περισσότερες δυνατότητες για την επίλυση βασικών προβλημάτων και να επιταχύνουν την επέκταση του δημιουργικού χώρου και την εφαρμογή του βίντεο ai."

σε κάθε περίπτωση, η γέννηση του μεγάλου μοντέλου παραγωγής βίντεο doubao και η χρήση του στα jimeng και jianying σημαίνει ότι η bytedance είναι ένα βήμα πιο κοντά στη χρήση της τεχνητής νοημοσύνης για τη βελτίωση της «παλιάς επιχείρησης» της στο βίντεο.

πηγή: φωτογραφία που τραβήχτηκε από τον δημοσιογράφο του times weekly επί τόπου

μπορεί να αλλάζει φακούς ελεύθερα

σύμφωνα με αναφορές από τον ιστότοπο volcano engine, η χρήση μοντέλων μεγάλων σακουλών φασολιών αυξάνεται ραγδαία.

από τον σεπτέμβριο, η μέση ημερήσια χρήση των διακριτικών μοντέλων της γλώσσας doubao έχει ξεπεράσει τα 1,3 τρισεκατομμύρια, μια δεκαπλάσια αύξηση από την κυκλοφορία τον μάιο.

με τον τεράστιο αριθμό χρηστών, το μοντέλο bean bag έφερε για άλλη μια φορά νέες αλλαγές. όχι μόνο προστέθηκε ένα νέο μοντέλο γενιάς βίντεο, αλλά κυκλοφόρησε και ένα μουσικό μοντέλο bean bag και ένα μοντέλο ταυτόχρονης διερμηνείας, που έχουν καλύψει πλήρως όλους τους τρόπους λειτουργίας, όπως γλώσσα, ομιλία, εικόνες και βίντεο.

προηγουμένως, τα περισσότερα μοντέλα παραγωγής βίντεο μπορούσαν να ολοκληρώσουν μόνο απλές οδηγίες το μοντέλο δημιουργίας βίντεο doubao μπορεί να επιτύχει φυσικές και συνεκτικές ενέργειες πολλαπλών λήψεων και σύνθετες αλληλεπιδράσεις με πολλά θέματα - μπορεί όχι μόνο να ακολουθεί πολύπλοκες οδηγίες, αλλά και να επιτρέπει σε διαφορετικούς χαρακτήρες να ολοκληρώσουν την αλληλεπίδραση. πολλαπλών οδηγιών δράσης η εμφάνιση, οι λεπτομέρειες των ρούχων και ακόμη και το κάλυμμα κεφαλής παραμένουν σταθερά κάτω από διαφορετικές κινήσεις της κάμερας, κάτι που είναι κοντά στο εφέ πραγματικών λήψεων.

το μοντέλο παραγωγής βίντεο doubao βασίζεται στην αρχιτεκτονική dit μέσω της αποδοτικής υπολογιστικής μονάδας σύντηξης dit, το βίντεο μπορεί να εναλλάσσεται ελεύθερα μεταξύ μεγάλων δυναμικών και κινούμενων φακών και διαθέτει δυνατότητες γλώσσας πολλαπλών φακών, όπως ζουμ, περιβάλλων, μετατόπιση, ζουμ. και στόχος παρακολούθησης. "αυτό σημαίνει ότι το βίντεο που δημιουργείται από το doubao ξεπερνά το πρόβλημα της συνέπειας στην εναλλαγή πολλών σκηνών και μπορεί να διατηρήσει τη συνέπεια του θέματος, του στυλ και της ατμόσφαιρας ταυτόχρονα κατά την εναλλαγή λήψεων. αυτή είναι επίσης μια μοναδική τεχνολογική καινοτομία του μοντέλο γενιάς βίντεο doubao." είπε ο tan dai.

όσον αφορά τη μελλοντική κατεύθυνση του μοντέλου, ο tan dai είπε ότι η volcano engine δίνει μεγαλύτερη προσοχή στην καλύτερη εφαρμογή και την επιτάχυνση της καινοτομίας με βάση τα υπάρχοντα μοντέλα για μεγάλα μοντέλα είναι ο χρήστης μετά την επώαση πραγματική και καλή ανατροφοδότηση που έχει βιώσει και έχει ορισμένο όγκο, αντί για σχόλια από το εργαστήριο σημαντικό κριτήριο αξιολόγησης».

προηγουμένως, το doubao big model όριζε μια συμβολική τιμή που ήταν χαμηλότερη από το 99% της βιομηχανίας και ήταν η πρώτη ηφαιστειακή μηχανή που ξεκίνησε ένα κύμα περικοπών τιμών. προς το παρόν, η τιμολόγηση για τη χρήση των μεγάλων μοντέλων της doubao video δεν έχει ακόμη ανακοινωθεί. ο tan daidai είπε στο times weekly και σε άλλα μέσα ενημέρωσης ότι τα σενάρια εφαρμογής των μοντέλων βίντεο και των μοντέλων γλώσσας είναι διαφορετικά και η λογική τιμολόγησης είναι επίσης διαφορετική το τέλος εξαρτάται από το πόσο βελτιωμένη είναι η απόδοση επένδυσης (roi) σε σύγκριση με την προηγούμενη.

πηγή: επίσημος ιστότοπος jimeng

εξερευνήστε εγγενή προϊόντα ai

προηγουμένως, οι απλοί χρήστες του jimeng μπορούσαν να δημιουργήσουν σύντομα βίντεο με τεχνητή νοημοσύνη 3 δευτερολέπτων, ενώ οι χρήστες vip μπορούσαν να επεκτείνουν το χρόνο κατά 3 δευτερόλεπτα.

ξεκινώντας από τον μάρτιο του τρέχοντος έτους, το cutting έχει ενημερώσει εντατικά τις λειτουργίες ai, όπως έξυπνους υπότιτλους, μετάφραση βίντεο και άλλες λειτουργίες. έχει επίσης ανοίξει με το douyin για να υποστηρίζει επισκεψιμότητα και ανταμοιβές σε μετρητά για σύντομα βίντεο που χρησιμοποιούν τη λειτουργία κοπής τεχνητής νοημοσύνης. επί του παρόντος, η τιμή συνδρομής vip του jianying είναι 218 γιουάν για ένα έτος, με μέση μηνιαία συνδρομή 18,17 γιουάν, ενώ η μηνιαία συνδρομή vip του dream είναι 69 γιουάν.

στην περιοδεία ai innovation tour, ο chen xinran ανέφερε ότι «η τεχνολογία που σχετίζεται με μεγάλα μοντέλα φασολιών έχει εφαρμοστεί σε cut-outs, ονειρεμένη τεχνητή νοημοσύνη και ξύπνιες εικόνες» και εισήγαγε νέες λειτουργίες στο πλαίσιο της εφαρμογής της τεχνολογίας ai.

για παράδειγμα, στην εφαρμογή ψηφιακών κλώνων, η λειτουργία ψηφιακής κλωνοποίησης ανθρώπινης φωνής μπορεί να προσαρμοστεί διαδικτυακά με βάση την τεχνολογία κλωνοποίησης φωνής. οι ψηφιακοί παραγωγοί χρειάζεται μόνο να ηχογραφήσουν ή να ανεβάσουν ένα μετωπικό βίντεο υψηλής ευκρίνειας 3 λεπτών και η κλωνοποίηση τόνου απαιτεί μόνο 5 δευτερόλεπτα φωνητικής εισαγωγής για να δημιουργήσει μια φυσική, ομαλή, μη αντιφατική φωνή και μπορεί επίσης να μεταφραστεί σε διάφορες γλώσσες. "ανησυχούμε πολύ για θέματα απορρήτου και ασφάλειας. απαιτούμε προσωπική επιβεβαίωση από τους χρήστες όσον αφορά το σχεδιασμό και την τεχνολογία των προϊόντων. θα δώσουμε επίσης προσοχή στους νέους κανονισμούς του κλάδου για να βελτιώσουμε την ασφάλεια και την αξιοπιστία των υπηρεσιών."

επιπλέον, υπάρχουν επίσης εργαλεία δημιουργίας «μάρκετινγκ περιεχομένου» για εμπόρους ηλεκτρονικού εμπορίου. στο παρελθόν, οι έμποροι μπορεί να ξόδευαν αρκετές ώρες περιηγώντας το douyin και το tiktok για να αναλύσουν τις δημοφιλείς ρουτίνες βίντεο, να αποσυναρμολογήσουν τις ρουτίνες και να αντιγράψουν το αντίγραφο και, επίσης, αφιέρωσαν αρκετές ώρες επεξεργασίας. τώρα χρειάζονται μόνο λίγα λεπτά για να συμπληρώσουν το όνομα του προϊόντος μεταφορτώστε το προσθέτοντας υλικά ή επικολλώντας συνδέσμους σελίδας προϊόντων, μπορείτε να δημιουργήσετε πολλά διαφορετικά στυλ βίντεο με ένα κλικ.

ο chen xinran ανέφερε συγκεκριμένα ότι εκτός από την εφαρμογή της τεχνητής νοημοσύνης σε υπάρχοντα προϊόντα, η jianying διερευνά επίσης τη δυνατότητα τεχνητής νοημοσύνης στην εποχή gena (γεννήτρια τεχνητή νοημοσύνη). συνδεδεμένο με δύο μεγάλα μοντέλα παραγωγής βίντεο για εσωτερική δοκιμή στίλβωσης σκηνής και γυάλισμα εφέ.

ο tan dai είπε επίσης ότι το κόστος εφαρμογής των μεγάλων μοντέλων έχει λυθεί καλά "τα μεγάλα μοντέλα πρέπει να μετακινηθούν από την τιμή όγκου στην απόδοση όγκου, με καλύτερες δυνατότητες και υπηρεσίες μοντέλων."

νέα

εισαγωγή

τα στοιχεία επικοινωνίας μου