η ίδια εικόνα μπορεί να εμφανιστεί σε διαφορετικές σκηνές! το μεγάλο μοντέλο βίντεο vidu καλωσορίζει τα σημαντικά update

η ίδια εικόνα μπορεί να εμφανιστεί σε διαφορετικές σκηνές! το μεγάλο μοντέλο βίντεο vidu καλωσορίζει τη σημαντική ενημέρωση

2024-09-15

στις 11 σεπτεμβρίου, το vidu, ένα πρωτότυπο μοντέλο βίντεο που αναπτύχθηκε από κοινού από την shengshu technology και το πανεπιστήμιο tsinghua, ξεκίνησε μια σημαντική ενημέρωση με τη λειτουργία "subject consistency" αυτή η λειτουργία μπορεί να επιτύχει συνεπή παραγωγή οποιουδήποτε θέματος, καθιστώντας το βίντεο the generation είναι πιο σταθερό και ελεγχόμενο. αυτή η δυνατότητα είναι προς το παρόν ανοιχτή στους χρήστες δωρεάν.

η λειτουργία αναφοράς θέματος εκκινείται διαδικτυακά για να λύσει το πρόβλημα συνέπειας ρόλων

επί του παρόντος, είτε πρόκειται για τη λειτουργία εικόνας vincent είτε για τη λειτουργία βίντεο vincent, ένα πρόβλημα που επικρίνεται ευρέως είναι η συνοχή του θέματος της εικόνας στην εικόνα ή το βίντεο. η ίδια προτρεπτική λέξη και το ίδιο μεγάλο μοντέλο δημιουργούνται δύο φορές και το περιεχόμενο που δημιουργείται είναι διαφορετικό στα καλλιτεχνικά έργα, αυτό θα προκαλέσει ασυνέπεια στην εικόνα του πρωταγωνιστή και έχει επίσης γίνει μια από τις μεγαλύτερες διαφορές μεταξύ της τεχνητής νοημοσύνης. έργα και οι άνθρωποι ένα.

για να λύσει αυτό το πρόβλημα, η βιομηχανία προσπάθησε να υιοθετήσει τη μέθοδο «πρώτα η τεχνητή νοημοσύνη δημιουργεί εικόνες, μετά οι εικόνες δημιουργούν βίντεο», χρησιμοποιώντας εργαλεία σχεδίασης τεχνητής νοημοσύνης όπως το midjourney για τη δημιουργία εικόνων διαχωρισμού, διατηρώντας πρώτα το θέμα συνεπές στην εικόνα επίπεδο, και στη συνέχεια μετατροπή αυτών των εικόνων σε βίντεο και επεξεργασία τους.

αλλά το πρόβλημα είναι ότι η συνέπεια του σχεδίου με τεχνητή νοημοσύνη δεν είναι τέλεια και συχνά χρειάζεται να λυθεί μέσω επαναλαμβανόμενων τροποποιήσεων και μερικής επανασχεδίασης. το πιο σημαντικό είναι ότι η πραγματική διαδικασία παραγωγής βίντεο περιλαμβάνει πολλές σκηνές και φακούς όταν αυτή η μέθοδος χειρίζεται σκηνές φακών πολλαπλών συστατικών, ο φόρτος εργασίας του σχεδίου είναι τεράστιος, ο οποίος μπορεί να αντιπροσωπεύει περισσότερο από το ήμισυ της όλης διαδικασίας και το τελικό περιεχόμενο βίντεο. είναι επίσης έλλειψη δημιουργικότητας και ευελιξίας λόγω της υπερβολικής εξάρτησης από σπαστές βολές.

στην ανοιχτή ημερίδα πολυμέσων που πραγματοποιήθηκε από την shengshu technology στις 11 σεπτεμβρίου, η shengshu technology παρουσίασε τη λειτουργία "subject reference" αυτή η λειτουργία επιτρέπει στους χρήστες να ανεβάζουν μια εικόνα οποιουδήποτε θέματος και η vidu μπορεί να κλειδώσει την εικόνα του θέματος και να την περιγράψει μέσω εσείς. μπορεί να αλλάζει σκηνές αυθαίρετα και να βγάζει βίντεο με το ίδιο θέμα.

αυτή η λειτουργία δεν περιορίζεται σε ένα μεμονωμένο αντικείμενο, αλλά είναι προσανατολισμένη σε "οποιοδήποτε θέμα είτε πρόκειται για άτομο, ζώο, εμπόρευμα, χαρακτήρα κινουμένων σχεδίων ή φανταστικό θέμα, μπορεί να εξασφαλίσει τη συνοχή και τη δυνατότητα ελέγχου στη δημιουργία βίντεο βίντεο μια σημαντική καινοτομία στον τομέα της παραγωγής. το vidu είναι επίσης το πρώτο μεγάλο μοντέλο βίντεο στον κόσμο που υποστηρίζει αυτή τη δυνατότητα.

για παράδειγμα, όταν χρησιμοποιεί "αναφορά θέματος" για χαρακτήρες, είτε πρόκειται για αληθινά άτομα είτε για φανταστικούς χαρακτήρες, ο vidu μπορεί να διατηρεί τις εικόνες του συνεπείς σε διαφορετικά περιβάλλοντα και κάτω από διαφορετικούς φακούς. ο tang jiayu, πρόεδρος και διευθύνων σύμβουλος της rushengshu technology, έδειξε στη σκηνή ότι παρέχοντας την εικόνα του lin daiyu που υποδύεται ο chen xiaoxu, σε διαφορετικές σκηνές και διαφορετικά ρούχα, η σκηνή του "lin daiyu πίνοντας καφέ" μπορεί να φανεί ότι είναι "η ο ίδιος lin daiyu».

ο tang jiayu, πρόεδρος και διευθύνων σύμβουλος της shengshu technology, παρουσίασε τη λειτουργία «αναφοράς θέματος» επί τόπου. φωτογραφία από τον δημοσιογράφο του beijing news shell finance, luo yidan

η συνοχή της δημιουργίας βίντεο με τεχνητή νοημοσύνη θα βελτιώσει σημαντικά την εποχή της πλήρους αφήγησης της τεχνητής νοημοσύνης.

με βάση αυτή τη λειτουργία, ο διευθυντής του κεντρικού ραδιοφωνικού και τηλεοπτικού σταθμού της κίνας και ο καλλιτέχνης του aigc shi yuxiang (senhai fluorescence) δημιούργησε μια ταινία μικρού μήκους κινουμένων σχεδίων «summer gift», είπε ότι σε σύγκριση με τη βασική λειτουργία βίντεο tusheng, «the η λειτουργία "subject reference" απαλλαγεί από τους περιορισμούς των στατικών εικόνων και οι εικόνες που δημιουργούνται είναι πιο ελκυστικές και ελεύθερες, βελτιώνοντας σημαντικά τη συνοχή της δημιουργίας. ταυτόχρονα, τον βοήθησε να εξοικονομήσει περίπου το 70% του φόρτου εργασίας της παραγωγής εικόνων, βελτιώνοντας σημαντικά την αποτελεσματικότητα, επιτρέποντάς του να επικεντρωθεί περισσότερο στη στίλβωση του περιεχομένου της ιστορίας παρά στη δημιουργία εικόνων. ταυτόχρονα, η συνέπεια διευκολύνει την εκ των υστέρων επεξεργασία.

ο shi yuxiang, διευθυντής του ραδιοφωνικού και τηλεοπτικού σταθμού της κίνας και καλλιτέχνης της aigc, έδειξε το animation που δημιουργήθηκε μέσω της λειτουργίας "subject reference" επί τόπου. μπορεί να φανεί ότι η εικόνα του πρωταγωνιστή στο animation παραμένει σταθερή. φωτογραφία από τον δημοσιογράφο του beijing news shell finance, luo yidan

ο tang jiayu είπε ότι η έναρξη της νέας λειτουργίας της «αναφοράς θέματος» αντιπροσωπεύει την αρχή μιας πλήρους αφήγησης ai, και η δημιουργία βίντεο ai θα προχωρήσει επίσης σε ένα πιο αποτελεσματικό και ευέλικτο στάδιο. είτε παράγετε σύντομα βίντεο, κινούμενα σχέδια ή διαφημίσεις, στην τέχνη της αφήγησης, ένα πλήρες σύστημα αφήγησης είναι ένας οργανικός συνδυασμός στοιχείων όπως «συνεπές θέμα, συνεπής σκηνή, συνεπές στυλ».

επομένως, για να επιτύχει ένα μοντέλο βίντεο την αφηγηματική ακεραιότητα, πρέπει να είναι πλήρως ελεγχόμενο σε αυτά τα βασικά στοιχεία. η λειτουργία "αναφορά σώματος" είναι ένα σημαντικό βήμα προς τη συνέπεια για τη vidu, αλλά είναι μόνο η αρχή. στο μέλλον, η vidu θα συνεχίσει να διερευνά πώς να ελέγχει με ακρίβεια πολύπλοκα στοιχεία όπως η αλληλεπίδραση πολλών θεμάτων, το ενοποιημένο στυλ και η σταθερή εναλλαγή των μεταβαλλόμενων σκηνών για την κάλυψη των αφηγηματικών αναγκών υψηλότερου επιπέδου.

είπε ότι από μακροπρόθεσμη προοπτική, μόλις επιτευχθεί πλήρης δυνατότητα ελέγχου, η βιομηχανία δημιουργίας βίντεο θα υποστεί μια ανατρεπτική αλλαγή. μέχρι τότε, χαρακτήρες, σκηνές, στυλ, ακόμη και στοιχεία όπως η χρήση φακού, τα εφέ φωτός και σκιάς, θα μετατραπούν σε ευέλικτα ρυθμιζόμενες παραμέτρους. οι χρήστες χρειάζεται μόνο να κινήσουν τα δάχτυλά τους και να προσαρμόσουν τις παραμέτρους για να ολοκληρώσουν τη δημιουργία ενός έργου εικόνας και πίσω από κάθε έργο θα κρύβεται η μοναδική κοσμοθεωρία και η αυτοέκφραση του χρήστη με βάση την τεχνητή νοημοσύνη.

ο δημοσιογράφος του beijing news shell finance, luo yidan, συντάκτης wang jinyu, διορθώνει τον yang li

αναφορά/σχόλια

νέα

η ίδια εικόνα μπορεί να εμφανιστεί σε διαφορετικές σκηνές! το μεγάλο μοντέλο βίντεο vidu καλωσορίζει τη σημαντική ενημέρωση

εισαγωγή

τα στοιχεία επικοινωνίας μου