ο sora σβήνει μετά την έκρηξη, το εγχώριο μοντέλο βίντεο αναλαμβάνει και μειώνει το threshold

η σόρα έκανε λάθη μετά την έκρηξη και το εγχώριο μοντέλο βίντεο ανέλαβε και κατέβασε το κατώφλι

2024-09-11

φαίνεται σαν χθες ότι η έκρηξη του κλάδου που προκλήθηκε από το λανσάρισμα του μοντέλου βίντεο vincent του openai, sora, δεν έχει ακόμη ανοιχτεί επίσημα στο κοινό. αντίθετα, εγχώρια μοντέλα βίντεο μεγάλης κλίμακας θα κυκλοφορήσουν εντατικά το 2024. αν και η τεχνολογία ενημερώνεται συνεχώς, τα περισσότερα από τα τελικά προϊόντα εξακολουθούν να απαιτούν χειροκίνητη επεξεργασία και σύνθεση στο μεταγενέστερο στάδιο, γεγονός που επηρεάζει την ταχύτητα εφαρμογής της τεχνολογίας από την πλευρά της εφαρμογής .

με βάση αυτό, στις 11 σεπτεμβρίου, η shengshu technology αποκάλυψε μια λειτουργική ενημέρωση, την πρώτη στον κόσμο λειτουργία "συνέπεια θέματος", η οποία επιτρέπει τη συνεπή δημιουργία οποιουδήποτε θέματος, καθιστώντας τη δημιουργία βίντεο πιο σταθερή και ελεγχόμενη. η λεγόμενη «αναφορά θέματος» επιτρέπει στους χρήστες να ανεβάζουν μια εικόνα οποιουδήποτε θέματος, η τεχνητή νοημοσύνη μπορεί να κλειδώσει την εικόνα του θέματος, να αλλάξει αυθαίρετα σκηνές μέσω περιγραφικών και να παράγει ένα βίντεο με το ίδιο θέμα.

σύμφωνα με τον tang jiayu, διευθύνοντα σύμβουλο της shengshu technology, τα σύντομα βίντεο, τα κινούμενα σχέδια, οι διαφημίσεις και άλλα κινηματογραφικά και τηλεοπτικά έργα απαιτούν το σύστημα αφήγησης να έχει «συνεπή θέματα, συνεπείς σκηνές και συνεπή στυλ» στην τέχνη της αφήγησης να επιτύχει την αφηγηματική ακεραιότητα είναι απαραίτητο να επιτευχθεί ολοκληρωμένος έλεγχος αυτών των βασικών στοιχείων.

δημιουργήστε βίντεο 32 δευτερολέπτων με ένα κλικ

η τελευταία φορά που η shengshu technology έκανε δημόσια δήλωση ήταν τον απρίλιο του τρέχοντος έτους, ο καθηγητής zhu jun, αναπληρωτής πρύτανης του ινστιτούτου τεχνητής νοημοσύνης του πανεπιστημίου tsinghua, συνιδρυτής και επικεφαλής επιστήμονας της shengshu technology, κυκλοφόρησε μια μακροχρόνια, εξαιρετικά συνεπή, και το εξαιρετικά δυναμικό μοντέλο βίντεο που ονομάζεται vidu , μπορείτε να δημιουργήσετε βίντεο διάρκειας έως και 16 δευτερολέπτων με ένα κλικ. με αυτήν την τεχνική ενημέρωση, μπορούν να δημιουργηθούν βίντεο vidu διάρκειας έως και 32 δευτερολέπτων.

το 2024, ολόκληρη η μεγάλη πίστα μοντέλων θα ηρεμήσει σταδιακά μετά την τρέλα του προηγούμενου έτους, και τα μεγάλα μοντέλα βίντεο θεωρούνται ο μόνος τρόπος για να προχωρήσουμε σε πολυτροπικά μεγάλα μοντέλα ή agi. εταιρείες σύντομων βίντεο που εκπροσωπούνται από την kuaishou και την byte's douyin, μεγάλες εταιρείες διαδικτύου που εκπροσωπούνται από την alibaba και την tencent, και νεοσύστατες εταιρείες που εκπροσωπούνται από την shengshu technology, τη zhipu ai, την aishi technology, κ.λπ.

σύμφωνα με στατιστικά στοιχεία της debon securities, από την κυκλοφορία του sora, περισσότερες από δώδεκα εταιρείες στο εσωτερικό και στο εξωτερικό έχουν κυκλοφορήσει ή ενημερώσει μοντέλα παραγωγής βίντεο. μιλώντας αντικειμενικά, το χάσμα μεταξύ εγχώριων και ξένων χωρών μειώνεται σταδιακά. από υποκειμενική άποψη, η debon securities πιστεύει ότι η ποιότητα των βίντεο που δημιουργούνται από μεγάλα μοντέλα έχει βελτιωθεί σημαντικά, αλλά απέχει ακόμα πολύ από τον προσομοιωτή φυσικού κόσμου. οι εικόνες βίντεο στο πεδίο βίντεο vincent είναι γενικά καθαρές, αλλά υπάρχουν μεγάλες διαφορές στο εύρος κίνησης και στη φυσική αποκατάσταση. αυτό είναι επίσης ένα από τα ζητήματα για αυτήν την αναβάθμιση λειτουργίας.

ο tang jiayu είπε ότι ο τρέχων χρόνος δημιουργίας vidu των 32 δευτερολέπτων δημιουργείται από άκρο σε άκρο με ένα κλικ και δεν δημιουργείται με μάτισμα και εισαγωγή πλαισίων. η διαφορά είναι ότι το μοντέλο έχει ισχυρότερη ικανότητα να συμπιέζει μακροπρόθεσμες πληροφορίες, συμπεριλαμβανομένης της αναπαράστασης πληροφοριών, η οποία στην πραγματικότητα σχετίζεται περισσότερο εγγενώς με την κατανόηση του φυσικού κόσμου και τη σχέση μεταξύ των σημασιολογικών εισροών. επομένως, η βελτίωση της διάρκειας απαιτεί τη βελτίωση των δυνατοτήτων αφηρημένης κατανόησης, συμπίεσης και κατανόησης του μοντέλου για τον κόσμο, συμπεριλαμβανομένων των δυνατοτήτων παραγωγής του.

ο καλλιτέχνης του aigc shi yuxiang, ο οποίος δημιούργησε το μικρού μήκους κινουμένων σχεδίων "summer gift", πιστεύει ότι η βιομηχανία είναι επί του παρόντος σχετικά ανεκτική στα βίντεο τεχνητής νοημοσύνης και οι λεπτομέρειες που μπορούν να βελτιωθούν περιλαμβάνουν την επεξεργασία πολύπλοκων φακών, την επεξεργασία φακών πολλαπλών χαρακτήρων και ορισμένους σκηνές με υπάρχει ο χειρισμός σκηνής mise-en-scène κ.λπ. σε σύγκριση με τη βασική λειτουργία βίντεο δημιουργίας εικόνων, η λειτουργία "αναφορά θέματος" απαλλαγεί από τους περιορισμούς των στατικών εικόνων, βελτιώνει τη συνοχή της δημιουργίας και εξοικονομεί σχεδόν το 70% του φόρτου εργασίας που δημιουργεί εικόνα.

ο li ning, ο ιδρυτής του light chi matrix και ένας νεαρός σκηνοθέτης, χρησιμοποίησε το vidu για να προ-δημιουργήσει ένα βίντεο κλιπ του άνδρα πρωταγωνιστή στην ταινία, στο οποίο όλες οι σκηνές χαρακτήρων δημιουργήθηκαν χρησιμοποιώντας μόνο τρεις τελικές φωτογραφίες μακιγιάζ του άνδρα πρωταγωνιστή, κοντά -επάνω, μεσαίο και μακρινό. ο λι νινγκ είπε ότι η προηγούμενη διαδικασία δημιουργίας ταινιών τεχνητής νοημοσύνης χρησιμοποιούσε ως επί το πλείστον την παραδοσιακή διαδικασία σχεδίασης βάσει κειμένου και σχεδίασης. ήταν δύσκολο να διατηρηθεί η συνολική μορφή των χαρακτήρων απαιτείται πολλή ενέργεια για τον εντοπισμό σφαλμάτων των εικόνων στο αρχικό στάδιο του βίντεο αυξάνεται, αυτά τα προβλήματα ενισχύονται περαιτέρω. η λειτουργία "subject reference" του vidu βελτιώνει σημαντικά τη συνολική συνοχή των χαρακτήρων δεν απαιτεί πλέον τη δημιουργία μεγάλου αριθμού εικόνων στο αρχικό στάδιο.

ουσιαστικά, η αναβάθμιση της λειτουργίας «αναφορά θέματος» είναι η βελτίωση της ποιότητας της παραγωγής μεγάλων μοντέλων βίντεο, η αποτελεσματικότητα του συνδυασμού τεχνολογίας με συγκεκριμένες βιομηχανίες και η επιτάχυνση της εφαρμογής της τεχνητής νοημοσύνης σε συγκεκριμένες εφαρμογές. προς το παρόν, η shengshu technology έχει ξεκινήσει ένα πρόγραμμα συνεργατών και καλεί τη διαφήμιση, τον κινηματογράφο και την τηλεόραση, τα κινούμενα σχέδια, τα παιχνίδια και άλλους οργανισμούς του κλάδου να συμμετάσχουν.

το τρέχον επιχειρηματικό μοντέλο του μοντέλου βίντεο της shengshu technology χωρίζεται σε μοντέλο συνδρομής saas και διεπαφή api αυτή είναι επίσης η εμπορική μέθοδος δοκιμής που υιοθετείται συνήθως στον τομέα των μεγάλων μοντέλων. όσον αφορά τη συγκεκριμένη αναλογία διανομής μεταξύ b-end και c-end, ο tang jiayu είπε ότι από την άποψη του εισοδήματος, τα έσοδα από την αγορά b-end είναι μεγαλύτερα. ένα μήνα από την κυκλοφορία των προϊόντων c-end, η καμπύλη ανάπτυξης ήταν πολύ υψηλή. μετά από ολοκληρωμένη κρίση, η πλευρά β είναι σχετικά σαφής και άμεση και περιέχει σχετικά σταθερή ζήτηση, επομένως η πλευρά β θα είναι η μακροπρόθεσμη εστίαση της εταιρείας. ωστόσο, τα προϊόντα c-end εξακολουθούν να βρίσκονται σε διαδικασία συνεχούς εξερεύνησης.

όταν ο διευθύνων σύμβουλος της zhipu, zhang peng, κυκλοφόρησε προηγουμένως το zhipu qingying (ying), μίλησε για την εξερεύνηση της εμπορευματοποίησης στον κλάδο, είπε ότι σε αυτό το στάδιο, είτε πρόκειται για toc είτε για tob, είναι ακόμα σχετικά νωρίς για να προχωρήσουμε καθαρά σε μεγάλη κλίμακα. εμποροποίηση. η λεγόμενη στρατηγική χρέωσης είναι περισσότερο μια πρώιμη προσπάθεια. θα παρατηρήσουμε επίσης τα σχόλια από την αγορά και τους χρήστες και θα κάνουμε έγκαιρες προσαρμογές.

τι ακολουθεί για τις μακέτες βίντεο;

εκτός από τις αναβαθμίσεις και τις ενημερώσεις στο συγκεκριμένο λειτουργικό επίπεδο, υπάρχει επί του παρόντος μια γενική συναίνεση στον κλάδο ότι η πολυτροπικότητα είναι η γενική τάση, ενώ τα μεγάλα μοντέλα βίντεο είναι μια σταδιακή κατάσταση.

από αυτή την άποψη, ο zhang peng είπε ότι η παραγωγή βίντεο δεν υπάρχει μεμονωμένα, αλλά τοποθετείται σε ολόκληρη τη διαδρομή ανάπτυξης τεχνολογίας και προϊόντος. από την άποψη του προϊόντος, η παραγωγή βίντεο θα γίνει επίσης ένα ανεξάρτητο προϊόν για την επίτευξη εμπορευματοποίησης και τη δημιουργία αξίας. ο tang jiayu είπε επίσης στους δημοσιογράφους ότι το κάτω στρώμα του shengshu είναι ένα γενικά μεγάλο μοντέλο και η παραγωγή βίντεο είναι μόνο ένα ενδιάμεσο στάδιο.

στη διαδικασία της μετάβασης προς την πολυτροπικότητα, η εντατική κυκλοφορία πολλαπλών μοντέλων βίντεο θα προκαλέσει προβλήματα ομοιογένειας; από αυτή την άποψη, ο tang jiayu είπε στους δημοσιογράφους ότι στην τεχνική διαδρομή, ο αριθμός των μαθητών βρίσκεται τώρα σε κατάσταση σύγκλισης, αλλά η ομοιογένεια δεν σημαίνει ότι όλη η πρόοδος και οι δυνατότητες είναι ίδιες. για παράδειγμα, τα τρέχοντα μοντέλα γλώσσας θα περιλαμβάνουν όλα την αρχιτεκτονική του transformer, αλλά στην πραγματικότητα, το openai είναι ακόμη σαφώς μπροστά. επειδή με βάση την αρχιτεκτονική, υπάρχουν ακόμα πολλοί σύνδεσμοι στη μέση, όπως πώς να κάνετε αποτελεσματική κλίμακα, πώς να συμπιέσετε αποτελεσματικά βίντεο κ.λπ., και υπάρχουν πολλές δεξιότητες και πρακτικές εμπειρίες. οι δεξιότητες αλγορίθμου και οι δυσκολίες αλγορίθμου, συμπεριλαμβανομένων των δυσκολιών μηχανικής αλγορίθμου, είναι όλοι παράγοντες που οδηγούν στις διαφορές στα τρέχοντα μεγάλα μοντέλα βίντεο.

όσον αφορά την εμπορευματοποίηση, ο tang jiayu πιστεύει ότι η βιομηχανία είναι σχετικά παρόμοια όσον αφορά τις επιχειρηματικές επιλογές. ολόκληρος ο κλάδος εκμεταλλεύεται τα δικά του χαρακτηριστικά για να προχωρήσει ο συνολικός τομέας βίντεο που δημιουργείται από την τεχνητή νοημοσύνη βρίσκεται ακόμη στα πρώτα στάδια ανάπτυξης και οι κορυφαίοι διεθνείς παίκτες προχωρούν μαζί για να επεκτείνουν την αγορά.

όσον αφορά την κατάσταση εντατικής κυκλοφορίας στον τομέα των μοντέλων βίντεο, ο zhang peng πιστεύει ότι η δυνατότητα ελέγχου είναι κάτι που η βιομηχανία πρέπει να καταβάλει μεγάλες προσπάθειες για να επιτύχει. από τη μία, σε τεχνικό επίπεδο, η δυνατότητα ελέγχου του ίδιου του βίντεο είναι πολύ μεγάλη απαίτηση. δεύτερον, από την άποψη της ασφάλειας, επειδή το σήμα βίντεο περιέχει περισσότερο περιεχόμενο και λεπτομέρειες, είναι απαραίτητο να διασφαλιστεί ότι το περιεχόμενο που δημιουργείται πληροί τις απαιτήσεις, τέλος, για να είναι εμπορικά εφαρμόσιμο το παραγόμενο περιεχόμενο, η δυνατότητα ελέγχου είναι επίσης απαραίτητη προϋπόθεση είναι απαραίτητο για να εκφραστεί με ακρίβεια η πρόθεση του δημιουργού και να πληρώσουν όλοι γι' αυτήν.

αφού πληρούνται οι βασικές προϋποθέσεις, οι τρέχουσες προσδοκίες της βιομηχανίας για μεγάλα μοντέλα βίντεο έχουν επικεντρωθεί περισσότερο στην τεχνητή νοημοσύνη που αντικαθιστά τις μεθόδους λήψης βίντεο μεγάλης διάρκειας από την κυκλοφορία του sora. ο zhang peng πιστεύει ότι από την προοπτική της τεχνολογικής ανάπτυξης, αυτή είναι μια σημαντική κατεύθυνση και έχει θετική σημασία για τις αλλαγές στη βιομηχανία του κινηματογράφου και της τηλεόρασης. αλλά προς το παρόν, τα μεγάλα μοντέλα βίντεο δεν αρκούν για να χρησιμοποιηθούν απευθείας στη διαδικασία παραγωγής για το κοινό, αλλά μπορούν να χρησιμοποιηθούν για βοηθητικές εργασίες, ακόμη και δημιουργίες μικρής κλίμακας, και υπάρχει ακόμη δρόμος για να αλλάξουν πραγματικά υψηλές απαιτήσεις όπως η παραγωγή ταινιών.

όσο για το sora, το οποίο κορυφώθηκε όταν έκανε το ντεμπούτο του και δεν έχει ανοίξει ακόμη στο κοινό, η βιομηχανία εξακολουθεί να το θεωρεί ως στόχο κάλυψης, ωστόσο, λόγω της αδιαφάνειας των τεχνικών λεπτομερειών, οι εταιρείες πρέπει να εξερευνήσουν πολλές πτυχές από μόνες τους . όσον αφορά την "εξαφάνιση" του sora, ο tang jiayu είπε στους δημοσιογράφους ότι οι λόγοι μπορεί να είναι από πολλές απόψεις: το βίντεο δεν είναι η τρέχουσα κύρια γραμμή του openai χρόνου και κόστους επίλυσης δεν συνάδει με τις προτεραιότητες της εταιρείας.

ο zhang peng και ο zhipu αντιμετώπιζαν πάντα το χάσμα μεταξύ τους και του κορυφαίου επιπέδου του κόσμου. ταυτόχρονα, πιστεύει ότι αυτός ο δρόμος πρέπει να περπατηθεί μόνος του πώς να δημιουργήσετε το κόστος υπολογιστικής ισχύος για βίντεο. «ενώ επιδιώκουμε τεχνολογικά ύψη, επιδιώκουμε ταυτόχρονα τη διάδοση της τεχνολογίας», είπε ο zhang peng.

(αυτό το άρθρο προέρχεται από το china business news)

αναφορά/σχόλια

νέα

η σόρα έκανε λάθη μετά την έκρηξη και το εγχώριο μοντέλο βίντεο ανέλαβε και κατέβασε το κατώφλι

εισαγωγή

τα στοιχεία επικοινωνίας μου