διάλογος με τον διευθύνοντα σύμβουλο της shengshu technology tang jiayu: το βίντεο με τεχνητή νοημοσύνη έφτασε στο σημείο "δημοτικοποίησης" και η βελτίωση της διάρκειας δεν είναι το επίκεντρο του productization

διάλογος με τον διευθύνοντα σύμβουλο της shengshu technology tang jiayu: το βίντεο με τεχνητή νοημοσύνη έφτασε στο σημείο "δημοτικοποίησης" και η βελτίωση της διάρκειας δεν είναι το επίκεντρο της παραγωγικότητας

2024-09-13

στις 11 σεπτεμβρίου, η shengshu technology πραγματοποίησε μια εκδήλωση ανοιχτής ημερίδας για τα μέσα ενημέρωσης και κυκλοφόρησε τη λειτουργία "συνέπεια θέματος", η οποία έχει σκοπό να λύσει το πρόβλημα "συνέπειας" της δημιουργίας θεμάτων από μοντέλα βίντεο.

στην εκδήλωση, ο tang jiayu, συνιδρυτής και διευθύνων σύμβουλος της shengshu technology, είπε, απαντώντας σε ερώτηση δημοσιογράφου σχετικά με το επιχειρηματικό μοντέλο από την "daily economic news" ότι επί του παρόντος υπάρχουν δύο τύποι συνδρομών saas (λογισμικό ως υπηρεσία) και maas (μοντέλο ως υπηρεσία) στον κλάδο από τότε που η vidu τέθηκε σε λειτουργία στις 30 ιουλίου, έχει λάβει δεκάδες χιλιάδες εφαρμογές πρόσβασης api παγκοσμίως.

όσον αφορά την υποκείμενη αρχιτεκτονική, ο tang jiayu είπε ότι η "αρχιτεκτονική u-vit" που χρησιμοποιείται από το προϊόν του "vidu" είναι σχεδόν πανομοιότυπη με την "αρχιτεκτονική dit" που χρησιμοποιεί ο sora. η διαφορά είναι ότι το u-vit έχει προσανατολιστεί περισσότερο στην υλοποίηση σχέδια. στον τεχνικό χάρτη πορείας, όλοι βρίσκονται τώρα σε μια κατάσταση σύγκλισης της υποκείμενης αρχιτεκτονικής, αλλά η ομοιογένεια δεν σημαίνει ότι όλοι έχουν την ίδια πρόοδο και δυνατότητες ο tang jiayu έδωσε ένα παράδειγμα: «για παράδειγμα, στο τρέχον γλωσσικό μοντέλο, (αν και ) όλοι χρησιμοποιούν την αρχιτεκτονική του transformer, αλλά από εδώ και στο εξής ρεαλιστικά, το openai είναι ακόμα σαφώς μπροστά».

προς το παρόν, οι κύριοι χρήστες του βίντεο ai εξακολουθούν να είναι επαγγελματίες χρήστες, όπως οι εργαζόμενοι στον κινηματογράφο, αλλά ο tang jiayu πιστεύει ότι το βίντεο ai έχει φτάσει στο σημείο της «δημοτικοποίησης».

επιπλέον, κρίνοντας από τα τρέχοντα έσοδα, η shengshu technology έχει κερδίσει περισσότερα έσοδα από την αγορά της πλευράς β, ενώ η καμπύλη ανάπτυξης της πλευράς c ήταν πολύ «απότομη» τον μήνα από την κυκλοφορία του προϊόντος vidu.

«ο απώτερος στόχος είναι να φτιάξουμε ένα παγκόσμιο μεγάλο μοντέλο».

ο tang jiayu είναι πλοίαρχος στο εργαστήριο επεξεργασίας φυσικής γλώσσας του πανεπιστημίου tsinghua. υπηρέτησε στο παρελθόν ως αντιπρόεδρος του ruilai intelligence και ανώτερος διευθυντής προϊόντων του tencent youtu laboratory. η shengshu technology, όπου εργάζεται επί του παρόντος ο tang jiayu, ιδρύθηκε τον μάρτιο του 2023 και ανακοίνωσε την ολοκλήρωση ενός νέου γύρου χρηματοδότησης στις αρχές μαρτίου του τρέχοντος έτους. στα τέλη απριλίου του τρέχοντος έτους, το vidu, ένα πρωτότυπο μοντέλο βίντεο μεγάλης κλίμακας που αναπτύχθηκε από κοινού από την εταιρεία και το πανεπιστήμιο tsinghua, κυκλοφόρησε επίσημα στα τέλη ιουλίου και είναι πλήρως ανοιχτό για χρήση.

όταν κυκλοφόρησε το vidu ονομάστηκε η «κινέζικη εκδοχή του sora». από τη μία πλευρά, αυτό το όνομα οφείλεται στο ότι ο έξω κόσμος είναι γεμάτος προσδοκίες για το μεγάλο μοντέλο βίντεο της κίνας, από την άλλη πλευρά, από την άποψη της τεχνικής αρχιτεκτονικής, τα δύο έχουν επίσης παρόμοιες προσεγγίσεις και προσεγγίσεις.

σύμφωνα με αναφορές, το κάτω στρώμα του vidu βασίζεται στην αρχιτεκτονική u-vit που έχει αναπτυχθεί μόνος του, ενώ το sora βασίζεται στην αρχιτεκτονική dit. σχετικά με τη διαφορά μεταξύ των αρχιτεκτονικών u-vit και dit, ο tang jiayu είπε: «με λίγα λόγια, είναι σχεδόν ίδιες και οι δύο είναι η σύντηξη του diffusion και του transformer, και ακόμη και μερικές από τις υποκείμενες τεχνικές λεπτομέρειες είναι ίδιες. η διαφορά είναι ότι η αρχιτεκτονική u-vit έχει «κάνει σχέδια βελτιστοποίησης πιο προσανατολισμένα στην υλοποίηση για να συνοψίσουμε, κατά την εκπαίδευση του ίδιου μοντέλου, το u-vit απαιτεί λιγότερη υπολογιστική ισχύ ταυτόχρονα».

από τη σκοπιά της συνολικής τεχνικής διαδρομής, αρκετά μεγάλα εγχώρια μοντέλα βίντεο ακολουθούν αυτήν τη στιγμή τη «διαδρομή που μοιάζει με το sora» θα γίνουν πιο ομοιογενή στο μέλλον;

από αυτή την άποψη, ο tang jiayu είπε ότι αυτή τη στιγμή όλοι βρίσκονται σε μια κατάσταση σύγκλισης της υποκείμενης αρχιτεκτονικής, "αλλά η ομοιογένεια δεν σημαίνει ότι όλοι έχουν την ίδια πρόοδο και τις ίδιες δυνατότητες." λαμβάνοντας ως παράδειγμα το γλωσσικό μοντέλο, ανέλυσε ότι όλοι θα χρησιμοποιήσουν την αρχιτεκτονική του transformer, αλλά από πρακτική άποψη, το openai είναι ακόμη σαφώς μπροστά εμπειρία για την επίλυση δυσκολιών αυτό οδηγεί σε διαφορές στις δυνατότητες μεταξύ διαφορετικών γλωσσικών μοντέλων.

επί του παρόντος, η βιομηχανία εξερευνά επίσης νέες αρχιτεκτονικές διαδρομές, όπως ο συνδυασμός πολλαπλών τρόπων παραγωγής και κατανόησης πολλαπλών μεταφορών, αλλά δεν υπάρχει ακόμα μια ιδιαίτερα καλή λύση.

"ο απώτερος στόχος μας είναι να κατασκευάσουμε ένα καθολικό μεγάλο μοντέλο. η παραγωγή βίντεο είναι ένα στάδιο στη μέση της πολυτροπικής γενιάς μεγάλων μοντέλων."

είπε επίσης: "αυτό δεν σημαίνει ότι κάνουμε μόνο αυτό το ένα πράγμα (αναφερόμενος στο μοντέλο μεγάλου βίντεο). εκτός από το βίντεο, έχουμε επίσης τη δυνατότητα να δημιουργήσουμε και άλλους τρόπους."

«αυτή τη στιγμή η αγορά της b-side έχει περισσότερα έσοδα»

η σύγκλιση της υποβόσκουσας λογικής της τεχνολογίας οδήγησε λίγο πολύ σε παρόμοιες ιδέες ανάπτυξης της αγοράς.

"οι επιχειρηματικές επιλογές όλων είναι σχετικά παρόμοιες. ακόμη και εταιρείες όπως η sora και η runway αγκαλιάζουν ενεργά τη συνεργασία με το χόλιγουντ ή τη διαφήμιση, ο tang jiayu πιστεύει ότι ο τομέας των βίντεο που δημιουργούνται από την τεχνητή νοημοσύνη είναι γενικά ακόμη στα αρχικά στάδια ανάπτυξης και οι διεθνείς ηγέτες είναι όλοι οι παίκτες." να προχωρήσουμε μαζί ή «από κοινού να επεκτείνουμε την αγορά».

λαμβάνοντας ως παράδειγμα την τεχνολογία shengshu, η tang jiayu χωρίζει το επιχειρηματικό μοντέλο σε δύο κατευθύνσεις: η μία είναι το μοντέλο συνδρομής saas που έχει κάποια δωρεάν ποσόστωση κάθε μήνα, αλλά εάν υπάρχουν περισσότερες ανάγκες ή θέλετε να χρησιμοποιήσετε πιο προηγμένες δυνατότητες, πρέπει να πληρώσετε. μια χρέωση συνδρομής και η vidu θα συνεχίσει να εμπλουτίζει τις λειτουργίες του προϊόντος για να καλύψει τις δημιουργικές ανάγκες των χρηστών παιχνίδι, αυτοί οι πελάτες ελπίζουν να καλέσουν απευθείας το μοντέλο.

από την άποψη των εσόδων, η αγορά b-end έχει κερδίσει περισσότερα έσοδα σε αυτό το στάδιο. ωστόσο, ένα μήνα μετά την κυκλοφορία του vidu, η καμπύλη ανάπτυξης της c-side είναι επίσης πολύ «απότομη». "με βάση την τρέχουσα κρίση μας, η πλευρά β (ζήτηση) είναι σχετικά ξεκάθαρη, άμεση και σταθερή, επομένως η πλευρά β είναι μια μακροπρόθεσμη και βασική κατεύθυνση για εμάς. επίσης, εξερευνούμε συνεχώς την πλευρά γ," τανγκ είπε ο jiayu.

προς το παρόν, τα εγχώρια μοντέλα και εργαλεία παραγωγής βίντεο έχουν σχηματίσει ένα "κύμα" και έχουν καλή απόδοση, αλλά ο tang jiayu πιστεύει: "δεν μπορεί να ειπωθεί ότι η κίνα έχει αναλάβει εντελώς το προβάδισμα. οι εγχώριοι και ξένοι κορυφαίοι παίκτες ανήκουν στην πρώτη κατηγορία."

"το βίντεο ai έφτασε σε έναν κόμβο"

μεταξύ των ομάδων κοινού των μεγάλων μοντέλων βίντεο, οι επαγγελματίες του κινηματογράφου, της τηλεόρασης και των κινούμενων σχεδίων είναι η πλειονότητα και θεωρούνται ως επί το πλείστον ως "επαγγελματικό κοινό".

ο tang jiayu πήρε ως παράδειγμα τη φωτογραφία από την εποχή των φωτογραφικών μηχανών μέχρι τη διάδοση της φωτογραφίας από κινητά τηλέφωνα, είναι μια διαδικασία συνεχούς μείωσης του ορίου για τους δημιουργούς. "το βίντεο με τεχνητή νοημοσύνη έχει φτάσει πλέον σε ένα σημείο, ο tang jiayu είπε ότι η λειτουργία "subject reference" που κυκλοφόρησε από την shengshu technology στις 11 σεπτεμβρίου είναι μια προσπάθεια να μειωθεί το όριο για τους δημιουργούς ή να επιταχυνθεί η δημιουργική διαδικασία.

"η τεχνολογία εξακολουθεί να είναι ένας βασικός παράγοντας. η τρέχουσα γενιά βίντεο συμμορφώνεται μόνο αρχικά με τους νόμους της φυσικής και εξακολουθούν να υπάρχουν υψηλά ανώτατα όρια που πρέπει να ξεπεραστούν, όπως ισχυρότερες δυνατότητες μοντέλων και η συλλογική παραγωγή περισσότερων τρόπων λειτουργίας." εισήγαγε ότι η δυνατότητα "η δυνατότητα "αναφοράς σε θέματα" έχει πράγματι βελτιωθεί σημαντικά όσον αφορά τη δημιουργία συνέπειας, αλλά υπάρχουν ακόμη πολλοί τομείς που χρειάζονται περαιτέρω βελτίωση. "για παράδειγμα, εάν θέλετε να αλλάξετε ένα μεγάλο μοντέλο από προϊόν σε χειροτεχνία και αυτή η χειροτεχνία έχει περίπλοκα μοτίβα και κούφια μέρη, το ποσοστό επιτυχίας της τρέχουσας γενιάς δεν είναι ακόμα υψηλό σε σχέση με μια τόσο περίπλοκη δομή. η δημιουργία σκηνής περιλαμβάνει πολλά εξαρτήματα, όπως τα αθλητικά παπούτσια, ελπίζω ότι μπορεί να αποδώσει καλύτερα σε πιο περίπλοκες και δυναμικές σκηνές, που απαιτούν συνεχή βελτίωση των δυνατοτήτων του μοντέλου.»

σε αυτή τη διαδικασία, η πρωτοτυπία και η πρωτοπορία της τεχνολογίας πρέπει να συμβαδίζουν με την καλή εμπορευματοποίηση, επειδή οι εμπορικές εταιρείες δεν είναι τελικά ιδρύματα επιστημονικής έρευνας.

λαμβάνοντας ως παράδειγμα τη διάρκεια της δημιουργίας βίντεο, η επέκταση της διάρκειας παραγωγής απαιτεί τη βελτίωση της ικανότητας του μοντέλου να κατανοεί αφηρημένα τον κόσμο και τις αμφίδρομες δυνατότητές του για συμπίεση και ενίσχυση πληροφοριών. επί του παρόντος, το vidu μπορεί να δημιουργήσει βίντεο διάρκειας έως και 32 δευτερολέπτων και η shengshu technology σχεδιάζει να το επεκτείνει σε μεγαλύτερο χρονικό διάστημα, ωστόσο, η διάρκεια δεν είναι το μέρος της τεχνολογίας shengshu που επικεντρώνεται επί του παρόντος στην παραγωγή.

"στην πραγματική δημιουργία, χονδρικά, περισσότερο από το 90% των κλιπ είναι αρκετά δευτερόλεπτα. επομένως, από πρακτική άποψη, δεν έχουμε εξετάσει τη διάρκεια ως προτεραιότητά μας για την κυκλοφορία, αλλά από την οπτική γωνία του." δυνατότητες μοντέλου angle, η εταιρεία συνεχίζει πραγματικά να βελτιώνεται.

δημοσιογράφος |li shaoting ke yang

εκδίδω|duan lianwenduo du hengfeng

διορθώσεις|wang yuelong

｜καθημερινά οικονομικά νέα nbdnews πρωτότυπο άρθρο

απαγορεύεται η επανεκτύπωση, η απόσπαση, η αντιγραφή και ο κατοπτρισμός χωρίς άδεια.

καθημερινά οικονομικά νέα

αναφορά/σχόλια

νέα

εισαγωγή

τα στοιχεία επικοινωνίας μου