dialog mit tang jiayu, ceo von shengshu technology: ki-videos haben den punkt der „popularisierung“ erreicht, und die verbesserung der dauer steht nicht im mittelpunkt von productization

dialog mit tang jiayu, ceo von shengshu technology: ki-videos haben den punkt der „popularisierung“ erreicht, und die verbesserung der dauer steht nicht im mittelpunkt der produktisierung

2024-09-13

am 11. september veranstaltete shengshu technology eine veranstaltung zum tag der offenen tür für medien und veröffentlichte die funktion „subjektkonsistenz“, die das „konsistenzproblem“ bei der generierung von themen aus videomodellen lösen soll.

auf der veranstaltung antwortete tang jiayu, mitbegründer und ceo von shengshu technology, auf die frage eines reporters zum geschäftsmodell der „daily economic news“, dass es derzeit zwei arten von saas-abonnements (software as a service) gebe maas (model as a service) in der branche, seit vidu am 30. juli online ging, hat das unternehmen weltweit zehntausende api-zugriffsanträge erhalten.

in bezug auf die zugrunde liegende architektur sagte tang jiayu, dass die von seinem produkt „vidu“ verwendete „u-vit-architektur“ fast identisch mit der von sora verwendeten „dit-architektur“ sei. der unterschied besteht darin, dass u-vit stärker auf die implementierung ausgerichtet ist entwürfe. auf der technischen roadmap befindet sich jetzt jeder in einem zustand der konvergenz der zugrunde liegenden architektur, aber homogenität bedeutet nicht, dass jeder über den gleichen fortschritt und die gleichen fähigkeiten verfügt. tang jiayu gab ein beispiel: „zum beispiel im aktuellen sprachmodell (obwohl). ) jeder nutzt die transformer-architektur, aber realistischerweise hat openai von nun an immer noch klar die nase vorn.“

derzeit sind die hauptnutzer von ki-videos immer noch professionelle nutzer, beispielsweise filmschaffende, aber tang jiayu glaubt, dass ki-videos den punkt der „popularisierung“ erreicht haben.

darüber hinaus hat shengshu technology, gemessen an den aktuellen einnahmen, mehr einnahmen auf dem b-seite-markt erzielt, während die c-seite-wachstumskurve in dem monat seit der einführung des vidu-produkts sehr „steil“ war.

„das ultimative ziel ist es, ein universelles großmodell zu schaffen.“

tang jiayu ist ein master of natural language processing laboratory der tsinghua university. zuvor war er vizepräsident von ruilai intelligence und senior product manager des tencent youtu laboratory. shengshu technology, wo tang jiayu derzeit arbeitet, wurde im märz 2023 gegründet und gab anfang märz dieses jahres den abschluss einer neuen finanzierungsrunde bekannt. ende april dieses jahres wurde vidu, ein gemeinsam vom unternehmen und der tsinghua-universität entwickeltes original-großvideomodell, der welt vorgestellt. es wurde ende juli offiziell eingeführt und ist vollständig zur nutzung freigegeben.

als vidu herauskam, wurde es als „chinesische version von sora“ bezeichnet. einerseits liegt dieser name daran, dass die außenwelt voller erwartungen an chinas großes videomodell ist. andererseits haben beide aus sicht der technischen architektur auch ähnliche ansätze und ähnliche ziele.

berichten zufolge basiert die unterste schicht von vidu auf der selbst entwickelten u-vit-architektur, während sora auf der dit-architektur basiert. zum unterschied zwischen u-vit- und dit-architekturen sagte tang jiayu: „kurz gesagt, sie sind fast gleich.“ beide sind die verschmelzung von diffusion und transformer, und sogar einige der zugrunde liegenden technischen details sind gleich.“ der unterschied besteht darin, dass die u-vit-architektur „umsetzungsorientiertere optimierungsdesigns erstellt hat“. zusammenfassend lässt sich sagen, dass u-vit beim training desselben modells gleichzeitig weniger rechenleistung benötigt.

aus technischer sicht verfolgen derzeit mehrere große inländische videomodelle den „sora-ähnlichen weg“. werden sie in zukunft homogener?

in diesem zusammenhang sagte tang jiayu, dass sich derzeit alle in einem zustand der konvergenz der zugrunde liegenden architektur befinden, „aber homogenität bedeutet nicht, dass alle den gleichen fortschritt und die gleichen fähigkeiten haben.“ am beispiel des sprachmodells analysierte er, dass jeder die transformer-architektur verwenden wird, aber aus praktischer sicht ist openai immer noch klar vorne. dies liegt daran, dass es immer noch viele verknüpfungen gibt, die auf dieser architektur basieren und technische fähigkeiten erfordern erfahrung, um bei der lösung von schwierigkeiten zu helfen. dies führt zu unterschieden in den fähigkeiten zwischen verschiedenen sprachmodellen.

derzeit erforscht die branche auch neue architektonische wege, beispielsweise die kombination von multimodaler erzeugung und multimodalem verständnis, aber es gibt noch keine besonders gute lösung.

„unser oberstes ziel ist es, ein universelles großmodell zu entwickeln. die videogenerierung ist eine phase in der mitte der multimodalen generierung großer modelle.“

er sagte auch: „das bedeutet nicht, dass wir nur diese eine sache machen (bezogen auf das große videomodell). zusätzlich zu video haben wir auch die möglichkeit, andere modalitäten zu generieren.“

„derzeit hat der b-side-markt mehr umsatz“

die konvergenz der zugrunde liegenden logik der technologie hat mehr oder weniger zu ähnlichen marktentwicklungsideen geführt.

„die geschäftsentscheidungen aller sind relativ ähnlich. sogar unternehmen wie sora und runway nehmen aktiv hollywood oder werbekooperationen wahr.“ gemeinsam vorankommen oder „gemeinsam den markt erweitern“.

am beispiel von shengshu technology unterteilt tang jiayu das geschäftsmodell in zwei richtungen: zum einen gibt es bei vidu jeden monat ein kostenloses kontingent, aber wenn mehr bedarf besteht oder erweiterte funktionen genutzt werden sollen, muss man zahlen eine abonnementgebühr, und vidu wird die produktfunktionen weiterhin bereichern, um den kreativen anforderungen der benutzer gerecht zu werden; der zweite ist der modellfähigkeitsausgabemodus (maas). derzeit benötigen viele kunden funktionen zur videogenerierung als verknüpfung im workflow oder zur ableitung interessanter gameplays diese kunden hoffen, das modell direkt anrufen zu können.

aus umsatzsicht hat der b-end-markt zu diesem zeitpunkt mehr umsatz erzielt. allerdings ist die wachstumskurve der c-seite einen monat nach dem start von vidu ebenfalls sehr „steil“. „nach unserem aktuellen urteil ist die b-seite (nachfrage) relativ klar, direkt und stabil, daher ist die b-seite eine langfristige und wichtige richtung für uns. wir erforschen auch ständig die c-seite“, sagte tang sagte jiayu.

gegenwärtig haben inländische videogenerierungsmodelle und -tools eine „welle“ gebildet und sich gut entwickelt, aber tang jiayu glaubt: „man kann nicht sagen, dass china vollständig die führung übernommen hat. inländische und ausländische führende akteure gehören zur ersten staffel.“

„ki-video hat einen knoten erreicht“

unter den videopublikumsgruppen sind große models, film-, fernseh- und animationspraktiker, die meist als „professionelles publikum“ gelten. wann wird ki-video also zu einem werkzeug, das sie kontrollieren können?

tang jiayu nahm die fotografie als beispiel: von der ära der filmkameras bis zur popularisierung der mobiltelefonfotografie ist es ein prozess, bei dem die hemmschwelle für kreative immer weiter gesenkt wird. „ki-video hat jetzt einen punkt erreicht.“ tang jiayu sagte, dass die von shengshu technology am 11. september veröffentlichte funktion „subjektreferenz“ ein versuch sei, die hemmschwelle für ersteller zu senken oder den kreativen prozess zu beschleunigen.

„technologie ist immer noch ein schlüsselfaktor. die aktuelle videogeneration entspricht zunächst nur den gesetzen der physik, und es müssen noch hohe grenzen durchbrochen werden, wie etwa stärkere modellfähigkeiten und die kollaborative generierung weiterer modalitäten.“ eingeführt, dass die „themenreferenz“-funktion im hinblick auf die konsistenzgenerierung zwar erheblich verbessert wurde, es jedoch noch viele bereiche gibt, die einer weiteren verbesserung bedürfen. „wenn sie beispielsweise ein großes modell von einem produkt in ein kunsthandwerk umwandeln möchten und dieses kunsthandwerk komplizierte muster und hohle teile aufweist, ist die erfolgsquote der aktuellen generation angesichts einer so komplexen struktur immer noch nicht hoch. die szenengenerierung umfasst.“ ich hoffe, dass viele komponenten, wie zum beispiel sportschuhe, in komplexeren und dynamischeren szenen, die eine kontinuierliche verbesserung der modellfähigkeiten erfordern, eine bessere leistung erbringen können.“

dabei müssen originalität und durchbruch der technologie mit einer guten kommerzialisierung einhergehen, denn kommerzielle unternehmen sind schließlich keine wissenschaftlichen forschungseinrichtungen.

am beispiel der dauer der videogenerierung erfordert die verlängerung der generierungsdauer eine verbesserung der fähigkeit des modells, die welt abstrakt zu verstehen, und seiner bidirektionalen fähigkeiten zur informationskomprimierung und -verstärkung. derzeit kann vidu videos mit einer länge von bis zu 32 sekunden erstellen, und shengshu technology plant, diese auf längere videos zu erweitern. allerdings ist die dauer nicht der teil von shengshu technology, der sich derzeit auf die produktisierung konzentriert.

„bei der tatsächlichen erstellung sind grob gesagt mehr als 90 % der clips mehrere sekunden lang. daher haben wir aus praktischer sicht noch nicht die dauer als unsere priorität für die veröffentlichung berücksichtigt, betonte tang jiayu was die modellfähigkeiten betrifft, verbessert sich das unternehmen tatsächlich weiter.

reporter |li shaoting ke yang

bearbeiten|duan lianwenduo du hengfeng

korrekturlesen |wang yuelong

｜tägliche wirtschaftsnachrichten abonnieren originalartikel｜

nachdruck, auszug, kopieren und spiegeln ohne genehmigung ist untersagt.

tägliche wirtschaftsnachrichten

bericht/feedback

nachricht

dialog mit tang jiayu, ceo von shengshu technology: ki-videos haben den punkt der „popularisierung“ erreicht, und die verbesserung der dauer steht nicht im mittelpunkt der produktisierung

einführung

meine kontaktdaten