tang jiayu, ceo von shengshu technology: die videoerzeugung steckt noch in den kinderschuhen und es gibt technische engpässe, die behoben werden müssen

tang jiayu, ceo von shengshu technology: die videoerzeugung steckt noch in den kinderschuhen und es müssen noch technische engpässe überwunden werden.

2024-09-12

00:04

„beim einsatz von ki zur erstellung von erzählfilmen kann das verhältnis der verschrotteten filme 50:1 betragen, d. h. es werden 50 bilder erzeugt, von denen möglicherweise nur eines für diese art der erzählerstellung geeignet ist.“ technology co., ltd. (im folgenden als shengshu technology bezeichnet) veranstaltete eine veranstaltung zum tag der offenen tür für medien. ein film- und fernsehschöpfer gab beim teilen die obige erklärung ab.

mit der entwicklung der technologie zur generierung großer modelle beginnen immer mehr film- und fernsehschaffende, ki-technologie in ihren kreationen einzusetzen. allerdings gibt es immer noch viele schwachstellen.

„ki-generierte videos sind unkontrollierbar, und wenn es zu viele elemente gibt, können mehrere charaktere und räumliche szenen nicht verstanden werden“, sagte vicky, eine ki-film- und fernsehschöpferin. viele ki-film- und fernsehschaffende aus dem in- und ausland sagten, dass das gemeinsame kernproblem im eigentlichen entstehungsprozess eine unzureichende kontrollierbarkeit oder mangelnde konsistenz sei, insbesondere wenn es sich um komplexe szenen und interaktive szenen handelt.

obwohl das ki-videomodell den anweisungen gut folgt, sind die ausgabeergebnisse immer noch unsicher und es können mehrere versuche erforderlich sein, um ein zufriedenstellendes bild zu erzeugen. darüber hinaus weist das von der ki generierte modell immer noch einschränkungen hinsichtlich der kamerabewegung, der licht- und schatteneffekte sowie der detailverarbeitung auf, was eine vollständige und genaue steuerung erschwert.

shengshu technology hat das ki-generierte videomodell am 30. juli dieses jahres offiziell eingeführt. um den entwicklern zu helfen, die effizienz zu verbessern, hat das unternehmen kürzlich die funktion des videomodells vidu aktualisiert und die funktion „themenreferenz“ veröffentlicht lösung des konsistenzproblems: es kann eine konsistente generierung jedes themas erreicht werden, wodurch die videogenerierung stabiler und kontrollierbarer wird.

mit der funktion „betreffreferenz“ können benutzer ein bild eines beliebigen betreffs hochladen. vidu kann das bild des betreffs sperren, szenen durch deskriptoren beliebig wechseln und ein video mit demselben betreff ausgeben.

am 11. september loggte sich ein reporter von the paper technology (www.thepaper.cn) auf der vidu-plattform der offiziellen website von shengshu technology ein, um die videoerstellung auszuprobieren. hat ein dreidimensionales bild des amerikanischen filmstars leonardo dicaprio hochgeladen und schlüsselwörter wie „blauer himmel“, „weinglas“ und „toast“ eingegeben;

eingabewörter: „blauer himmel“, „weinglas“, „toast“ usw.

das mit vidu generierte bild sieht wie folgt aus:

00:04

laden sie einen 2d-screenshot der heldin des japanischen animes „youth“ hoch und geben sie schlüsselwörter wie „running“, „spät“, „morgen“ usw. ein.

das mit vidu generierte bild sieht wie folgt aus:

00:04

tang jiayu, mitbegründer und ceo von shengshu technology, sagte in einem interview, dass die „subjektreferenz“-funktion von vidu derzeit die weltweit erste technologie mit konsistenten erzeugungsfähigkeiten sei. die kernaufgabe von shengshu technology besteht darin, multimodale große ki-videoerzeugungsmodelle zu erstellen, die noch in den kinderschuhen stecken und in zukunft noch weitere technische engpässe zu überwinden sind. er glaubt, dass ki-videotechnologie nicht immer ein werkzeug für eine kleine gruppe von menschen sein wird. schätzungen zufolge wird die ki-videotechnologie bis ende dieses jahres in der öffentlichkeit populär sein und benutzer können sie problemlos nutzen.

shengshu technology wurde im märz 2023 gegründet. die mitglieder des kernteams stammen vom forschungsinstitut für künstliche intelligenz der tsinghua-universität. der leitende wissenschaftler zhu jun ist professor an der tsinghua-universität. der mitbegründer und ceo tang jiayu hat einen master-abschluss in naturwissenschaften language processing laboratory der tsinghua university und ehemaliger mitarbeiter von ruilai intelligence, senior product manager von tencent youtu lab.

der paper-reporter yu yan und der praktikant wang chun

(dieser artikel stammt von the paper. für weitere originalinformationen laden sie bitte die „the paper“-app herunter.)

bericht/feedback

nachricht

tang jiayu, ceo von shengshu technology: die videoerzeugung steckt noch in den kinderschuhen und es müssen noch technische engpässe überwunden werden.

einführung

meine kontaktdaten