2024 service trade fair｜shengshu technology löst das problem der inkonsistenz bei der generierung großer videomodelle

2024-09-15

„wenn wir der ki eine anweisung geben und sie ein video generieren lassen, besteht der hauptreiz darin, zu hoffen, dass die ki uns dabei hilft, eine vollständige erzählung zu vervollständigen. um dieses ziel zu erreichen, müssen wir die kernelemente einheitlich und kontrollierbar halten.“ " sagte tang jiayu, vorsitzender und ceo von shengshu technology, auf der kürzlich abgehaltenen china international fair for trade in services 2024 (im folgenden als „service trade fair" bezeichnet) eine lösung: die themenreferenzfunktion des video-großmodells vidu kann die kontrolle über jedes subjekt realisieren. um dies zu erreichen, hat die industrie methoden wie „ki erzeugt zuerst bilder, dann bilder erzeugen videos“ ausprobiert, aber die motivreferenzfunktion reduziert nicht nur den arbeitsaufwand, sondern durchbricht auch die beschränkungen für videoinhalte durch split-shot-bilder. durchbrüche in der technologie haben der fantasie bei der kommerzialisierung großer videomodelle mehr raum gegeben.

als große sprachmodelle populär wurden, konzentrierte sich shenshu technology auf den multimodalen weg und führte im januar 2024 die wensheng-videofunktionen ein. nach dem plan von shengshu technology erfordern die entwicklung von videofunktionen eine längere dauer und eine höhere konsistenz, aber soras debüt hat die pläne des startups schneller vorangetrieben als geplant.

vidu wurde ende april veröffentlicht und unterstützt die generierung von 16-sekunden-hd-videos mit einem klick. im juni unterstützte es die generierung von 32-sekunden-videos mit einem klick, während es soundeffekte generierte und 4d-videos aus einem rekonstruierte einzelnes generiertes video. ende juli wurde vidu weltweit offiziell eingeführt und bietet tuxing-videos, rollenkonsistenzfunktionen und videogenerierungsfunktionen von bis zu 8 sekunden.

dieses mal konzentrierte sich tang jiayu auf vidus neueste funktion „themenreferenz“ auf der servicemesse 2024. mit der sogenannten betreffreferenz können benutzer ein bild eines beliebigen betreffs hochladen, und vidu kann das bild des betreffs sperren, szenen durch deskriptoren willkürlich wechseln und ein video mit demselben betreff ausgeben, wobei „any“ das schlüsselwort ist egal, ob es sich um eine person handelt, ob es sich um tiere, waren, zeichentrickfiguren oder fiktive themen handelt, ihre konsistenz und kontrollierbarkeit bei der videogenerierung kann sichergestellt werden.

ein reporter von beijing business daily erfuhr, dass das große videomodell vor der einführung dieser funktion nicht ohne lösungen zur erreichung dieses ziels war. auch funktionen wie „tusheng video“ und „character consistency“ konnten erreicht werden.

nehmen wir als beispiel die methode, zunächst bilder aus ki zu generieren und dann videos aus bildern zu generieren. sie können ki-zeichenwerkzeuge wie midjourney verwenden, um split-shot-bilder zu erstellen. halten sie zunächst das motiv auf bildebene konsistent und konvertieren sie diese dann bilder in videoclips umwandeln und diese bearbeiten und synthetisieren.

das problem besteht jedoch darin, dass die konsistenz der ki-zeichnung nicht perfekt ist und häufig durch wiederholte änderungen und teilweises neuzeichnen gelöst werden muss. noch wichtiger ist, dass der eigentliche videoproduktionsprozess viele szenen und linsen umfasst. wenn diese methode mehrkomponenten-linsenszenen verarbeitet, ist der arbeitsaufwand für das zeichnen enorm, der mehr als die hälfte des gesamten prozesses ausmachen kann, und auch der endgültige videoinhalt es mangelt an kreativität und flexibilität, da man sich zu sehr auf geteilte schläge verlässt.

die „motivreferenz“-funktion von vidu generiert direkt videomaterial durch „hochladen des motivbildes + eingabe des szenendeskriptors“. diese methode reduziert den arbeitsaufwand erheblich und hebt die beschränkungen für videoinhalte durch geteilte bilder auf, sodass ersteller reichhaltige, flexible videoinhalte basierend auf textbeschreibungen erstellen können.

als shi yuxiang, direktor des china central radio and television station und aigc-künstlers, den kreativen prozess des animierten kurzfilms „summer gift“ erläuterte, sagte er, dass im vergleich zur grundlegenden funktion zum aufnehmen von videos die funktion „themenreferenz“ entfällt von den einschränkungen statischer bilder und erzeugt schönere bilder. es ist ansteckend und frei und verbessert die kohärenz der schöpfung erheblich. gleichzeitig konnte er dadurch etwa 70 % seines zeichenaufwands einsparen.

beijing business daily-reporter wei wei

bericht/feedback

nachricht

2024 service trade fair｜shengshu technology löst das problem der inkonsistenz bei der generierung großer videomodelle

einführung

meine kontaktdaten