nachricht

das gleiche bild kann in verschiedenen szenen erscheinen! das große videomodell vidu begrüßt großes update

2024-09-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

am 11. september führte vidu, ein von shengshu technology und der tsinghua-universität gemeinsam entwickeltes original-videomodell, ein großes update mit der funktion „subjektkonsistenz“ ein. diese funktion kann eine konsistente generierung jedes themas erreichen und das video zur generation machen ist stabiler und kontrollierbarer. diese funktion steht benutzern derzeit kostenlos zur verfügung.
die betreffreferenzfunktion wird online gestartet, um das rollenkonsistenzproblem zu lösen
unabhängig davon, ob es sich um die vincent-bildfunktion oder die vincent-videofunktion handelt, ist die themenkonsistenz des bildes im bild oder video ein häufig kritisiertes problem. das gleiche aufforderungswort und das gleiche große modell werden zweimal generiert, und der generierte inhalt ist unterschiedlich. in künstlerischen werken führt dies dazu, dass das bild des protagonisten inkonsistent ist, und es ist auch zu einem der größten unterschiede zwischen ki-generierten bildern geworden werke und menschen eins.
um dieses problem zu lösen, hat die industrie versucht, die methode „zuerst erzeugt die ki bilder, dann die bilder videos“ zu übernehmen und dabei ki-zeichenwerkzeuge wie midjourney zu verwenden, um split-shot-bilder zu erzeugen, wobei zunächst das motiv im bild konsistent gehalten wird ebene, und konvertieren sie diese bilder dann in videos und bearbeiten sie sie.
das problem besteht jedoch darin, dass die konsistenz der ki-zeichnung nicht perfekt ist und häufig durch wiederholte änderungen und teilweises neuzeichnen gelöst werden muss. noch wichtiger ist, dass der eigentliche videoproduktionsprozess viele szenen und objektive umfasst. wenn diese methode mehrkomponenten-objektivszenen verarbeitet, ist der arbeitsaufwand für das zeichnen enorm und kann mehr als die hälfte des gesamten prozesses und des endgültigen videoinhalts ausmachen es kann auch an kreativität und flexibilität mangeln, da man sich zu sehr auf geteilte aufnahmen verlässt.
auf der veranstaltung zum tag der offenen tür für medien am 11. september stellte shengshu technology die funktion „subjektreferenz“ vor. mit dieser funktion können benutzer ein bild eines beliebigen motivs hochladen, und vidu kann das bild des motivs sperren und über sie beschreiben kann szenen beliebig wechseln und ein video mit demselben motiv ausgeben.
diese funktion ist nicht auf ein einzelnes objekt beschränkt, sondern auf „jedes subjekt“ ausgerichtet, egal ob es sich um eine person, ein tier, eine ware, eine animationsfigur oder ein fiktives subjekt handelt, sie kann deren konsistenz und kontrollierbarkeit bei der videogenerierung gewährleisten video eine große innovation im bereich der stromerzeugung. vidu ist außerdem das weltweit erste große videomodell, das diese funktion unterstützt.
wenn sie beispielsweise „subjektreferenzen“ für charaktere verwenden, unabhängig davon, ob es sich um reale personen oder fiktive charaktere handelt, kann vidu ihre bilder in verschiedenen umgebungen und unter verschiedenen objektiven konsistent halten. tang jiayu, vorsitzender und ceo von rushengshu technology, zeigte vor ort, dass durch die bereitstellung des bildes von lin daiyu, gespielt von chen xiaoxu, in verschiedenen szenen und unterschiedlichen outfits, die szene, in der „lin daiyu kaffee trinkt“, als „das“ angesehen werden kann gleich lin daiyu".
tang jiayu, vorsitzender und ceo von shengshu technology, demonstrierte vor ort die funktion „themenreferenz“. foto von beijing news shell finance-reporter luo yidan
die kohärenz der ki-videoerstellung wird das zeitalter der vollständigen ki-erzählung erheblich verbessern.
basierend auf dieser funktion erstellte der direktor des china central radio and television station und aigc-künstlers shi yuxiang (senhai fluoreszenz) einen animierten kurzfilm „summer gift“. er teilte den kreativen prozess mit und verglich ihn mit der grundlegenden tusheng-videofunktion die funktion „subjektreferenz“ beseitigt die einschränkungen statischer bilder und die generierten bilder sind ansprechender und freier, was die kohärenz der erstellung erheblich verbessert. gleichzeitig konnte er dadurch rund 70 % des arbeitsaufwands für die bildproduktion einsparen, was die effizienz erheblich steigerte und es ihm ermöglichte, sich mehr auf die ausarbeitung des inhalts der geschichte zu konzentrieren, statt auf die erstellung von bildmaterial. gleichzeitig erleichtert die konsistenz die nachbearbeitung.
shi yuxiang, direktor des china central radio and television station und künstler von aigc, demonstrierte die durch die funktion „themenreferenz“ erstellte animation vor ort. es ist zu erkennen, dass das bild des protagonisten in der animation stabil bleibt. foto von beijing news shell finance-reporter luo yidan
tang jiayu sagte, dass die einführung der neuen funktion „themenreferenz“ den beginn einer vollständigen ki-erzählung darstellt und die erstellung von ki-videos ebenfalls in eine effizientere und flexiblere phase übergehen wird. ob sie kurze videos, animationen oder werbespots produzieren, in der erzählkunst ist ein vollständiges erzählsystem eine organische kombination von elementen wie „konsistentes thema, konsistente szene, konsistenter stil“.
damit ein videomodell narrative integrität erreicht, muss es daher in bezug auf diese kernelemente vollständig kontrollierbar sein. die funktion „körperreferenzierung“ ist für vidu ein wichtiger schritt in richtung konsistenz, aber es ist erst der anfang. in zukunft wird vidu weiterhin erforschen, wie komplexe elemente wie die interaktion mehrerer subjekte, ein einheitlicher stil und ein stabiler wechsel wechselnder szenen präzise gesteuert werden können, um übergeordneten erzählanforderungen gerecht zu werden.
er sagte, dass die videoproduktionsbranche längerfristig einen disruptiven wandel erleben werde, sobald eine umfassende kontrollierbarkeit erreicht sei. bis dahin werden charaktere, szenen, stile und sogar elemente wie objektiveinsatz, licht- und schatteneffekte in flexibel einstellbare parameter umgewandelt. benutzer müssen nur ihre finger bewegen und parameter anpassen, um die erstellung eines bildwerks abzuschließen, und hinter jedem werk steht die einzigartige weltanschauung und der selbstausdruck des benutzers auf der grundlage von ki.
beijing news shell finance-reporter luo yidan, redakteur wang jinyu, liest yang li korrektur
bericht/feedback