sora kommt nach explosion zu fehlzündungen, inländisches videomodell übernimmt und senkt schwellenwert

sora hatte nach der explosion eine fehlzündung und das inländische videomodell übernahm die kontrolle und senkte die schwelle

2024-09-11

es scheint, als wäre es gestern gewesen, dass die branchenexplosion, die durch die einführung des vincent-videomodells sora von openai verursacht wurde, noch nicht offiziell für die öffentlichkeit zugänglich war. im gegensatz dazu werden im jahr 2024 umfangreiche inländische videomodelle intensiv veröffentlicht. obwohl die technologie ständig aktualisiert wird, erfordern die meisten fertigen produkte in der späteren phase immer noch eine manuelle bearbeitung und synthese, was sich auf die geschwindigkeit der technologieimplementierung auf der anwendungsseite auswirkt .

auf dieser grundlage veröffentlichte shengshu technology am 11. september ein funktionsupdate, die weltweit erste „subjektkonsistenz“-funktion, die eine konsistente generierung jedes motivs ermöglicht und die videogenerierung stabiler und kontrollierbarer macht. mit der sogenannten „subjektreferenz“ können benutzer ein bild eines beliebigen motivs hochladen. die ki kann das bild des motivs sperren, szenen durch deskriptoren beliebig wechseln und ein video mit demselben motiv ausgeben.

laut tang jiayu, ceo von shengshu technology, erfordern kurzvideos, animationen, werbespots und andere film- und fernsehwerke, dass das erzählsystem „konsistente themen, konsistente szenen und konsistente stile“ in der erzählkunst aufweist um narrative integrität zu erreichen, ist eine umfassende kontrolle über diese kernelemente erforderlich.

generieren sie mit einem klick ein 32-sekündiges video

das letzte mal, dass shengshu technology eine öffentliche erklärung abgegeben hat, war im april dieses jahres. professor zhu jun, stellvertretender dekan des forschungsinstituts für künstliche intelligenz der tsinghua-universität, mitbegründer und chefwissenschaftler von shengshu technology, veröffentlichte eine langlebige, äußerst konsistente stellungnahme. mit dem hochdynamischen videomodell vidu können sie mit einem klick videos mit einer länge von bis zu 16 sekunden erstellen. mit diesem technischen update können vidu-videos mit einer länge von bis zu 32 sekunden generiert werden.

im jahr 2024 wird sich die gesamte große modellbahn nach dem wahnsinn des vorjahres allmählich beruhigen, und video-großmodelle gelten als einzige möglichkeit, sich in richtung multimodaler großmodelle oder agi zu bewegen. kurzvideounternehmen, vertreten durch kuaishou und bytedance's douyin, große internetunternehmen, vertreten durch alibaba und tencent, und startups, vertreten durch shengshu technology, zhipu ai, aishi technology usw., haben alle nacheinander wichtige videoinhalte veröffentlicht.

laut statistiken von debon securities haben seit der veröffentlichung von sora mehr als ein dutzend unternehmen im in- und ausland videogenerierungsmodelle veröffentlicht oder aktualisiert. objektiv gesehen verringert sich der abstand zwischen inländischen und ausländischen ländern allmählich. grundlegende funktionen wie videodauer und auflösung können in zukunft in richtung nutzergewinnung und verbesserung der stickiness verlagert werden. aus subjektiver sicht ist debon securities der ansicht, dass sich die qualität des vom großen modell generierten videos erheblich verbessert hat, aber immer noch weit vom physischen weltsimulator entfernt ist. videobilder im vincent-videobereich sind im allgemeinen klar, es gibt jedoch große unterschiede im bewegungsbereich und der physischen wiederherstellung. dies ist auch eine der überlegungen für dieses funktionsupgrade.

tang jiayu sagte, dass die aktuelle vidu-generierungszeit von 32 sekunden durchgängig mit einem klick generiert wird und nicht durch spleißen und einfügen von frames generiert wird. der unterschied besteht darin, dass das modell über eine stärkere fähigkeit verfügt, längerfristige informationen zu komprimieren, einschließlich der informationsdarstellung, die eigentlich eher mit dem verständnis der physischen welt und der beziehung zwischen semantischen eingaben zusammenhängt. daher erfordert die verbesserung der dauer eine verbesserung der abstrakten verständnis-, komprimierungs- und verständnisfähigkeiten des modells für die welt, einschließlich seiner generierungsfähigkeiten.

der aigc-künstler shi yuxiang, der den animierten kurzfilm „summer gift“ erstellt hat, glaubt, dass die branche derzeit relativ tolerant gegenüber ki-videos ist und details verbessert werden können, darunter die verarbeitung komplexer linsen, die verarbeitung von linsen mit mehreren zeichen und einiges mehr szenen mit es gibt den umgang mit szeneninszenierungen und so weiter. im vergleich zur grundlegenden funktion zur bildgenerierung von videos beseitigt die funktion „themenreferenz“ die einschränkungen statischer bilder, verbessert die kohärenz der erstellung und spart fast 70 % des arbeitsaufwands für die bildgenerierung.

li ning, der gründer von light chi matrix und ein junger regisseur, nutzte vidu, um vorab einen videoclip des männlichen protagonisten im film zu erstellen, in dem alle charakterszenen mit nur drei endgültigen make-up-fotos des männlichen protagonisten erstellt wurden, nah hoch-, halb- und weitschuss. li ning sagte, dass der bisherige ki-filmerstellungsprozess hauptsächlich auf dem traditionellen textbasierten zeichnungs- und zeichnungsbasierten videoprozess beruhte. es sei schwierig, die gesamtform der charaktere konsistent zu halten es erforderte viel energie, die bilder in der anfangsphase zu debuggen. gleichzeitig ist das bild auch anfällig für eine reihe von problemen wie unkontrollierbares linsenlicht und schatten, bildunschärfe und sogar verformung mit zunehmender videonutzung werden diese probleme noch verstärkt. die „subjektreferenz“-funktion von vidu verbessert die gesamtkonsistenz der charaktere erheblich. sie erfordert nicht mehr die generierung einer großen anzahl von bildern in der anfangsphase, und die charakterbewegungen sind natürlicher, was die erstellung langer erzählungen unterstützen kann.

im wesentlichen besteht die aktualisierung der funktion „themenreferenz“ darin, die qualität der generierung großer videomodelle, die effizienz der kombination von technologie mit bestimmten branchen und die beschleunigung der implementierung von ki in bestimmten anwendungen zu verbessern. derzeit hat shengshu technology ein partnerprogramm gestartet und lädt organisationen aus den bereichen werbung, film und fernsehen, animation, spiele und andere branchen zur teilnahme ein.

das aktuelle geschäftsmodell des videomodells von shengshu technology ist in ein saas-abonnementmodell und eine api-schnittstelle unterteilt. dies ist auch die kommerzielle testmethode, die im bereich großer modelle häufig angewendet wird. bezüglich des spezifischen verteilungsverhältnisses zwischen b-ende und c-ende sagte tang jiayu, dass aus einkommenssicht die einnahmen aus dem b-ende-markt größer seien. einen monat nach der einführung der c-end-produkte ist die wachstumskurve sehr hoch. nach umfassender beurteilung ist die b-seite relativ klar und direkt und enthält eine relativ stabile nachfrage, so dass die b-seite der langfristige fokus des unternehmens sein wird. c-end-produkte befinden sich jedoch noch in der kontinuierlichen erforschung.

als zhang peng, ceo von zhipu, zuvor zhipu qingying (ying) veröffentlichte, sprach er über die erkundung der kommerzialisierung in der branche. er sagte, dass es zum jetzigen zeitpunkt, ob es sich um toc oder tob handelt, noch relativ früh sei, um rein in den großen maßstab zu gehen vermarktung. bei der sogenannten ladestrategie handelt es sich eher um einen frühen versuch. wir werden auch die rückmeldungen des marktes und der nutzer beobachten und rechtzeitig anpassungen vornehmen.

was kommt als nächstes für video-mockups?

zusätzlich zu upgrades und updates auf der spezifischen funktionsebene besteht derzeit in der branche allgemeiner konsens darüber, dass multimodalität der allgemeine trend ist, während große videomodelle ein stufenweiser zustand sind.

in diesem zusammenhang sagte zhang peng, dass die videoerzeugung nicht isoliert existiert, sondern in den gesamten technologie- und produktentwicklungsweg eingebunden ist. zhipu ist der ansicht, dass sie ein bindeglied im multimodalen oder agi-multimodalen weg ist. aus produktsicht wird die videogenerierung auch zu einem eigenständigen produkt, um kommerzialisierung und wertgenerierung zu erreichen. tang jiayu sagte reportern auch, dass die unterste schicht von shengshu ein allgemein großes modell sei und die videoerzeugung nur eine zwischenstufe sei.

wird die intensive veröffentlichung mehrerer videomodelle im zuge der umstellung auf multimodalität zu homogenitätsproblemen führen? in diesem zusammenhang sagte tang jiayu gegenüber reportern, dass sich die zahl der studenten auf dem technischen weg derzeit in einem zustand der konvergenz befinde, homogenität jedoch nicht bedeute, dass alle fortschritte und fähigkeiten gleich seien. beispielsweise werden aktuelle sprachmodelle alle die transformer-architektur beinhalten, aber in wirklichkeit hat openai immer noch deutlich die nase vorn. denn basierend auf der architektur gibt es noch viele links in der mitte, z. b. wie man effektiv skaliert, wie man videos effektiv komprimiert usw., und es gibt viele fähigkeiten und praktische erfahrungen. algorithmenfähigkeiten und algorithmenschwierigkeiten, einschließlich schwierigkeiten bei der algorithmentechnik, sind alles faktoren, die zu den unterschieden in aktuellen großen videomodellen führen.

was die kommerzialisierung betrifft, glaubt tang jiayu, dass die branche hinsichtlich ihrer geschäftsentscheidungen relativ ähnlich ist. sogar unternehmen wie sora und runway nehmen aktiv an hollywood teil oder engagieren sich in werbekooperationen, da es sich in diesen bereichen um bereiche handelt, in denen technologie von natur aus einfach zu implementieren ist. die gesamte branche nutzt ihre eigenen besonderheiten, um voranzukommen. der gesamte bereich der ki-generierten videos befindet sich noch in einem frühen entwicklungsstadium, und führende internationale akteure streben gemeinsam nach vorne, um den markt zu erweitern.

angesichts der intensiven veröffentlichungssituation im bereich videomodelle glaubt zhang peng, dass die branche große anstrengungen unternehmen muss, um die steuerbarkeit zu erreichen. einerseits ist auf technischer ebene die steuerbarkeit des videos selbst eine sehr große anforderung. zweitens muss aus sicherheitsgründen sichergestellt werden, dass der generierte inhalt den anforderungen entspricht, da das videosignal schließlich auch kommerziell anwendbar ist ist notwendig, um die absicht des schöpfers genau zum ausdruck zu bringen und jeden dafür bezahlen zu lassen.

nachdem die grundvoraussetzungen erfüllt sind, konzentrieren sich die aktuellen erwartungen der branche an große videomodelle seit der einführung von sora mehr darauf, dass ki lange videoaufnahmemethoden ersetzt. zhang peng glaubt, dass dies aus sicht der technologischen entwicklung eine wichtige richtung ist und positive bedeutung für veränderungen in der film- und fernsehbranche hat. aber derzeit reichen große videomodelle nicht aus, um direkt im produktionsprozess für das publikum eingesetzt zu werden, sondern sie können für hilfsarbeiten, auch für kleine kreationen, verwendet werden, und es ist noch ein langer weg, bis sich hohe anforderungen wie z als filmproduktion.

was sora betrifft, das bei seinem debüt seinen höhepunkt erreichte und noch nicht für die öffentlichkeit zugänglich gemacht wurde, betrachtet die branche es immer noch als aufholziel. aufgrund der undurchsichtigkeit der technischen details müssen unternehmen jedoch viele aspekte untersuchen eigen. was soras „verschwinden“ angeht, sagte tang jiayu gegenüber reportern, dass die gründe dafür mehrere aspekte haben könnten: video sei nicht die aktuelle hauptlinie von openai; einige probleme mit dem urheberrecht seien während des generierungsprozesses nicht gelöst worden; zeit- und kostenaufwand für die lösung. nicht im einklang mit den unternehmensprioritäten.

zhang peng und zhipu haben sich immer objektiv mit der kluft zwischen ihnen und der weltspitze auseinandergesetzt. gleichzeitig ist er davon überzeugt, dass dieser weg in vielen fällen auch auf eigene faust beschritten werden muss, z b. die rechenleistungskosten für videos senken und die reaktionsgeschwindigkeit erhöhen, damit jeder sie nutzen kann. „während wir technologische höhen anstreben, verfolgen wir gleichzeitig auch die popularisierung der technologie“, sagte zhang peng.

(dieser artikel stammt von china business news)

bericht/feedback

nachricht

sora hatte nach der explosion eine fehlzündung und das inländische videomodell übernahm die kontrolle und senkte die schwelle

einführung

meine kontaktdaten