minimax schließt sich dem nahkampf der videogeneration an. ist das erstellen von videos mit großen models das ende der welt?

2024-09-01

ein weiteres heimisches einhorn gesellt sich zum gewirr der video-generation-modelle.

am 31. august trat minimax, einer der stets zurückhaltenden „six little dragons of ai“, offiziell zum ersten mal öffentlich auf und veranstaltete in shanghai eine veranstaltung zum „minimax link partner day“. bei dem treffen kündigte minimax-gründer yan junjie die einführung von modellen zur videogenerierung und musik an. darüber hinaus prognostizierte er, dass in den nächsten wochen eine neue version des großen modells abab7 erscheinen wird, das in geschwindigkeit und wirkung mit gpt-4o mithalten kann.

der externe name dieses videogenerierungsmodells lautet video-1, und minimax gibt nicht viel über die spezifischen parameter bekannt. yan junjie erwähnte, dass video-1 im vergleich zu den videomodellen auf dem markt die eigenschaften einer hohen komprimierungsrate, einer guten textantwort und verschiedener stile aufweist und native videos mit hoher auflösung und hoher bildrate erzeugen kann. derzeit bietet video-1 nur wensheng-videos. in zukunft wird das produkt auf tusheng-videos, bearbeitbarkeit, steuerbarkeit und anderen funktionen basieren.

derzeit können sich alle benutzer auf der offiziellen website von conch ai anmelden, um die videogenerierungsfunktion von video-1 zu erleben. nach eingabe eines einfachen eingabeaufforderungsworts und etwa 6-minütiger wartezeit. zweites video generiert werden kann. dem ausgabeeffekt nach zu urteilen, deckt das bild im wesentlichen die in den aufforderungswörtern genannten punkte ab. die hohe auflösung und die farbtöne sind ästhetisch akzeptabel. der bereich, der verbessert werden kann, sind die gesichtsdetails der charaktere.

während der diskussionsrunde der konferenz erwähnte yan junjie, dass großmodelle ein sehr heißes feld zu sein scheinen, es aber auch viele bereiche gibt, in denen es keinen konsens gibt: „ob wir 2b oder 2c machen wollen, ob wir wollen.“ tun sie es im inland oder im ausland, ob das skalierungsgesetz eine fortsetzung haben kann ...“ und so weiter.

trotz so vieler uneinigkeit könnte die videoerzeugung in diesem jahr der konsens der großen modellhersteller sein.

seit openai im februar dieses jahres das große videomodell „sora“ herausgebracht hat, veröffentlichte shengshu technology im juni das große ki-videomodell „keling a“. eine woche später wurde das vincent-videomodell dream machine veröffentlicht. anfang juli gab die alibaba damo academy bekannt, dass das vincent-videomodell gen-3 alpha für alle benutzer zugänglich ist ende juli veröffentlichte aishi technology pixverse v2 und anschließend veröffentlichte zhipu offiziell das qingying-video, und anfang august wurde bytedream ai im app store eingeführt ...

vor einem jahr gab es nur sehr wenige öffentlich zugängliche vincent-videomodelle auf dem markt. in nur wenigen monaten haben wir das aufkommen dutzender modelle der videogeneration erlebt. ein brancheninsider beklagte, dass das vergangene jahr eine beispiellose zeit gewesen sei ki-videogenerierung. ein historischer moment.

in dem interview fragte ein reporter von china business news nach der notwendigkeit der minimax-layout-videoerstellung, der wesentliche grund sei, dass sich die informationen der menschlichen gesellschaft eher in multimodalen inhalten widerspiegeln jeder tag ist kein text, sondern nur dynamischer inhalt. wenn sie xiaohongshu öffnen, sind es nur bilder und texte, wenn sie douyin öffnen, sind es nur videos, und selbst wenn sie pinduoduo öffnen, sind es meistens bilder. textinteraktionen sind nur sehr häufig anzutreffen. der kleinere teil betrifft eher sprach- und videointeraktionen.

um als großer modellhersteller eine sehr hohe benutzerabdeckung und eine höhere nutzungstiefe zu erreichen, besteht die einzige möglichkeit darin, multimodale inhalte ausgeben zu können, anstatt nur rein textbasierte inhalte auszugeben, erklärte yan junjie ein kernurteil.

„es ist nur so, dass wir sehr früh zuerst text, dann ton und bilder erstellt haben. jetzt, da die technologie stärker geworden ist, können wir auch videos erstellen. dieser weg ist konsistent und wir müssen in der lage sein, multi-mode-state-yan zu erstellen.“ sagte junjie.

der weg zur videogenerierung ist jedoch schwierig, wenn man sich nur die veröffentlichung von sora durch openai zu beginn des jahres ansieht. es wurde noch nicht offiziell für die außenwelt veröffentlicht, und wir können auch einen blick auf einige herausforderungen in der branche werfen.

einerseits entsprechen die aktuellen ergebnisse der videogenerierung bei weitem nicht den erwartungen der benutzer. das modell versteht keine physikalischen regeln und der generierungsprozess ist schwer zu kontrollieren. video-, bild- und dreidimensionale generierungsalgorithmen werden auf viele strukturelle und detaillierte probleme stoßen, zum beispiel wird eine sache mehr wachsen oder eine sache wird fehlen, oder die hand wird die form in den menschlichen körper eindringen, insbesondere diese mit videos von physikalischen regeln lassen sich derzeit nur schwer generieren.

in dem interview sagte yan junjie auch, dass „diese angelegenheit ziemlich schwierig ist“, sonst hätten so viele unternehmen, die behaupten, dies zu tun, es bereits getan. die arbeitskomplexität von videos ist schwieriger als die von texten, da der kontexttext von videos natürlich sehr lang ist. beispielsweise verfügt ein video über zig millionen ein- und ausgänge, was natürlich ein schwieriger prozess ist. zweitens ist die videomenge sehr groß, ein 5-sekunden-video mit etwa 100 wörtern kann jedoch nicht einmal 1 kb an daten umfassen.

„die herausforderung besteht darin, dass die art und weise, wie die auf text basierende infrastruktur zur verarbeitung von daten verwendet wird, wie die daten bereinigt werden und wie sie gekennzeichnet werden, nicht für videos geeignet ist.“ zweitens: es gibt viele offene quellen für das schreiben von texten. wenn sie videos erstellen, gibt es nicht so viele wenn der inhalt erstellt ist, werden sie feststellen, dass er erneut erstellt werden muss, was mehr geduld erfordert.

branchenpraktiker sagten reportern zuvor, dass die aktuelle videogeneration ein bisschen wie die bildgenerierung sei. am vorabend des jahres 2022, nachdem stable diffusion im august 2022 open source wurde, begann die aigc-bildgenerierung zu explodieren, aber derzeit gibt es keine besonders leistungsstarke „open source“. „im bereich der videogenerierung. sora“ wird veröffentlicht, jeder muss noch den weg erkunden.

qiming venture partners veröffentlichte im juli die „zehn perspektiven für generative ki im jahr 2024“. eine davon ist, dass die videoerzeugung in drei jahren explodieren wird. sie glauben, dass steuerbare videoerzeugung in kombination mit 3d-fähigkeiten auswirkungen auf film, fernsehen und fernsehen haben wird. animationen und kurzfilme bringen veränderungen mit sich. die komprimierungsrate zukünftiger latenter bild- und videodarstellungen wird sich um mehr als das fünffache erhöhen, was zu einer mehr als fünfmal schnelleren generierung führt.

(dieser artikel stammt von china business news)

bericht/feedback

nachricht

minimax schließt sich dem nahkampf der videogeneration an. ist das erstellen von videos mit großen models das ende der welt?

einführung

meine kontaktdaten