Ein halbes Jahr ist vergangen, wo ist das KI-Video geblieben?

2024-07-23

Original mit festem Fokus (dingjiaoone).

Autor |. Wang Lu

Herausgeber |. Wei Jia

Seit Sora Anfang dieses Jahres erschien, wollten Menschen im In- und Ausland KI nutzen, um Hollywood zu untergraben. Der jüngste Kreis von KI-Videos wurde nacheinander sehr lebhaft veröffentlicht, und alle drängen darauf, mitzuhalten Sora.

Zwei ausländische KI-Video-Start-ups übernehmen die Führung, ein Unternehmen für künstliche Intelligenz, das das Videogenerierungsmodell Dream Machine auf den Markt bringt Das auf dem Gebiet der KI-Videos bekannte Startup-Unternehmen Runway kündigte außerdem an, dass es einige Benutzer zum Testen des Gen-3-Alpha-Modells öffnen werde, da es Details wie Licht und Schatten erzeugen könne.

Um in China nicht zu übertreffen, hat Kuaishou den Web-Client Keling auf den Markt gebracht, mit dem Benutzer Videoinhalte mit einer Länge von bis zu 10 Sekunden erstellen können und der außerdem über Funktionen zur Steuerung des ersten und letzten Bildes sowie zur Steuerung des Kameraobjektivs verfügt. Sein ursprüngliches KI-Fantasy-Kurzdrama „The Strange Mirror of Mountains and Seas: Chopping Waves“ wird ebenfalls auf Kuaishou ausgestrahlt, wobei alle Bilder von KI erzeugt werden. Das KI-Science-Fiction-Kurzdrama „Sanxingdui: Future Apocalypse“ wurde kürzlich ebenfalls ausgestrahlt und für Bytes KI-Videoprodukt Jimeng produziert.

Die schnelle Aktualisierungsgeschwindigkeit von KI-Videos hat viele Internetnutzer zu der Aussage veranlasst: „Es könnte zu einem weiteren Generalstreik in Hollywood kommen.“

Heute gibt es auf der KI-Videostrecke inländische und ausländische Technologie- und Internetgiganten wie Google, Microsoft, Meta, Alibaba, Byte und Meitu sowie aufstrebende Unternehmen wie Runway und Aishi Technology Von „Fix Focus“, nur im Inland, haben etwa 20 Unternehmen selbst entwickelte KI-Videoprodukte/-modelle auf den Markt gebracht.

Daten des Toubao Research Institute zeigen, dass die Marktgröße der chinesischen KI-Videoerzeugungsindustrie im Jahr 2021 8 Millionen Yuan beträgt, und es wird erwartet, dass diese Marktgröße im Jahr 2026 9,279 Milliarden Yuan erreichen wird. Viele Leute in der Branche glauben, dass der generierte Videotrack im Jahr 2024 einen Midjourney-Moment einläuten wird.

Welchen Entwicklungsstand haben Soras weltweit erreicht? Wer ist der Stärkste? Kann KI Hollywood besiegen?

Belagerung von Sora: Obwohl es viele Produkte gibt, gibt es nur wenige, die verwendet werden können

Es gibt viele Produkte/Modelle, die im AI-Video-Track eingeführt wurden, aber diejenigen, die wirklich von der Öffentlichkeit genutzt werden können, sind sehr begrenzt. , der herausragende Vertreter im Ausland ist Sora, das sich sechs Monate später noch in der internen Testphase befindet und nur Sicherheitsteams sowie einigen bildenden Künstlern, Designern und Filmproduzenten offen steht. Die Situation im Inland ist ähnlich. Das KI-Videoprodukt „Xunguang“ der Alibaba Damo Academy und das KI-Videomodell UniVG von Baidu befinden sich beide in der internen Testphase. Für das derzeit beliebte Kuaishou Keling müssen sich Benutzer anstellen, um es zu verwenden . Dies wurde besprochen.

Einige der verbleibenden verfügbaren KI-Videoprodukte haben festgelegte Nutzungsschwellenwerte und Benutzer müssen bezahlen oder bestimmte Technologien kennen.Wenn Sie beispielsweise nicht über ein wenig Codewissen zu Open-Sora von Luchen Technology verfügen, können Benutzer nicht loslegen.

„Fix Focus“ hat die im In- und Ausland veröffentlichten KI-Videoprodukte sortiert und festgestellt, dass die Bedienungsmethoden und Funktionen der einzelnen Unternehmen ähnlich sind. Der Benutzer verwendet zunächst Text, um Anweisungen zu generieren, und wählt gleichzeitig die Bildgröße aus. Bilddefinition, Generierungsstil, Generierungssekunden und andere Funktionen und schließlich klickt auf „Mit einem Klick generieren“.

Der technische Schwierigkeitsgrad dieser Funktionen ist unterschiedlich. Das Schwierigste ist,Die Auflösung und Sekunden des generierten Videos, Dies ist auch der Schwerpunkt des Wettbewerbs zwischen Unternehmen im AI-Video-Track während der Werbung.Sie hängt eng mit der Qualität der Materialien und der Menge der im Trainingsprozess verwendeten Rechenleistung zusammen.

KI-Forscher Cyrus sagte gegenüber „Fixed Focus“, dass derzeit die meisten KI-Videos im In- und Ausland die Erzeugung von 480p/720p unterstützen und einige wenige hochauflösende 1080p-Videos unterstützen.

Er führte ein, dass das trainierte Modell umso hochwertigere Videos erzeugen kann, je mehr hochwertige Materialien und je höher die Rechenleistung ist. Dies bedeutet jedoch nicht, dass hochwertige Materialien und Rechenleistung auch hochwertige Materialien erzeugen können. Wenn jedoch ein Modell, das mit Materialien mit niedriger Auflösung trainiert wurde, gezwungen wird, ein Video mit hoher Auflösung zu erzeugen, bricht es zusammen oder wiederholt sich, z. B. wenn es mehrere Hände und Beine hat. Diese Art von Problem kann durch Vergrößern, Reparieren und Neuzeichnen gelöst werden, aber die Wirkung und Detailgenauigkeit sind durchschnittlich.

Viele Unternehmen betrachten die Generierung langer Sekunden auch als Verkaufsargument.

Die meisten inländischen KI-Videos unterstützen 2-3 Sekunden, was als relativ starkes Produkt gilt, wenn es 5-10 Sekunden erreichen kann. Es gibt auch einige Produkte, die sehr lang sind, wie z. B. Jimeng, die bis zu 12 Sekunden dauern können, aber keines von ihnen ist so gut wie Sora. Es wurde gesagt, dass das längste 60-Sekunden-Video erstellt wurde, aber da es noch nicht zur Verwendung freigegeben ist, kann die spezifische Leistung nicht überprüft werden.

Die Länge des Lichtfilms reicht nicht aus, auch der generierte Videoinhalt muss angemessen sein. Zhang Heng, Chefforscher von Pomegranate AI, sagte gegenüber „Dingjiao“: Technisch gesehen kann es von der KI verlangt werden, die ganze Zeit etwas auszugeben Meistens wollen wir kein Stück Überwachung. Das Video ist keine sich wiederholende Landschaftsanimation, sondern ein Kurzfilm mit schönen Bildern und Geschichten.

„Fixed Focus“ testete fünf beliebte kostenlose Video-KI-Produkte von Wensheng in China, nämlich Jimeng von Byte, Morph Studio von Morph AI, PixVerse von Aishi Technology, Yiying AI von MewXAI und Vega AI von Right Brain Technology Anleitung: „Ein kleines Mädchen in einem roten Kleid fütterte im Park ein kleines weißes Kaninchen mit Karotten.“

Die Generierungsgeschwindigkeit mehrerer Produkte ist ähnlich und dauert nur 2-3 Minuten, aber die Klarheit und Dauer sind ziemlich unterschiedlich und die Genauigkeit ist noch „chaotischer Tanz“. Die Ergebnisse sind wie folgt:

Yiying KI

Vega KI

ein Traum

Morph

Pix Verse

Die Vor- und Nachteile jedes einzelnen liegen auf der Hand. Obwohl das Spiel von kurzer Dauer war, war die Qualität des Spiels nicht hoch. Das kleine Mädchen, die Hauptfigur, hatte in den späteren Phasen ebenfalls das gleiche Problem. Die Bildqualität von PixVerse ist relativ schlecht.

Im Vergleich dazu ist der von Morph generierte Inhalt genau, allerdings nur für kurze 2 Sekunden. Die Bildqualität von Yiying ist ebenfalls gut, aber es versteht den Text nicht gut und verliert direkt das Schlüsselelement des Kaninchens, und das generierte Video ist nicht realistisch genug und hat eher einen Comic-Stil.

Kurz gesagt: Kein Produkt kann ein Video bereitstellen, das den Anforderungen entspricht.

Herausforderungen bei KI-Videos: Genauigkeit, Konsistenz, Fülle

Die Erfahrung mit „Fixed Focus“ unterscheidet sich stark von den Werbevideos verschiedener Unternehmen. Wenn KI-Videos wirklich kommerzialisiert werden sollen, ist es noch ein weiter Weg.

Zhang Heng sagte gegenüber „Fixed Focus“, dass sie aus technischer Sicht hauptsächlich die Ebenen verschiedener KI-Videomodelle aus drei Dimensionen betrachten:Genauigkeit, Konsistenz, Reichtum.

Wie man diese drei Dimensionen versteht, gab Zhang Heng ein Beispiel.

Erstellen Sie beispielsweise ein Video von „zwei Mädchen, die sich auf dem Spielplatz ein Basketballspiel ansehen“.

Die Genauigkeit spiegelt sich wider in: erstens dem genauen Verständnis der Inhaltsstruktur, zum Beispiel, wenn es zwei Mädchen im Video gibt, zweitens der Genauigkeit der Prozesskontrolle, zum Beispiel, nachdem der Schuss gemacht wurde, sollte der Basketball allmählich sinken aus dem Netz; schließlich ist die statische Datenmodellierung korrekt. Wenn sich beispielsweise ein Hindernis in der Linse befindet, kann sich der Basketball nicht in einen Fußball verwandeln.

Konsistenz bezieht sich auf die Fähigkeit der KI, Raum und Zeit zu modellieren, was auch die Aufmerksamkeit des Subjekts und die langfristige Aufmerksamkeit umfasst.

Der Hauptfokus kann so verstanden werden, dass die beiden kleinen Mädchen während des Anschauens eines Basketballspiels immer im Bild bleiben müssen und nicht beiläufig herumlaufen können Es darf auch keine Auffälligkeit wie Verformung vorliegen.

Richness bedeutet, dass die KI auch über eine eigene Logik verfügt und auch ohne Textaufforderungen einige sinnvolle Details generieren kann.

Grundsätzlich kann keines der KI-Videotools auf dem Markt die oben genannten Dimensionen vollständig erreichen, und jedes Unternehmen schlägt ständig Lösungen vor.

Zum Beispiel im Hinblick auf die Charakterkonsistenz, die im Video sehr wichtig ist, dachten Meng und Keling darüber nach, sie zu verwenden Tusheng Video ersetzt Vincent Video. Das heißt, der Benutzer verwendet zuerst Text, um Bilder zu generieren, und verwendet die Bilder dann, um Videos zu generieren, oder gibt direkt ein oder zwei Bilder an und die KI verbindet sie zu einem bewegten Video.

„Aber das ist kein neuer technologischer Durchbruch, und Tusheng-Videos sind weniger schwierig als Vincent-Videos“, sagte Zhang Heng gegenüber „Dingzhong“. Das Prinzip von Vincent-Videos besteht darin, dass die KI zunächst den vom Benutzer eingegebenen Text analysiert und ihn in eine Komponente zerlegt Spiegeln Sie die Beschreibung, wandeln Sie die Beschreibung in Text um und wandeln Sie sie dann in Bilder um. Durch Verbinden dieser Bilder erhalten Sie ein Video mit kontinuierlicher Aktion. Tusheng Video ist gleichbedeutend damit, der KI ein bestimmtes Bild zu geben, das nachgeahmt werden kann, und das generierte Video setzt die Gesichtszüge im Bild fort, um eine Konsistenz des Protagonisten zu erreichen.

Er sagte auch, dass die Wirkung von Tusheng-Videos in tatsächlichen Szenarien eher den Erwartungen der Benutzer entspreche, da der Text nur begrenzte Möglichkeiten habe, Bilddetails auszudrücken, aber noch nicht im Handel erhältlich sei. Intuitiv gesehen ist 5 Sekunden die Obergrenze für Tusheng-Videos. Wenn es länger als 10 Sekunden ist, bedeutet dies möglicherweise nicht viel. Entweder wird der Inhalt wiederholt oder die Struktur wird verzerrt und die Qualität nimmt ab.

Derzeit verwenden viele Kurzfilme und Fernsehfilme, die behaupten, KI für den gesamten Produktionsprozess zu verwenden, meist Tusheng-Video oder Video-zu-Video.

Jimengs letzte Frame-Funktion verwendet auch Tusheng-Video, und es wurde speziell ein „fester Fokus“ ausprobiert. Die Ergebnisse sind wie folgt:

Beim Zusammenfügen erscheinen die Zeichen deformiert und verzerrt.

Cyrus sagte auch, dass Videos kohärent sein sollten, die die Bild-zu-Video-Konvertierung unterstützen. Ob die Vorhersage korrekt ist, hängt immer noch vom Glück ab.

Es versteht sich, dassWenn es darum geht, die Konsistenz der Protagonisten in Vincent Video zu erreichen, verlassen sich nicht alle Unternehmen ausschließlich auf die Datengenerierung.Zhang Heng sagte, dass die meisten Modelle auf dem ursprünglich zugrunde liegenden großen DIT-Modell basieren und mit verschiedenen Technologien wie ControlVideo (einer vom Harbin Institute of Technology und Huawei Cloud vorgeschlagenen steuerbaren Text-Video-Generierungsmethode) überlagert werden, wodurch das Verständnis der KI für den Protagonisten vertieft wird . Das Gedächtnis der Gesichtszüge verhindert, dass sich das Gesicht während der Bewegung stark verändert.

Allerdings befindet es sich noch im experimentellen Stadium. Selbst mit der technischen Überlagerung ist das Problem der Charakterkonsistenz nicht vollständig gelöst.

KI-Video, warum entwickelt es sich langsam?

Im KI-Kreis sind derzeit die USA und China am beliebtesten.

Aus dem entsprechenden Bericht der „World's Most Influential Artificial Intelligence Scholars in 2023“ (als „AI 2000 Scholars“-Liste bezeichnet) geht hervor, dass von 2020 bis 2023 unter den 1.071 Institutionen, die in die globale „AI 2000 Scholars“-Liste aufgenommen wurden, In den letzten vier Jahren gab es in den USA 443 „AI 2000 Institutions“, gefolgt von China mit 137. Gemessen an der Länderverteilung der „AI 2000 Scholars“ im Jahr 2023 haben die Vereinigten Staaten mit 1.079 Personen die größte Anzahl ausgewählter Personen , das 54,0 % der weltweiten Gesamtzahl ausmacht, gefolgt von China mit 280 ausgewählten Personen.

In den letzten zwei Jahren hat die KI nicht nur große Fortschritte bei vinzentinischen Bildern und vinzentinischer Musik gemacht, sondern auch bei KI-Videos, die am schwierigsten zu durchbrechen sind, einige Durchbrüche erzielt.

Auf der kürzlich abgehaltenen Weltkonferenz für künstliche Intelligenz erklärte Le Yuan, ein Partner von Etian Capital, öffentlich, dass die Videoerzeugungstechnologie in den letzten zwei oder drei Jahren weit über den Erwartungen liegende Fortschritte gemacht habe. Liu Ziwei, Assistenzprofessor an der Nanyang Technological University in Singapur, glaubt, dass sich die Videoerzeugungstechnologie derzeit im GPT-3-Ära befindet und noch etwa ein halbes Jahr von ihrer Reife entfernt ist.

Leyuan betonte dies jedoch auchSein technisches Niveau reicht noch nicht aus, um eine groß angelegte Kommerzialisierung zu ermöglichenDie verwendeten Methoden und Herausforderungen bei der Entwicklung von Anwendungen auf Basis von Sprachmodellen sind auch auf videobezogene Anwendungsfelder anwendbar.

Das Erscheinen von Sora zu Beginn des Jahres schockierte die Welt. Sein neues Verbreitungsmodell DiT, das auf der Transformer-Architektur basiert, sorgt für technologische Durchbrüche bei der Verbreitung und Erzeugung, verbessert die Qualität und den Realismus der Bilderzeugung und macht KI-Videos zu einem großen Durchbruch. Cyrus sagte, dass derzeit die meisten Vincent-Videos im In- und Ausland eine ähnliche Technologie verwenden.

Bildquelle/offizielle Website von Sora

Derzeit sind sich alle hinsichtlich der zugrunde liegenden Technologie im Grunde einig. Obwohl jedes Unternehmen auch auf dieser Grundlage nach technologischen Durchbrüchen strebt, werden immer mehr Daten trainiert, um die Produktfunktionen zu bereichern.

Bei Verwendung von Jimeng von Byte und Morph Studio von Morph AI können Benutzer auswählen, wie das Video verschoben werden soll. Das Prinzip dahinter ist, dass die Datensätze unterschiedlich sind.

„In der Vergangenheit waren die Bilder, die verschiedene Unternehmen während der Schulung verwendeten, relativ einfach. Sie markierten meist, welche Elemente im Bild vorhanden waren, erklärten jedoch nicht, mit welchem Objektiv dieses Element aufgenommen wurde. Dies führte auch dazu, dass viele Unternehmen diese Lücke entdeckten Sie verwendeten 3D. Der Rendering-Videodatensatz ergänzt die Objektivfunktionen.“ Zhang Heng sagte, dass die aktuellen Daten aus Renderings aus der Film- und Fernsehindustrie sowie Spielefirmen stammen.

„Fixed Focus“ hat diese Funktion auch ausprobiert, der Objektivwechsel war jedoch nicht sehr offensichtlich.

Der Grund, warum sich Sora langsamer entwickelt hat als GPT und Midjourney, liegt darin, dass es eine andere Zeitachse hat und das Training von Videomodellen schwieriger ist als das Trainieren von Text und Bildern. „Alle Video-Trainingsdaten, die jetzt verwendet werden können, sind erschöpft, und wir denken auch über neue Wege nach, um eine Reihe von Daten zu erstellen, die für das Training verwendet werden können.“

Und jedes KI-Videomodell hat seinen eigenen Stil, in dem es gut ist. Kuaishou Kelings Ess- und Rundfunkvideos sind beispielsweise besser, weil dahinter eine große Menge solcher Datenunterstützung steckt.

Shen Renkui, Gründer von Pomegranate AI, glaubt, dass KI-Videotechnologien Text zu Video (Text zu Video), Bild zu Video (Bild zu Video), Video zu Video (Video zu Video) und Avatar zu Video (digitaler Mensch) umfassen. die angepasst werden können Digitale Menschen mit Bild und Stimme wurden im Marketingbereich eingesetzt und haben das Niveau der kommerziellen Nutzung erreicht, während Vincent Video noch die Probleme der Genauigkeit und Kontrollierbarkeit lösen muss.

Ob es sich in diesem Moment um das von Douyin und Bona gemeinsam produzierte KI-Science-Fiction-Kurzdrama „Sanxingdui: Future Apocalypse“ oder das ursprünglich von erstellte KI-Fantasy-Kurzdrama „Mountains and Seas Strange Mirror: Cutting Waves“ handelt Kuaishou, immer mehr große Modellunternehmen suchen aktiv nach Film- und Fernsehproduktionsteams. Für die Zusammenarbeit besteht die Notwendigkeit, die eigenen Technologieprodukte zu bewerben, und die Werke sind nicht außerhalb der Branche.

Im Bereich der Kurzvideos hat KI noch einen langen Weg vor sich und es ist sogar verfrüht zu sagen, dass sie Hollywood töten wird.

*Das Titelbild stammt von Pexels.

Nachricht