Video-Generationskrieg 2.0! Dachang ist verrückt nach den zugrunde liegenden model

Video-Generationskrieg 2.0!Dachang rollt wie verrückt das untere Model

2024-07-24

Smart Things (öffentliches Konto:Abonnieren）
AutorVanille
bearbeitenLi Shuiqing

Um über die beliebtesten Strecken für große Modelle im Jahr 2024 zu sprechen, muss die Videogenerierung auf der Liste stehen.

Nachdem Sora im Februar eine neue Ära der KI-Videogenerierung eingeläutet hatte, brachte die intensive Modellveröffentlichung im Juni dieses Jahres den Krieg um die Videogenerierung auf einen neuen Höhepunkt.

„Die nächste Generation von KI-Filmen und -Fernsehen ist da“, „Es ist so laut, es ist, als würde man singen und dann tauchen wir auf“, „Es gibt endlich Hoffnung, die PPT-Ära loszuwerden“, „Es scheint, dass KI zum Einsatz kommen wird.“ bald MVs zu produzieren.“

Seit der Veröffentlichung von Sora, super8HeimInländische und ausländische KI-Unternehmen bringen nacheinander neue Produkte oder Modelle auf den Markt und bringen auf Schritt und Tritt neue Produkte hervor.mehr als 10 SekundenVideos sind öffentlich zugänglich, einige sollen schon seit längerem im Einsatz sein2 MinutenDer Track zur ultralangen Videogenerierung und KI-Videogenerierung hat einen heißen 2.0-Krieg ausgelöst.

Hier entlang,ByteSeien Sie der Erste, der das KI-Videogenerierungsprodukt Jimeng auf den Markt bringt, das die Videogenerierungszeit von den üblichen 3-4 Sekunden auf 12 Sekunden verlängert;schneller ArbeiterDas große Modell von Ke Ling wurde plötzlich veröffentlicht und der atemberaubende Effekt löste hitzige Diskussionen im Internet aus. Die Zahl der Menschen, die sich anstellten, betrug fast eine Million.

▲Die Anzahl der Bewerber, die in der Schlange für Kuaishou Keling warten

Da drüben, StartupsLuma AI„Verzichten Sie auf die 3D-Videoprojektion“ und veröffentlichen Sie „Dream Machine“, um mit erfahrenen Spielern ins Spiel zu kommenRunwayUm nicht zu übertreffen, brachte das Unternehmen eine neue Generation von Gen-3-Modellen auf den Markt und steigerte damit seine physikalischen Simulationsfähigkeiten auf ein neues Niveau.

▲Gen-3-Videogenerierungseffekt

Auf dem Schlachtfeld der Finanzierung ist der Krieg ebenso heftig. inländisch,Aishi-Technologie, Shengshu-TechnologieSeit März hat es sukzessive Finanzierungen in Milliardenhöhe im Ausland erhalten;PikaIm Juni erhielt das Unternehmen eine Finanzierung in Höhe von 80 Millionen US-Dollar und verdoppelte damit seinen Wert auf 500 Millionen US-Dollar.RunwayEs wurde bekannt, dass man eine Finanzierung von bis zu 450 Millionen US-Dollar vorbereitet.

Sora ist wie ein Blockbuster, der die Welt der KI-Videogenerierung schockiert hat. Wie sind nun nach fünf Monaten intensiver Verfolgung die Fortschritte bei Produkten zur KI-Videogenerierung im In- und Ausland? Können sie mit Sora konkurrieren? Vor welchen Herausforderungen wird es stehen? Durch horizontale Erfahrungen mit verfügbaren Produkten und Diskussionen mit Praktikern und Entwicklern bietet Zhidongxi eine eingehende Analyse dieser Probleme.

Bei der tatsächlichen Messung kann ich deutlich spüren, dass die Geschwindigkeit der Videogenerierung schneller geworden ist, das „Rollover“-Phänomen stark reduziert wurde und sich das einfache Schwenken im „PPT-Stil“ zu Bewegungen mit Winkeln und Bewegungsänderungen entwickelt hat. Nach allgemeiner Erfahrung sind die besten Ergebnisse unter den kostenlosen Produkten Jimeng und Keling, die in Bezug auf Dauer, Stabilität und physikalische Simulation führend sind.

Was die Finanzierung betrifft, so sind Dichte und Umfang der Finanzierung im Zusammenhang mit der KI-Videoerzeugung im Vergleich zu vor der Veröffentlichung von Sora deutlich gestiegen und haben in fünf Monaten mehr als 4,4 Milliarden angezogen. Dies hat auch andere Produkte im „Upstream- und Downstream“-Bereich vorangetrieben. des Videoproduktionsprozesses, wie KI-Bearbeitung, KI-Beleuchtung usw., werden vom Kapital bevorzugt. Darüber hinaus kommen viele neue Spieler ins Spiel, und einige haben Hunderte Millionen Gelder eingesammelt, bevor sie Produkte oder Technologien auf den Markt gebracht haben.

1. Technischer Kampf: Rolldauer, Roll-High-Definition, Rollphysiksimulation

Am 16. Februar veröffentlichte OpenAI Sora, das über Nacht den Weg der KI-Videogenerierung auf den Kopf stellte. Fünf Monate später ist Sora jedoch immer noch ein Zukunftsprodukt, und es scheint weit entfernt zu sein, wann es der breiten Öffentlichkeit zugänglich sein wird.

In dieser Zeit haben große in- und ausländische Hersteller und Start-ups beeilt, neue Produkte oder Modell-Upgrades herauszubringen, und die meisten von ihnen waren für alle Benutzer zugänglich. Dies hat auch das Muster von KI-Videos verändert Generation erneut. Denn egal wie gut Sora ist, welchen Wert hat es, wenn man es nicht verwenden kann?

Nach unvollständigen Statistiken aus Zhidongxi gab es seit der Veröffentlichung von Sora mindestens solche8 HäuserDas Unternehmen brachte neue Produkte oder Modelle auf den Markt, alle außer Vidu von Shengshu TechnologyÖffentlich verfügbar。

▲Produktveröffentlichung/Modellaktualisierung zur KI-Videogenerierung (Smart East-West Tabulation)

21. FebruarStabilitäts-KI Die Webversion des KI-Videogenerierungsprodukts Stable Video wurde offiziell eingeführt und steht allen Benutzern offen. Obwohl das zugrunde liegende Modell, Stable Video Diffusion, im November letzten Jahres als Open Source veröffentlicht wurde, gelten als Modell immer noch bestimmte Bereitstellungs- und Nutzungsschwellen. Nach der Paketierung und Veröffentlichung als Webversion können mehr Benutzer einfach und bequem loslegen.

27. AprilShengshu-TechnologieGemeinsam mit der Tsinghua-Universität veröffentlichte Vidu ein großes, hochkonsistentes und hochdynamisches Videomodell mit langer Dauer, das Videos mit einer Länge von bis zu 16 Sekunden und einer Auflösung von 1080P generieren und die reale physische Welt imitieren kann .

Der veröffentlichten Demo nach zu urteilen, hat Vidu tatsächlich gute Ergebnisse in Bezug auf Klarheit, Bewegungsumfang, physikalische Simulation usw. erzielt. Leider wurde Vidu, wie auch Sora, noch nicht veröffentlicht. Zhidongxi fragte Shengshu Technology und erfuhr, dass das Produkt in naher Zukunft mit internen Tests beginnen wird.

▲Shengshu Technology Vidu-Videodemo

9. MaiByteDreamina, die KI-Erstellungsplattform von Jiuying, wurde in „Jimeng“ umbenannt und hat Funktionen für KI-Zeichnung und KI-Videogenerierung eingeführt, die die Erstellung von Videos mit einer Länge von bis zu 12 Sekunden unterstützen.

6. Junischneller Arbeiter Das KI-Video-Großmodell Keling wird in der Kuaiying-App veröffentlicht und gestartet. Benutzer müssen lediglich einen Fragebogen ausfüllen, um sich für die Nutzung zu bewerben. Das Keling Large Model konzentriert sich auf die hochintensive Simulation der Eigenschaften der physischen Welt, wie zum Beispiel des „Nudeln essen“-Problems, das viele KIs überfordert, was sich in den bereitgestellten Videofällen widerspiegelt.

Derzeit unterstützt Keling die Erstellung von Videos mit einer festen Dauer von 5 Sekunden und 10 Sekunden. Laut seiner offiziellen Website kann das Modell ein Video von bis zu 2 Minuten mit einer Bildrate von 30 Bildern pro Sekunde und einer Auflösung von 1080P erstellen. Funktionen wie die Videofortsetzung werden in Zukunft eingeführt.

Am 13. Juni wurde ein Startup gegründet, das sich bisher hauptsächlich auf KI-generiertes 3D konzentrierteLuma AIAnkündigung der Einführung des Videogenerierungstools Dream Machine, das die Generierung von 5-Sekunden-Videos aus Text und Bildern unterstützt. Außerdem bietet es eine Videoverlängerungsfunktion, mit der das generierte Video jeweils um 5 Sekunden verlängert werden kann.

17. JuniRunway Die neue Alpha-Version des Modells Gen-3 wird veröffentlicht und steht am 2. Juli allen zahlenden Benutzern mit einer Mindestabonnementgebühr von 15 US-Dollar pro Monat zur Verfügung. Gen-3 unterstützt derzeit die Erstellung von 5-Sekunden- und 10-Sekunden-Videos auf Basis von Tusheng Video und andere steuerbare Tools sind noch nicht verfügbar.

▲Gen-3 Alpha generiert Videoeffekte

6. JuliIntelligente Zukunft(HiDream) hat das Intelligent Image Model 2.0 auf WAIC veröffentlicht, das drei Videogenerierungsdauern von 5, 10 und 15 Sekunden bietet und Funktionen wie Texteinbettungsgenerierung, Skript-Multishot-Videogenerierung und IP-Konsistenz hinzufügt.

Am 17. Juli startete ein britisches KI-Startup, das sich zuvor auf die KI-3D-Rekonstruktion konzentrierteHaiper KI, gab bekannt, dass sein KI-Videogenerierungsprodukt Haiper auf Version 1.5 aktualisiert wurde, wobei die Dauer auf 8 Sekunden verlängert wurde und Funktionen wie Videoverlängerung und Verbesserung der Bildqualität bereitgestellt wurden.

Die folgende Tabelle zeigt die Generierungszeit, Auflösung, Bildrate und andere Parameter dieser Modelle sowie zusätzliche Funktionen zusätzlich zur Basisgenerierung.

▲Verbesserte Produktparameter für die KI-Videogenerierung (Smart East-West Tabulation)

Aus Parametersicht haben diese KI-Videogenerierungsprodukte zunächst erhebliche Fortschritte bei der Generierungszeit erzielt. Die Basisgenerierungszeit wurde von zuvor 2 bis 4 Sekunden auf 5 Sekunden verlängert, und mehr als die Hälfte von ihnen unterstützt Dauern über 10 Sekunden und einige Das Produkt bietet Erweiterungsfunktionen. Unter den derzeit kostenlos erhältlichen Produkten ist das längste von Jimeng generierte Video 12 Sekunden lang.

In Bezug auf visuelle Effekte wurden Auflösung und Bildrate erheblich verbessert. Es gibt mehr Produkte, die 720P und höher unterstützen, und die Bildrate liegt auch näher bei 24/30 fps. Die meisten von früheren Produkten generierten Videoauflösungen lagen bei etwa 1024*. 576 und die Bildrate lag bei etwa 1024*576. Die Rate beträgt meist 8-12fps.

2. Produktkrieg:Praxistest6 freie „Plätze“, „Dikkuai“ weist den Weg

Als Sora zum ersten Mal veröffentlicht wurde, hatte Zhixixi umfassende Erfahrungen mit 8 in China verfügbaren KI-Videogenerierungstools. Damals war die Lücke noch relativ offensichtlich und es gab viele „Überschläge“. (Die erste „chinesische Version von Sora“ im gesamten Netzwerk wurde rezensiert! 15 Unternehmen konkurrierten, allen voran Byte)

Wie schlagen sich die Spieler, die neue Antworten eingereicht haben, nach mehreren Monaten iterativer Upgrades? Zhidongxi hat die neu veröffentlichten oder aktualisierten Produkte zur KI-Videogenerierung ausprobiert. Der Fairness halber haben wir nur die kostenlosen Funktionen ausprobiert und die zum ersten Mal generierten Videos ausgewählt.

Es ist zu beachten, dass die Videogenerierung selbst ein Glückselement hat, das dem „Kartenziehen“ ähnelt, und auch eng mit dem Schreiben prompter Wörter zusammenhängt. Daher spiegelt eine kleine Anzahl von Fällen die Fähigkeiten des Modells nicht vollständig wider.

Ich habe mich für die erste Ebene entschiedenStilllebenszene, das Aufforderungswort lautet:Nahaufnahme von Tulpen im warmen Licht des Sonnenuntergangs。

Stabiles Video zeigt bei dieser Eingabeaufforderung eine hohe Stabilität und gleichzeitig sind die Bildschärfe und Farbsättigung relativ hoch. Bei der Bewegung steht die Bewegung des Objektivs im Vordergrund.

▲Stabiles Video generiert Videos

Die Bildschärfe von Dream Machine ist offensichtlich etwas schlechter, aber die Leistung der Aufforderungsworte ist immer noch relativ genau, und auch die Bewegung basiert hauptsächlich auf der Übersetzung des Objektivs.

▲Dream Machine generiert Videos

Das von Haiper generierte Video hat gute visuelle Effekte, aber der Bewegungsbereich ist etwas kleiner.

▲Haiper generiert Videos

Die Leistung des großen Modells von Zhixiang ist ebenfalls gut und das Bild weist einen starken Tiefenschärfeeffekt auf. Wenn Sie sich die Blütenblätter jedoch genau ansehen, werden Sie feststellen, dass es Detailfehler und Instabilität gibt.

▲Zhixiang-Video zur großen Modellgeneration

Ji Meng erzeugte ein Bild mit festem Objektiv, dessen Bewegung hauptsächlich durch das Zittern der Tulpen dominiert wurde und der Gesamteffekt relativ stabil war.

Das von Keling erstellte Video zeigt das Aufforderungswort „Nahaufnahme“ in extremer Form. Gleichzeitig ist das Bild hochauflösend und zeigt die Textur der Blütenblätter. Aber wie man „Nahaufnahme von Tulpen“ versteht, ist keine Frage mit einer festen Antwort, daher ist es unmöglich zu sagen, wer Recht und wer Unrecht hat.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Keling generiert Videos

Insgesamt ist die Leistung verschiedener Player bei Stilllebenszenen sehr stabil und die Benutzerfreundlichkeit der generierten Videos ist sehr hoch.

Ich habe mich für die zweite Ebene entschiedenTierszeneund hinzugefügte Elemente der Stilisierung und dynamischen Aktion. Die Aufforderungswörter sind:Eine Cartoon-Känguru-Tanzdisco . Dies ist tatsächlich einer der von Sora bereitgestellten Fälle. Schauen wir uns zunächst Soras Beweisführung an.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲Sora generiert einen Videofall

Stabiles Video „kommt auf die Straße“ auf diesem Niveau. Das erste Bild des Bildes ist perfekt – dies hängt möglicherweise mit dem Pfad zusammen, den Stable Video beim Generieren des Videos gewählt hat. Während des Generierungsprozesses werden zunächst 4 Bilder generiert, die der Benutzer auswählen kann, und dann das Video basierend darauf generiert Vom Benutzer ausgewähltes Bild - und dann begann sich der ganze Körper des Kängurus zu verdrehen und zu verformen.

Interessanter ist, dass die Charaktere und anthropomorphen Tiere im Hintergrund des Bildes kein großes Problem darstellen. Ich frage mich, ob es die „Disco-Tanz“-Aktion ist, die Stable Video verblüfft.

▲Stabiles Video erzeugt Videoeffekte

Die Gesamtstabilität des von Dream Machine generierten Videos ist gut, es mangelt jedoch an Stabilität bei Details wie den Füßen und Händen des Kängurus. Was den Bewegungsumfang betrifft, so erfährt es zusätzlich zur Bewegung des Kängurus selbst auch einen Linsenübergang von der Nahaufnahme zum Panorama.

Ich habe die Videoerweiterungsfunktion von Dream Machine erneut ausprobiert und der von der Erweiterung generierte Inhalt liegt 5 Sekunden nach dem Video. Man erkennt, dass man sich nicht auf eine Einzelaufnahme beschränkt, sondern von einer Ganzkörperaufnahme auf eine Nahaufnahme des Oberkörpers umschaltet. Im erweiterten Video sind die Charaktere im Hintergrund zwar stabiler, das Känguru jedoch noch instabiler.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

▲Dream Machine generiert Videoeffekte

Das von Haiper generierte Känguru ist gewissermaßen verzerrt und spiegelt nicht das Schlüsselwort „Disco“ wider.

▲Haiper generiert Videos

Das große Modell von Zhixiang stürzte auf dieser Ebene stark ab, der Hauptteil des Bildes war stark verzerrt und spiegelte nicht den „Disco“-Effekt wider.

▲Das intelligente Elefantenmodell erzeugt Videoeffekte

Der visuelle Gesamteffekt des von Jimeng generierten Videos ist relativ gut, mit hoher Klarheit und satten Farben. In Bezug auf die Stabilität war es in den ersten paar Sekunden relativ normal, aber in den letzten 3 Sekunden oder so traten deutliche Verzerrungen auf, und der Grad der Verzerrung war dem von Dream Machine ähnlich.

Vom semantischen Verständnis her zeigt das Bild gewisse „tänzerische“ Bewegungen, mit „Disco“ hat es aber wenig zu tun. Außerdem sieht der Text im Hintergrund des Bildes wie „Geisterzeichensymbole“ aus.

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲Traumgenerierte Videoeffekte

Die von Keling generierten Videos sind insgesamt relativ stabil und die Hauptprobleme konzentrieren sich auf die Hände und Augäpfel. Aber im Hinblick auf das semantische Verständnis wird das Schlüsselwort „Disco“ nicht reflektiert.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲Kann zum Erzeugen von Videoeffekten verwendet werden

Insgesamt schnitten Dream Machine, Ji Meng und Ke Ling auf diesem Niveau besser ab, aber keiner von ihnen konnte Soras Niveau erreichen. Darüber hinaus zeigt dieses Aufforderungswort auch die ästhetischen Unterschiede der einzelnen Modelle, einschließlich Farbtendenz, Stilwahl, Objektivwechsel usw.

Die dritte Ebene ist auf eingestelltNahaufnahme des Charakters, die verwendeten Aufforderungswörter sind:Nahaufnahme eines Astronauten, der vor der Raumstation schwebt, mit Erde und Mond im Hintergrund und Sternen, die sich auf dem Visier seines Helms spiegeln。

Stabiles Video schnitt auf dieser Ebene gut ab und stellte Schlüsselwörter wie „Astronaut“, „Erde“, „Mond“ und „Sternreflexion“ genau dar, und seine Stabilität war ebenfalls sehr hoch. Bei der Bewegung handelt es sich nicht um eine einfache Linsenverschiebung, sondern um die Bewegung des Bildgegenstandes relativ zum Hintergrund.

▲Stabiles Video generiert Videos

Dream Machine kippte um, vergaß den „Astronauten“ völlig und malte eine kosmische Szene.

▲Dream Machine generiert Videos

Haiper schnitt in diesem Level gut ab, obwohl „Mond“ fehlte, wurden andere Schlüsselwörter reflektiert und auch die Reflexion im Helm war sehr natürlich.

▲Haiper generiert Videos

Das große Modell von Zhixiang weigerte sich zunächst, das Aufforderungswort zu generieren, was darauf hinwies, dass es sich um sensible Inhalte handelte. Nach vielen Schnitten habe ich schließlich ein Video mit „einer Nahaufnahme eines Mannes, der außerhalb der Raumstation schwebt“ erstellt.

Die Gesamtwirkung des Bildes ist relativ realistisch. Obwohl das Schlusswort nur das Schlüsselwort „Raumstation“ enthält, das den Inhalt widerspiegelt, werden dennoch Elemente wie die Erde und Raumanzüge dargestellt. Allerdings trägt der Protagonist keinen Weltraumhelm und kann weder atmen noch sprechen (Doge).

▲Das intelligente Elefantenmodell erzeugt Videoeffekte

Ji Meng gelingt es relativ gut, die Gesichter und Kostüme darzustellen und die Stabilität ist sehr hoch. Allerdings scheint es im Hintergrund des Bildes eine zweite „Erde“ zu geben ist eher „Nahaufnahme“ als „Nahaufnahme“.

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲Video zur sofortigen Traumgenerierung

In dem von Keling erstellten Video waren zunächst keine Charaktere zu sehen, und dann trat der Astronaut langsam in die Aufnahme ein, aber der Hintergrund war still, was einen Hauch von Humor zu haben schien. Allerdings ist die Genauigkeit und Stabilität des Bildes selbst immer noch sehr hoch, es spiegelt jedes Schlüsselwort wider und zeigt auch die „Raumstation“, die einige Spieler übersehen haben.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Keling generiert Videos

Obwohl die Gesamtleistung der Charakterebene nicht so stabil ist wie die der Stilllebenszene, ist sie viel besser als die der vorherigen Ebene. Dies kann mit den umfangreichen Trainingsdaten und dem geringen Bewegungsbereich zusammenhängen. Diejenigen, die auf diesem Niveau besser abschneiden, sind Stable Video, Haiper, Ji Meng und Ke Ling.

Insgesamt gehörten zu den 6 KI-Videogenerierungsprodukten, die Zhidongxi dieses Mal erlebte,Traum, Geist Der Vorteil des Erzeugungseffekts ist relativ offensichtlich, sowohl hinsichtlich der Dauer als auch der Stabilität wurden gute Fähigkeiten erreicht. Darüber hinaus sind auch inländische Produkte wie Morph Studio und NeverEnds sehr effektiv, aber da es seit der Veröffentlichung von Sora keine neuen Produkte oder Modellaktualisierungen gab, fallen sie nicht in den Rahmen dieser Erfahrung.

3. Der Kampf ums Kapital:5Monatlicher Gewinn44Milliarden, neue Player entstehen

Als Sora veröffentlicht wurde, löste es erneut einen generativen KI-Wahn aus, genau wie das ursprüngliche GPT-4, und löste das kollektive Tageslimit der Vincent Video-Konzeptbestände aus.

Auch der Primärmarkt läutet eine neue Karnevalswelle ein.Nach unvollständigen Statistiken aus Zhidongxi zumindest in den fünf Monaten seit Soras Freilassung5Ein Startup im Bereich KI-Videogenerierung hat gewonnenÜber 100 Millionen YuanDie Finanzierung belief sich auf insgesamt etwa 1,2 Milliarden Yuan, und Runway verhandelte offenbar über eine neue Finanzierung in Höhe von 450 Millionen US-Dollar (ungefähr 3,268 Milliarden RMB).

▲Große Investitionen und Finanzierung im Zusammenhang mit der KI-Videogenerierung (Smart East-West Tabulation)

inländisch,Aishi-TechnologieEs nahm im März bzw. April zwei Milliarden-Dollar-Fonds auf und wurde von namhaften Investoren wie Ant bevorzugt. Zuvor erhielt es erst im August letzten Jahres eine Angel-Finanzierungsrunde im Wert von mehreren zehn Millionen Yuan.

Im Januar dieses Jahres brachte Aishi Technology die Überseeversion seines KI-Videogenerierungsprodukts PixVerse auf den Markt. Damals wurde es zu einem mächtigen dunklen Pferd, das mit Pika und Runway konkurrierte. Nach der Freilassung von Sora sagte sein Gründer Wang Changhu einmal, dass es innerhalb von drei bis sechs Monaten aufholen werde.

Fünf Monate sind vergangen und Aishi Technology hat noch kein iteratives Update des zugrunde liegenden Modells veröffentlicht, aber nach und nach neue Funktionen wie Charakterkonsistenz und Bewegungspinsel eingeführt. Zhidongxi fragte nach seinem Produktfortschritt und erfuhr, dass sein Modell der neuen Generation und neue Funktionen „Vincent Video-Spielfilm”wird diese Woche veröffentlicht und kann generiert werdenDauer 8 SekundenVideos und könnenGenerieren Sie 3–5 fortlaufende Audiovideos gleichzeitig。

▲PixVerse führt Bewegungspinselfunktion ein (Quelle: Aishi Technology)

Shengshu-Technologie Darüber hinaus erhielt das Unternehmen in nur drei Monaten zwei aufeinanderfolgende Finanzierungsrunden im Wert von Hunderten Millionen Yuan, wobei Baidu Venture Capital als alter Anteilseigner weiterhin investierte. Zuvor erhielt Shengshu Technology zwei Finanzierungsrunden mit einer Gesamtsumme von über 100 Millionen Yuan.

Sand-KI Es handelt sich um ein Startup, das erst kürzlich in den Fokus der Öffentlichkeit gerückt ist und noch keine Produktveröffentlichungen vorweisen kann. Am 10. Juli wurde bekannt, dass Sand AI im Mai eine von Capital Today angeführte Serie-A-Finanzierung in zweistelliger Millionenhöhe erhalten hat.

Sand AI wurde im Oktober 2023 gegründet und entwickelt hauptsächlich Technologien zur Videogenerierung ähnlich wie Sora.Es ist erwähnenswert, dass sein GründerCao YueJaEiner der Mitbegründer von Light Years Beyond, war Leiter des Visual Model Research Center des Beijing Zhiyuan AI Research Institute und leitender Forscher von Microsoft Research Asia.

Aus öffentlichen Informationen geht hervor, dass Cao Yue sowohl einen Bachelor- als auch einen Doktortitel an der Tsinghua-Universität erworben hat. Er hat den Marr Award für die beste Arbeit auf der ICCV, der führenden Computer-Vision-Konferenz, gewonnen und wurde mehr als 40.000 Mal in Google Scholar zitiert.

▲Cao Yue (Bildquelle von seiner persönlichen Homepage)

Haiper KI Es handelt sich außerdem um ein neues Startup in der Videogenerierungsbranche. Das Unternehmen wurde 2022 gegründet und hat seinen Sitz in London, England. Zuvor konzentrierte es sich auf KI-basierte 3D-Rekonstruktion.

Laut ausländischen Medienberichten vom März erhielt Haiper AI eine Startfinanzierung in Höhe von 13,8 Millionen US-Dollar (ca. 100 Millionen RMB), nachdem es zuvor im April 2022 5,4 Millionen US-Dollar eingesammelt hatte.

Das Gründungsteam von Haiper AI besteht aus zwei Chinesen, Yishu Miao, die einst im globalen Vertrauens- und Sicherheitsteam von TikTok tätig war, und Ziyu Wang, der als Forschungswissenschaftler bei DeepMind arbeitete. Ende letzten Jahres beschloss das AI-Team von Haiper, sich auf die Videogenerierung zu konzentrieren und veröffentlichte im Dezember eine Betaversion seines ersten gleichnamigen Videogenerierungsprodukts.

▲Haiper veröffentlicht eine Betaversion seines gleichnamigen Produkts

Pika Im Juni gab das Unternehmen bekannt, dass es eine neue Finanzierungsrunde in Höhe von rund 80 Millionen US-Dollar (ca. 581 Millionen RMB) erhalten hat, wobei sich sein Wert auf fast 500 Millionen US-Dollar verdoppelt hat. Im November letzten Jahres gab Pika bekannt, dass eine Finanzierung in Höhe von insgesamt 55 Millionen US-Dollar mit einem Wert von 200 bis 300 Millionen US-Dollar abgeschlossen wurde.

2. Juli, „Old Player“ der KI-VideogenerierungsspurRunwayEs wurde bekannt gegeben, dass über eine neue Finanzierung in Höhe von 450 Millionen US-Dollar (ca. 3,268 Milliarden RMB) mit einem Wert von 4 Milliarden US-Dollar verhandelt wird.

Die letzte Finanzierung von Runway wurde im Juni letzten Jahres abgeschlossen. Zu den Investoren zählen Google, NVIDIA usw. und die Finanzierung erreichte mit 141 Millionen US-Dollar eine Gesamtfinanzierung von 237 Millionen US-Dollar. Sollte diese Finanzierungsrunde zustande kommen, werden sich sowohl die Finanzierungssumme als auch die Bewertung mehr als verdoppeln.

Im Allgemeinen sind in den letzten Monaten nach der Veröffentlichung von Sora weiterhin neue Finanzierungen für die KI-Videogenerierung auf dem Primärmarkt aufgetaucht die bisherige Gesamtfinanzierung überschritten hat. Auch wenn es bei einigen Startups keine Produktveröffentlichungen oder Modellaktualisierungen gibt, tut dies der Begeisterung der Investoren keinen Abbruch.

4. 150 Tage KI-Videokrieg, von „PPT“ bis zum echten „Video“

Während der 150 Tage der „Unsichtbarkeit“ von Sora und der „Belagerung“ vieler großer Hersteller und Start-ups hat sich die Kluft zwischen Mainstream-Produkten zur KI-Videoerzeugung und Sora erheblich verringert, und es gibt einen entscheidenden Punkt:Einsatzbereit, und sogar viele Funktionen sind noch kostenlos.

Derzeit hat das Hauptprodukt zur KI-Videogenerierung eine gute Dauer und Stabilität erreicht, und der Schwerpunkt der nächsten Iteration liegt auf der physikalischen Simulation. Den offiziell gezeigten Demos nach zu urteilen, simulieren Gen-3, Keling, Jimeng und Vidu die reale Welt in hohem Maße, und die gezeigten Fälle sind fast die gleichen wie die von Sora veröffentlichten.

Wie sieht also aus der Sicht eines Entwicklers das aktuelle Produkterlebnis aus?

kürzlich,Regisseur und KI-Film- und Fernsehschöpfer Chen Kun(Xianren Yikun) hat ein Remake des Trailers seines KI-Kurzdramas „Mountains and Seas“ produziert und mit der Originalversion verglichen.

Bei der Premiere des Kurzstücks sagte er Zhixixi und anderen Medien, dass der Fortschritt der KI in einem halben Jahr immer noch sehr offensichtlich sei, insbesondere inPhysiksimulationHinsichtlich der Aspekte ist es seiner Meinung nach gelungen.generationsübergreifend"Iteration. Insbesondere haben Videoerzeugungsmodelle wie Keling zu diesem Zeitpunkt eine native High Definition erreicht und werden nicht mehr durch geschnittene Bildinhalte gesteuert. Die Bewegungen des Hauptkörpers sind angemessen, der Bewegungsbereich ist nicht nur groß, sondern auch reibungslos. und sie reagieren positiv auf Aufforderungsworte. Gleichzeitig steht die KI-Videogenerierungstechnologie jedoch immer noch vor mehreren großen Problemen: Charakterkonsistenz, Szenenkonsistenz, Charakterleistung, Aktionsinteraktion und Bewegungsumfang.

▲Vergleich zwischen dem Remake und dem Original-Trailer des „Mountains and Seas“-Trailers

Aus Anwendungssicht ist KI in Szenen wie der Film- und Fernsehproduktion immer noch dabei, zum traditionellen Film und Fernsehen aufzuschließen.

In einem kompletten Produktionsprozess ist KI immer noch ein Hilfsmittel und nicht das Hauptwerkzeug, wie z. B. Drehbücher, Synchronisation, Bearbeitung, Postproduktion usw. Derzeit gibt es kein Produkt, das das Produktivitätsniveau erreichen kann.

Allerdings wurden KI-basierte Prozesse im Hinblick auf die Kosten, einschließlich der menschlichen Effizienzquote, stark komprimiert und erreichen das Niveau traditioneller Produktionsprozesse.Unter 1/4。

▲Chen Kun wurde bei der Vorführung interviewt

Auf der WAIC 2024Xie Xuzhang, Mitbegründer von Aishi TechnologyTan sagte, dass das, was wir jetzt „Videogenerierung“ nennen, eigentlich nur die Erstellung von Videomaterial ist, was nur einen kleinen Teil des gesamten Videoproduktionsprozesses ausmacht. Es gibt keinen Ton, keinen Schnitt, keine Übergänge, keine Skripte usw Aus technischer oder geschäftlicher Sicht ist es noch ein sehr weiter Weg.

Dies ist neben der weiteren Iteration des zugrunde liegenden Modells auch eine weitere wichtige Richtung für die Entwicklung von KI-Videos, um die bestehenden Schwachstellen der Videogenerierung zu überwinden.

Es gibt auch viele Unternehmen auf dem Markt, die mit verschiedenen Videoproduktionsverfahren experimentieren und auch vom Primärmarkt bevorzugt werden.Allein in der letzten Woche gab es KI-gestützte VideobearbeitungstoolsBildunterschriftenDie virtuelle KI-Umgebung bietet Beleuchtungs- und Compositing-ToolsBeebleErhielt eine Finanzierung in Höhe von 60 Millionen US-Dollar bzw. 4,75 Millionen US-Dollar.

Abschluss:KIVideogenerierung, ich warte auf einsGPT-4-Moment

Die Veröffentlichung von Sora hat die Begeisterung in- und ausländischer Teams und Unternehmer entfacht. Insgesamt befindet es sich jedoch noch in einem frühen Stadium, der technische Weg hat noch keinen Konsens erzielt und die erzielten Effekte sind noch weit von kommerziellen Standards entfernt. Was die spezifische Phase angeht, vergleichen viele Leute in der Branche sie mit den frühen Phasen von Sprach- und Bildmodellen, wie der „GPT-3-Ära“, „dem Vorabend der Bildgenerierung im Jahr 2022“ usw.

Sicher ist jedoch, dass sich die KI-Videogenerierungstechnologie exponentiell weiterentwickelt und ständig neue Produkte und Technologien auf den Markt kommen. Obwohl es einige technische Schwachstellen und Herausforderungen gibt, wird mit der Weiterentwicklung der Technologie und der Förderung des Marktes erwartet, dass in diesem Bereich weitere Durchbrüche und Anwendungen erzielt werden.

Der Krieg um die KI-Videogenerierung ist nicht nur ein Wettbewerb der Technologie, sondern auch ein Wettbewerb des Kapitals. Wir müssen abwarten, wer in diesem Sturm des Geldverdienens der letzte Lacher ist.

Nachricht

Video-Generationskrieg 2.0!Dachang rollt wie verrückt das untere Model

Einführung

meine Kontaktdaten