Nachricht

Die kostenlose öffentliche Beta überforderte den Server und Sora erntete Lob für seinen physischen Sinn.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Autor丨Zimo

Nach Sora, Runway und Pika erfreut sich ein weiteres bildbasiertes und videogeneriertes KI-Produkt explosionsartiger Beliebtheit: Dream Machine.

Hinter Dream Machine steht ein 2021 gegründetes amerikanisches Unternehmen namens Luma AI. In den letzten drei Jahren wurden drei Finanzierungsrunden mit einem Gesamtfinanzierungsbetrag von 67,3 Millionen US-Dollar erfolgreich durchgeführt. Die jüngste Serie-B-Finanzierung in Höhe von 43 Millionen US-Dollar fand im Januar dieses Jahres statt, angeführt von der bekannten Risikokapitalinstitution a16z, mit der zweiten Investition von NVIDIA, und die Post-Money-Bewertung erreichte 200–300 Millionen US-Dollar.


Im Juni dieses Jahres startete Dream Machine weltweit eine kostenlose öffentliche Betaversion. Jeder Benutzer hat jeden Monat 30 Möglichkeiten, kostenlos Videos zu erstellen, und jedes Video ist 5 Sekunden lang. Um diejenigen zu vergleichen und mit ihnen zu konkurrieren, die zuerst in das Spiel eingestiegen sind, werden die Merkmale „Effizienz“, „Physik“ und „Spiegelbewegung“ hervorgehoben. Eines der Hauptmerkmale ist, dass die Erstellung eines 120-Frames-Videos nur 120 Sekunden dauert (während der öffentlichen Betaphase standen jedoch zu viele Leute in der Warteschlange, und Benutzer berichteten im Allgemeinen, dass die Erstellung eines Videos 10 bis 20 Minuten dauert). Bei der Simulation der physischen Welt wird außerdem besonderer Wert auf die Konsistenz der Charaktere gelegt, und es können natürliche Kamerafähigkeiten genutzt werden, um das Bild flüssiger und realistischer zu gestalten und es mit den ausgedrückten Emotionen zu verbinden. Durch das Brainstorming der Benutzer sind die generierten Videos voller Kreativität und Fantasie, und ihre Anwendung in der Werbung, im Unterricht und in der Ausbildung, bei der Erstellung von Geschichten und in anderen Bereichen hat auch eine wichtige Rolle bei der Kostensenkung und Effizienzsteigerung gespielt.

Welches Produkt zur KI-Videogenerierung ist das beste?

Vom Design her ist die Seite von Dream Machine intuitiv und einfach, mit zwei Funktionen: Vincent Video und Tusheng Video. Bei Wensheng-Videos ist die Wirkung einer Beschreibung auf Englisch besser. Wenn Sie das generierte Video besser an Ihre Bedürfnisse anpassen möchten, müssen Sie eine möglichst genaue und detaillierte Textbeschreibung verwenden. Sie können auch einige emotionale Wörter hinzufügen Ausdruck, um den Effekt realistischer zu machen.

Für Benutzer, die nicht so gut in der Texterstellung sind, wird jedoch die Tusheng-Videofunktion beliebter sein, da sie eher einer sekundären Bearbeitung eines Werkes gleicht. Laden Sie einfach ein Bild hoch und fügen Sie eine Textbeschreibung basierend auf der Szene in Ihrem Kopf hinzu, um das statische Bild zu animieren und die Geschichte in Form eines Videos zu erzählen.

Auf Twitter können wir verschiedene kreative Videos sehen, die von Benutzern geteilt werden, darunter lustige, die die Mona Lisa in Bewegung setzen, Selfies verwenden, um die Szene beim Aufnehmen von Selfies wiederherzustellen, und zärtliche „Wiederbelebung“ wichtiger Personen, um die Szene nachzubilden usw. Man kann sagen, dass KI-Erstellungstools und die reiche Vorstellungskraft der Benutzer den Werken neue Vitalität verleihen.

Benchmarking war in diesem Bereich schon immer ein untrennbares Thema. Aus architektonischer Sicht verwenden Dream Machine und Sora beide die Diffusion Transformer-Architektur, und aus der Perspektive der generierten Inhalte wird die Differenzierung von Dream Machine im Vergleich zu Runway und Pika im größeren Bewegungsbereich widergespiegelt Es gibt mehr Winkel und eine schnellere Objektivumschaltung, anstatt die Objekte im Video nur leicht zu bewegen, aber da das Modell noch in den Kinderschuhen steckt, treten auch Probleme bei der Steuerbarkeit auf. Während des Benutzertests trat beispielsweise beim Wechseln der Tierlinsen ein unzumutbares Mehrkopfphänomen auf. Insgesamt gibt es viele Punkte, die in den Daten und im Modell optimiert werden können.

Betrachtet man die Dauer einer einzelnen Videogeneration, kann Dream Machine ein 5-Sekunden-Video in 120 Sekunden generieren, Runway ist schneller und kann ein 10-Sekunden-Video in 90 Sekunden generieren. In der neuesten Version kann es auf 18 Sekunden verlängert werden Sekunden, während Pika immer noch ein Einzelvideo ist. Es kann nur ein 3-Sekunden-Video erzeugen, da der Urheber das Zeitlimit überschritten hat und ein 1-minütiges Video erstellen kann, aber das Rendern dauert fast eine Stunde . Beim Vergleich der Ladepreise mehrerer Produkte weist Dream Machine nach der kostenlosen Testphase den höchsten Gesamtladepreis auf, während die professionelle Version von Pika sechsmal so teuer ist wie die Standardversion und andere Produkte etwa das 2- bis 3,5-fache kosten.


(Produktpreisvergleich zur KI-Videogenerierung)

Gemessen am Videogenerierungseffekt wird schließlich derselbe Textabschnitt in unterschiedlichen Videostilen ausgedrückt, die von verschiedenen Produkten generiert werden. Im Vergleich zu anderen Produkten sind das Kinogefühl und der physische Realismus eines der häufigsten Gefühle, die Benutzer bei der Verwendung von Dream Machine haben. Das Videomaterial und das immersive Gefühl, das es erzeugt, sind stärker. Zusammenfassend gibt es zwei mögliche Gründe: Erstens verwendet das Produkt während des Modelltrainings eine große Anzahl von Filmausschnitten, wodurch das generierte Video nicht nur auf die Dinge im Originalbild beschränkt ist, sondern auch einige zusätzliche hinzufügt Szenen und auch die Verarbeitung animierter Charaktere und das Hinzufügen von Mundbewegungen lassen sie realistischer erscheinen; ein weiterer Punkt hängt eng mit der Technologie und dem Erfahrungsschatz des dahinter stehenden Unternehmens in der 3D-Modellierung zusammen.

Vincents 3D-Minifiguren werden durch seine Ansammlung von Technologie ermöglicht.

Luma AI konzentriert sich seit seiner Gründung auf die Generierung von 3D-Inhalten. Die zuvor eingeführte Vincent 3D-Modellanwendung Genie1.0 wurde einst ein weltweiter Erfolg. Die Anwendung verfügt über eine PC-Webversion und eine mobile APP-Version (mit dem Namen Luma AI) und kann auch auf im Ausland weit verbreiteten Discord-Servern verwendet werden.

Geben Sie einfach eine Textbeschreibung ein und schon können in 10 Sekunden 4 realistische 3D-Modelle generiert werden, ähnlich einer „kleinen Figur“. Nach der Auswahl nach persönlichen Vorlieben können Sie die Textur auch selbst bearbeiten, darunter originell, glatt und reflektierend. Schließlich kann es in mehreren Formaten wie fbx, gltf, obj usw. ausgegeben werden, um eine nahtlose Verbindung mit anderer 3D-Bearbeitungssoftware (wie Unity und Blender) zu erreichen, sodass sich das Modell bewegen kann und Spiele, Animationen usw. perfekt passen andere Szenen, wodurch das Ziel der Bereitstellung nachgelagerter Dienste wirklich erreicht wird. Bereitstellung von Szenen-Empowerment.


Die niedrige technische Schwelle von Genie1.0 ermöglicht es Benutzern auch, 3D-Szenen durch einfaches Aufnehmen von Videoclips zu rekonstruieren. Machen Sie je nach Anforderung 360°-Aufnahmen des Objekts aus drei Blickwinkeln: nach oben schauen, nach unten schauen und nach oben schauen. Warten Sie nach dem Hochladen einige Minuten, bis Genie 1.0 die 3D-Wiedergabe des Videos abgeschlossen hat.

Technisch kann man sagen, dass Luma AI NeRF (Neural Radiation Field) auf die Spitze getrieben hat. Herkömmliches NeRF erfordert den Einsatz professioneller Ausrüstung, um eine große Anzahl von Fotos aufzunehmen, und die Koordinatenstandorte müssen strikt eingehalten werden. Heutzutage wurden dank der offenen Quelle des zugrunde liegenden Codes immer mehr vereinfachte Modelle entwickelt und die erforderlichen Anforderungen an Fotos und Aufnahmewinkel wurden erheblich reduziert. Genie1.0 hat ein höheres Niveau erreicht und ist zu einem Leitfaden geworden, der es sein kann Jederzeit und überall einsetzbar.

Die Anhäufung von 3D-Technologien und -Produkten hat dem Unternehmen geholfen, reibungslos von der 3D-Generierung zur Videogenerierung überzugehen, aber umgekehrt hat die Videogenerierung auch hochwertige Bedingungen für 3D geschaffen. Im Konzept von Luma AI besteht der Zweck der Herstellung von Produkten zur Videogenerierung darin, 3D- und Zeitdimensionen hinzuzufügen, um 4D besser zu erstellen, wobei Video hier eine Zwischenrolle spielt.

Wir können die beiden Produkte Genie1.0 und Dream Machine kombinieren. Ersteres kann 3D-Modelle durch Mehrwinkelvideos erstellen, und letzteres nutzt die Ansammlung von 3D-Modellen, um Videos besser zu generieren. Und da 3D im Vergleich zu Bildern und Videos Datenbeschränkungen aufweist, benötigen Sie, wenn Sie 3D besser erstellen möchten, mehr große Modelldaten, um es zu steuern. Um das endgültige 4D-Ziel zu erreichen, werden Multi-View-Daten aus dem generierten Video gesammelt und dann zur Generierung von 4D-Effekten verwendet. Eine vollständige Kette wird geöffnet.

Wo ist am Ende der Ausweg?

Seit diesem Jahr ist der Bereich der KI-Videogenerierung allmählich überfüllt, insbesondere große Internetunternehmen, unabhängig davon, ob es sich um selbst entwickelte Modelle oder um Investitionen handelt, haben sie in diesem Bereich bestimmte Vorkehrungen getroffen. Da die Zahl der Teilnehmer weiter steigt, werden nach und nach einige Probleme sichtbar, die sich hauptsächlich in der Kontrollierbarkeit und Konsistenz der generierten Videos widerspiegeln.

Diese beiden Probleme treten hauptsächlich auf, wenn der Videowinkel geändert wird, wie z. B. in der zuvor erwähnten Szene mit mehreren Köpfen von Tieren, und in der Porträtszene, da sich die Gesichtsausdrücke und Details von Personen im Video beim Umschalten schnell ändern Je nach Gesichtswinkel kann es sein, dass sich das Gesicht in der nächsten Sekunde verformt oder sogar nicht mehr dasselbe Gesicht ist. Dies ist einer der Gründe, warum die Videolänge begrenzt ist. Je länger die Erstellung eines Videos dauert, desto schwieriger ist es, die Konsistenz sicherzustellen.


(Tiere mit mehreren Köpfen erscheinen im generierten Video)

Dieses Pain-Point-Problem hat auch viele Entwickler beunruhigt. Obwohl es noch keine perfekte Lösung gibt, lässt sich an ihren Entwicklungsmaßnahmen erkennen, dass sie bereits auf diese Kernrichtung hinarbeiten. Beispielsweise verwendet VideoCrafter2, das von Tencent AI Lab entwickelt wurde, Videos von geringer Qualität, um die Konsistenz der Bewegung von Dingen im Bild sicherzustellen. Das von SenseTime eingeführte Charaktergenerierungsmodell Vimi kann die Mikroausdrücke von Charakteren genau nachahmen und konzentriert sich dabei auf zwei Aspekte: Charaktere und Kontrollierbarkeit.

Was die Zielgruppen betrifft, richten sich Produkte zur KI-Videogenerierung derzeit hauptsächlich an C-End-Benutzer. In dieser Phase testen Benutzer neue Dinge aus Spielbarkeit und Kreativität. Mit zunehmender Anzahl von Produkten lässt dieser Trend jedoch nach wird auch auf die Unterstützung der B-Seite angewiesen sein. Gegenwärtig treibt diese Art von Produkten auch die Nachfrage nach APIs weiter an, was nachgelagerten Unternehmen mehr Möglichkeiten bietet, egal ob es sich um die Weiterverarbeitung oder die direkte Nutzung generierter Videos handelt, sie reduzieren den Zeit- und Kostenaufwand für die Erstellung erheblich.

Darüber hinaus arbeitete Kuaishou kürzlich mit Bona zusammen, um Chinas erstes AIGC-Original-Kurzdrama auf den Markt zu bringen, das ebenfalls das kreative Denken der traditionellen Film- und Fernsehindustrie untergrub. Die Kombination der beiden aufstrebenden Trends hat auch zu neuen Durchbrüchen in den Anwendungsszenarien der KI-Videogenerierung geführt und weitere Möglichkeiten eröffnet. Obwohl sich beide noch in einem frühen Entwicklungsstadium befinden, sind weder die Technologie noch die Produkte ausgereift, sondern stehen bevor Aufgrund der dualen Trends und der Nutzung der beiden Dividenden wird das „Co-Branding“ den Entwicklungsprozess der Branche schnell vorantreiben.

Die Innovation von KI-erstellten Produkten bringt unbegrenzte Kreativität und Überraschungen in das Leben der Menschen und reduziert außerdem die Schwierigkeit und Kosten der Produktion. Den aktuellen Produkten nach zu urteilen haben sowohl Wensheng Video als auch Tusheng Video ein sehr interessantes und neuartiges Gameplay geschaffen, bei dem persönliche Kreativität der Schlüsselfaktor für eine bessere KI-Leistung ist. Obwohl einige technische Probleme zu gelegentlichen Fehlern geführt haben und die Produktform weitgehend von den tatsächlichen Fähigkeiten des Modells abhängt, glaube ich, dass das Modell durch iterative Aktualisierungen, einen gesunden Marktwettbewerb und die Kombination von Tracks letztendlich trainiert wird Immer perfekter. Gleichzeitig freuen wir uns auch auf die Zukunft der im Inland produzierten Großmodellprodukte, um eine eigene Nische auf dem Weltmarkt zu erobern.