Große Unternehmen haben ein „Wettrüsten“ in der Videoproduktion gestartet. Kann KI Hollywood wirklich besiegen?

2024-07-15

Maschinenherzbericht

Redaktion von Machine Heart

Der KI-Videokreis bringt dich zu Tode.

An der Spitze ließ Kuaishou Ke Ling aufsehenerregende Weise los. Auf der Hinterseite ließ sich Luma nicht übertrumpfen und brachte das neueste Videomodell Dream Machine auf den Markt .

Angetrieben von der subtilen FOMO-Atmosphäre halten immer mehr Spieler an dem Ziel fest, „sich zu Tode zu ermüden, sich zu Tode zu rollen“ und in diesen Track einzutauchen –

Die Alibaba DAMO Academy setzt auf die „Xunguang Video Creation Platform“, ByteDance AI erforscht „generative Filmdramen“, Meitu MOKI konzentriert sich auf die Erstellung von KI-Kurzfilmen, Haiper AI konzentriert sich auf kreativen Ausdruck …

Shanghai am 5. Juli war sehr heiß, genau wie die Angst im KI-Videokreis.

An diesem Tag findet im Konferenzraum statt.

Das Forum bringt viele Starunternehmen und Experten im Bereich KI-Video zusammen, um die neuesten Fortschritte in der Videoerzeugungstechnologie und ihre innovativen Praktiken in industriellen Anwendungen zu diskutieren.

Ausführlicher Austausch: die herzlichen Worte eines Kreises von Insidern

Seit dem Aufkommen von ChatGPT ist die von Sora entwickelte Videogenerierungstechnologie definitiv das „heißeste Huhn“ in der Technologiewelt.

Obwohl dieser Bereich noch in den Kinderschuhen steckt, erweitert die Videogenerierungstechnologie mit ihrer erstaunlichen Entwicklungsgeschwindigkeit und potenziellen Anwendungsaussichten ständig die Grenzen der Erstellung digitaler Inhalte.

Chen Weihua, Leiter der Videogenerierung an der Alibaba Damo Academy, Ni Bingbing, Professor der Abteilung für Elektronik an der Shanghai Jiao Tong University, Chen Jianyi, Senior Vice President der Meitu Corporation, und Miao Yishu, Gründer von Haiper AI, nahmen an dem Forum teil und hielt Grundsatzreden.

Chen Weihua, Leiter der Videogenerierung an der Alibaba Damo Academy, sagte, dass die Veröffentlichung von Sora zu Beginn des Jahres nicht nur das enorme Potenzial der KI-Videogenerierung in Bezug auf High Definition, High Fidelity und hohe Qualität gezeigt, sondern auch inspiriert habe der unbegrenzten Vorstellungskraft der Menschen über diese Technologie.

Obwohl Sora sehr cool ist, ist der Generierungsprozess immer noch schwer zu kontrollieren, die Konsistenz des Protagonisten ist schwer sicherzustellen und erfordert viel manuelle Nachbearbeitung, um die besten Ergebnisse zu erzielen.

„Die Kontrolle von Videoinhalten ist die größte Anforderung bei der Erstellung und auch die größte Herausforderung, vor der unser Algorithmus heute steht.“

Das neueste von der Alibaba DAMO Academy veröffentlichte AIGC-Produkt – die Xunguang Video Creation Platform – zielt darauf ab, die Effizienz der Videoproduktion zu verbessern und Probleme bei der Videonachbearbeitung zu lösen. Durch einfache Aufnahmeorganisation und umfassende Videobearbeitungsfunktionen können Benutzer die Kontrolle über Videoinhalte erlangen. Präzise Kontrolle und Wahrung der Konsistenz von Charakteren und Szenen über mehrere Videos hinweg.

Xunguang bietet eine One-Stop-Tool-Plattform für die weit verbreitete Anwendung von KI-Videos. KI wird nicht die Arbeit des Erstellers ersetzen, sondern den Workflow der Videoerstellung optimieren und zu einem neuen Motor werden, der von Kreativität angetrieben wird.

Ni Bingbing, Professor an der Fakultät für Elektronik der Shanghai Jiao Tong University, stellte die Technologie zur Generierung von Medieninhalten für die Vektorisierung vor.

Sobald die Rede begann, goss er kaltes Wasser darüber.

„Die aktuellen Generationsalgorithmen sind mit strukturellen und detaillierten Problemen konfrontiert. Beispielsweise kann der generierte Inhalt mehr oder weniger Elemente enthalten oder von Hand durchbohrt werden usw. Für diese verfeinerten Videos, die den physikalischen Regeln entsprechen müssen, ist derzeit die Generationstechnologie erforderlich „Ni Bingbing sagte, der Grund dafür sei, dass jede generative Intelligenz im Wesentlichen ein Sampling-Prozess sei und Video ein hochdimensionaler Raum sei. Obwohl die Inhaltsqualität durch eine Erhöhung der Trainingsdaten und eine Verringerung der Sampling-Genauigkeit verbessert werden kann, ist dies jedoch fällig.“ Aufgrund des extrem hochdimensionalen Raums ist es unter den aktuellen technischen Rahmenbedingungen immer noch schwierig, Perfektion zu erreichen.

Darüber hinaus ist auch die Begrenzung der Rechenleistung ein wichtiger Faktor. Derzeit haben Rechenleistungsindikatoren, einschließlich großer Sprachmodelle sowie Bild- und Videoerzeugungsmodelle, das Niveau von Dutzenden Terabyte, Hunderten Terabyte oder sogar Tausenden Terabyte erreicht. In Zukunft wird der Entwicklungstrend der generativen Intelligenz definitiv auf die Endseite sinken, und es ist für die Endseite unmöglich, unbegrenzt große Stichproben mit großer Rechenleistung zur Lösung von Problemen zu verwenden.

In diesem Zusammenhang schlug Ni Bingbing vor, ein Vektordarstellungs-Framework zu verwenden, um Videoinhalte in Netzwerkparameter zu instanziieren und so eine präzise Kontrolle der generierten Inhalte zu erreichen und die Regeln der physischen Welt besser einzuhalten.

Er glaubt, dass der aktuelle Erfolg der generativen künstlichen Intelligenz auf Kosten eines übermäßigen Verbrauchs von Rechenleistung und Daten geht. Wir sollten uns in Zukunft auf neue Darstellungen von Medieninhalten und neue Paradigmen des generativen Rechnens konzentrieren und aktiv neue Medienqualitäten schaffen mit höherer Qualität und Effizienz.

Chen Jianyi, Senior Vice President der Meitu Group, analysierte die Anwendungsszenarien und Herausforderungen der KI-Videogenerierung aus der Sicht eines Produktmanagers.

Bei der Nutzerrecherche entdeckte er zwei interessante Phänomene.

Erstens werden Insider erstaunt sein, weil das Video von KI generiert wird, aber für normale Benutzer ist es egal, ob das Video von KI generiert wird, sondern sie konzentrieren sich darauf, ob der Inhalt attraktiv ist.

„Das bedeutet, dass wir, egal welches visuelle Erlebnis die KI-Videogenerierungstechnologie erzielt, zum Inhalt selbst zurückkehren und uns auf die Werte und Geschichten konzentrieren müssen, die das Video vermitteln möchte.“

Zweitens sind die meisten normalen Benutzer mit Fachbegriffen wie „Vincent Pictures“ und „Vicent Videos“ nicht vertraut und kennen deren spezifische Verwendung nicht. Nehmen Sie als Beispiel „Wen Sheng Tu“. Dieser Begriff ist genau wie die „Verflüssigungs“-Funktion von PhotoShop, die jedoch schwer zu verstehen ist, wenn sie auf eine Szene beschränkt und als „Gesichtsverschlankungs“-Funktion beschrieben wird. Benutzer können den Wert intuitiver verstehen. Das Gleiche gilt für „Vincent Video“.

Gleichzeitig sagte er, dass die KI-Technologie zur Videogenerierung den Ausdruck von Inhalten konkreter mache und die visuelle Kreativität und Erfahrung bereichere, aber dennoch wichtige Probleme wie die Steuerbarkeit der visuellen Einstellung, die Steuerbarkeit der Dynamik und die Steuerbarkeit von Audio lösen müsse.

Die KI-Kurzfilm-Erstellungsplattform MOKI von Meitu Discovery überwindet diese großen Schwierigkeiten.

Berichten zufolge hat MOKI einen umfassenden Kurzfilm-Workflow mit KI-Videogenerierungstechnologie als Kernstück aufgebaut. In der Anfangsphase können Ersteller Skripte schreiben, visuelle Stile entwerfen und Charaktere festlegen und dann KI-Technologie verwenden, um Videomaterialien zu erstellen. Schließlich werden durch die Postproduktionsfähigkeiten der KI alle Materialien zu einem zusammenhängenden Kurzfilm verbunden.

Als Gründer des Promi-Startups Haiper AI diskutierte Miao Yishu ausführlich über die Bedeutung und den Wert der Videogenerierungstechnologie.

Miao Yishu sagte: „Wir hören oft solche Ansichten wie ‚Sprache ist Intelligenz‘ oder ‚Große Sprachmodelle sind allgemeine künstliche Intelligenz (AGI)‘. Kann uns das Sprachenlernen jedoch wirklich direkt zu AGI führen?“ Wichtige Möglichkeiten für den Menschen, sich Wissen anzueignen, aber es ist nicht die einzige Möglichkeit, durch vielfältige Lernmethoden wie Sehen, Hören, Lesen und Kinästhetik zu lernen und eine wirklich universelle Sprache durch die Integration mehrerer Modalitäten aufzubauen . intelligent."

Nach der Einführung von GPT-3.5 vertreten viele Menschen die Ansicht, dass „natürliche Sprachverarbeitung (NLP) nicht mehr existiert“, da große Sprachmodelle das Lernen und die Semantik von Sprachsystemen grundsätzlich durch autoregressive generative Modelle (die jedes Mal das nächste Wort vorhersagen) lösen Bei Inferenzproblemen benötigen wir nicht einmal mehr diskriminierende Modelle, um spezifische Inferenzprobleme zu verfeinern.

In ähnlicher Weise erstellen Videogenerierungsmodelle auch generative Modelle durch Autoregression (jedes Mal Vorhersagen des nächsten Videobilds), sodass das Modell implizit wichtige Aufgaben im Bereich Computer Vision wie Tiefenvorhersage, semantische Annotation und semantische Segmentierung lernt. Daher werden wir im Jahr 2024 Bemerkungen hören wie „Computer Vision (CV) existiert nicht mehr“, weil das Videogenerierungsmodell beim Erlernen der Generierung von Videoinhalten nach und nach die Wahrnehmungsfähigkeiten und physikalischen Gesetze beherrscht.

„Müssen wir Newtons erstes Gesetz verstehen wie ein Welpe, um Schmetterlinge auf der Straße zu jagen? Müssen wir alle Gesetze der Physik kennen, um laufen und Fahrrad fahren zu können? Dies geschieht durch ständige Interaktion mit der Welt und durch Lernen durch verschiedene Modellierungen. Tatsächlich hat das Videogenerierungsmodell gelernt, vielfältige Videoinhalte zu generieren, und wir können durch schnelles Rendern leicht mit dem Weltmodell interagieren den Videoinhalt, den wir wollen, und das alles erfordert nicht, dass wir explizit einen Simulator bauen, um die sogenannten physikalischen Gesetze zu simulieren.

Miao Yishu betonte: „Videogenerierung geht über das Generieren von Videos hinaus.“ Seiner Ansicht nach kann das Videogenerierungsmodell nicht nur Videoinhalte generieren, sondern ist auch ein wichtiger Schritt beim Erlernen grundlegender Wahrnehmungsfähigkeiten durch multimodales Lernen und auch die einzige Möglichkeit für künstliche Intelligenz, sich in Richtung AGI zu bewegen.

Roundtable-Debatte: Wie geht man bei der Videoerstellung vor?

Zusätzlich zum Themenaustausch durch vier Experten und Wissenschaftler lud das Forum auch Gäste aus der Wissenschaft, Unternehmen, Start-ups und bekannten Investmentinstitutionen ein, ausführliche Diskussionsrunden über modernste Technologien für die Videogenerierung und innovative Anwendungspraktiken in zu führen Szene Landung Industrien.

An der ersten Diskussionsrunde nahmen Zhu Jiang, Gründer und CEO von Jingying Technology, Liu Ziwei, Assistenzprofessor der Nanyang Technological University in Singapur, Li Feng, KI-Direktor des Shengqu Game Technology Center, Le Yuan, Partner von Yitian Capital, und weitere Gäste teil diskutiert „Angetrieben durch große Modelle, wohin wird der Verbesserungspfad der Videogenerierungstechnologie gehen?“ Dieses Thema wurde ausführlich diskutiert und die Aussichten für die Implementierung der Videogenerierungstechnologie in der Branche diskutiert.

Zhu Jiang, Gründer und CEO von Jingying Technology, vergleicht die Videoerzeugungstechnologie mit der kambrischen Explosion des Lebens und glaubt, dass sie sich derzeit in einer Phase der schnellen Entwicklung von Technologie und Anwendungen befindet. Er betonte, dass Unternehmen der Anwendungsschicht ihr Verständnis und ihre Führungsrolle in der Technologie aufrechterhalten und gleichzeitig auf die Bedürfnisse der Benutzer achten müssen, um sich von der Konkurrenz abzuheben. Er sagte, dass am Ende sowohl Modellunternehmen als auch Anwendungsunternehmen überleben werden, Modellunternehmen jedoch möglicherweise allgemeiner sein könnten, während Anwendungsunternehmen dem Benutzer- und Geschäftsverständnis mehr Aufmerksamkeit schenken müssten.

Liu Ziwei, Assistenzprofessor an der Nanyang Technological University in Singapur, glaubt, dass sich die Videoerzeugungstechnologie derzeit im GPT-3-Ära befindet und noch etwa ein halbes Jahr von ihrer Reife entfernt ist. Er analysierte die Vor- und Nachteile der drei technischen Pfade Diffusion, Transformer und Sprachmodell und glaubte, dass sie in Zukunft integriert und weiterentwickelt werden könnten. Er betonte auch die Notwendigkeit, „Newtons erstes Gesetz“ der Videoerzeugungstechnologie zu erforschen, d. h. wie man durch Investitionen in Rechenleistung und Daten vorhersehbare Verbesserungen erzielen kann.

Aus Sicht der Spielebranche glaubt Li Feng, Leiter der KI-Abteilung am Shengqu Game Technology Center, dass die Videogenerierungstechnologie die Effizienz und Kreativität bei der Spieleentwicklung verbessern kann. Er hofft, mit Modellunternehmen zusammenzuarbeiten, um Videogenerierungstechnologie auf den Spieleentwicklungsprozess anzuwenden, indem er sich beispielsweise auf die Idee des differenzierbaren Renderings für Leveldesign und Layoutvorschau, die visuelle Ausrichtung von Kommunikationsmethoden während der F&E-Zusammenarbeit und die visuelle Ausrichtung mit anderen bezieht dynamische Asset-Bilder generieren.

Le Yuan, ein Partner von Yitian Capital, analysierte die Herausforderungen, denen sich die kommerzielle Umsetzung der Videoerzeugungstechnologie aus Kapitalperspektive gegenübersieht. Er glaubt, dass die Technologie zur Videogenerierung in den letzten zwei oder drei Jahren weit über die Erwartungen hinausgegangen ist, was jedoch objektiv gesehen immer noch nicht ausreicht, um eine groß angelegte Kommerzialisierung von Anwendungen auf der Grundlage von Sprachmodellen zu unterstützen wird verwendet. Die Methodik und die aufgetretenen Herausforderungen sind auch auf videobezogene Anwendungsfelder anwendbar.

Der zweite Roundtable-Dialog des Forums konzentrierte sich auf „Innovation und Chancen bei Videoerzeugungsanwendungen unter der Welle der dekonstruierten generativen KI“. Gäste von Wuyuan Capital, FancyTech, Morph AI und der Stanford University sprachen über Investitionen, Anwendung, Technologie und Kunst usw. Aus mehreren Blickwinkeln werden die Entwicklungsrichtung und Anwendungsszenarien der Videoerzeugungstechnologie untersucht.

Kong Jie, Gründer und CEO von FancyTech, glaubt, dass die Videogenerierungstechnologie zu Reformen auf der Angebotsseite führen und es mehr Menschen ermöglichen wird, sich an der Erstellung von Inhalten zu beteiligen. Er stellte die To B-Videogenerierungsplattform von FancyTech vor, die Händlern dabei hilft, die Kosten für die Erstellung von Inhalten zu senken, indem sie reale Artikel in virtuellen Szenen wiederherstellen.

Shi Yunfeng, Vizepräsident von Wuyuan Capital, erwähnte, dass sich die aktuelle Videogeneration noch in einem frühen Entwicklungsstadium befinde, ähnlich dem Explorationsstadium bei der ersten Veröffentlichung von GPT2. PMF zu finden ist eine große Herausforderung, wenn die technologischen Grundlagen noch nicht solide sind. Er glaubt, dass die Technologie zwar weiter voranschreitet, die Urheber jedoch sehr enthusiastisch sind und eine gewisse Reichweite haben, die Inhalte jedoch nicht weit verbreitet sind. Es erfordert talentierte Produktmanager, das Produkt anzupassen und neue Inhaltsformen zu erstellen, die mit dem bestehenden Informationsfluss nicht kompatibel sind.

Xu Huaizhe, Gründer und CEO von Morph AI, glaubt, dass Videogenerierungstechnologie und -anwendungen gleichermaßen wichtig sind. Als Team mit technischem Hintergrund ist es wichtiger, die Entwicklung der Modellschicht und der Anwendungsschicht zu koordinieren. Er stellte Morph Studio vor, ein All-in-One-KI-Videoproduktionstool, das auf Morphs führendem KI-Video-Großmodell basiert. Es wird derzeit weltweit getestet und hat positives Feedback erhalten. Morph wird auch in Zukunft die Produktfunktionen und das Benutzererlebnis durch Benutzerfeedback optimieren, damit seine KI-Videotechnologie schneller durch Produkte implementiert werden kann und den Erstellern besser helfen kann.

Im Hinblick auf die Kombination von Kunst und Technologie ist Rao Anyi, Postdoktorand an der Stanford University, davon überzeugt, dass die Videogenerierungstechnologie interaktivere Erstellungsmethoden inspirieren kann. Er betonte, dass weder Maschinen noch Menschen zu 100 % korrekt sein können, weshalb ein interaktiver Verbesserungsmechanismus in den kreativen Prozess eingeführt werden muss, damit Maschinen und Menschen zusammenarbeiten können, um die Schöpfung zu vollenden.

Insgesamt sind die Gäste des Roundtable-Dialogs voller Erwartungen hinsichtlich der Anwendungsaussichten der Videoerzeugungstechnologie, erkennen aber auch an, dass sich die aktuelle Technologie noch in einem frühen Stadium befindet und neue Geschäftsmodelle und Anwendungsszenarien erforscht werden müssen, um einen größeren Nutzen zu erzielen .

Die erfolgreiche Durchführung dieses Forums bietet nicht nur eine Kommunikations- und Lernplattform für Praktiker im Bereich KI-Video, sondern bietet auch mehr Kooperationsmöglichkeiten für alle Glieder der zugehörigen Industriekette. Mit Blick auf die Zukunft wird die KI-Videotechnologie einen breiteren Entwicklungsraum und umfassendere Anwendungsszenarien eröffnen und ein besseres visuelles Erlebnis für den Menschen schaffen.

Nachricht

Große Unternehmen haben ein „Wettrüsten“ in der Videoproduktion gestartet. Kann KI Hollywood wirklich besiegen?

Einführung

meine Kontaktdaten