Nachricht

„Jimeng AI“ ist in den Regalen, kann Byte mit Kuaishou mithalten?

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Journalist: Yang Xinyi Herausgeber: Wei Guanhong

„Der Druck liegt auf Douyin.“ Als im Juni dieses Jahres phänomenale generative KI-Produkte (künstliche Intelligenz) auf den Markt kamen, vertreten durch Kuaishous selbst entwickeltes großes Videogenerationsmodell Keling, freute sich die Außenwelt auf die weitere Leistung von Byte.

Kürzlich wurde die mobile Version von „Jimeng AI“, einer vom Redaktionsteam von ByteDance entwickelten One-Stop-KI-Erstellungsplattform, offiziell im Apple App Store eingeführt.

Ein Reporter von „Daily Economic News“ erfuhr, dass die Anwendung derzeit über Funktionen wie textbasierte Bilder und text-/bildbasierte Videos verfügt. Darüber hinaus hat Jimeng ein Mitgliedschaftssystem und mehrere Abonnementmethoden eingeführt.

Durch den Vergleich der tatsächlichen Anwendungen von Ji Meng, Ke Ling und Sora stellten Reporter von „Daily Economic News“ fest, dass die drei großen Videogenerationsmodelle beim Erfassen und Verstehen von Aufforderungswörtern genauer und vollständiger sind, die Charaktere von Ji Meng jedoch Fähigkeiten wie Gestaltung, Inhaltsreichtum und Videokompetenz sind relativ mangelhaft. Was die Dauer der generierten Inhalte betrifft, unterstützt Jimeng die Videogenerierung von bis zu 12 Sekunden.

„Die Anzahl der Sekunden, die benötigt werden, um ein flüssiges Video zu erzeugen, ist ein Schlüsselfaktor bei der Beurteilung der Fähigkeit eines Videos, ein großes Modell zu erzeugen“, sagte ein großer Modellingenieur in einem Interview mit einem Reporter der „Daily Economic News“: „ „Glatt“ muss anhand mehrerer Dimensionen gemessen werden. Schauen Sie sich zum Beispiel an, ob der generierte Inhalt sachlich fehlerhaft ist, wie gut Ihr Gedächtnis ist und ob Ihr Raumgefühl stimmt.“


Die mobile Version von „Jimeng AI“ ist in den Regalen. Bildquelle: App-Screenshots


„Jimeng AI“ ist in den Regalen, kann die Wirkung Ling einholen?

Zu Beginn dieses Jahres läutete das Aufkommen von Sora die „ChatGPT-Video-Ära“ ein. Anschließend weckte das von Kuaishou ins Leben gerufene „dunkle Pferd“ Keling die Erwartungen der Menschen an die Leistung groß angelegter inländischer KI-Videomodelle. ByteDance, die Muttergesellschaft von Douyin, die auch ein Kurzvideoriese ist, gilt als einer der Player mit dem größten Aufholpotenzial.


Bildquelle der Keling AI-Webseite: Screenshot der offiziellen Website

Ende März wurde die vom hochmodernen Team von Byte entwickelte KI-Erstellungsplattform für interne Tests geöffnet. Zu Beginn gab es nur drei Anwendungen Hauptfunktionen: Bildgenerierung, Smart Canvas und Videogenerierung. Am 6. August wurde die mobile Version der Anwendung offiziell im Apple App Store eingeführt und verfügt nun über Funktionen wie Text- basierte Bilder und text-/bildbasierte Videos.


Bildquelle der Jimeng AI-Webseite: Screenshot der offiziellen Website

Was die tatsächliche Wirkung von Jimeng betrifft, so wurde Anfang Juli dieses Jahres auf Douyin die erste AIGC-Generativ-Continuous-Narrative-Science-Fiction-Kurzserie „Sanxingdui: Future Apocalypse“ des Landes gestartet. In dieser Kurzserie mit insgesamt 13 Episoden nutzte Jimeng als Hauptunterstützer der KI-Technologie 10 KI-Technologien, darunter AIGC-Skripterstellung, Konzept- und Storyboard-Design, Bild-zu-Video-Konvertierung, Videobearbeitung und Verbesserung von Medieninhalten.

Medienberichten zufolge hat Jimeng AI im Rahmen der Zusammenarbeit mit Bona Pictures zur Veröffentlichung von „Sanxingdui: Future Apocalypse“ die Funktion „Videogenerierung“ verbessert, einschließlich der Unterstützung von 24 fps, 30 fps, 60 fps Frame-Füllung und der Möglichkeit, den Superscore zu verdoppeln. , horizontale Bewegung des Objektivs, Auf- und Abbewegung, Unterstützung für Richtungs- und Amplitudensteuerung der Objektivbewegung usw. hinzugefügt.


Bildquelle: Screenshot des öffentlichen WeChat-Kontos von Jianying

Nach dem Start der Jimeng-App wählte ein Reporter von „Daily Economic News“ eine Reihe von Sora-Videoaufforderungswörtern aus, die offiziell von OpenAI veröffentlicht wurden, um einen Vergleichstest für Jimeng, Keling und Sora durchzuführen.

Den Testergebnissen des Reporters nach zu urteilen, sind die drei großen Videogenerierungsmodelle relativ genau und vollständig bei der Erfassung und dem Verständnis von Aufforderungswörtern, und die Bildschirmleistung des generierten Videoinhalts ist ebenfalls kohärent und flüssig.

Allerdings hat Sora hinsichtlich der Präzision der Charakterdarstellung gewisse Vorteile gegenüber Ji Meng und Ke Ling; hinsichtlich der Natürlichkeit der Bewegungen ist Ji Meng den drei Testprodukten beispielsweise in „The Lady on the“ etwas unterlegen Videoaufnahmen zum Thema „Straßen von Tokio“ zeigen, dass Kopf und Hals der durch den Traum erzeugten Figur beim Drehen des Kopfes leicht verzerrt sind und auch die Handbewegungen beim Tragen der Tasche deformiert sind.


Bildquelle: Vom Reporter erstellter Video-Screenshot

Was den Reichtum an Elementen im Produktionsinhalt angeht, schneidet Sora unter den dreien ebenfalls besser ab. In den generierten Videoinhalten zum Thema „Astronaut“ stellte Sora beispielsweise viele Assoziationen zu prompten Wörtern wie Raumschiffen und außerirdischen Szenen her, während Ji Meng und Ke Ling nur eine männliche Figur im Raumanzug präsentierten.


Bildquelle: Vom Reporter erstellter Video-Screenshot

Chen Chen, Forschungspartner bei Analysys Analysis, sagte in einem Interview mit einem Reporter von „Daily Economic News“, dass die Gesamtqualität der KI-Bilder von Dream in Bezug auf den Generierungseffekt besser sei, während KI-Videos in Bezug auf Dauer, Elementreichtum und Action besser seien Kohärenz usw. Die Details fehlen noch.

„(Der Elementinhalt ist nicht reichhaltig genug) Es geht mehr um die Ausrichtung des Modells, aber wenn die Fähigkeit zur Zuordnung von ‚Astronaut‘ zu ‚Raumschiff‘ fehlt, liegt ein Problem mit den Fähigkeiten des Basismodells vor.“ Ein großer Modellingenieur sagte gegenüber einem Reporter von „Daily Economics“ News, dass die Anzahl der Sekunden, die zur Erzeugung eines glatten Videos benötigt werden, ein Schlüsselfaktor bei der Beurteilung der Fähigkeit eines Videos zur Generierung großer Modelle sei. „‚Glatt‘ muss betrachtet werden.“ aus mehreren Dimensionen, z. B. ob der generierte Inhalt sachliche Fehler aufweist, wie gut das Gedächtnis ist und das Raumgefühl nicht gleich ist.“

„Daily Economic News“-Reporter fanden durch Versuche heraus, dass die Genauigkeit und Glätte des Hauptbilds und der Bewegungen des Videos wahrscheinlich entsprechend beeinträchtigt wird, wenn die gleichen Aufforderungswörter eingegeben werden, je länger die Erstellung des Videos dauert.

Derzeit unterstützt Jimeng die Generierung von Videoinhalten mit einer Länge von 3 Sekunden, 6 Sekunden, 9 Sekunden und 12 Sekunden, entsprechend dem unterschiedlichen Punkteverbrauch. Sora konnte bereits bei seiner Veröffentlichung am 21. Juni 1-minütige Videos synthetisieren. Keling führte die Tusheng-Videofunktion ein, die die Umwandlung statischer Bilder in lebendige 5-Sekunden-Videos basierend auf unterschiedlichen Textinhalten unterstützt, und tut dies auch weiterhin write Die Funktion kann dafür sorgen, dass das Video etwa 5 Sekunden lang dauert, und das längste Video kann etwa 3 Minuten lang generiert werden.


Wird KI-Video eine Goldgrube für große Models sein?

Das Aufkommen von Sora hat zweifellos ein neues Spielfeld für große Models eröffnet – im Juli dieses Jahres veröffentlichte die Alibaba Damo Academy eine One-Stop-KI-Videoerstellungsplattform „Xunguang“ und SenseTime brachte die erste steuerbare KI-Videoerstellungsplattform für C- auf den Markt. Endbenutzer haben außerdem angekündigt, dass das KI-generierte Videomodell Qingying (Ying) offiziell auf Zhipu Qingyan⋯⋯ eingeführt wird

Wenn führende KI-Akteure gemeinsam einen heftigen Angriff auf videogenerierte Großmodelle starten, stellt sich eine unvermeidbare Frage: Können KI-Videos dazu führen, dass große Modellunternehmen Geld verdienen?

Nehmen Sie als Beispiel OpenAI, ein Starunternehmen der Branche, nachdem es im Juli dieses Jahres eine Reihe großer Modelle mit führenden Funktionen auf den Markt gebracht hatte, und einige Medien zitierten mit der Angelegenheit vertraute Personen und gaben keine internen Finanzdatenanalysen bekannt Laut Aussage könnte OpenAI in diesem Jahr mit einem enormen Verlust von 3,5 Milliarden US-Dollar rechnen, der Gesamtjahresumsatz des Unternehmens wird auf 3,5 bis 4,5 Milliarden US-Dollar geschätzt, was weit unter den Betriebskosten liegt.

Gleichzeitig scheinen inländische Großvideomodelle auch ein wenig „ängstlich“ zu sein, wenn es um die Kommerzialisierung geht. Am 30. Juli führte Keling ein globales Mitgliedschaftssystem ein, das dem auf dem heimischen Markt eingeführten Mitgliedschaftssystem ähnelt. Beispielsweise ist die Monatskarte in drei Stufen unterteilt: 10 US-Dollar, 37 US-Dollar und 92 US-Dollar Generieren Sie etwa 66, 300 und 800 5-Sekunden-Videos.

Der Reporter von „Daily Economic News“ bemerkte, dass Jimeng ein Mitgliedschaftssystem eingeführt hat, mit verschiedenen Abonnementmethoden für eine Basismitgliedschaft von 79 Yuan für einen einzelnen Monat, 69 Yuan für ein fortlaufendes Monatsabonnement und 659 Yuan für ein Jahresabonnement. Konkret können Basis-Mitglieder mit 505 Punkten pro Monat etwa 2.020 Bilder oder 168 KI-Videos generieren. Darüber hinaus gibt es Standard-Mitgliedschaftsdienste mit 2020 Punkten pro Monat und erweiterte Mitgliedschaftsdienste mit 6555 Punkten pro Monat, die in Kürze eingeführt werden.

„Aufgrund der hohen Modellschulungs- und Inferenzkosten großer KI-Modelle, gepaart mit der relativ verstreuten Nachfrage von C-End-Benutzern nach KI-Tools und ihrer mangelnden Zahlungsbereitschaft, wird die Kommerzialisierung großer Videomodelle auf dem C-End-Markt zunehmen.“ steht noch vor einer langen Wachstumsphase.“ Chen Chen glaubt, dass die Kommerzialisierung groß angelegter Videomodelle für den C-End-Markt noch einen langen Weg vor sich hat.

Ausgehend vom B-Seiten-Markt sagte Chen Chen dem Reporter von „Daily Economic News“: „Für die B-Seite verändert die Revolution der KI-Technologie den ursprünglichen Arbeitsablauf, komprimiert redundante Links und löst eine neue Nachfrage nach kreativen Werkzeugen aus.“ In diesem Prozess können große KI-Videomodelle schrittweise in bestehende Film- und Fernsehproduktionen, Werbekreativität und Medieninhaltsplanung integriert werden, um die Automatisierung komplexer Prozesse und die intelligente Inhaltsproduktion zu unterstützen und zu prüfen, ob die Modellfunktionen effektiv eingebettet werden können Tatsächliche Arbeitsabläufe werden Substanz bringen. Verbesserung der sexuellen Effizienz und Kostensenkung sind Schlüsselfaktoren beim Aufbau von Kommerzialisierungsfähigkeiten.

„Die Kommerzialisierung von Kimi wird nach und nach erforscht, steht aber derzeit nicht im Fokus. Der aktuelle Fokus liegt auf der Entwicklung eines Modells der nächsten Generation mit stärkeren Fähigkeiten. Im August dieses Jahres wurde Dark Side of the Moon von a interviewt.“ Der Reporter der „Daily Economic News“, Shi Zeng, sagte, dass es zum jetzigen Zeitpunkt nicht an der Zeit sei, sich auf die Kommerzialisierung zu konzentrieren.

Vielleicht gilt das Gleiche auch für den „jungen“ Traum, der noch einen Meilenstein nach dem anderen erreichen und übertreffen muss. „Jimengs aktuelle Produktfunktionen und Geschäftsmodelle konzentrieren sich auf die Bereitstellung von UGC (benutzergenerierte Inhalte), und die ökologische Integration mit Douyin wird auch im Mittelpunkt der zukünftigen Entwicklung stehen“, sagte Chen Chen: „Vielleicht in Bezug auf Dauer, Bildrate und Bild.“ Details und andere Technologien Direktes Benchmarking von Parametern ist nicht das, worauf Jimeng in dieser Phase die größte Aufmerksamkeit richten muss, der Schlüssel liegt in der Anwendungsimplementierung und den ökologischen Integrationsfähigkeiten.“