Nachricht

PixVerse V2 ist da!Erzeugen Sie 5 „Sora“ in einem Atemzug, und die „Lautstärke“ der Videogenerierungsspur fliegt davon

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Autor |. Yoky

E-Mail |. [email protected]

„Zu lockig!“

Seit Juni haben Videogenerierungsprodukte eine gewaltige Explosion eingeläutet: Von Keling über Luma bis hin zu Runway Gen3 werden die Modellfähigkeiten und Produktisierungseffekte immer besser.

PixVerse hat gerade die V2-Version auf den Markt gebracht. Zusätzlich zur Aktualisierung der DiT-Architektur kann es tatsächlich fünf Videoinhalte mit „Sora“-Effekt hintereinander generieren!

Bei kreativen Tests wie Katzen, die Nudeln fressen, und Hunden, die Motorräder fahren, schnitten die Videoklarheit, die dynamische Qualität und die Ästhetik von PixVerse V2 gut ab.

Laut Silicon Star,Basierend auf der DiT-Architektur (Diffusion + Transformer) in Kombination mit dem räumlich-zeitlichen Aufmerksamkeitsmechanismus wurden bei PixVerse V2 schrittweise Upgrades der Modellfunktionen durchgeführt.Es unterstützt die gleichzeitige Generierung von 8-Sekunden-Videos und verbessert gleichzeitig den Dynamikbereich, den Detailausdruck und die Authentizität des Videos erheblich. Ein weiteres wichtiges Update besteht darin, dass PixVerse V2 die Generierung von 1-5 fortlaufenden Videoinhalten mit einem Klick unterstützt Clips sind Es behält automatisch die Konsistenz des Hauptbilds, des Bildstils und der Szenenelemente bei, sodass jeder problemlos 40-Sekunden-Videoinhalte generieren kann!

Aus Sicht des Generierungseffekts weist die PixVerse V2-Version einerseits eine höhere Informationsdichte auf und kann mehr Informationen in wenigen Sekunden übertragen. Gleichzeitig wird die Konsistenz verbessert, wodurch die generierten Inhalte verbessert werden Inhalte sind benutzerfreundlicher; andererseits vereinfacht das Produktdesign von V2 komplexe Funktionen so weit wie möglich, sodass auch Anfänger diese erstellen können.

Wir haben festgestellt, dass mit der kontinuierlichen Weiterentwicklung der Videogenerierungsmodelltechnologie und -produkte bei normalen Benutzern im In- und Ausland eine enorme Nachfrage besteht. Die Erstellung von KI-Videoinhalten ist nicht auf Berufsgruppen beschränkt. Auch normale Benutzer sind bestrebt, ihre Kreativität und Ideen durch einfache und intuitive Tools auszudrücken.

Wenn Sie die Produktiterationen von PixVerse V2 aus dieser Perspektive betrachten, werden Sie feststellen, dass jede Funktion danach strebt, näher an die Benutzer heranzukommen.

1

1. Jede Iteration kommt den Benutzern einen Schritt näher

Seit seiner Einführung hat sich PixVerse zu einem der beliebtesten Produkte zur Videogenerierung entwickelt, basierend auf technologischer Innovation und tiefem Einblick in die Benutzerbedürfnisse.

In der neuesten V2-Version ist eine der bahnbrechenden Funktionen die Möglichkeit, mehrere Videos gleichzeitig zu erstellen und dabei die Konsistenz und Kohärenz der Elemente zwischen den Videos beizubehalten. Diese Funktion ist von großer Bedeutung für die Erstellung langer Videoinhalte, die es den Erstellern ermöglicht, eine Reihe zusammenhängender Videoclips zu einem Thema oder einer Handlung zu erstellen.


In unserer Bewertung haben wir festgestellt, dass PixVerse V2 bei der Verarbeitung komplexer Szenen und langer Videosequenzen eine gute Leistung erbringt. Das gleiche Charakterbild kann frei zwischen verschiedenen Szeneneinstellungen wechseln. Darüber hinaus beschränkt sich die Kohärenz nicht nur auf die visuelle Konsistenz, sondern umfasst auch reibungslose Übergänge in Aktionen und Handlungen, was besonders für narrative Videos wichtig ist.

Ein weiteres Highlight ist die verbesserte Benutzerfreundlichkeit. Im Gegensatz zu den „Kreativspielzeugen“ auf dem Markt, die nur kurze Clips generieren können und ständiges „Kartenzeichnen“ und sekundäres Bearbeiten erfordern, kann PixVerse V2 nicht nur hochwertige Videoclips generieren, sondern auch die Kreativität kurzer Clips erweitern und diese direkt ausgeben vollständige und nutzbare kreative Inhalte.

Durch diese Funktion ist PixVerse V2 nicht mehr auf die Generierung kurzer Aufnahmen für die sekundäre Bearbeitung beschränkt, sondern kann komplette Videos direkt ausgeben, die auf mehreren Plattformen und in mehreren Szenen verwendet werden können.

In tatsächlichen Bewertungen hat diese Funktion von PixVerse V2 die Effizienz und den Komfort der Videoerstellung erheblich verbessert. Benutzer müssen nicht mehr viel Zeit mit der Videobearbeitung und -synthese verbringen und können sich mehr auf die Kreativität und den Inhalt selbst konzentrieren. Ob es sich um ein kurzes Video zum Teilen in sozialen Medien oder um ein dramatisches Video handelt, das Kontinuität erfordert, PixVerse V2 bietet eine Lösung aus einer Hand. Die verbesserte Benutzerfreundlichkeit erweitert den Anwendungsbereich der KI-Videogenerierungstechnologie weiter, sodass sowohl normale Benutzer als auch professionelle Ersteller davon profitieren können.


Wir können die technologischen Innovationen und vielfältigen Verbesserungen des Benutzererlebnisses von PixVerse V2 erkennen. Laut Silicon Star hat PixVerse V2 einen Durchbruch in der räumlich-zeitlichen Diffusionsmodellierung erzielt, indem es einen innovativen räumlich-zeitlichen Aufmerksamkeitsmechanismus in das zugrunde liegende Modell eingeführt hat, wodurch seine Verarbeitungsfähigkeiten für komplexe Szenen erheblich verbessert wurden. Gleichzeitig ermöglichen seine leistungsstarken Textverständnisfunktionen dem Modell, Textaufforderungen genauer mit Videoinhalten abzugleichen und so eine tiefe multimodale Fusion zu erreichen.

Darüber hinaus wurde PixVerse V2 auch hinsichtlich der Recheneffizienz optimiert. Durch die Verbesserung des herkömmlichen Flussmodells und die Gewichtung der Verlustfunktion kann das Modell schneller konvergieren und dadurch die Geschwindigkeit und Genauigkeit der Videogenerierung verbessern. Die Einführung des 3D-VAE-Modells und die Anwendung des raumzeitlichen Aufmerksamkeitsmechanismus verbessern die Qualität der Videokomprimierung und -rekonstruktion weiter und gewährleisten eine effiziente Übertragung und Speicherung von Videoinhalten.

Wenn wir auf mehrere wichtige Meilensteine ​​von PixVerse seit seiner Veröffentlichung zurückblicken, werden wir feststellen, dass dahinter nicht nur seine technische Stärke, sondern auch sein ausgeprägtes Gespür für den Markt und die Benutzerbedürfnisse steckt.

Im Mai brachte PixVerse seine revolutionäre Bewegungspinselfunktion auf den Markt. Mit dieser Funktion können Benutzer die Bewegung bestimmter Bereiche im Video steuern, indem sie einfach Flugbahnen zeichnen, was die Flexibilität und Intuitivität der Videoerstellung erheblich verbessert. Der Einsatz spezifischer Szenarien umfasst unter anderem Animationsproduktion, Werbekreativität, Generierung von Social-Media-Inhalten usw. Das Feedback der Benutzer war im Allgemeinen positiv und sagte, dass diese Funktion den Videobearbeitungsprozess erheblich vereinfacht und die Erstellung freier und intuitiver macht.

Wenn Benutzer im Hinblick auf die Produktfunktionseinstellungen grundsätzlich mit den generierten Ergebnissen zufrieden sind, aber Details anpassen möchten, unterstützt PixVerse sekundäre Bearbeitungs- und kostenlose Transformationsfunktionen, sodass Benutzer den Videoanzeigeeffekt flexibel an die Anforderungen verschiedener Plattformen und Szenarien anpassen können. Darüber hinaus kann PixVerse auch verschiedene Stile und Seitenverhältnisse wählen, was den Benutzern ein höheres Maß an Freiheit bei der Videoerstellung bietet.


Vom Bewegungspinsel über die Zeichenkonsistenzfunktion bis hin zur kohärenten Videogenerierung der V2-Version kommt jedes Update den Benutzern einen Schritt näher. Dieses benutzerzentrierte innovative Konzept macht PixVerse nicht nur zu einem durch Technologie realisierten Produkt, sondern auch zu einem Partner bei der Verwirklichung der Kreativität der Benutzer.

1

2. Tiefe bestimmt Innovation

Wenn wir beurteilen, ob es sich bei einem Videogenerierungsprodukt um ein Spielzeug oder ein Produktivitätstool handelt, ist die Informationsdichte ein wichtiger Indikator für die Inhaltsqualität.

Wenn sich ein kleiner Ball unregelmäßig auf einem leeren Hintergrund bewegt, kann er sich unendlich lange bewegen, liefert aber nur sehr wenige Informationen.

Mit PixVerse V2 versucht Aishi Technology, die Informationsdichte der Videogenerierung durch technische Mittel zu erhöhen, Benutzer von der mühsamen Bearbeitung von Videomaterial zu befreien und direkt in die kreative Erstellung von Videoinhalten einzusteigen. Das ultimative Streben nach Konsistenz, um sicherzustellen, dass der Hauptteil mehrerer Clips unverändert bleibt, und andere Funktionen zielen alle darauf ab, vom Videomaterial direkt zu veröffentlichungsfähigem Videoinhalt zu gelangen.

Der Produktmanager von PixVerse sagte: Das Team hält stets an der Produktidee „Walking with Users“ fest. In den frühen Phasen der Produktentwicklung führt das Team eingehende Voruntersuchungen durch, einschließlich der Kommunikation mit Branchenpraktikern, der Beobachtung tatsächlicher Benutzer und der Sammlung von Community-Feedback. Diese umfassende Benutzerforschungsmethode ermöglicht es Aishi, subtile, aber kritische Benutzerbedürfnisse zu erfassen. Selbst kleine, von Benutzern vorgeschlagene Funktionspunkte werden ernst genommen und getestet.

Dieses benutzerorientierte innovative Konzept bringt die Funktionen von PixVerse näher an die tatsächlichen Bedürfnisse der Benutzer heran. Der Produktmanager von Aishi berichtete über den Entstehungsprozess von Magic Brush, einem typischen Vertreter der Produktentwicklung von Aishi.

Anfang dieses Jahres brachte Runway seinen ersten Pinsel auf den Markt: Motion Brush. Benutzer können die Bewegungsbahn des Motivs anpassen, indem sie verschiedene Pinsel auswählen und die Steuerschaltflächen unten anpassen. Nachdem wir diese Funktion gesehen und Marktforschung, Benutzerinterviews und Community-Feedback durchgeführt hatten, stellten wir fest, dass Benutzer zwar einen hohen Bedarf an flexibleren Videobearbeitungswerkzeugen haben, die Interaktionsmethode von Motion Brush jedoch nicht flexibel genug ist und das Debuggen nicht präzise ist kontrollierbar genug.


Nachdem das PixVerse-Produktteam diesen Bedarf erkannt hatte, konzentrierte es sich auf die Diskussion: Welche Art von Interaktionsmethode kann es Benutzern ermöglichen, die Pinselfunktion intuitiver und prägnanter zu nutzen?

Basierend auf vorläufigen Benutzerrecherchen stellte das Produktteam fest, dass Benutzer zunächst die Bewegungsbahnen mehrerer Motive debuggen müssen und es in Motion Brush keine Partitionsauswahlfunktion gibt. Zweitens sind die Bewegungsbahnen des Motivs nach der Auswahl eines Motivs veränderbar Die Steuertasten können keine echten Bewegungseffekte simulieren. Daher wählte das Produktteam bei der Entwicklung von Magic Brush Methoden zum Verschmieren, eine intelligente Auswahl von Partitionen und eine interaktive Methode, die es Benutzern ermöglicht, Bewegungsbahnen in 360 Grad frei zu zeichnen.


Allerdings ist diese Art der Interaktionsmethode für Benutzer bequem, stellt jedoch größere technische Herausforderungen dar. Basierend auf der DiT-Architektur entwickelte das technische Team von Aishi den Kernalgorithmus zur Unterstützung der Magic Brush-Funktion, die die Stricheingabe des Benutzers analysiert und in Bewegungseffekte im Video umwandelt.

Magic Brush wurde schnell in nur einem Monat eingeführt, von der Ermittlung der Benutzerbedürfnisse über die Einrichtung von Produktprojekten bis hin zu technischen Lösungen. Dies ist untrennbar mit Aishis „kurzem, flachem und schnellem“ Unternehmensbetriebsmodell verbunden.

Die Marketingabteilung kann schnell Benutzerfeedback sammeln und es zeitnah an die Produkt- und Technikteams weitergeben. Dieser schnelle Informationsfluss und Entscheidungsprozess ermöglicht es Aishi, schnell die Machbarkeit von Anforderungen zu prüfen, A/B-Tests durchzuführen und schnelle Entscheidungen zu treffen. Diese Agilität ist ein einzigartiger Vorteil von Startups und auch der Schlüssel zu Aishis Fähigkeit, Produkte schnell zu iterieren.

Im Vergleich zu großen Technologieunternehmen haben Startups gewisse Vorteile in Bezug auf Reaktionsgeschwindigkeit und Flexibilität. Diese Agilität spiegelt sich nicht nur in der Produktentwicklung und Marktstrategien wider, sondern wirkt sich auch tiefgreifend auf die Unternehmenskultur und Organisationsstruktur aus. Aufgrund ihrer geringeren Größe sind Startups flexibler bei der Ressourcenzuteilung. Sie können Ressourcen schnell von einer Aufgabe auf eine andere oder von einem Projekt auf ein anderes verschieben und so eine maximale Ressourcenauslastung gewährleisten.

Gleichzeitig legen wir mehr Wert auf Benutzerfeedback und stellen die Benutzerbedürfnisse in den Mittelpunkt der Produktentwicklung. Dieser benutzerorientierte Ansatz bei der Produktentwicklung ermöglicht es Startups, Produkte, die den Benutzeranforderungen entsprechen, schneller auf den Markt zu bringen. Viele Startups wenden agile Entwicklungsmethoden an, bei denen schnelle Iteration und kontinuierliche Verbesserung im Vordergrund stehen. Bringen Sie Produkte durch regelmäßige Veröffentlichungen neuer Funktionen und Fehlerbehebungen schneller auf den Markt und optimieren Sie sie basierend auf Benutzerfeedback.

Die von Aishi verkörperte Agilität und tiefgreifende Innovation sind die einzigartigen Vorteile von Start-up-Unternehmen in der neuen Ära der Großmodelle.

1

3. Wir brauchen gute Technologie und noch bessere Produkte.

Heute haben wir herausgefunden, dass es tatsächlich noch ein weiter Weg ist, bis die Technologie die Benutzer erreicht, und dass Produkte die wichtigsten Verbindungselemente sind. Technologie ist die treibende Kraft für Innovation, aber ihr Wert kann nur dann wirklich zum Ausdruck kommen, wenn Technologie über Produkte mit den Benutzern verbunden wird.

Während des Entwicklungsprozesses von PixVerse hat das Aishi Technology-Team jedes Detail sorgfältig verfeinert. Um die Benutzerfreundlichkeit des Videos zu verbessern, unterstützt PixVerse in der V2-Version die sekundäre Bearbeitung der generierten Ergebnisse. Durch intelligente Inhaltserkennung und automatische Zuordnungsfunktionen können Benutzer das Motiv, die Aktion, die Umgebung und die Kamerabewegung des Videos flexibel ersetzen und anpassen Video, das die kreativen Möglichkeiten beim Sex weiter bereichert.


Die für die Produkte von Aishi verantwortliche Person sagte außerdem: „Technologische Stärken und Unterschiede sind wichtig, aber Produktisierung und Benutzerbarrieren sowie technisches Feedback, das dadurch entsteht, dass immer mehr Benutzer über Produkte miteinander verbunden werden, sind noch wichtiger.“

Gleichzeitig sind Produkte in den frühen Phasen der Technologieentwicklung auch der Ausgangspunkt für die Technologieimplementierung. Verwandeln Sie fortschrittliche KI-Technologie in tatsächliche Produktfunktionen, die für Benutzer wahrnehmbar und bedienbar sind. Dieser Wandel von Technologie zu Produkten beschleunigt nicht nur die Anwendung von Technologie, sondern bietet Benutzern auch beispiellosen Komfort und Kreativität.

Insbesondere wenn die Technologie noch nicht das Zielniveau erreicht hat, ist die wechselseitige Förderung zwischen Technologie und Produkten von praktischerer Bedeutung.

In Bezug auf den oben erwähnten Zauberpinsel berichteten beispielsweise einige Entwickler: „In diesem Stadium, in dem die Fähigkeit des Basismodells nicht den Punkt erreichen kann, an dem sich mehrere Motive entsprechend der physischen Welt bewegen, kann die Anpassung des Bewegungspinsels den kreativen Raum vergrößern.“ Einige Charaktere „Blinzeln, Ausdrücke und komplexe Relativbewegungen können alle mit Bewegungspinseln erreicht werden.“

Zu diesem Zeitpunkt ist Vincent Video zwar konzeptionell attraktiv, stößt jedoch bei der Generierung von Inhalten in der Praxis auf Einschränkungen. Aufgrund der begrenzten Informationsdichte des Textes selbst ist es bei der direkten Umwandlung von Textbeschreibungen in Videoinhalte oft schwierig, alle Details komplexer Szenen und dynamischer Veränderungen zu vermitteln. Daher entwickelte sich Tusheng Video zu einer schrittweisen Lösung.

Im Vergleich zu Vincent-Videos kann Tusheng-Videos eine höhere Informationsdichte bieten, da sie auf der Grundlage visueller Informationen generiert werden und die Komplexität der Szene genauer erfassen und wiedergeben können. Während die Fähigkeiten des Basismodells den Unterschied in der Informationsdichte zwischen Text und Video noch nicht beseitigen konnten, ist die Einführung von Tusheng Video nicht nur ein Spiegelbild des technologischen Fortschritts, sondern auch eine Innovation bei Produktdesignideen.

In den Anfängen der Technologie spiegelte sich Aishis Strategie darin wider, technologische Durchbrüche zu erzielen und gleichzeitig der Produktimplementierung mehr Aufmerksamkeit zu schenken. Durch das Verständnis und die Einsicht in die Benutzer werden andere Benutzerbarrieren als technische Barrieren gebildet, und Produktbarrieren werden etabliert, wodurch die Grenzen der Technologie und der Produkte verschoben werden.

Nur ein Produkt zur Videogenerierung, das wirklich genutzt werden kann, muss nicht nur den aktuellen Bedürfnissen der Benutzer gerecht werden, sondern sich auch auf die Zukunft konzentrieren und einen nachhaltigen Technologieentwicklungspfad wählen.

Ob es sich um den frühen „toten Kampf“ mit der Konsistenztechnologie, die Iteration von Magic Brush oder das neue Upgrade der PixVerse V2-Version handelt, Aishis Produktstrategie basiert einerseits auf der Gegenwart und löst andererseits praktische Probleme. Es blickt in die Zukunft, wählt den langfristigen Entwicklungspfad und engagiert sich für den Aufbau einer nachhaltigen Zukunft.

Durch kontinuierliche Technologieforschung und -entwicklung, umfassende Benutzereinblicke und sorgfältige Verfeinerung von Produktdetails benötigen Unternehmen in der Videogenerierungsbranche unabhängig von ihrer Größe kontinuierliche technologische Durchbrüche, um Produkte zu schaffen, die wirklich wertvoll sind und Kreativität anregen können.

Genau wie der Slogan von PixVerse V2: „Kreatives Potenzial für alle freisetzen“ ist dies nicht nur eine Chance für PixVerse, sondern auch eine Chance für alle Schöpfer im Zeitalter der großen Models.