Lassen Sie KI-Video in die Ära der „universellen GC“ eintreten, dieses chinesische Unternehmen hat es gerade getan

Lassen Sie KI-Video in die Ära der „universellen GC“ eintreten, dieses chinesische Unternehmen hat es gerade geschafft

2024-07-24

Das Haus stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Niedrigerer Schwellenwert, höhere Qualität, mehr Logik und längere Dauer.

Diese wenigen „Updates“ wurden erst heute Morgen veröffentlichtInländisches KI-Video neues Produkt PixVerse V2, die Hitze stieg blitzschnell an.

Und seine Ursprünge sind auffällig:

Vom meistgesehenen inländischen Star-Startup-Unternehmen auf diesem TrackAishi-TechnologieAllein im ersten Halbjahr dieses Jahres schloss das Unternehmen zwei Finanzierungsrunden ab.

Schauen wir uns direkt die wichtigsten „neuen Ideen“ von Pixverse V2 an:

Modelltechnik, übernimmt die DiT-Architektur (Diffusion+Transformer) und nutzt in vielen Aspekten Originaltechnologie, um den Erzeugungseffekt deutlich zu verbessern.

Beispielsweise kann durch die Einführung eines räumlich-zeitlichen Aufmerksamkeitsmechanismus eine größere und natürlichere Videogenerierung erreicht werden.

Werfen wir einen Blick auf das kleine Alpaka, das unten fröhlich surft, was sehr passend ist, da LIama 3.1 veröffentlicht wurde und heute die Spitze erreicht hat.

Videoquantität und -qualität, unterstützt die Generierung von bis zu 5 aufeinanderfolgenden Videoinhalten mit einem Klick.

Und die Konsistenz des Hauptbildes, des Bildstils und der Szenenelemente wird zwischen den Clips automatisch gewahrt.

Darüber hinaus wurde in der offiziellen Einführung von Aishi auch darauf hingewiesen, dass es sich um ein neues Produkt handeltDie Prompt-Wort-Schwelle wurde nochmals deutlich herabgesetzt。

Unabhängig davon, ob Sie die Schnellworttechnik erlernt haben oder nicht, können Sie sie problemlos umsetzen, solange Sie die Bildanforderungen klar und prägnant ausdrücken.UndDasselbe gilt auch für den chinesischen Kontext。

Darüber hinaus besteht eine Konsistenz in Stil, Thema und Szene zwischen mehreren gleichzeitig erstellten Videos.

Machen Sie jetzt ein kurzes VideoSie müssen nicht nur keine Bilder mehr selbst machen, Sie müssen sie auch nicht mehr selbst ausschneiden.。

Generieren Sie es mit einem Klick und laden Sie es direkt auf verschiedene Plattformen zum Teilen hoch, Gänsemädchen!

Sowohl Qualität als auch Quantität sind garantiert und die Schwelle wird immer niedriger.

Die KI-Videoerstellung war an der Verwirrung von Unternehmen wie PixVerse, Runway und Luma beteiligt.Jeder kann es genießenEpoche.

Generieren Sie bis zu 5 Videos, um kontinuierliche Kreativität zu ermöglichen

Aber warte!

Wir werden uns nie so leicht von den Demos blenden lassen, die von verschiedenen Unternehmen veröffentlicht werden.

Nachdem wir heute Morgen erfahren hatten, dass PixVerse V2 veröffentlicht wurde, startete Qubits sofortMenschenfleischtest.

Rufen Sie die offizielle Website von PixVerse auf und gehen Sie in der linken Menüleiste direkt zu PixVerse V2.

derzeit ist esUnterstützt zwei Generierungsmodi für Text/Bilder und VideosIm tatsächlichen Betrieb können Sie eine der beiden auswählen oder beide zusammen verwenden.

Texteingabefeld, Bilder können durch Klicken auf das gelbe Feld im Bild unten hochgeladen werden.

In der unteren rechten Ecke des Eingabefelds, im grauen Auswahlbereich des Felds, befindet sich außerdem Folgendes5s/8s-Optionenkönnen Sie die Länge des generierten einzelnen Videoclips nach Ihren eigenen Bedürfnissen wählen.

Die mit einem grünen Rahmen ausgewählte Szene bezieht sich auf den spezifischen Videoclip, der generiert werden muss.

Tatsächlich können, wie es in der offiziellen Einführung heißt, jetzt bis zu 5 Videos zur Generierung hinzugefügt werden, nämlich Szene 1–5.

Der Bildstil aller Szenenclips folgt Szene 1Auch wenn andere nachfolgende Szenen Referenzbilder hochladen, greift PixVerse beim Neuzeichnen auf den Bildstil von Szene 1 zurück.

Kurz gesagt, ich habe mein Bestes gegeben, um den Stil der fünf Videos konsistent zu halten.

Darüber hinaus können die Ansagetexte/Ansagebilder jeder Szene einzeln eingegeben werden.

Wenn Sie fertig sind, können Sie auf die Sternschaltfläche in der unteren rechten Ecke des Eingabefelds klicken, um in den Generierungsstatus zu gelangen.

Nach Erfahrung habe ich herausgefunden, dass jede Generation 50 Credits kostet (die Rechenleistungswährung von PixVerse V2), egal wie viele Szenen generiert werden müssen.

Während der Erfahrung das Einhalten des InputsDie einfachste mögliche EingabeaufforderungIm Prinzip lauten die fünf Eingabeaufforderungswörter, die wir eingeben, wie folgt:

Am frühen Morgen zog sich ein kleines weißes Kaninchen auf dem Bett an
Das kleine weiße Kaninchen war auf dem Weg zur Arbeit und kam an einem Garten vorbei.
Das kleine weiße Kaninchen hält eine Tasse dampfenden Kaffee in der Hand
Das kleine weiße Kaninchen hält Kaffee in der Hand und wartet in der Schlange auf den Aufzug
Der kleine weiße Hase hüpfte resigniert auf der Straße auf und ab

Obwohl Sie nach der Generierung die Optionen nutzen können, um jedes Video einzeln zu verfeinern (Motiv, Szene, Aktion und Kamerabewegung anpassen), haben wir keinen Eingriff vorgenommen und uns auf den ursprünglichen Geschmack konzentriert.

Die generierten Ergebnisse lauten wie folgt:

△In Anbetracht des Erscheinungsbilds ist die Wiedergabegeschwindigkeit dieses Videos nur um das 2,5-fache beschleunigt.

Die 5 Clips wurden zusammengefügt.Sie können die Vollversion direkt herunterladen,sehr angenehm.

Es ist ein bisschen komisch, dass Pia, das kleine weiße Kaninchen, das gekündigt hat, ihre Arbeitskleidung ausgezogen hat, ohne ihr den Sinn für Klasse zu nehmen.

Nachdem ich angefangen habe und diesen Schritt gespielt habe, bin ich ein Arbeiter wie ich, der auf mein Budget achtet. Ich habe eine wunderbare Entdeckung gemacht und muss sie mit allen teilen:

Wenn Sie jeweils nur einen Videoclip generieren möchten, passen Sie die Optionen von PixVerse V2 direkt an und löschen Sie nur Szene 1. Dann ist alles in Ordnung – wir nennen es Methode 1.

Es gibt jedoch eine andere Möglichkeit (Methode 2), über einen anderen Eingang in einen anderen Modus von PixVerse V2 zu gelangen.

Wenn man im Büro nachfragt, ob man einen einzelnen Videoclip erstellen möchte, bevorzugt jeder die letztere Methode.

Warum?

Erstens kann Methode 2 weitere Anpassungen basierend auf Parametern wie Videoproportionen und Videostil vornehmen. Je mehr Informationen Sie angeben, desto wahrscheinlicher wird das Modell Sie verstehen und die generierten Videobilder werden mit größerer Wahrscheinlichkeit angezeigt Linie mit dem, was Sie wollen.

Andererseits knisterte der Abakus und berechnete: Methode 1 verbraucht 50 Credits für eine Generation, egal ob 1 Fragment oder 5 Fragmente erzeugt werden, so viel wird abgezogen, aber Methode 2 kostet nur 30 Credits für eine Generation.

Spart Geld, Freunde!

Nehmen Sie sich schnell ein kleines Notizbuch vor und notieren Sie den Vorgang von Methode 2 –

Klicken Sie in der linken Menüleiste auf „Text zu Video“ und wählen Sie dann „PixVerse V2“ unter „Modell“ aus.

kann ausgeführt werdenVincent Video.

Und durch das Hinzufügen von Wörtern wie „Anime“ und „Realistisch“ zu den Eingabeaufforderungswörtern kann der generierte Inhalt stilistisch umgewandelt werden.

Der springende Punkt ist die Schwierigkeit, einige Szenen zu erzeugen, die es in der realen Welt nicht gibt. Eingabeaufforderungswort:

Der Marshmallow-Riese wandert durch den bunten Marshmallow-Wald.

Ergebnisse generieren:

Okay, okay, unglaublich, ich hätte nie gedacht, dass ich wirklich eine so abstrakte Beschreibung wie „Marshmallow Giant“ bekommen könnte!

Blindes Raten liegt daran, dass das semantische Verständnis hinter PixVerse V2 erheblich optimiert wurde.

Ähnliche Methoden können auch erlebt werdenTusheng-Videofunktion。

Klicken Sie in der linken Menüleiste auf „Bild zu Video“ und wählen Sie unter „Modell“ „PixVerse V2“ aus.

Es ist ein wenig schade, dass der zuvor erwähnte Bewegungspinsel in den Tuxing-Videos von PixVerse nicht verwendet werden kann.

Es ist zu beachten, dass Tusheng Video derzeit den Bewegungspinsel „Malen und Bewegen“ nicht verwenden kann (dies ist die neue KI-Videofunktion, die letzten Monat von Aishi eingeführt wurde).

Qubit fragte das PixVerse V2-Team:Der Bewegungspinsel wird bald auch in der V2-Version verfügbar sein.。

Die Bewegungspinsel von Runway und PixVerse wurden bereits vielfach gelobt, da sie das Fehlen einer schnellen Wortbeschreibung ausgleichen und die Kontrollierbarkeit der Bildbewegung verbessern.

Wenn PixVerse V2 diese Funktion einführt, wird das Spielen meiner Meinung nach für alle mehr Spaß machen und die Bewegung von Charakteren/Objekten im Video wird den Gesetzen der Physik besser entsprechen.

Angesichts der Tatsache, dass der „Laufsteg“ von Menschen oder Tieren schon immer eine unverzichtbare Option für KI-Videos war, um ihre Muskeln zur Schau zu stellen (obwohl wir nicht wissen, warum), haben wir dieses Mal die grafische Videofunktion von PixVerse V2 erlebt ging direkt auf die Intensität und machte einAstronautenparkour auf der Straße。

Eingabeaufforderungsbild eingeben:

Ergebnisse generieren:

Bei dieser Aufgabe handelt es sich um eine Art Stacking-Buff, der auf Bildern basiert, um die Dynamik unrealistischer Inhalte zu erzeugen.

Was mehr benötigt wird, ist, dass das Modell dahinter eine starke Kraft hatvisuelles Verständnis。

Unter dem Gesichtspunkt der Wirkung kann PixVerse V2 leicht gewinnen, egal ob es sich um eine kontinuierliche Videoerstellung, ein textbasiertes Video oder ein bildbasiertes Video handelt.

Abschließend möchte ich noch erwähnen, dass, egal ob Sie ein Wensheng oder ein Tusheng sind, jedes generierte 5s/8s-Video 30 Credits kostet.

Allerdings ist die Generierungsgeschwindigkeit relativ hoch und die Qualität stabil und garantiert. Tatsächlich finde ich, dass es sich durchaus lohnt, die 30 Credits auszugeben.

Unterstützung für die Aktualisierung der DiT-Basisform

Im AI-Videotrack, der dieses Jahr als King of Rolls bekannt ist, machte Ai Shi plötzlich einen anderen Schritt.

Wenn alle Sora-Spieler auf der ganzen Welt die Spieldauer verlängern, die Bildqualität verbessern und den Schwierigkeitsgrad verringern,Was Aishi tut, ist, die Schwelle wild zu senken。

Das Aufforderungswort muss nicht nur nicht zu professionell sein, sondern, was noch wichtiger ist, es können (bis zu) 5 Videos gleichzeitig mit jeweils 8 Sekunden Länge erstellt werden.

Die Konsistenz von Stil, Thema und Szene zwischen diesen 1 bis 5 Videoclips kann garantiert werden, und basierend auf der Logik zwischen den Aufforderungsworten jedes Videoclips wird schließlich ein langes Video von etwa 40 Sekunden synthetisiert.

Die Art mit einer schlüssigen Handlung und konsistentem Inhalt.

Es soll über „flüssige Bewegungen und satte Details“ verfügen und die Bildqualität erreicht 1080p.

Mit anderen Worten: Benutzer können darüber nachdenken, was sie möchten, Eingabeaufforderungswörter eingeben und darauf warten, dass das Video mit einer Dauer von 10 bis 40 Sekunden generiert wird.

Es kann nicht nur „die Ideen im Kopf auf das Video übertragen“ im Bild realisieren, und die Clips sind kohärent und natürlich, es kann auch Zeit und Mühe im Videoproduktionsprozess sparen, und die kreative Effizienz wurde erheblich verbessert.

Nach der Veröffentlichung von PixVerse V2 begannen einige Internetnutzer schnell damit, es zu verwenden.

Das Aufkommen von PixVerse V2 ermöglicht es vielen Menschen, die noch nie KI-Videotools verwendet oder sogar Videos erstellt haben, damit einen Durchbruch bei der Anzahl der generierten Werke von 0 auf 5 und der Anzahl der Werke von 0 auf 1 zu erzielen.。

Das Recht zur Nutzung der AIGC-Tools wird erneut delegiert。

Die Ausweitung der AIGC-Tool-Benutzer außerhalb des Kreises (nicht mehr auf professionelle Benutzer beschränkt) wird durch iterative Technologieaktualisierungen erreicht.

Hinter PixVerse V2 steht die Aishi-TechnologieIterative Aktualisierungen des selbst entwickelten Modells, das der DiT-Architektur zugrunde liegt。

Dies ist auch die Kerntechnologie hinter PixVerse.

Um die vorherige Situation zu überprüfen, durchsuchte Qubit die öffentlichen Informationen der externen Rede von Aishi/Wang Changhu und stellte fest, dass das Unternehmen zu Beginn den technischen Weg der Diffusion+Unit-Architektur eingeschlagen hatte, der vor dem Aufkommen von Sora auch der Mainstream-AIGC-Ansatz war , aber als es weiter ging, Mit Parametererweiterung und komplexen Anweisungen ist Unet etwas unzureichend.

Daher begann Aishi sehr früh (bevor Sora erschien) mit der DiT-Architektur und folgte dem Skalierungsgesetz, um die Modellleistung zu verbessern.

Das Auto drehte sehr früh um, so dass Soras Auftritt Aishi nicht überraschte. Im Gegenteil, weil er bestätigte, dass die Route korrekt war, steigerte sich Aishis Geschwindigkeit dieses Jahr deutlich.

Was sind also die Updates für das DiT-Basismodell von PixVerse V2 dieses Mal?

Der erste Punkt betrifft die Diffusions-Raum-Zeit-Modellierung.

Aishi hat einen einzigartigen raumzeitlichen Aufmerksamkeitsmodellierungsmechanismus geschaffen, der „vernünftiger“ ist und der raumzeitlichen Trennung und der vollständigen Architektur überlegen ist.

Dieser Mechanismus ermöglicht eine bessere Wahrnehmung von Zeit und Raum und kann komplexe Szenen besser bewältigen.

Der zweite Punkt betrifft das Textverständnis.

Die Fähigkeit von PixVerse V2, Eingabeaufforderungen zu verstehen, wurde erheblich verbessert. Hinter den Kulissen wird ein multimodales Modell verwendet, das Textinformationen und Videoinformationen besser aufeinander abstimmen kann, sodass die generierten Ergebnisse den Absichten des Erstellers entsprechen.

dritteUm eine höhere Recheneffizienz zu erzielen, gewichtet PixVerse V2 den Verlust basierend auf dem herkömmlichen Flow-Modell, sodass das Modell schneller und besser konvergieren kann.

Ein weiterer Punktist es das Forschungs- und Entwicklungsteam hinter PixVerse V2, das ein besseres 3D-VAE-Modell entwickelt hat.

Ein räumlich-zeitlicher Aufmerksamkeitsmechanismus wird eingeführt, um die Qualität der Videokomprimierung zu verbessern; außerdem wird die Technologie des kontinuierlichen Lernens verwendet, um die Ergebnisse der Videokomprimierung und -rekonstruktion weiter zu verbessern.

„Einfache und interessante“ UGC-Tendenz unter dem Segen der KI

AIGC ist dieses Jahr einfach das bekannteste Thema.

AberDie Fähigkeit, AIGC anzuwenden, liegt tatsächlich immer noch in den Händen einer kleinen Anzahl von Menschen., wie Programmierer, Designer und andere Fachleute.

AIGC ist noch nicht wie UGC in die Phase der universellen „GC“ eingetreten.

Angesichts einer solchen Situation lässt sich das, was Aishi Technology seit seiner Gründung vor mehr als einem Jahr getan hat, wie folgt zusammenfassen:

Verbessern Sie die Fähigkeiten der KI-Technologie kontinuierlich
Erweitern Sie die Subjektgruppe des Verbs „G (Generated)“
Achten Sie auf die Qualitätsstufe „C (Content)“.

Dies spiegelt sich nicht nur in PixVerse V2 wider, sondern auch in der Zukunft –

Eine Überprüfung ergab, dass die Veröffentlichung von PixVerse V2 tatsächlich das dritte Mal in diesem Jahr ist, dass das Unternehmen Fortschritte bei KI-Videofunktionen und -Produkten macht.

Im Januar dieses Jahres veröffentlichte Aishi offiziell die Webversion von PixVerse, einem Videoprodukt von Vincent, dessen monatliche Besuche schnell eine Million überstiegen.

Im April wurde die auf Basis des selbstentwickelten Videomodells entwickelte C2V-Funktion (Character to Video, Rollenkonsistenz) veröffentlicht und kann auf der Webseite genutzt werden.

Durch die genaue Extraktion von Charaktermerkmalen und deren tiefe Einbettung in das Videogenerierungsmodell kann PixVerse Charaktere festhalten und zunächst das Konsistenzproblem bei der KI-Videoerstellung lösen.

Im Juni wurde der Bewegungspinsel Magic Brush veröffentlicht. Verwenden Sie ihn, um auf dem Videobildschirm zu verschmieren und die Bewegung und Richtung der Videoelemente genau zu steuern.

Dies ist nach Runway auch das erste Unternehmen zur Erstellung von KI-Videos, das ähnliche Funktionen veröffentlicht.

Dreimal in einem halben Jahr ist keine Seltenheit, aber die Aktionen in den ersten beiden Fällen wirkten etwas zurückhaltend.

Das hängt möglicherweise mit dem Wunsch des Start-up-Unternehmens zusammen, sich auf die Verfeinerung seiner Werke zu konzentrieren, oder es hängt möglicherweise mit dem zurückhaltenden Charakter von Wang Changhu und anderen Führungskräften zusammen, wir wissen es nicht.

Aber das Phänomen ist, dass viele Leute wissen, dass Aishi Technology der führende Kopf auf dem heimischen KI-Videomarkt ist, aber sie wissen nicht unbedingt, warum es der Kopf ist und ob er einfach zu bedienen ist.

Jetzt, da PixVerses V2 erscheint, können Jung und Alt, Profis und Laien es persönlich nutzen und spüren, dass es tatsächlich sehr effektiv ist – das ist einer der Gründe, warum PixVerse V2 nach seiner Einführung sofort ein Hit wurde.

Und wenn man auf die verschiedenen Aktionen zurückblickt, fällt es nicht schwer, festzustellen, dass sich diese verschiedenen Produktfähigkeitsaktualisierungen alle auf ein und dasselbe Hauptthema konzentrieren:Machen Sie die Erstellung von KI-Videos praktischer und einfacher。

Gleichzeitig ist erkennbar, dass die bisherigen Produktfunktionen auf die Nutzungserfahrung von Profis ausgerichtet waren.

Dies bestätigt auch Wang Changhus frühere Rede. Er sagte einmal:

Es besteht die Hoffnung, dass native KI-Videos in die Produktions- und Konsumverbindungen der Content-Industrie integriert werden können.

Aber PixVerse V2 ist anders. Diese Produktgeneration konzentriert sich darauf, die Erstellung von KI-Videos einem breiteren Spektrum normaler Menschen zugänglich zu machen.

Denn obwohl Magic Brush einfach zu bedienen und nützlich ist, erfordert es dennoch, dass der Benutzer ein KI-Video erstellt hat.

Videoaufforderungen sind schwieriger als Textgenerierung und Textgenerierungsaufforderungen und stellen für normale Menschen häufig ein Hindernis für die Verwendung der KI-Videogenerierung dar.

Was PixVerse V2 einfängt, ist wunderbar——

Unter verschiedenen Aspekten wie der Verringerung der Schwierigkeit von Aufforderungswörtern, der optionalen Feinabstimmung, der Erweiterung der Grenzen generierter Inhalte und der Eliminierung der Notwendigkeit einer Bearbeitung in einer späteren Phase versuchen wir, die Kosten für die Erstellung von KI-Videos so weit wie möglich zu reduzieren.

Was wird das Ergebnis sein?

alle,Jeder hat eine Chance und jeder kann mitmachen, kann Ihre wilde Fantasie in sichtbare Videowerke verwandeln.

Da ein starkes Gefühl der Beteiligung besteht, können mehr Menschen und sogar jeder ihrer Kreativität freien Lauf lassen und an der Erstellung von KI-Videos teilnehmen.

Auf Dauer,Nach und nach wird sich im KI-Zeitalter ein UGC-Ökosystem bilden, das einfacher und interessanter als UGC sein wird.。

Ich habe schon einmal ein interessantes Meme-Bild gesehen, und ich glaube, viele Freunde haben es auch gesehen:

„PixVerse fühlt sich geehrt, in der ersten Reihe zu stehen, zusammen mit den damals besten Videogenerierungsprodukten wie Runway, Pika und SVD. Es ist auch das einzige chinesische Unternehmen auf diesem Bild, das dieses Bild einmal trug.“ Scherzhaft: „Aber andererseits haben wir einen Giganten vor uns und müssen ihn noch weiter übertreffen.“

Es ist unbestreitbar, dass KI-Videos im KI-2.0-Zeitalter im Mittelpunkt des multimodalen Tracks stehen, insbesondere nachdem Sora große Wellen geschlagen hat.

Die volle Begeisterung aller Giganten, großen Hersteller und Start-up-Unternehmen verdeutlicht ein Problem.

KI-Video erweitert und stimuliert das Potenzial des Marktes, und Innovationen, die durch multimodale große KI-Modelle vorangetrieben werden, nehmen zu.

Aishi kann auf diesem Meme-Bild erscheinen und es ist das einzige chinesische Unternehmen auf dem Bild. Der Grund ist sehr offensichtlich.

Einerseits werden die Modelltechnologie von Aishi Technology und die auf selbst entwickelten Grundformen gewachsenen Produkteffekte durchaus anerkannt.

andererseits,Unabhängig von der Technologiewelle, in der sie sich befinden, werden Startups weltweite Aufmerksamkeit erhalten.

Während des Suchkriegs nutzte Google den innovativen Webseiten-Ranking-Algorithmus PageRank, um Yahoo die Nutzer zu stehlen, überholte sogar die Nachzügler und wurde bis heute zum Marktführer im Suchmarkt.

Obwohl Transformer in den Anfängen von Google stammte, war GPT die Initiative von OpenAI, einer kleinen Forschungseinrichtung (damals). Es führte nach und nach zum heutigen GPT-4o und wurde zum Ziel der Verfolgung.

Zu den Verfolgern und Konkurrenten von OpenAI gehört heute Google.

Zu jeder Zeit, selbst angesichts der Belagerung großer Unternehmen und Giganten, gibt es immer wieder Geschichten von Start-ups, die Funken ausspucken, die die Branche entzünden und Sterne erstrahlen lassen.

Was Aishi Technology mit Technologie und Produkten schreibt, ist der AI-Videotrack, der die eigene Geschichte des Startup-Unternehmens darstellt.

Nachricht

Lassen Sie KI-Video in die Ära der „universellen GC“ eintreten, dieses chinesische Unternehmen hat es gerade geschafft

Generieren Sie bis zu 5 Videos, um kontinuierliche Kreativität zu ermöglichen

Unterstützung für die Aktualisierung der DiT-Basisform

„Einfache und interessante“ UGC-Tendenz unter dem Segen der KI

Einführung

meine Kontaktdaten