Laisser l'IA vidéo entrer dans l'ère du "GC universel", cette entreprise chinoise vient de le faire

Que la vidéo IA entre dans l'ère du « GC universel », cette entreprise chinoise vient de le faire

2024-07-24

La maison est originaire du temple Aofei
Qubits | Compte public QbitAI

Seuil inférieur, qualité supérieure, plus de logique et durée plus longue.

Ces quelques "mises à jour" ont fait leurs débuts ce matinNouveau produit vidéo d'IA domestique PixVerse V2, la chaleur est montée en un éclair.

Et ses origines sont frappantes :

De la startup star nationale la plus regardée sur cette pisteTechnologie Aishi, au cours du seul premier semestre de cette année, la société a réalisé deux tours de table.

Jetons un coup d'œil directement aux « nouvelles idées » clés de Pixverse V2 :

Technologie de modèle, adopte l'architecture DiT (Diffusion+Transformer) et utilise une technologie originale dans de nombreux aspects pour améliorer considérablement l'effet de génération.

Par exemple, l’introduction d’un mécanisme d’attention spatio-temporelle peut permettre une génération vidéo plus grande et plus naturelle.

Jetons un coup d'œil au petit alpaga qui surfe joyeusement ci-dessous, ce qui est tout à fait approprié puisque LIama 3.1 est sorti et a atteint le sommet aujourd'hui.

Quantité et qualité de la vidéo, prend en charge la génération jusqu'à 5 éléments de contenu vidéo consécutifs en un seul clic.

Et la cohérence de l’image principale, du style d’image et des éléments de scène sera automatiquement maintenue entre les clips.

En outre, l'introduction officielle d'Aishi indiquait également que le nouveau produitLe seuil des mots d'invite a de nouveau été considérablement réduit.。

Que vous ayez ou non appris la technique des mots d'invite, tant que vous exprimez les exigences de l'image de manière claire et concise, vous pouvez facilement la mettre en œuvre.etIl en va de même dans le contexte chinois。

De plus, il existe une cohérence dans le style, le sujet et la scène entre plusieurs vidéos générées en même temps——

Faites une courte vidéo maintenantNon seulement vous n’avez pas besoin de prendre des photos vous-même, mais vous n’avez même plus besoin de les découper vous-même.。

Générez-le en un clic et téléchargez-le directement sur diverses plateformes pour le partager, fille d'oie !

La qualité et la quantité sont garanties et le seuil est de plus en plus bas.

La création vidéo IA a été profondément impliquée par des sociétés telles que PixVerse, Runway et Luma.Tout le monde peut en profiterère.

Générez jusqu'à 5 vidéos pour permettre une créativité continue

Mais attendez!

Nous ne serons jamais facilement aveuglés par les démos publiées par diverses sociétés.

Ainsi, après avoir découvert que PixVerse V2 était lancé ce matin, Qubits s'est immédiatement lancéTest de chair humaine.

Entrez sur le site officiel de PixVerse et accédez directement à PixVerse V2 dans la barre de menu de gauche.

actuellement ilPrend en charge deux modes de génération de texte/images et vidéos, en fonctionnement réel, vous pouvez choisir l'un des deux, ou vous pouvez utiliser les deux ensemble.

Zone d'invite de saisie de texte, les images peuvent être téléchargées en cliquant sur la case jaune dans l'image ci-dessous.

Dans le coin inférieur droit de la zone de saisie, dans la partie de sélection de la zone grise, il y a égalementOptions 5s/8s, vous pouvez choisir la durée du clip vidéo unique généré en fonction de vos propres besoins.

La scène sélectionnée avec un cadre vert fait référence au clip vidéo spécifique qui doit être généré.

En effet, comme le précise l'introduction officielle, jusqu'à 5 vidéos peuvent désormais être ajoutées à générer, à savoir Scene1-5.

Le style d'image de tous les clips de scène suivra celui de la scène 1., même si d'autres scènes ultérieures téléchargent des images de référence, PixVerse fera référence au style d'image de la scène 1 pour le redessiner.

En bref, j'ai fait de mon mieux pour garder le style des cinq vidéos cohérent.

De plus, les mots d'invite/images d'invite de chaque scène peuvent être saisis individuellement.

Une fois que vous avez terminé, vous pouvez cliquer sur le bouton étoile dans le coin inférieur droit de la zone de saisie pour entrer dans l'état de génération.

Après expérience, j'ai découvert que peu importe le nombre de scènes à générer, chaque génération coûte 50 crédits (la monnaie de la puissance de calcul de PixVerse V2).

Pendant l'expérience, en adhérant à l'entréeL'invite la plus simple possibleEn principe, les cinq mots d’invite que nous saisissons sont les suivants :

Au petit matin, un petit lapin blanc s'est habillé sur le lit
Le petit lapin blanc marchait sur le chemin du travail et passait devant un jardin.
Le petit lapin blanc tient une tasse de café fumant
Le petit lapin blanc tient du café et fait la queue pour l'ascenseur
Le petit lapin blanc résigné sautait de haut en bas sur la route

Bien qu'après génération, vous puissiez utiliser les options pour affiner chaque vidéo individuellement (ajuster le sujet, la scène, l'action et le mouvement de la caméra), nous n'avons fait aucune intervention et nous sommes concentrés sur le goût original.

Les résultats générés sont les suivants :

△ Compte tenu de l'apparence et de la convivialité, cette vidéo n'est accélérée que de 2,5 fois pour la vitesse de lecture.

Les 5 clips ont été assemblés.Vous pouvez télécharger directement la version complète,très pratique.

C'est un peu drôle. Dans la vidéo, Pia, la petite lapine blanche qui a démissionné, a enlevé ses vêtements de travail sans lui enlever aucune classe.

Après avoir commencé et joué ce pas, je suis un ouvrier comme moi qui fait attention à mon budget, j'ai fait une merveilleuse découverte, et je dois la partager avec tout le monde :

Si vous ne souhaitez générer qu'un seul clip vidéo à la fois, ajustez directement les options de PixVerse V2 et supprimez-le uniquement sur la scène 1, et tout ira bien - nous l'appelons méthode 1.

Mais il existe un autre moyen (Méthode 2) pour accéder à un autre mode de PixVerse V2 via une autre entrée.

Après avoir demandé au bureau, si vous souhaitez générer un seul clip vidéo, tout le monde préfère cette dernière méthode.

Pourquoi?

Premièrement, la méthode 2 peut effectuer davantage d'ajustements en fonction de paramètres tels que la proportion et le style de la vidéo. Plus vous « souhaitez » donner d'informations, plus le modèle a de chances de vous comprendre et les images vidéo générées seront plus susceptibles d'être présentes. conforme à ce que vous voulez.

Par contre, le boulier crépite et calcule, la méthode 1 consomme 50 Crédits pour une génération, qu'elle génère 1 fragment ou 5 fragments, c'est cette somme qui sera déduite mais la méthode 2 ne coûte que 30 Crédits pour une génération ;

Économisez de l'argent, les amis !

Prenez rapidement un petit cahier dans votre esprit et notez le processus de fonctionnement de la méthode 2——

Cliquez sur Text to Video dans la barre de menu de gauche, puis sélectionnez « PixVerse V2 » dans « Modèle ».

peut être emportéVincent Vidéo.

Et en ajoutant des mots tels que « Anime » et « Réaliste » aux mots d'invite, le contenu généré peut être transformé avec style.

Le tout est difficile, générant des scènes qui n’existent pas dans le monde réel. Entrez le mot d'invite :

Le géant des guimauves se promène dans la forêt colorée de guimauves.

Générer des résultats :

D'accord, d'accord, incroyable, je n'aurais jamais pensé pouvoir vraiment obtenir une description aussi abstraite que "Marshmallow Giant" !

La supposition aveugle est due au fait que la compréhension sémantique derrière PixVerse V2 a été considérablement optimisée.

Des méthodes similaires peuvent également être expérimentéesFonction vidéo Tusheng。

Cliquez sur Image vers vidéo dans la barre de menu de gauche et sélectionnez « PixVerse V2 » dans « Modèle ».

C'est un peu dommage que la brosse à mouvement mentionnée précédemment ne puisse pas être utilisée dans les vidéos Tuxing de PixVerse.

Il convient de noter que Tusheng Video ne peut actuellement pas utiliser le pinceau de mouvement « peindre et déplacer » (il s'agit de la nouvelle fonction vidéo AI lancée par Aishi le mois dernier).

Qubit a demandé à l'équipe PixVerse V2 :La brosse à mouvement sera également bientôt disponible dans la version V2.。

Les pinceaux de mouvement de Runway et PixVerse ont déjà été bien accueillis, car ils compensent le manque de description rapide des mots et améliorent la contrôlabilité du mouvement de l'image.

Si PixVerse V2 lance cette fonction, je pense que ce sera plus agréable à jouer pour tout le monde, et le mouvement des personnages/objets dans la vidéo sera plus conforme aux lois de la physique.

Compte tenu du fait que les « podiums » de personnes ou d'animaux ont toujours été une option incontournable pour les vidéos d'IA pour montrer leurs muscles (même si nous ne savons pas pourquoi), cette fois-ci, en expérimentant la fonction vidéo graphique PixVerse V2, nous est allé directement à l'intensité et a fait unParkour d'astronautes dans la rue。

Entrez l'image d'invite :

Générer des résultats :

Cette tâche est un peu un buff d'empilement, qui s'appuie sur des images pour générer la dynamique d'un contenu irréaliste.

Ce qui est encore plus nécessaire, c'est que le modèle qui le sous-tend ait une fortecompréhension visuelle。

Du point de vue des effets, qu'il s'agisse de création vidéo continue, de vidéo texte ou de vidéo basée sur des images, PixVerse V2 peut facilement gagner.

Enfin, je voudrais mentionner que peu importe que vous soyez un Wensheng ou un Tusheng, chaque vidéo 5s/8s générée coûtera 30 crédits.

Cependant, la vitesse de génération est relativement rapide et la qualité est stable et garantie. En fait, je pense que dépenser les 30 crédits en vaut la peine.

Prise en charge de la mise à jour du moule de base DiT

Dans la piste vidéo AI, connue comme le roi des rois du volume cette année, Ai Shi a soudainement pris une décision différente.

Alors que tous les joueurs Sora du monde entier augmentent la durée, améliorent la qualité des graphismes et réduisent la difficulté,Ce que fait Aishi, c'est réduire sauvagement le seuil。

Non seulement le mot d’invite n’a pas besoin d’être trop professionnel, mais plus important encore, il peut créer (jusqu’à) 5 vidéos à la fois, chacune de 8 secondes.

La cohérence du style, du sujet et de la scène entre ces 1 à 5 clips vidéo peut être garantie, et sur la base de la logique entre les mots d'invite de chaque clip vidéo, une longue vidéo d'environ 40 secondes est finalement synthétisée.

Le genre avec une intrigue cohérente et un contenu cohérent.

On dit qu'il a « des mouvements fluides et des détails riches », et la qualité d'image atteint 1080p.

En d’autres termes, les utilisateurs peuvent réfléchir à ce qu’ils veulent, saisir des mots d’invite et attendre que la vidéo soit générée pour une durée allant de 10 à 40 secondes.

Il permet non seulement de « déplacer les idées dans l'esprit vers la vidéo » dans l'image, et les clips sont cohérents et naturels ; il peut également économiser du temps et des efforts dans le processus de production vidéo, et l'efficacité créative a été grandement améliorée.

Après la sortie de PixVerse V2, certains internautes ont rapidement commencé à l'utiliser.

L'émergence de PixVerse V2 permet à de nombreuses personnes qui n'ont jamais utilisé d'outils vidéo d'IA, ni même réalisé de vidéos, de l'utiliser pour réaliser une percée dans le nombre d'œuvres générées de 0 à 5, et le nombre d'œuvres de 0 à 1.。

Le droit d’utiliser les outils AIGC est à nouveau délégué。

L’expansion des utilisateurs de l’outil AIGC en dehors du cercle (qui ne se limite plus aux utilisateurs professionnels) est réalisée par des mises à jour itératives de la technologie.

Derrière PixVerse V2 se trouve la technologie AishiMises à jour itératives du modèle auto-développé sous-jacent à l'architecture DiT。

C'est également la technologie de base derrière PixVerse.

Pour examiner la situation précédente, Qubit a passé au peigne fin les informations publiques du discours externe d'Aishi/Wang Changhu et a constaté qu'au début, l'entreprise avait adopté la voie technique de l'architecture Diffusion+Unet, qui était également l'approche dominante de l'AIGC avant l'avènement de Sora. , mais au fur et à mesure, avec l'expansion des paramètres et les instructions complexes, Unet est un peu inadéquat.

Par conséquent, Aishi a commencé à essayer l'architecture DiT très tôt (avant l'apparition de Sora) et a suivi la loi de mise à l'échelle pour améliorer les performances du modèle.

La voiture a fait demi-tour très tôt, donc l'apparition de Sora n'a pas pris Aishi au dépourvu. Au contraire, parce qu'elle a vérifié que l'itinéraire était correct, la vitesse d'Aishi a considérablement augmenté cette année.

Alors, quelles sont les mises à jour du modèle de base DiT de PixVerse V2 cette fois-ci ?

Le premier point concerne la modélisation espace-temps de diffusion.

Aishi a créé un mécanisme unique de modélisation de l'attention spatio-temporelle, qui est « plus raisonnable » et supérieur à la séparation spatio-temporelle et à l'architecture fullseq.

Ce mécanisme offre une meilleure perception du temps et de l’espace et peut mieux gérer des scènes complexes.

Le deuxième point concerne la compréhension du texte.

La capacité de PixVerse V2 à comprendre les invites a été considérablement améliorée. En coulisses, on utilise un modèle multimodal, qui peut mieux aligner les informations textuelles et les informations vidéo, afin que les résultats générés correspondent à ce que le créateur avait prévu.

troisième, afin d'obtenir une efficacité informatique plus élevée, PixVerse V2 pondère la perte sur la base du modèle Flow traditionnel, afin que le modèle puisse converger plus rapidement et mieux.

Un autre point, c'est l'équipe R&D derrière PixVerse V2 qui a conçu un meilleur modèle VAE 3D.

Un mécanisme d'attention spatio-temporelle est introduit pour améliorer la qualité de la compression vidéo ; une technologie d'apprentissage continu est également utilisée pour améliorer davantage les résultats de compression et de reconstruction vidéo.

Tendance UGC « simple et intéressante » sous la bénédiction de l’IA

L'AIGC est tout simplement le sujet le plus connu cette année.

maisLa capacité d’appliquer l’AIGC est en réalité encore entre les mains d’un petit nombre de personnes., tels que les programmeurs, les concepteurs et autres professionnels.

L'AIGC n'est pas encore entré dans le stade du « GC » universel comme l'UGC.

Face à une telle situation, ce qu'Aishi Technology a fait depuis sa création il y a plus d'un an peut se résumer ainsi :

Améliorer continuellement les capacités de la technologie IA
Développez le groupe sujet du verbe "G (généré)"
Faites attention au niveau de qualité de « C (Contenu) ».

Cela ne se reflète pas seulement dans PixVerse V2, mais aussi dans la même veine à l'avenir——

Une étude a révélé que la sortie de PixVerse V2 est en fait la troisième fois cette année que la société progresse dans les fonctions et produits vidéo IA.

En janvier de cette année, Aishi a officiellement lancé la version Web de PixVerse, un produit vidéo de Vincent, avec des visites mensuelles dépassant rapidement le million.

En avril, la fonction C2V (Character to Video, role consistent) développée sur la base du modèle vidéo auto-développé a été lancée et peut être utilisée sur la page Web.

En extrayant avec précision les caractéristiques des personnages et en les intégrant profondément dans le modèle de génération vidéo, PixVerse peut verrouiller les personnages et résoudre dans un premier temps le problème de cohérence dans la création vidéo IA.

En juin, le pinceau de mouvement Magic Brush a été lancé. Utilisez-le pour étaler sur l'écran vidéo et contrôler avec précision le mouvement et la direction des éléments vidéo.

Il s'agit également de la première société de génération de vidéos IA à proposer des fonctions similaires après Runway.

Trois fois en six mois, ce n'est pas rare, mais les actions des deux premières fois semblaient un peu discrètes.

Cela peut être lié au désir de la start-up de se concentrer sur le peaufinage de ses travaux, ou cela peut être lié au caractère discret de Wang Changhu et d'autres dirigeants, nous ne le savons pas.

Mais le phénomène est que beaucoup de gens savent qu'Aishi Technology est le chef de file du secteur vidéo national de l'IA, mais ils ne savent pas nécessairement pourquoi il s'agit de ce chef et s'il est facile à utiliser.

Maintenant que PixVerses V2 apparaît, petits et grands, professionnels et non-professionnels peuvent l'utiliser personnellement et sentir qu'il est effectivement très efficace - c'est l'une des raisons pour lesquelles PixVerse V2 est devenu un succès instantané après son lancement.

Et en regardant les différentes actions, il n'est pas difficile de constater que ces différentes mises à jour des capacités du produit sont toutes centrées sur un seul corps principal :Rendre la création vidéo IA plus pratique et plus simple。

Dans le même temps, on constate que les capacités des produits précédents se concentraient sur l’expérience d’utilisation des professionnels.

Cela corrobore également le discours précédent de Wang Changhu. Il a dit un jour :

On espère que la vidéo native de l’IA pourra être intégrée dans les liens de production et de consommation de l’industrie du contenu.

Mais PixVerse V2 est différent. Cette génération de produits se concentre sur la manière de rendre la création vidéo IA accessible à un plus large éventail de personnes ordinaires.

Après tout, bien que Magic Brush soit facile à utiliser et utile, il nécessite toujours que l'utilisateur ait généré une vidéo IA.

Les invites vidéo sont plus difficiles que la génération de texte et les invites de génération de texte, et constituent souvent une pierre d'achoppement pour les gens ordinaires qui souhaitent utiliser la génération vidéo IA.

Ce que PixVerse V2 capture est merveilleux——

Sous divers aspects, tels que la réduction de la difficulté des mots d'invite, les réglages fins facultatifs, l'élargissement des limites du contenu généré et l'élimination du besoin d'édition à un stade ultérieur, nous essayons de réduire autant que possible le coût de création de vidéos IA.

Quel sera le résultat ?

tout le monde,Tout le monde a une opportunité et tout le monde peut participer, peut transformer votre imagination débordante en œuvres vidéo visibles.

Parce qu’il existe un fort sentiment de participation, davantage de personnes, et même tout le monde, peuvent libérer leur créativité et participer à la création vidéo IA.

À long terme,Progressivement, un écosystème UGC à l'ère de l'IA se formera, et il sera plus simple et plus intéressant que l'UGC.。

J'ai déjà vu une image de mème intéressante, et je pense que de nombreux amis l'ont également vue :

"PixVerse est honoré d'être au premier rang, aux côtés des meilleurs produits de génération vidéo du moment, tels que Runway, Pika et SVD. C'est également la seule entreprise chinoise sur cette photo. " En plaisantant, "Mais d'un autre côté, nous avons un géant devant nous et nous devons encore le surpasser."

Il est indéniable que la vidéo IA est au centre de la piste multimodale à l'ère de l'IA 2.0, surtout après que Sora ait fait d'énormes vagues.

L’enthousiasme total de tous les géants, grands fabricants et start-up illustre un problème.

La vidéo IA élargit et stimule le potentiel du marché, et l’innovation tirée par les grands modèles multimodaux IA se développe.

Aishi peut apparaître sur cette photo mème, et c'est la seule entreprise chinoise sur la photo. La raison est très évidente.

D'une part, la technologie de modèle d'Aishi Technology et les effets de produit développés sur des moules de base auto-développés sont en effet reconnus.

d'autre part,Quelle que soit la vague technologique à laquelle elles appartiennent, les startups recevront une attention mondiale.

Pendant la guerre de recherche, Google a utilisé l'algorithme innovant de classement des pages Web PageRank pour voler les utilisateurs de Yahoo, et a même dépassé les retardataires, devenant ainsi le leader du marché de la recherche à ce jour.

Au début du grand modèle de langage, bien que Transformer vienne de Google, GPT était l'initiative d'OpenAI, une petite institution de recherche (à l'époque). Il a progressivement conduit au GPT-4o actuel et est devenu la cible d'une poursuite.

Aujourd’hui, parmi les poursuivants et concurrents d’OpenAI, il y a Google.

À tout moment, même face au siège des grandes entreprises et des géants, il y a toujours des histoires de startups qui font jaillir des étincelles qui enflamment l’industrie et des étoiles brillantes.

Ce qu’Aishi Technology écrit avec la technologie et les produits, c’est la piste vidéo AI, qui est la propre histoire de la startup.

nouvelles

Que la vidéo IA entre dans l'ère du « GC universel », cette entreprise chinoise vient de le faire

Générez jusqu'à 5 vidéos pour permettre une créativité continue

Prise en charge de la mise à jour du moule de base DiT

Tendance UGC « simple et intéressante » sous la bénédiction de l’IA

Introduction

mes coordonnées