2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Depuis la sortie de Sora, le domaine de la génération vidéo IA est devenu plus « occupé ». Au cours des derniers mois, nous avons vu Jimeng, Runway Gen-3, Luma AI et Kuaishou Keling exploser à tour de rôle.
Contrairement au passé, où l’on pouvait voir en un coup d’œil que les modèles sont générés par l’IA, ce lot de grands modèles vidéo est peut-être le « meilleur » que nous ayons jamais vu.
Cependant, les performances étonnantes des modèles vidéo en grand langage (LLM) sont indissociables d'un ensemble de données vidéo volumineux et finement annotées, ce qui nécessite un coût très élevé. Récemment, un certain nombre de méthodes innovantes sont apparues dans le domaine de la recherche qui ne nécessitent pas de formation supplémentaire : utiliser de grands modèles de langage d'images entraînés pour traiter directement les tâches vidéo, contournant ainsi le processus de formation « coûteux ».
De plus, la plupart des LLM vidéo existants souffrent de deux défauts majeurs : (1) ils ne peuvent gérer l'entrée vidéo qu'avec un nombre limité d'images, ce qui rend difficile pour le modèle de capturer le contenu spatial et temporel subtil de la vidéo (2) ; ), ils manquent de conception de modélisation temporelle, mais intègrent simplement des fonctionnalités vidéo dans LLM, en s'appuyant entièrement sur la capacité de LLM à modéliser le mouvement.
En réponse aux problèmes ci-dessus,Les chercheurs Apple ont proposé SlowFast-LLaVA (SF-LLaVA en abrégé). Ce modèle est basé sur l'architecture LLaVA-NeXT développée par l'équipe Byte. Il ne nécessite aucun réglage supplémentaire et peut être utilisé directement.. Inspirée par le réseau à deux flux réussi dans le domaine de la reconnaissance d'action, l'équipe de recherche a conçu un nouveau mécanisme d'entrée SlowFast pour le LLM vidéo.
En termes simples, SF-LLaVA comprendra les détails et les mouvements des vidéos grâce à deux vitesses de visualisation différentes (lente et rapide).
Chemin lent : extrayez les fonctionnalités à une faible fréquence d'images tout en conservant autant de détails spatiaux que possible (par exemple, en conservant 24 × 24 jetons toutes les 8 images)
Voie rapide : exécutez à une fréquence d'images élevée, mais réduisez la résolution de la vidéo avec une étape de regroupement spatial plus grande pour simuler un contexte temporel plus large et vous concentrer davantage sur la compréhension de la cohérence des actions.
Cela équivaut à un modèle ayant deux « yeux » : l'un regarde lentement et fait attention aux détails ; l'autre regarde rapidement et fait attention aux mouvements. Cela résout les problèmes de la plupart des LLM vidéo existants et peut capturer à la fois une sémantique spatiale détaillée et un contexte temporel plus long.
Lien papier : https://arxiv.org/pdf/2407.15841
Les résultats expérimentaux montrent que SF-LLaVA surpasse les méthodes sans formation existantes par des avantages significatifs dans tous les tests de référence. Comparé au modèle SFT soigneusement réglé, SF-LLaVA peut atteindre les mêmes performances, voire mieux.
Architecture du modèle
Comme le montre la figure ci-dessous, SF-LLaVA suit le processus LLM vidéo standard sans formation. Il prend la vidéo V et la question Q en entrée et génère la réponse A correspondante.
Pour l'entrée, N images sont uniformément échantillonnées à partir de chaque vidéo de n'importe quelle taille et longueur, I = {I_1, I_2, ..., I_N}, et aucune combinaison ou disposition spéciale des images vidéo sélectionnées n'est requise. La caractéristique de fréquence extraite indépendamment dans l'unité de trame est F_v ∈ R^N×H×W, où H et W sont respectivement la hauteur et la largeur de la caractéristique de trame.
Résultats expérimentaux
L'équipe de recherche a mené une évaluation complète des performances de SF-LLaVA, en la comparant aux modèles actuels sans formation SOTA (tels que IG-VLM et LLoVi) dans plusieurs tâches de réponse à des questions vidéo. En outre, ils l'ont comparé à des LLM vidéo tels que VideoLLaVA et PLLaVA qui ont été supervisés et affinés (SFT) sur des ensembles de données vidéo.
Ouvrir la vidéo de questions et réponses
Comme le montre le tableau ci-dessous, dans la tâche de réponse aux questions vidéo ouvertes, SF-LLaVA fonctionne mieux que les méthodes sans formation existantes dans tous les tests de référence. Plus précisément, lorsqu'il est équipé de LLM de tailles de paramètres respectivement 7B et 34B, SF-LLaVA est 2,1 % et 5,0 % plus élevé que IGVLM sur MSRVTT-QA, 5,7 % et 1,5 % plus élevé sur TGIF-QA et 5,7 % et 1,5 % plus élevé sur ActivityNet -2,0% et 0,8% plus élevé sur le QA.
Même par rapport à la méthode SFT affinée, SF-LLaVA affiche des performances comparables dans la plupart des benchmarks, uniquement sur le benchmark ActivityNet-QA, PLLaVA et LLaVA-NeXT-VideoDPO sont légèrement meilleures.
Questions et réponses vidéo à choix multiples
Comme le montre le tableau ci-dessous, SF-LLaVA surpasse les autres méthodes sans formation en matière de réponses vidéo aux questions à choix multiples dans tous les benchmarks. Dans l'ensemble de données EgoSchema qui nécessite un raisonnement complexe à long terme, les versions SF-LLaVA7B et 34B ont obtenu respectivement des scores supérieurs de 11,4 % et 2,2 % à ceux du modèle IG-VLM.
Bien que VideoTree soit en tête du test de référence, car il s'agit d'un modèle propriétaire basé sur GPT-4, ses performances sont bien supérieures à celles du LLM open source. Par rapport à la méthode SFT, le modèle SF-LLaVA 34B obtient également de meilleurs résultats sur EgoSchema, ce qui confirme la forte capacité de la conception SlowFast à gérer de longues vidéos.
Génération de texte
Vincent Vidéo
Comme le montre le tableau 3, SF-LLaVA présente également certains avantages pour la tâche de génération de texte vidéo. Le SF-LLaVA-34B a dépassé toutes les références sans formation en termes de performances globales. Bien qu'en termes d'orientation des détails, SF-LLaVA soit légèrement inférieur à LLaVA-NeXT-Image. Basé sur la conception SlowFast, SF-LLaVA peut couvrir un contexte temporel plus long avec moins de jetons visuels, ce qui le rend particulièrement performant dans les tâches de compréhension temporelle.
De plus, le SF-LLaVA-34B surpasse également la plupart des méthodes SFT en termes de performances vidéo Vincent.
Pour plus de détails, veuillez vous référer au document original.