Regardez un film de 2 heures en 4 secondes ! Alibaba lance le grand modèle multimodal universel mPLUG-Owl3 Open source

Regardez un film de 2 heures en 4 secondes ! Alibaba lance le grand modèle multimodal universel mPLUG-Owl3 open source |

2024-08-19

Après avoir visionné un film de 2 heures en 4 secondes, les nouvelles réalisations de l'équipe Alibaba ont été officiellement dévoilées——

déroulerGrand modèle multimodal universel mPLUG-Owl3, spécialement utilisé pour comprendre plusieurs images et de longues vidéos.

Plus précisément, en prenant LLaVA-Next-Interleave comme référence, mPLUG-Owl3La latence du premier jeton a été réduite de 6 fois, et le nombre d'images pouvant être modélisées par un seul A100 a été multiplié par 8, atteignant400 photos, selon le test réel, vous pouvez regarder un film de 2 heures en 4 secondes.

En d’autres termes, l’efficacité du raisonnement du modèle a été grandement améliorée.

etSans sacrifier la précision du modèle。

mPLUG-Owl3 a également atteint de nombreux benchmarks dans divers scénarios impliqués dans de grands modèles multimodaux, notamment des champs d'image unique, multi-images et vidéo.SOTA。

L'auteur de l'article est originaireL'équipe Alibaba mPLUG, ils ont été profondément impliqués dans les bases de grands modèles multimodaux, et avant cela ils ont également proposé :

Série mPLUG de base multimodale efficace
Base de modèle modulaire multimodale à grand langage série mPLUG-Owl
Base de compréhension des documents série mPLUG-DocOwl

Jetons un coup d'œil à la technologie noire apportée par cette version de mPLUG-Owl3.

Gameplay débloqué

L'équipe a démontré plusieurs utilisations courantes de mPLUG-Owl3.

Amélioration de la récupération multimodale

D'une manière générale, il est courant de compléter les connaissances que le modèle n'a pas acquises via le système de récupération. Cela nécessite que le modèle comprenne avec précision les connaissances multimodales entrantes et les utilise pour répondre aux questions.

Dans l'exemple suivant, mPLUG-Owl3 peut non seulement répondre correctement sur la base des connaissances récupérées, mais également lui donnerSur quel élément de connaissance le jugement se base-t-il ?, et fournir une base de jugement détaillée. Ceci est très convivial pour le personnel de R&D en aval pour le développement et le débogage.

Rechercher une partie: Vous trouverez ci-dessous plusieurs connaissances multimodales récupérées pour vous permettre de prendre une décision.

Poser une question: Sur la base de vos observations des quatre photos de chiens ci-dessus, pouvez-vous classer le chien de la photo 5 ? Donnez des raisons.

répondre: Sur la base des observations des quatre photos de chiens, le chien de la photo 5 peut être classé comme un Terrier irlandais. Le chien de la photo 1 est décrit comme un Terrier irlandais et le chien de la photo 5 a des caractéristiques physiques similaires au chien de la photo 1…

Raisonnement multi-graphique

Des situations comme celle-ci se produisent souvent dans la vie——

De nombreux utilisateurs n'ont pas seulement une conversation autour d'une image, mais l'utilisateur peut avoir plusieurs matériaux, et le modèle doit être capable de comprendre correctement la relation entre le contenu de différents matériaux.

Dans l'exemple ci-dessous, mPLUG-Owl3 peut activer la connaissance du bon sens du modèle de langage à travers ce qu'il voit dans deux images, et raisonner autour des deux images.

Poser une question: L'animal de gauche peut-il survivre dans l'environnement de droite ? Des réponses et des explications sont nécessaires.

répondre(La bonne réponse est marquée en vert) : L'idée générale est qu'il ne peut pas survivre parce que l'environnement est trop froid.

Dans un autre exemple, mPLUG-Owl3 peut non seulement détecter la différence de style entre deux images, mais également se rendre compte que bien que les personnages des deux images aient des styles différents, il s'agit en réalité du même personnage.

question pour la première fois: Quels styles artistiques sont représentés dans l’image et en quoi sont-ils différents ?

répondre: La première image est en style pixel, la deuxième image est en style dessin animé... (indiquez les raisons)

deuxième question: Qui apparaît dans les deux tableaux ? Quelles sont leurs caractéristiques ?

répondre: Dans les deux tableaux, un homme portant un chapeau de cowboy apparaît, et il est représenté dans deux styles différents.

Compréhension d'une longue vidéo

Regarder des vidéos très longues est une tâche que la plupart des modèles actuels ne peuvent pas réaliser de bout en bout. Si elle est basée sur le framework Agent, il est difficile de garantir la vitesse de réponse.

mPLUG-Owl3 peut regarder un film de 2 heures etCommencez à répondre aux questions des utilisateurs en 4 secondes。

Que l'utilisateur pose des questions sur des clips très détaillés au début, au milieu et à la fin du film, mPLUG-Owl3 peut y répondre couramment.

Comment as-tu fait ?

Contrairement aux modèles traditionnels, mPLUG-Owl3Il n'est pas nécessaire de fusionner à l'avance la séquence visuelle dans la séquence de texte du modèle de langage.。

En d’autres termes, peu importe ce qui est entré (des dizaines d’images ou des heures de vidéo), il n’occupe pas la capacité de séquence du modèle de langage, ce qui évite l’énorme surcharge de calcul et l’utilisation de la mémoire vidéo causée par les longues séquences visuelles.

Quelqu’un peut se demander comment les informations visuelles sont-elles intégrées dans le modèle de langage ?

Pour y parvenir, l'équipe a proposé unModule Hyper Attention léger, qui peut étendre un bloc Transformer existant qui ne peut modéliser que du texte dans un nouveau module capable d'interagir à la fois avec les fonctionnalités graphiques et textuelles et de modéliser du texte.

En se diffusant peu dans le modèle de langage4Transformer Block, mPLUG-Owl3 peut mettre à niveau le LLM vers le LLM multimodal à un très faible coût.

Une fois les caractéristiques visuelles extraites de l'encodeur visuel, les dimensions sont alignées sur les dimensions du modèle de langage via un simple mappage linéaire.

Par la suite, les fonctionnalités visuelles n'interagiront qu'avec le texte dans ces quatre couches de Transformer Block. Étant donné que le jeton visuel n'a subi aucune compression, des informations fines peuvent être préservées.

Jetez un oeil ci-dessousComment est conçue l’Hyper Attention ?。

Afin de permettre au modèle de langage de percevoir les caractéristiques visuelles, Hyper Attention introduit unAttention croiséeDans l'opération, les fonctionnalités visuelles sont utilisées comme clé et valeur, et l'état caché du modèle de langage est utilisé comme requête pour extraire les fonctionnalités visuelles.

Ces dernières années, d'autres recherches ont envisagé d'utiliser Cross-Attention pour la fusion multimodale, comme Flamingo et IDEFICS, mais ces efforts n'ont pas permis d'obtenir de bonnes performances.

Dans un rapport technique sur mPLUG-Owl3, l'équipeComparaison du design de Flamingo, pour expliquer davantage l'hyper attentionPoints techniques clés：

Tout d’abord, l’Hyper Attention n’adopte pas la conception de la cascade Cross-Attention et Self-Attention, mais est intégrée dans le bloc Self-Attention.

Son avantage est qu'il réduit considérablement le nombre de nouveaux paramètres supplémentaires introduits, ce qui rend le modèle plus facile à entraîner, et l'efficacité de l'entraînement et de l'inférence peut être encore améliorée.

Deuxièmement, la sélection Hyper AttentionLayerNorm pour les modèles de langage partagés, car la distribution produite par LayerNorm est la distribution stable qui a été formée par la couche Attention. Le partage de cette couche est crucial pour un apprentissage stable de la nouvelle attention croisée.

En fait, Hyper Attention adopte une stratégie parallèle d'attention croisée et d'auto-attention, utilisant une requête partagée pour interagir avec les fonctionnalités visuelles et intégrant les deux fonctionnalités via une porte adaptative.

Cela permet à Query de sélectionner de manière sélective les fonctionnalités visuelles pertinentes en fonction de sa propre sémantique.

Équipe Découverte, Imageposition relative par rapport au texte dans le contexte d'origineIl est très important que le modèle comprenne mieux l’entrée multimodale.

Afin de modéliser cette propriété, ils ont introduit un codage de position de rotation entrelacée multimodal MI-Rope pour modéliser les informations de position pour la clé visuelle.

Plus précisément, ils ont pré-enregistré les informations de position de chaque image dans le texte original et ont utilisé cette position pour calculer l'intégration de corde correspondante, et chaque patch de la même image partagerait cette intégration.

De plus, ils font également du Cross-AttentionLe masque d'attention est introduit, de sorte que le texte précédant l'image dans le contexte d'origine ne puisse pas voir les caractéristiques correspondant aux images suivantes.

En résumé, ces points de conception d'Hyper Attention ont apporté de nouvelles améliorations d'efficacité à mPLUG-Owl3 et ont permis de garantir qu'il puisse toujours disposer de capacités multimodales de première classe.

Résultats expérimentaux

En menant des expériences sur un large éventail d'ensembles de données, mPLUG-Owl3La plupart des benchmarks multimodaux à image uniqueTous peuvent obtenir des résultats SOTA, et de nombreux tests peuvent même surpasser les modèles de plus grande taille.

en même temps,Dans l'évaluation multi-images, mPLUG-Owl3 a également surpassé LLAVA-Next-Interleave et Mantis, spécialement optimisés pour les scènes multi-images.

De plus, dans LongVideoBench (52,1 points), un modèle d'évaluation spécialiséComprendre les longues vidéosIl surpasse les modèles existants de la liste.

L'équipe R&D a également proposé un intéressantMéthode d'évaluation de séquences visuelles longues。

Comme nous le savons tous, dans les scénarios réels d’interaction homme-machine, toutes les images ne répondent pas aux problèmes des utilisateurs. Le contexte historique sera rempli de contenu multimodal sans rapport avec le problème. Plus la séquence est longue, plus ce phénomène est grave.

Pour évaluer les performances du modèle sur de longues entrées de séquences visuellesCapacité anti-interférence, ils en ont construit un basé sur MMBench-devNouvel ensemble de données d’évaluation。

En introduisant des images non pertinentes pour chaque échantillon d'évaluation du cycle MMBench et en perturbant l'ordre des images, des questions sont ensuite posées sur les images originales pour voir si le modèle peut répondre correctement et de manière stable. (Pour la même question, quatre échantillons avec un ordre différent d'options et d'images d'interférence seront construits, et une seule bonne réponse sera enregistrée si toutes répondent correctement.)

L'expérience est divisée en plusieurs niveaux en fonction du nombre d'images d'entrée.

On peut constater que les modèles sans formation multi-graphiques tels que Qwen-VL et mPLUG-Owl2 ont rapidement échoué.

LLAVA-Next-Interleave et Mantis, qui ont été entraînés avec plusieurs images, peuvent maintenir une courbe d'atténuation similaire à celle de mPLUG-Owl3 au début, mais à mesure que le nombre d'images atteint50A cette ampleur, ces modèles ne peuvent plus répondre correctement.

Et mPLUG-Owl3 a persisté400 photosPeut encore maintenir40 % de précision。

Cependant, il y a une chose à dire. Bien que mPLUG-Owl3 surpasse les modèles existants, sa précision est loin d'atteindre un excellent niveau. On peut seulement dire que cette méthode d'évaluation révèle la capacité anti-interférence de tous les modèles sous de longues séquences nécessaires. à améliorer encore à l'avenir.

Pour plus de détails, veuillez vous référer au document et au code.

nouvelles

Regardez un film de 2 heures en 4 secondes ! Alibaba lance le grand modèle multimodal universel mPLUG-Owl3 open source |

Introduction

Mes coordonnées