Abandonnant l'encodeur visuel, ce grand modèle multimodal « version native » est également comparable aux méthodes grand public

Abandonnant l'encodeur visuel, ce grand modèle multimodal « version native » est également comparable aux méthodes traditionnelles

2024-07-16

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Diao Haiwen est doctorant à l'Université de technologie de Dalian et son superviseur est le professeur Lu Huchuan. Travaille actuellement comme stagiaire à l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin, sous la direction du Dr Wang Xinlong. Ses intérêts de recherche sont la vision et le langage, le transfert efficace de grands modèles, les grands modèles multimodaux, etc. Le co-auteur Cui Yufeng est diplômé de l'Université de Beihang et est chercheur en algorithmes au Centre de vision de l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin. Ses intérêts de recherche portent sur les modèles multimodaux, les modèles génératifs et la vision par ordinateur, et ses principaux travaux incluent la série Emu.

Récemment, la recherche sur les grands modèles multimodaux bat son plein et l'industrie y investit de plus en plus. Des modèles phares ont été lancés à l'étranger, tels que GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) et Grok-1.5V (xAI), etc. Dans le même temps, GLM-4V domestique (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), etc. en pleine floraison.

Le modèle de langage visuel (VLM) actuel s'appuie généralement sur l'encodeur visuel (Vision Encoder, VE) pour extraire les caractéristiques visuelles, puis combine les instructions utilisateur avec le grand modèle de langage (LLM) pour le traitement et la réponse. encodeur visuel et séparation de formation du grand modèle de langage. Cette séparation amène les encodeurs visuels à introduire des problèmes de biais d'induction visuelle lors de l'interface avec de grands modèles de langage, tels qu'une résolution d'image et un rapport hauteur/largeur limités, et des priorités sémantiques visuelles fortes. À mesure que la capacité des encodeurs visuels continue de croître, l’efficacité du déploiement de grands modèles multimodaux dans le traitement des signaux visuels est également fortement limitée. De plus, trouver la configuration optimale de capacité des encodeurs visuels et des grands modèles de langage est devenu de plus en plus complexe et difficile.

Dans ce contexte, des idées plus avant-gardistes ont rapidement émergé :

Pouvons-nous supprimer l’encodeur visuel, c’est-à-dire construire directement un grand modèle multimodal natif sans encodeur visuel ?
Comment faire évoluer efficacement et en douceur un grand modèle de langage vers un grand modèle multimodal natif sans encodeurs visuels ?
Comment combler l'écart de performances entre les cadres multimodaux natifs sans encodeur et les paradigmes multimodaux traditionnels basés sur un encodeur ?

Adept AI a publié la série de modèles Fuyu fin 2023 et a fait quelques tentatives connexes, mais n'a divulgué aucune stratégie de formation, ressources de données et informations sur l'équipement. Dans le même temps, il existe un écart de performance significatif entre le modèle Fuyu et les algorithmes traditionnels dans les indicateurs d’évaluation de textes visuels publics. Au cours de la même période, certaines expériences pilotes que nous avons menées ont montré que même si l'échelle des données de pré-entraînement est augmentée à grande échelle, le grand modèle multimodal natif sans encodeur reste confronté à des problèmes épineux tels qu'une vitesse de convergence lente et de mauvaises performances.

En réponse à ces défis, l'équipe de vision de l'Institut de recherche Zhiyuan s'est associée à des universités nationales telles que l'Université de technologie de Dalian et l'Université de Pékin pour lancer une nouvelle génération de modèle de langage visuel sans codeur EVE. Grâce à des stratégies de formation raffinées et à une supervision visuelle supplémentaire, EVE intègre la représentation, l'alignement et l'inférence visuo-linguistiques dans une architecture de décodeur pure et unifiée. En utilisant des données accessibles au public, EVE fonctionne bien sur plusieurs tests visuo-linguistiques, rivalisant avec les méthodes multimodales traditionnelles basées sur un encodeur de capacité similaire et surpassant considérablement son compatriote Fuyu-8B. EVE est proposé pour fournir une voie transparente et efficace pour le développement d'architectures multimodales natives pour les décodeurs purs.

Adresse papier : https://arxiv.org/abs/2406.11832
Code du projet : https://github.com/baaivision/EVE
Adresse du modèle : https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Points forts techniques

Modèle de langage visuel natif : brise le paradigme fixe des modèles multimodaux traditionnels, supprime l'encodeur visuel et peut gérer n'importe quel rapport hauteur/largeur d'image. Il est nettement meilleur que le même type de modèle Fuyu-8B dans plusieurs tests de langage visuel et est proche de l'architecture de langage visuel basée sur un encodeur visuel grand public.
Faibles coûts de données et de formation : la pré-formation du modèle EVE a uniquement examiné les données publiques d'OpenImages, SAM et LAION, et a utilisé 665 000 données d'instructions LLaVA et 1,2 million de données de dialogue visuel supplémentaires pour créer respectivement des versions régulières et de haut niveau. version d'EVE-7B. La formation prend environ 9 jours sur deux nœuds 8-A100 (40G), ou 5 jours sur quatre nœuds 8-A100.
Exploration transparente et efficace : EVE tente d'explorer une voie efficace, transparente et pratique vers le modèle de langage visuel natif, en fournissant de nouvelles idées et une expérience précieuse pour le développement d'une nouvelle génération d'architecture de modèle de langage visuel de décodeur pur pour le futur multimodal. de modèles ouvre de nouvelles pistes d’exploration.

2. Structure du modèle

Premièrement, il est initialisé via le modèle de langage Vicuna-7B, de sorte qu'il dispose de connaissances linguistiques riches et de puissantes capacités de suivi d'instructions. Sur cette base, l'encodeur visuel profond est supprimé, une couche d'encodage visuel légère est construite, l'entrée d'image est codée de manière efficace et sans perte, et entrée dans un décodeur unifié avec les commandes du langage utilisateur. De plus, la couche d'alignement visuel effectue l'alignement des caractéristiques avec un encodeur visuel général pour améliorer le codage et la représentation fine des informations visuelles.

2.1 Couche d'intégration des correctifs

Utilisez d'abord une seule couche convolutive pour obtenir la carte des caractéristiques 2D de l'image, puis effectuez un sous-échantillonnage via une couche de pooling moyenne ;
Utilisez le module d'attention croisée (CA1) pour interagir dans un champ réceptif limité afin d'améliorer les fonctionnalités locales de chaque patch ;
Utilisez le jeton <CLS> et combinez-le avec le module d'attention croisée (CA2) pour fournir des informations globales pour chaque fonctionnalité de correctif ultérieure ;
Un jeton <SPL> apprenable est inséré à la fin de chaque ligne caractéristique de patch pour aider le réseau à comprendre la structure spatiale bidimensionnelle de l'image.

2.2 Couche d'alignement des patchs

Enregistrez la forme 2D d'un patch valide ; supprimez <CLS>/
jetons et utilisez la couche de pooling adaptative pour restaurer la forme bidimensionnelle d'origine ;
Grâce au module d'attention croisée hiérarchique (CA3), les fonctionnalités visuelles du réseau multicouche sont intégrées pour obtenir un alignement précis avec la sortie de l'encodeur visuel.

3. Stratégie de formation

L'étape de pré-formation guidée par le grand modèle de langage : établit le lien initial entre la vision et le langage, jetant les bases d'une pré-formation ultérieure à grande échelle, stable et efficace ;
Étape de pré-formation générative : améliorer encore la capacité du modèle à comprendre le contenu visuo-linguistique et réaliser une transition en douceur d'un modèle de langage pur à un modèle multimodal ;
Étape de mise au point supervisée : normaliser davantage la capacité du modèle à suivre les instructions linguistiques et à apprendre des modèles de dialogue pour répondre aux exigences de divers référentiels de langage visuel.

Au cours de la phase de pré-formation, 33 millions de données publiques de SA-1B, OpenImages et LAION ont été examinées et seuls les échantillons d'images avec une résolution supérieure à 448 × 448 ont été conservés. En particulier, pour résoudre le problème de la redondance élevée dans les images LAION, 50 000 clusters ont été générés en appliquant le clustering K-means sur les caractéristiques de l'image extraites par EVA-CLIP, et les 300 images les plus proches de chaque centre de cluster ont été sélectionnées, et enfin. sélectionné 15 millions d’échantillons d’images LAION. Par la suite, des descriptions d’images de haute qualité sont régénérées à l’aide d’Emu2 (17B) et de LLaVA-1.5 (13B).
Dans l'étape de réglage fin supervisée, l'ensemble de données de réglage fin LLaVA-mix-665K est utilisé pour entraîner la version standard d'EVE-7B et des ensembles de données mixtes tels que AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan. et Bunny-695K sont intégrés pour former la version haute résolution d'EVE-7B.

4. Analyse quantitative

Le modèle EVE surpasse considérablement le modèle similaire Fuyu-8B dans plusieurs tests de langage visuel et fonctionne à égalité avec une variété de modèles de langage visuel traditionnels basés sur un encodeur. Cependant, en raison de l'utilisation d'une grande quantité de données de langage visuel pour la formation, il est difficile de répondre avec précision à des instructions spécifiques, et ses performances dans certains tests de référence doivent être améliorées. Ce qui est passionnant, c'est que grâce à des stratégies de formation efficaces, l'EVE sans encodeur peut atteindre des performances comparables à celles du modèle de langage visuel basé sur un encodeur, résolvant fondamentalement les problèmes de flexibilité de la taille d'entrée, d'efficacité de déploiement et de modalité des modèles traditionnels.

Par rapport aux modèles avec encodeurs, qui sont sensibles à des problèmes tels que la simplification de la structure du langage et la perte de connaissances riches, EVE a montré une amélioration progressive et stable des performances à mesure que la taille des données augmente, se rapprochant progressivement du niveau de performance des modèles basés sur un encodeur. Cela peut être dû au fait que l'encodage et l'alignement des modalités visuelles et linguistiques dans un réseau unifié sont plus difficiles, ce qui rend les modèles sans encodeur moins sujets au surajustement par rapport aux modèles avec encodeurs.

5. Qu’en pensent vos pairs ?

Ali Hatamizadeh, chercheur principal chez NVIDIA, a déclaré qu'EVE est rafraîchissant et tente de proposer un nouveau récit, différent de la construction de normes d'évaluation complexes et des améliorations progressives du modèle de langage visuel.

Armand Joulin, chercheur principal chez Google Deepmind, a déclaré qu'il était passionnant de construire un modèle de langage visuel pur décodeur.

L'ingénieur en apprentissage automatique d'Apple, Prince Canuma, a déclaré que l'architecture EVE est très intéressante et constitue un bon ajout à l'ensemble du projet MLX VLM.

6. Perspectives futures

En tant que modèle de langage visuel natif sans encodeur, EVE a actuellement obtenu des résultats encourageants. Sur cette voie, il existe quelques directions intéressantes qui méritent d’être explorées à l’avenir :

Amélioration supplémentaire des performances : les expériences ont révélé que la pré-formation utilisant uniquement des données visuo-linguistiques réduisait considérablement la capacité linguistique du modèle (le score SQA est passé de 65,3 % à 63,0 %), mais a progressivement amélioré les performances multimodales du modèle. Cela indique qu’il existe un oubli catastrophique interne des connaissances linguistiques lorsque de grands modèles linguistiques sont mis à jour. Il est recommandé d'intégrer de manière appropriée les données de pré-formation linguistique pure ou d'utiliser une stratégie mixte d'experts (MoE) pour réduire l'interférence entre les modalités visuelles et linguistiques.
La vision d’une architecture sans encodeur : avec des stratégies appropriées et une formation avec des données de haute qualité, les modèles de langage visuel sans encodeur peuvent rivaliser avec les modèles avec encodeurs. Alors, avec la même capacité de modèle et des données de formation massives, quelle est la performance des deux ? Nous pensons qu'en augmentant la capacité du modèle et la quantité de données d'entraînement, l'architecture sans encodeur peut atteindre ou même surpasser l'architecture basée sur un encodeur, car la première entre les images presque sans perte et évite le biais a priori de l'encodeur visuel.
Construction de modèles multimodaux natifs : EVE démontre complètement comment construire des modèles multimodaux natifs de manière efficace et stable, ce qui ouvre une manière transparente et réalisable d'intégrer davantage de modalités (telles que l'audio, la vidéo, l'imagerie thermique, la profondeur, etc.) dans le futur. L'idée principale est de pré-aligner ces modalités via un grand modèle de langage gelé avant d'introduire une formation unifiée à grande échelle, et d'utiliser les encodeurs monomodaux correspondants et l'alignement des concepts de langage pour la supervision.

nouvelles

Abandonnant l'encodeur visuel, ce grand modèle multimodal « version native » est également comparable aux méthodes traditionnelles

Introduction

mes coordonnées