2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;
Diao Haiwen est doctorant à l'Université de technologie de Dalian et son superviseur est le professeur Lu Huchuan. Travaille actuellement comme stagiaire à l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin, sous la direction du Dr Wang Xinlong. Ses intérêts de recherche sont la vision et le langage, le transfert efficace de grands modèles, les grands modèles multimodaux, etc. Le co-auteur Cui Yufeng est diplômé de l'Université de Beihang et est chercheur en algorithmes au Centre de vision de l'Institut de recherche sur l'intelligence artificielle Zhiyuan de Pékin. Ses intérêts de recherche portent sur les modèles multimodaux, les modèles génératifs et la vision par ordinateur, et ses principaux travaux incluent la série Emu.
Récemment, la recherche sur les grands modèles multimodaux bat son plein et l'industrie y investit de plus en plus. Des modèles phares ont été lancés à l'étranger, tels que GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) et Grok-1.5V (xAI), etc. Dans le même temps, GLM-4V domestique (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), etc. en pleine floraison.
Le modèle de langage visuel (VLM) actuel s'appuie généralement sur l'encodeur visuel (Vision Encoder, VE) pour extraire les caractéristiques visuelles, puis combine les instructions utilisateur avec le grand modèle de langage (LLM) pour le traitement et la réponse. encodeur visuel et séparation de formation du grand modèle de langage. Cette séparation amène les encodeurs visuels à introduire des problèmes de biais d'induction visuelle lors de l'interface avec de grands modèles de langage, tels qu'une résolution d'image et un rapport hauteur/largeur limités, et des priorités sémantiques visuelles fortes. À mesure que la capacité des encodeurs visuels continue de croître, l’efficacité du déploiement de grands modèles multimodaux dans le traitement des signaux visuels est également fortement limitée. De plus, trouver la configuration optimale de capacité des encodeurs visuels et des grands modèles de langage est devenu de plus en plus complexe et difficile.
Dans ce contexte, des idées plus avant-gardistes ont rapidement émergé :
Adept AI a publié la série de modèles Fuyu fin 2023 et a fait quelques tentatives connexes, mais n'a divulgué aucune stratégie de formation, ressources de données et informations sur l'équipement. Dans le même temps, il existe un écart de performance significatif entre le modèle Fuyu et les algorithmes traditionnels dans les indicateurs d’évaluation de textes visuels publics. Au cours de la même période, certaines expériences pilotes que nous avons menées ont montré que même si l'échelle des données de pré-entraînement est augmentée à grande échelle, le grand modèle multimodal natif sans encodeur reste confronté à des problèmes épineux tels qu'une vitesse de convergence lente et de mauvaises performances.
En réponse à ces défis, l'équipe de vision de l'Institut de recherche Zhiyuan s'est associée à des universités nationales telles que l'Université de technologie de Dalian et l'Université de Pékin pour lancer une nouvelle génération de modèle de langage visuel sans codeur EVE. Grâce à des stratégies de formation raffinées et à une supervision visuelle supplémentaire, EVE intègre la représentation, l'alignement et l'inférence visuo-linguistiques dans une architecture de décodeur pure et unifiée. En utilisant des données accessibles au public, EVE fonctionne bien sur plusieurs tests visuo-linguistiques, rivalisant avec les méthodes multimodales traditionnelles basées sur un encodeur de capacité similaire et surpassant considérablement son compatriote Fuyu-8B. EVE est proposé pour fournir une voie transparente et efficace pour le développement d'architectures multimodales natives pour les décodeurs purs.
1. Points forts techniques
2. Structure du modèle
Premièrement, il est initialisé via le modèle de langage Vicuna-7B, de sorte qu'il dispose de connaissances linguistiques riches et de puissantes capacités de suivi d'instructions. Sur cette base, l'encodeur visuel profond est supprimé, une couche d'encodage visuel légère est construite, l'entrée d'image est codée de manière efficace et sans perte, et entrée dans un décodeur unifié avec les commandes du langage utilisateur. De plus, la couche d'alignement visuel effectue l'alignement des caractéristiques avec un encodeur visuel général pour améliorer le codage et la représentation fine des informations visuelles.
2.1 Couche d'intégration des correctifs
2.2 Couche d'alignement des patchs
3. Stratégie de formation
4. Analyse quantitative
Le modèle EVE surpasse considérablement le modèle similaire Fuyu-8B dans plusieurs tests de langage visuel et fonctionne à égalité avec une variété de modèles de langage visuel traditionnels basés sur un encodeur. Cependant, en raison de l'utilisation d'une grande quantité de données de langage visuel pour la formation, il est difficile de répondre avec précision à des instructions spécifiques, et ses performances dans certains tests de référence doivent être améliorées. Ce qui est passionnant, c'est que grâce à des stratégies de formation efficaces, l'EVE sans encodeur peut atteindre des performances comparables à celles du modèle de langage visuel basé sur un encodeur, résolvant fondamentalement les problèmes de flexibilité de la taille d'entrée, d'efficacité de déploiement et de modalité des modèles traditionnels.
Par rapport aux modèles avec encodeurs, qui sont sensibles à des problèmes tels que la simplification de la structure du langage et la perte de connaissances riches, EVE a montré une amélioration progressive et stable des performances à mesure que la taille des données augmente, se rapprochant progressivement du niveau de performance des modèles basés sur un encodeur. Cela peut être dû au fait que l'encodage et l'alignement des modalités visuelles et linguistiques dans un réseau unifié sont plus difficiles, ce qui rend les modèles sans encodeur moins sujets au surajustement par rapport aux modèles avec encodeurs.
5. Qu’en pensent vos pairs ?
Ali Hatamizadeh, chercheur principal chez NVIDIA, a déclaré qu'EVE est rafraîchissant et tente de proposer un nouveau récit, différent de la construction de normes d'évaluation complexes et des améliorations progressives du modèle de langage visuel.
Armand Joulin, chercheur principal chez Google Deepmind, a déclaré qu'il était passionnant de construire un modèle de langage visuel pur décodeur.
L'ingénieur en apprentissage automatique d'Apple, Prince Canuma, a déclaré que l'architecture EVE est très intéressante et constitue un bon ajout à l'ensemble du projet MLX VLM.
6. Perspectives futures
En tant que modèle de langage visuel natif sans encodeur, EVE a actuellement obtenu des résultats encourageants. Sur cette voie, il existe quelques directions intéressantes qui méritent d’être explorées à l’avenir :