nouvelles

alibaba cloud tongyi qianwen qwen2-vl modèle de langage visuel de deuxième génération open source

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house a rapporté le 2 septembre qu'alibaba cloud tongyi qianwen avait annoncé aujourd'hui l'open source du modèle de langage visuel de deuxième génération qwen2-vl et avait lancé deux tailles de 2b et 7b ainsi que son modèle de version quantifiée. dans le même temps, l'api du modèle phare qwen2-vl-72b a été lancée sur la plateforme alibaba cloud bailian, et les utilisateurs peuvent l'appeler directement.

selon l'introduction officielle d'alibaba cloud, par rapport au modèle de la génération précédente, les performances de base du qwen2-vl ont été considérablement améliorées :

il peut comprendre des images de différentes résolutions et formats d'image, atteignant des performances de pointe dans les tests de référence tels que docvqa, realworldqa et mtvqa ;

comprenez de longues vidéos de plus de 20 minutes et prenez en charge les questions et réponses, les dialogues, la création de contenu et d'autres applications basées sur la vidéo ;

il possède de fortes capacités d'intelligence visuelle et peut faire fonctionner des téléphones mobiles et des robots de manière autonome. doté de capacités de raisonnement et de prise de décision complexes, qwen2-vl peut être intégré aux téléphones mobiles, aux robots et à d'autres appareils pour effectuer des opérations automatiques basées sur l'environnement visuel et les instructions textuelles. ;

comprenez le texte multilingue dans les images et les vidéos, notamment le chinois, l'anglais, la plupart des langues européennes, le japonais, le coréen, l'arabe, le vietnamien, etc.

qwen2-vl poursuit la structure en série de vit plus qwen2. les modèles de trois tailles utilisent tous vit à l'échelle 600m pour prendre en charge la saisie unifiée d'images et de vidéos.

mais afin de permettre au modèle de percevoir les informations visuelles et de comprendre les vidéos plus clairement, l'équipe a apporté quelques améliorations à l'architecture :

premièrement, la prise en charge complète de la résolution dynamique native est obtenue. différent du modèle de la génération précédente, qwen2-vl peut gérer la saisie d'images de n'importe quelle résolution. les images de différentes tailles seront converties en un nombre dynamique de jetons, avec un minimum de seulement 4 jetons. cette conception simule la manière naturelle de perception visuelle humaine, garantit un haut degré de cohérence entre l'entrée du modèle et les informations de l'image originale, et donne au modèle la puissante capacité de traiter des images de n'importe quelle taille, lui permettant d'effectuer le traitement d'image de manière plus flexible et plus efficace. efficacement.

la seconde consiste à utiliser la méthode d’intégration de position de rotation multimodale (m-rope). l'intégration traditionnelle de la position de rotation ne peut capturer que les informations de position des séquences unidimensionnelles. m-rope permet aux modèles de langage à grande échelle de capturer et d'intégrer simultanément les informations de position des séquences de texte unidimensionnelles, des images visuelles bidimensionnelles et tridimensionnelles. des vidéos, donnant au modèle de langage de puissantes capacités de traitement et de raisonnement multimodal permettant aux modèles de mieux comprendre et modéliser des données multimodales complexes.

l'api du modèle phare qwen2-vl-72b parmi les multiples modèles open source qwen2-vl cette fois a été lancée sur la plate-forme alibaba cloud bailian, et les utilisateurs peuvent appeler directement l'api via la plate-forme alibaba cloud bailian.

dans le même temps, l'équipe tongyi qianwen a open source qwen2-vl-2b et qwen2-vl-7b sous le protocole apache 2.0. le code open source a été intégré dans hugging face transformers, vllm et d'autres frameworks tiers. les développeurs peuvent télécharger et utiliser le modèle via hugging face et moda modelscope, ou utiliser le modèle via la page de dialogue principale du site officiel de tongyi et de l'application tongyi.