2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nouveau rapport de sagesse
Editeur : LRST Tellement endormi
[Introduction à la nouvelle sagesse]Mini-Monkey est un modèle de langage multimodal léger à grande échelle qui atténue efficacement l'effet d'alias provoqué par les stratégies traditionnelles de segmentation d'images en utilisant une stratégie de segmentation adaptative multi-échelle (MSAC) et un mécanisme de compression d'échelle (SCM). Performances améliorées du modèle en haute définition. -Tâches de traitement d'images en résolution et de compréhension de documents. Il obtient des résultats de premier plan dans de multiples benchmarks, démontrant son potentiel dans les domaines de la compréhension multimodale et de l'intelligence documentaire.
Récemment, l’amélioration de la capacité des grands modèles multimodaux à traiter des images haute résolution a attiré une attention croissante dans ce domaine.
La plupart des méthodes se concentrent sur l’amélioration de la capacité des grands modèles multimodaux à comprendre les détails des images grâce à la stratégie de segmentation et de refusion des images.
Cependant, en raison de l'opération de segmentation de l'image, il est inévitable de provoquer une fragmentation de la cible et des zones connectées, ce qui affecte la capacité de reconnaissance des MLMM pour des cibles petites ou de forme irrégulière. Ce phénomène est extrêmement évident dans les tâches de compréhension de documents, car la partie texte est souvent interrompue.
En réponse à ce défi, l'Université des sciences et technologies de Huazhong et l'Université de technologie de Chine du Sud ont récemment publié conjointement un grand modèle multimodal Mini-Monkey, qui utilise une stratégie adaptative multi-échelle enfichable (MSAC) pour alléger les grands modèles multimodaux. .
Mini-Monkey génère de manière adaptative des représentations multi-échelles, permettant au modèle de sélectionner des objets non segmentés à différentes échelles, et ses performances atteignent le nouveau SOTA des grands modèles multimodaux 2B.
Adresse papier : https://arxiv.org/pdf/2408.02034
Adresse du projet : https://github.com/Yuliang-Liu/Monkey
Afin d'atténuer la surcharge de calcul causée par MSAC, nous proposons un mécanisme de compression d'échelle (SCM) pour compresser efficacement les jetons d'image.
Mini-Monkey a non seulement atteint des performances de pointe dans plusieurs tâches d'intelligence documentaire, mais a également réalisé des améliorations constantes des performances dans les tâches générales de compréhension de modèles multimodaux, atteignant des performances SOTA 2B.
Sur OCRBench, Mini-Monkey a marqué 802 points, ce qui est mieux que les modèles avec des paramètres plus grands tels que le GLM-4v-9B.
Figure 3 Schéma fonctionnel de la méthode : H-Attn représente un poids d'attention élevé ; L-Attn représente un faible poids d'attention ; les jetons avec un poids d'attention inférieur seront filtrés ; la couche LLM partagée représente la couche de bloc utilisant LLM dans SCM ;
Contexte de recherche
Les grands modèles multimodaux de langage (MLMM) ont attiré beaucoup d’attention ces dernières années. Les chercheurs explorent activement des moyens efficaces d’intégrer des encodeurs visuels au LLM.
Certaines méthodes, telles que Flamingo, BLIP-2, MiniGPT4, Qwen-VL et LLaVA, ont atteint ces résultats, mais les précédents modèles multimodaux en grand langage n'ont pas permis une bonne compréhension détaillée de la scène en raison d'une résolution de traitement limitée.
Figure 1 L'effet d'alias provoqué par la segmentation sur des objets universels : (a) image d'entrée ; (b) stratégie d'expansion de segmentation (c) stratégie d'expansion de segmentation superposée (d) stratégies de segmentation adaptative multi-échelle ;
Les chercheurs ont commencé à résoudre ce problème en augmentant la résolution d'entrée de l'image. La stratégie de découpage est l’une des méthodes les plus couramment utilisées. Par exemple, Monkey, LLaVA 1.6, InternVL 1.5 et LLama3-V, etc.
Malgré des progrès significatifs dans les modèles linguistiques multimodaux à grande échelle, des défis subsistent dans la compréhension détaillée des scènes en raison des stratégies de segmentation.
Les opérations de segmentation sur les images segmentent inévitablement les objets et les régions connectées, affaiblissant ainsi la capacité du MLLM à identifier de petits objets ou des objets de forme irrégulière, notamment dans le contexte de la compréhension de documents.
Cette stratégie introduira deux types d’incohérence sémantique :
1. Si un objet ou un personnage est segmenté, il peut ne pas être reconnu. Par exemple, le nez segmenté ressemble beaucoup à celui d'un singe, comme le montre la figure 1(b) ;
2. Si un mot ou une phrase est segmenté, cela entraînera des dommages sémantiques au mot segmenté. Par exemple, le mot « Salles de classe » pourrait être divisé en « Classe » et « Salles », ce qui causerait des dommages sémantiques aux mots segmentés.
Par souci de simplicité, les auteurs appellent ce problème l’effet en dents de scie. Une idée très simple consiste à utiliser une stratégie de segmentation superposée pour résoudre ce problème, comme le montre la figure 1(c).
Cependant, les auteurs ont constaté que la stratégie de segmentation superposée introduisait certaines illusions qui entraînaient une dégradation des performances plutôt qu'une amélioration.
Idées de méthodes
L'auteur propose Mini-Monkey, un modèle de langage multimodal léger à grande échelle conçu pour atténuer l'effet en dents de scie provoqué par les stratégies de segmentation. Le schéma fonctionnel de la méthode est présenté à la figure 2.
Figure 2 L'effet irrégulier provoqué par le recadrage des images de texte.
Contrairement aux méthodes existantes qui segmentent directement l'image d'entrée, Mini-Monkey adopte une approche plug-and-play appelée stratégie de segmentation adaptative multi-échelle (MSAC).
MSAC peut compléter efficacement des fonctionnalités à différentes échelles, comme le montre la figure 1(d).
Stratégie de segmentation adaptative multi-échelle (MSAC)
MSAC effectue d'abord une opération de superposition sur ces maillages, en les divisant en trois groupes en fonction de leur rapport hauteur/largeur. L'auteur choisira un rapport hauteur/largeur pour chaque couche. Différentes couches fournissent différentes informations au modèle.
La couche de détail est chargée de fournir des informations détaillées. Il limite à la fois la résolution maximale et la résolution minimale de l'image, rendant l'image aussi grande que possible et rendant les objets de l'image plus clairs. En raison de la stratégie de segmentation utilisée pour recadrer l'image, les images générées par cette couche peuvent présenter des incohérences sémantiques.
Par conséquent, les auteurs utilisent des couches adaptatives en conjonction avec des couches de détail pour permettre au modèle de sélectionner des objets non segmentés à différentes échelles. La couche adaptative générera de manière adaptative le rapport hauteur/largeur en fonction de la couche de détail, garantissant que la ligne de segmentation sur la couche de détail ne chevauche pas la ligne de segmentation sur la couche adaptative, empêchant ainsi le même objet d'être segmenté deux fois sur des couches différentes. Ce processus garantit que la couche de détail et la couche d'adaptation fournissent des informations sémantiques et des caractéristiques visuelles différentes au modèle.
mécanisme de compression d'échelle
MSAC peut introduire une surcharge de calcul supplémentaire. Par conséquent, l’auteur propose un mécanisme de compression d’échelle (SCM) pour les situations où il existe des contraintes de surcharge de calcul. SCM est un mécanisme qui ne nécessite aucune formation ni aucun paramètre pour réduire la charge de calcul.
L'auteur sélectionne les jetons visuels de la couche adaptative, les jetons visuels de la couche globale et les jetons de texte pour se concentrer sur les marqueurs visuels de la couche de détail, puis génère la carte d'attention, puis extrait les caractéristiques visuelles du K supérieur. de la carte d’attention.
Un LLM bien formé peut sélectionner efficacement les caractéristiques visuelles nécessaires en fonction du problème d'entrée. Par conséquent, SCM utilise les première et deuxième couches de LLM pour sélectionner des jetons visuels sans générer de paramètres supplémentaires.
Le grand modèle multimodal 2B le plus puissant de Mini-Monkey
Les auteurs ont testé leur méthode sur la compréhension multimodale générale et la compréhension des documents. Les résultats expérimentaux montrent que Mini-Monkey a obtenu les meilleures performances en matière de compréhension multimodale générale et de compréhension des documents en même temps avec les paramètres 2B.
Tableau 1 Résultats sur la compréhension multimodale générale
Tableau 2 Résultats sur la compréhension du document
L'auteur compare le MSAC proposé avec les méthodes existantes. La première ligne est une méthode de segmentation dynamique, la deuxième ligne est une méthode de segmentation à résolution fixe, la troisième ligne est une segmentation superposée et la quatrième ligne est une stratégie S2 multi-échelle.
Le tableau 3 compare avec différentes stratégies de segmentation
MSAC peut être appliqué à différentes architectures multimodales, stabilisant et améliorant
Dans le même temps, l'auteur a également appliqué MSAC à d'autres méthodes de comparaison, et on peut constater qu'il existe des améliorations constantes dans les tâches générales de compréhension multimodale et de compréhension de documents.
Le tableau 4 applique MSAC à différents frameworks
Atténuer efficacement les « séquelles » causées par la segmentation pour augmenter la résolution
Parallèlement, l’auteur propose également une analyse qualitative, comme le montre la figure 4. L'auteur pose des questions sur les lieux segmentés, tels que les « salles de classe » et « l'école », qui sont segmentés.
On peut voir que Mini-Monkey peut atténuer efficacement les « séquelles » causées par l'augmentation de la résolution de segmentation via MSAC.
Figure 4 Résultats qualitatifs : (a) image d'entrée et Ground Truth ; (b) résultats utilisant une stratégie de segmentation superposée, OSC représente une stratégie de segmentation superposée (c) résultats d'internv2-2b et d'internv2-26b ;
Comparaison visuelle
Mini-Monkey peut extraire avec précision le contenu textuel de livres anciens ambigus, tandis que MiniCPM-V 2.6 et InternVL2-2B ont tous deux manqué beaucoup de texte :
(a) Image d'entrée
(b) Mimi-Monkey : reconnaît avec précision tous les textes
(c)MiniCPM-V 2.6 : beaucoup de texte est manqué.
(d) InternVL2-2B : il manque une phrase entière de texte relativement vague
(e)GPT-4o : Refuser de répondre
Résumer
Les méthodes qui utilisent la segmentation pour étendre la résolution segmentent souvent les objets et les régions connectées, ce qui limite la reconnaissance des objets et du texte petits ou de forme irrégulière. Ce problème est particulièrement évident dans le MLLM léger.
Dans cette étude, l'auteur propose Mini-Monkey, un grand modèle multimodal 2B qui atteint les performances SOTA, visant à résoudre les limites des stratégies de segmentation existantes pour améliorer la capacité du MLLM à traiter des images haute résolution.
Mini-Monkey adopte une stratégie de segmentation adaptative multi-échelles (MSAC) pour générer des représentations multi-échelles, permettant au modèle de sélectionner des objets non segmentés à différentes échelles, atténuant ainsi ce problème.
Dans le même temps, l'auteur a également vérifié l'efficacité de la stratégie de segmentation adaptative multi-échelle sur de grands modèles multimodaux d'autres architectures, fournissant une solution simple et efficace pour atténuer les « séquelles » causées par la résolution accrue du plan de segmentation. .
Références :
[1] Chen Z, Wang W, Tian H, et al. Jusqu'où allons-nous vers gpt-4v ? combler l'écart avec les modèles multimodaux commerciaux grâce à des suites open source[J]. Préimpression arXiv arXiv:2404.16821, 2024.
[2] Li J, Li D, Savarese S, et al. Blip-2 : amorçage de la pré-formation langage-image avec des encodeurs d'images figées et de grands modèles de langage[C]//Conférence internationale sur l'apprentissage automatique. PMLR, 2023 : 19730-19742.
[3] Liu Y, Yang B, Liu Q, et al. Textmonkey : un grand modèle multimodal sans OCR pour la compréhension de documents[J]. Préimpression arXiv arXiv:2403.04473, 2024.
[4] Bai J, Bai S, Yang S, et al. Qwen-vl : un modèle de vision-langage de grande taille doté de capacités polyvalentes[J]. Préimpression arXiv arXiv:2308.12966, 2023.
[5] Dubey A, Jauhri A, Pandey A, et al. Le troupeau de modèles Llama 3[J]. Préimpression arXiv arXiv:2407.21783, 2024.