Équipe de Li Xi de l'Université du Zhejiang : Une nouvelle méthode de référence à la compréhension des expressions, ScanFormer élimine la redondance du grossier au fine

Équipe de Li Xi de l'Université du Zhejiang : Une nouvelle méthode de référence à la compréhension des expressions, ScanFormer élimine la redondance du grossier au fin

2024-08-20

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Les auteurs de cet article font tous partie de l'équipe du professeur Li Xi de l'Université du Zhejiang. Le premier auteur de l'article est le doctorant Su Wei, et l'auteur correspondant est le professeur Li Xi (IET Fellow, National Distinguished Young Scholar). Ces dernières années, l'équipe du professeur Li Xi a publié plus de 180 travaux de recherche liés au CV/AIGC dans des revues internationales faisant autorité (telles que TPAMI, IJCV, etc.) et dans des conférences universitaires internationales de premier plan (ICCV, CVPR, ECCV, etc.), et a coopéré avec des universités et des instituts de recherche scientifiques bien connus au pays et à l'étranger.

En tant que tâche de base du langage visuel, la compréhension de l'expression référente (REC) localise la cible référencée dans l'image sur la base d'une description en langage naturel. Le modèle REC se compose généralement de trois parties : l'encodeur visuel, l'encodeur de texte et l'interaction intermodale, qui sont utilisées respectivement pour extraire les caractéristiques visuelles, les caractéristiques de texte et l'interaction et l'amélioration des caractéristiques intermodales.

La plupart des recherches actuelles se concentrent sur la conception de modules d’interaction multimodaux efficaces pour améliorer la précision des tâches, et l’exploration des encodeurs visuels manque. Une approche courante consiste à utiliser des extracteurs de fonctionnalités pré-entraînés aux tâches de classification et de détection, tels que ResNet, DarkNet, Swin Transformer ou ViT, etc. Ces modèles parcourent tous les emplacements spatiaux de l'image pour extraire les caractéristiques sous forme de fenêtre glissante ou de patch divisé. Leur complexité de calcul augmentera rapidement avec la résolution de l'image, ce qui est plus évident dans les modèles basés sur Transformer.

En raison des caractéristiques de redondance spatiale des images, il existe un grand nombre de zones d'arrière-plan avec un faible contenu en informations et des zones qui ne sont pas pertinentes pour l'expression référentielle dans l'image. L'extraction de caractéristiques dans ces zones de la même manière augmentera la complexité de calcul, mais cela augmentera la complexité de calcul. ne contribue pas à une extraction efficace des fonctionnalités. Un moyen plus efficace consiste à prédire à l'avance la pertinence du texte et la richesse du contenu de la zone d'image, à extraire entièrement les caractéristiques de la zone de premier plan liée au texte et à extraire grossièrement les caractéristiques de la zone d'arrière-plan. Pour la prévision régionale, une méthode plus intuitive consiste à utiliser la pyramide d'images pour identifier à l'avance la zone d'arrière-plan dans l'image à gros grains au sommet de la pyramide, puis à ajouter progressivement des zones de premier plan à grain fin haute résolution.

Sur la base de l’analyse ci-dessus, nous avons proposéScanFormer, un framework prenant en charge les itérations grossières à fines, numérisez couche par couche dans la pyramide d'images, en commençant par des images à faible résolution et à grande échelle, et filtrez progressivement les zones non pertinentes/d'arrière-plan qui font référence à des expressions pour réduire le gaspillage de calcul, permettant ainsi au modèle de se concentrer davantage sur les zones de premier plan/liées aux tâches. .

Titre de l'article : ScanFormer : Compréhension d'expressions référencées par numérisation itérative
Lien papier : https://arxiv.org/pdf/2406.18048

Présentation de la méthode

1. Cadre de perception des itérations grossières à fines

Pour simplifier la structure, nous adoptons le modèle ViLT [1] qui unifie les modalités textuelles et visuelles et le divise en deux parties, Encoder1 et Encoder2, le long de la dimension de profondeur pour différentes tâches.

Tout d'abord, extrayez les caractéristiques du texte et stockez-les dans KV Cache ; puis construisez une pyramide d'images et itérez vers le bas depuis le haut de la pyramide. À chaque itération, le patch sélectionné à l'échelle actuelle est saisi et Encoder1 est utilisé pour prédire l'étape suivante. correspondant à chaque patch. La sélection de patchs à granularité fine à une échelle. En particulier, tous les patchs de l'image de niveau supérieur sont sélectionnés pour garantir que le modèle peut obtenir des informations d'image complète à granularité grossière. Encoder2 extrait en outre les caractéristiques et prédit le cadre de délimitation de cette échelle en fonction du jeton [cls] de l'échelle actuelle.

Dans le même temps, les fonctionnalités intermédiaires d'Encoder1 et Encoder2 seront stockées dans KV Cache pour faciliter une utilisation standard ultérieure. À mesure que l'échelle augmente, des fonctionnalités plus fines sont introduites, la prédiction de position sera plus précise et la plupart des correctifs non pertinents sont supprimés pour économiser de nombreux calculs.

De plus, les correctifs au sein de chaque échelle ont une attention bidirectionnelle, en prêtant attention à tous les correctifs et caractéristiques de texte des échelles précédentes. Cette attention causale à toutes les échelles peut réduire davantage les besoins en calcul.

2. Sélection dynamique des patchs

La sélection de chaque patch est déterminée par le facteur de sélection généré par l'échelle précédente. Il existe deux options pour l'emplacement d'application. L'une est utilisée dans toutes les têtes de chaque couche de MHSA dans l'encodeur de N couches. Têtes H, il est très difficile d'obtenir des informations de gradient efficaces pour la mise à jour, donc le facteur de sélection appris n'est pas idéal ; le second est directement utilisé comme entrée de l'encodeur, c'est-à-dire l'intégration du patch. utilisé dans cette position, il est plus facile à apprendre. Enfin, cet article Cette solution a également été adoptée.

De plus, il convient de noter que même si l'intégration du patch d'entrée est définie sur 0, en raison de l'existence de MHSA et FFN, les fonctionnalités du patch dans les couches suivantes deviendront toujours non 0 et affecteront les fonctionnalités des autres patchs. Heureusement, lorsqu'il y a de nombreux jetons identiques dans la séquence de jetons, le calcul de MHSA peut être simplifié et une véritable accélération d'inférence peut être obtenue. De plus, afin d'améliorer la flexibilité du modèle, cet article ne définit pas directement l'intégration du correctif sur 0, mais le remplace par un jeton constant apprenable.

Le problème de sélection des correctifs se transforme donc en problème de remplacement des correctifs. Le processus de sélection des correctifs peut être décomposé en deux étapes : le remplacement constant des jetons et la fusion des jetons. Les correctifs non sélectionnés seront remplacés par le même jeton constant. Étant donné que ces jetons non sélectionnés sont les mêmes, selon la méthode de calcul de l'attention du produit scalaire mise à l'échelle, ces jetons peuvent être combinés en un seul jeton et multipliés par le nombre total, ce qui équivaut à ajouter à la dimension, donc la méthode d'attention du produit scalaire est calculé. Aucun changement, des méthodes d’accélération courantes sont toujours disponibles.

Résultats expérimentaux

Cette méthode atteint des performances similaires à l'état de l'art sur quatre ensembles de données : RefCOCO, RefCOCO+, RefCOCOg et ReferItGame. En pré-entraînant sur des ensembles de données à grande échelle et en affinant des ensembles de données spécifiques, les performances du modèle peuvent être encore considérablement améliorées et obtenir des résultats similaires à ceux des modèles pré-entraînés tels que MDETR [2] et OFA [3].

En termes de vitesse de raisonnement, la méthode proposée atteint une vitesse de raisonnement en temps réel tout en garantissant une grande précision des tâches.

De plus, la partie expérimentale a également réalisé des statistiques sur la sélection des patchs du modèle et la répartition de la précision de positionnement à chaque échelle (échelle1 et échelle2).

Comme le montre la figure de gauche, à mesure que l'échelle augmente, des caractéristiques d'image à granularité fine sont ajoutées et la précision du modèle s'améliore progressivement. Par conséquent, vous pouvez essayer d'ajouter un mécanisme de sortie anticipée pour sortir à temps lorsque la précision de positionnement répond aux exigences, évitant ainsi d'autres calculs sur des images haute résolution et obtenant l'effet de sélection adaptative d'une résolution appropriée en fonction d'échantillons. Cet article a également fait quelques tentatives préliminaires, notamment l'ajout de branches de prédiction telles que l'IoU, le GIoU et l'incertitude, et le retour d'indicateurs de sortie précoce. Cependant, il a été constaté que l'effet n'était pas idéal. Comment concevoir des indicateurs de sortie précoces appropriés et précis. continué à explorer.

La figure de droite montre la situation de sélection des correctifs à différentes échelles. À toutes les échelles, les correctifs sélectionnés représentent une proportion relativement faible et la plupart des correctifs peuvent être éliminés, ce qui permet d'économiser efficacement les ressources informatiques. Pour chaque échantillon (image + expression référentielle), le nombre de patchs réellement sélectionnés est relativement faible, environ 65 % du total.

Enfin, la partie expérimentale montre quelques résultats de visualisation. Au fur et à mesure que l'échelle augmente (rouge → vert → bleu), la précision de positionnement du modèle s'améliore progressivement. De plus, selon l'image reconstruite à partir du patch sélectionné, on peut voir que le modèle ne prête attention qu'aux informations à grande échelle pour la zone d'arrière-plan, et pour la zone de premier plan concernée, le modèle peut prêter attention aux informations détaillées à grain fin. information.

Littérature connexe :

[1].Kim W, Son B, Kim I. Vilt : Transformateur de vision et de langage sans convolution ni supervision de région [C]//Conférence internationale sur l'apprentissage automatique. PMLR, 2021 : 5583-5594.

[2].Kamath A, Singh M, LeCun Y, et al. Détection modulée par Mdetr pour une compréhension multimodale de bout en bout [C]//Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur. 2021 : 1780-1790.

[3].Wang P, Yang A, Men R, et al. Ofa : Unifier les architectures, les tâches et les modalités grâce à un cadre d'apprentissage simple séquence à séquence [C]//Conférence internationale sur l'apprentissage automatique. PMLR, 2022 : 23318-23340.

nouvelles

Équipe de Li Xi de l'Université du Zhejiang : Une nouvelle méthode de référence à la compréhension des expressions, ScanFormer élimine la redondance du grossier au fin

Introduction

Mes coordonnées