Pour améliorer les performances des tâches de détection GPT-4V et Gemini, vous avez besoin de cette invite paradigm

Pour améliorer les performances des tâches de détection GPT-4V et Gemini, vous avez besoin de ce paradigme d'invite

2024-07-22

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Les auteurs de cet article proviennent de l’Université du Zhejiang, du Laboratoire d’intelligence artificielle de Shanghai, de l’Université chinoise de Hong Kong, de l’Université de Sydney et de l’Université d’Oxford. Liste des auteurs : Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, Wanli Ouyang, Philip Torr, Jian Wu. Parmi eux, le co-premier auteur Wu Yixuan est doctorant à l'Université du Zhejiang et Wang Yizhou est assistant de recherche scientifique au Laboratoire d'intelligence artificielle de Shanghai. L'auteur correspondant Tang Shixiang est chercheur postdoctoral à l'Université chinoise de Hong Kong.

Les modèles multimodaux de langage étendu (MLLM) ont montré des capacités impressionnantes dans différentes tâches, malgré cela, le potentiel de ces modèles dans les tâches de détection est encore sous-estimé. Lorsque des coordonnées précises sont requises dans des tâches complexes de détection d'objets, les hallucinations des MLLM leur font souvent manquer des objets cibles ou donnent des cadres de délimitation inexacts. Afin de permettre la détection des MLLM, les travaux existants nécessitent non seulement de collecter un grand nombre d'ensembles de données d'instructions de haute qualité, mais également d'affiner les modèles open source. Bien que long et laborieux, il ne parvient pas non plus à tirer parti des capacités de compréhension visuelle plus puissantes du modèle fermé.À cette fin, l’Université du Zhejiang, le Laboratoire d’intelligence artificielle de Shanghai et l’Université d’Oxford ont proposéChaîne d'outils DetTool , un nouveau paradigme d'incitation qui libère le pouvoir de détection des grands modèles de langage multimodaux. Les grands modèles multimodaux peuvent apprendre à détecter avec précision sans formation.Des recherches connexes ont étéECCV 2024 inclus。

Afin de résoudre les problèmes de MLLM dans les tâches de détection, DetToolChain part de trois points : (1) Concevoir des invites visuelles pour la détection, qui sont plus directes et efficaces que les invites textuelles traditionnelles pour permettre à MLLM de comprendre les informations de localisation, ( 2) Décomposer les tâches de détection précises en tâches petites et simples, et (3) utiliser une chaîne de pensée pour optimiser progressivement les résultats de détection et éviter autant que possible l'illusion de grands modèles multimodaux.

Correspondant aux informations ci-dessus, DetToolChain contient deux conceptions clés : (1) Un ensemble complet d'invites de traitement visuel, qui sont dessinées directement dans l'image et peuvent réduire considérablement l'écart entre les informations visuelles et les informations textuelles. (2) Un ensemble complet de raisonnements de détection incite à améliorer la compréhension spatiale de la cible de détection et à déterminer progressivement l'emplacement précis final de la cible grâce à une chaîne d'outils de détection adaptative à l'échantillon.

En combinant DetToolChain avec MLLM, tels que GPT-4V et Gemini, diverses tâches de détection peuvent être prises en charge sans réglage des instructions, notamment la détection de vocabulaire ouvert, la détection de cible de description, la compréhension d'expression référentielle et la détection de cible orientée.

Titre de l'article : DetToolChain : un nouveau paradigme invitant à libérer la capacité de détection du MLLM

Lien papier : https://arxiv.org/abs/2403.12488

Qu’est-ce que DetToolChain ?

Figure 1 Cadre global de DetToolChain

Comme le montre la figure 1, pour une image de requête donnée, MLLM est invité à effectuer les étapes suivantes :

I. Formatage : convertir le format d'entrée original de la tâche en un modèle d'instruction approprié comme entrée de MLLM ;

II. Réfléchir : décomposez une tâche de détection complexe spécifique en sous-tâches plus simples et sélectionnez des invites efficaces dans la boîte à outils d'invite de détection ;

III. Exécuter : exécuter des invites spécifiques (invites) de manière itérative dans l'ordre ;

IV. Répondre : utilisez les propres capacités de raisonnement de MLLM pour superviser l'ensemble du processus de détection et renvoyer la réponse finale (réponse finale).

Boîte à outils d'invites de détection : invites de traitement visuel

Figure 2 : Diagramme schématique des invites de traitement visuel. Nous avons conçu (1) un amplificateur régional, (2) une norme de mesure spatiale, (3) un analyseur d'images de scène pour améliorer les capacités de détection des MLLM sous différentes perspectives.

Comme le montre la figure 2, (1) l'amplificateur régional vise à améliorer la visibilité des MLLM sur la région d'intérêt (ROI), notamment en recadrant l'image originale dans différentes sous-régions, en se concentrant sur la sous-région où se trouve l'objet cible. de plus, la fonction d'amplification permet une observation fine de sous-régions spécifiques de l'image.

(2) La norme de mesure spatiale fournit une référence plus claire pour la détection de cibles en superposant une règle et un compas avec des échelles linéaires sur l'image originale, comme le montre la figure 2 (2). Les règles et boussoles auxiliaires permettent aux MLLM de produire des coordonnées et des angles précis à l'aide de références de translation et de rotation superposées à l'image. Essentiellement, cette ligne auxiliaire simplifie la tâche de détection, permettant aux MLLM de lire les coordonnées des objets au lieu de les prédire directement.

(3) Scene Image Parser marque les positions ou relations d'objet prédites et utilise des informations spatiales et contextuelles pour comprendre les relations spatiales de l'image. Scene Image Parser peut être divisé en deux catégories :Premièrement, pour un seul objet cible , nous étiquetons les objets prédits avec des centroïdes, des coques convexes et des cadres de délimitation avec des noms d'étiquettes et des indices de boîtes. Ces marqueurs représentent les informations de localisation des objets dans différents formats, permettant à MLLM de détecter divers objets de formes et d'arrière-plans différents, en particulier les objets aux formes irrégulières ou les objets fortement obscurcis. Par exemple, le marqueur de coque convexe marque les points limites d'un objet et les relie en une coque convexe pour améliorer les performances de détection d'objets de forme très irrégulière.Deuxièmement, pour plusieurs cibles , nous connectons les centres de différents objets via des marqueurs de graphique de scène pour mettre en évidence les relations entre les objets dans l'image. Sur la base du graphique de scène, MLLM peut exploiter ses capacités de raisonnement contextuel pour optimiser les cadres de délimitation prédits et éviter les hallucinations. Par exemple, comme le montre la figure 2 (3), Jerry veut manger du fromage, leurs cadres de délimitation doivent donc être très proches.

Boîte à outils d'invites de raisonnement de détection : invites de raisonnement de détection

Afin d'améliorer la fiabilité de la boîte de prédiction, nous avons effectué des invites d'inférence de détection (présentées dans le tableau 1) pour vérifier les résultats de la prédiction et diagnostiquer les problèmes potentiels qui peuvent exister. Tout d’abord, nous proposons Problem Insight Guider, qui met en évidence les problèmes difficiles et fournit des suggestions de détection efficaces et des exemples similaires pour les images de requête. Par exemple, pour la figure 3, le Problem Insight Guider définit la requête comme un problème de détection de petits objets et suggère de le résoudre en zoomant sur la zone de la planche de surf. Deuxièmement, afin d'exploiter les capacités spatiales et contextuelles inhérentes aux MLLM, nous avons conçu l'explorateur de relations spatiales et le prédicteur d'objets contextuels pour garantir que les résultats de détection sont cohérents avec le bon sens. Comme le montre la figure 3, une planche de surf peut coexister avec l'océan (connaissance contextuelle), et il devrait y avoir une planche de surf près des pieds du surfeur (connaissance spatiale). De plus, nous appliquons le promoteur d'auto-vérification pour améliorer la cohérence des réponses au cours de plusieurs tours. Afin d'améliorer encore les capacités de raisonnement des MLLM, nous adoptons des méthodes d'invite largement utilisées, telles que le débat et l'auto-débogage. Veuillez consulter le texte original pour une description détaillée.

Les indices de raisonnement de la figure 3 peuvent aider les MLLM à résoudre des problèmes de détection de petits objets, par exemple en faisant preuve de bon sens pour localiser une planche de surf sous les pieds d'une personne et en encourageant le modèle à détecter les planches de surf dans l'océan.

Figure 4 Un exemple de DetToolChain appliqué à la détection de cibles rotatives (ensemble de données HRSC2016)

Expérience : vous pouvez surpasser les méthodes de réglage fin sans formation

Comme le montre le tableau 2, nous avons évalué notre méthode de détection de vocabulaire ouvert (OVD), en testant les résultats AP50 de 17 nouvelles classes, 48 classes de base et toutes les classes du benchmark COCO OVD. Les résultats montrent qu'en utilisant notre DetToolChain, les performances de GPT-4V et de Gemini sont considérablement améliorées.

Pour démontrer l'efficacité de notre méthode sur la compréhension de l'expression référentielle, nous comparons notre méthode avec d'autres méthodes zero-shot sur les ensembles de données RefCOCO, RefCOCO+ et RefCOCOg (Tableau 5). Sur RefCOCO, DetToolChain a amélioré les performances de la ligne de base GPT-4V de 44,53 %, 46,11 % et 24,85 % respectivement sur val, test-A et test-B, démontrant la compréhension et les performances supérieures de l'expression référentielle de DetToolChain dans des conditions de positionnement zéro.

nouvelles

Pour améliorer les performances des tâches de détection GPT-4V et Gemini, vous avez besoin de ce paradigme d'invite

Introduction

mes coordonnées