VLM est collectivement « aveugle » ? Le test de vision a lamentablement échoué, GPT-4o et Claude 3.5 ont tous deux échoué

VLM est collectivement « aveugle » ?Le test de vision a lamentablement échoué, GPT-4o et Claude 3.5 ont tous deux échoué

2024-07-16

Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse]Les grands modèles de langage visuels ont été collectivement « renversés » sur les tâches visuelles les plus élémentaires. Même une simple reconnaissance de formes peut être bloquée. Peut-être que ces VLM les plus avancés n'ont pas encore développé de véritables capacités visuelles ?

La dernière série de modèles de langage, tels que GPT-4o et Gemini 1.5 Pro, ont été définis comme « multimodaux natifs » lors de leur sortie, capables de comprendre plusieurs formes d'entrée telles que des images, de l'audio et du texte.

Ces LLM multimodaux utilisent des expressions telles que « capacité visuelle » et « compréhension visuelle » dans les introductions, le marketing et même les articles universitaires pertinents.

Cela semble vouloir dire que le modèle peut voir et comprendre les choses dans un sens, et cette capacité correspond déjà à celle des humains.

Alors faisons-nous une idée : si le modèle de langage visuel est testé pour la vision, auront-ils une vision standard 5.2 ou une myopie sévère, ou ne pourront-ils rien voir du tout ?

Une nouvelle étude montre que les grands modèles de langage n'ont pas réellement les capacités visuelles humaines attendues. La vérité est qu’ils sont simplement « aveugles ».

Des chercheurs de l'Université d'Auburn et de l'Université de l'Alberta ont testé quatre des modèles multimodaux de pointe actuels sur une série de tâches de vision très simples et ont constaté que les résultats n'étaient pas satisfaisants.

Ces tâches sont extrêmement simples pour les humains, comme savoir si deux formes se chevauchent, combien de pentagones il y a dans une image ou quelles lettres d'un mot sont encerclées.

Cependant, la vision de ces modèles avancés est au mieux « myope », et les détails vus sont très flous. Au pire, le modèle agit comme un « aveugle intelligent » qui fait des suppositions éclairées.

Adresse papier : https://arxiv.org/pdf/2407.06581

7 tâches majeures

Maintenant, le test de vision commence officiellement et VLM doit accomplir 7 petites tâches.

Anh Nguye, co-auteur de l'article, a particulièrement souligné : « Nos sept tâches sont très simples et la précision des performances humaines peut atteindre 100 % ».

Alors, comment le modèle d’IA fonctionnera-t-il face à ces questions que même les élèves de première année peuvent résoudre correctement ?

Tâche 1 : Combien de points d’intersection ont les deux polylignes ?

Étant donné que VLM a réalisé des performances étonnantes lors de précédents tests de référence sur les graphiques, tels que le score de Claude 3.5 Sonnet de 94,7 % en AI2D et de 90,8 % en ChartQA, nous pouvons raisonnablement supposer que ce type de problème ne devrait pas être un problème pour eux.

Comme le montre l'image ci-dessous, un total de 150 graphiques linéaires sont dessinés sur la toile blanche, tous composés de deux polylignes, chacune étant définie par trois points.

Les coordonnées x de ces trois points sont fixes et équidistantes, et les coordonnées y sont obtenues par échantillonnage aléatoire, créant ainsi deux polylignes avec des numéros d'intersection de 0, 1 ou 2.

L'expérience a utilisé deux formulations différentes pour demander au grand modèle, par exemple : « Combien de fois les lignes bleues et rouges se croisent ? » et « Combien de fois les lignes bleues et rouges se croisent ? »

En calculant la précision moyenne de chaque modèle répondant à ces deux questions, nous pouvons éliminer certains effets d'invite et obtenir des résultats plus précis.

En comparaison, le Sonnet-3.5 est légèrement plus performant dans cette tâche, avec une précision moyenne de 77,33 %, tandis que d'autres modèles obtiennent de moins bons résultats.

Bien que 77,33 % semble être un bon résultat, puisqu'il n'y a que trois réponses possibles : 0, 1 et 2, le taux correct de devinettes aléatoires est de 33 %.

Il convient de noter que VLM a tendance à être moins performant lorsque la distance entre deux polylignes devient plus étroite. En résumé, VLM ne peut pas identifier et calculer de manière fiable les intersections de segments de ligne.

Tâche 2 : Problèmes d'intersection, de tangence et de séparation de cercles

Ce problème appartient à la catégorie de la géométrie du collège : l'intersection, la tangence et la séparation des cercles (personne ne se souviendra du dos du professeur dessinant des cercles à main levée).

Cependant, nous n’examinerons pas le VLM en de tels termes, mais lui ferons plutôt un test simple de formes superposées, ce qui est sans doute l’une des tâches de raisonnement visuel les plus simples imaginables.

Malheureusement, que les deux cercles se chevauchent légèrement, se touchent ou soient à une certaine distance, quelle que soit la situation, le modèle n'est jamais en mesure de porter un jugement correct.

En comparaison, lorsque les deux cercles sont éloignés l'un de l'autre, GPT-4o est correct dans plus de 95 % du temps, mais à des distances nulles ou très faibles, il n'est correct que 18 % du temps, ce qui est inférieur aux 50 % corrects. taux en devinant au hasard.

Gemini Pro 1.5 a obtenu les meilleurs résultats, avec un taux de précision moyen de 92,78, mais le taux de précision n'était que de 70 % lorsque la distance entre les deux cercles était proche.

Tâche 3 : Identifier les lettres encerclées

Utilisez le cercle rouge ⭕ pour encercler les lettres du mot, une à la fois, et la tâche nécessite que VLM identifie les lettres encerclées.

Évidemment, cette tâche est facile pour les humains, mais l'hypothèse des auteurs est que si la vision du VLM est floue, il pourrait ne pas être en mesure de reconnaître la lettre exacte encerclée en raison du faible espacement entre les lettres adjacentes.

Les mots Acknowledgement, Subdermatoglyphic et la chaîne tHyUiKaRbNqWeOpXcZvM ont été choisis car ils contiennent des caractères de largeurs et de hauteurs différentes. (Anecdote, subdermatoglyphique est le mot le plus long sans lettres répétées)

L'expérience a révélé que même si VLM peut reconnaître avec précision la forme d'un cercle rouge et épeler parfaitement les mots, la « lecture des lettres encerclées » laisse perplexe tous les modèles. Par exemple, la reconnaissance VLM a tendance à commettre des erreurs lorsque les lettres sont légèrement masquées par des ovales rouges.

Lorsque des erreurs se produisent, VLM prédit généralement les lettres adjacentes à la lettre encerclée.

Parfois, le modèle hallucinera et, bien qu'il puisse épeler le mot avec précision, apparaîtra des caractères qui n'existent pas dans le sous-dermatoglyphique (par exemple 9, n, ©).

Tous les modèles, à l'exception de GPT-4o, ont obtenu des résultats légèrement meilleurs sur les deux mots anglais que sur les chaînes aléatoires (2 à 6 points de mieux), ce qui suggère que la familiarité avec les mots eux-mêmes peut aider le VLM à faire des suppositions plus éclairées.

Gemini-1.5 et Sonnet-3.5 sont les deux premiers modèles (92,81 % et 89,22 %), soit près de 20 points de plus que GPT-4o et Sonnet-3.

Dans l'ensemble, VLM peut être capable de deviner quelles sont les lettres encerclées en fonction de l'orthographe du mot, améliorant légèrement la précision, mais cela ne signifie pas que VLM peut voir les lettres dans le cercle rouge.

Tâche 4 : Problèmes de verrouillage

Ensuite, VLM doit faire face à un problème de « verrouillage », c'est-à-dire calculer le nombre de cercles qui s'emboîtent dans l'image.

La musique de fond devrait sonner ici : Ahhhhh~ Five Rings, vous avez une sonnerie de plus que Four Rings~

Les résultats de ce test sont un peu bizarres : lorsqu'il y a cinq anneaux sur la photo, le modèle est correct à 100 % ; dès qu'il y a un anneau de plus, VLM est complètement confus.

Gemini était désorienté et a mal répondu même une fois, Sonnet-3.5 a réussi un tiers du temps, et GPT-4o a réussi près de la moitié du temps.

L'auteur a proposé que la précision de l'identification des « cinq anneaux » soit très élevée et qu'elle soit étroitement liée au symbole commun des « cinq anneaux » des Jeux Olympiques.

Comme le montre le tableau 5, les quatre modèles ont tendance à compter 5 cercles, ce qui est bien supérieur à la fréquence de comptage de 5 pentagones.

Ce test montre que quoi que fassent ces modèles, ils n’ont pas de « vue » au sens où nous l’entendons, les humains. Le principal problème est que leurs performances sont très instables, avec d’énormes différences dans les taux de réussite de la reconnaissance entre les images composées de nombres et de formes différents.

Tâche 5 : Carrés imbriqués

La tâche 2 montre que VLM a des difficultés à calculer les cercles qui se croisent. Alors, qu'arrivera-t-il aux performances de VLM si les carrés sont complètement imbriqués dans un autre carré plus grand afin que leurs bords ne se croisent pas ?

Comme le montre la figure ci-dessous, sur un canevas de taille C×C, l'auteur restitue N∈{2,3,4,5} carrés imbriqués.

Restituez d'abord le carré le plus à l'extérieur en utilisant une longueur de côté aléatoire d∈{2,3,4}px. Les N-1 carrés restants sont dessinés en utilisant un facteur de réduction de 0,75 × d et placés à des coordonnées aléatoires pour garantir qu'ils ne touchent pas les carrés extérieurs.

Générez 10 images pour chacun des 3 paramètres d'épaisseur de ligne (où les carrés ont des positions aléatoires différentes) et répétez le processus pour toutes les N valeurs, ce qui donne un total de 120 images.

On peut constater que le calcul du nombre de carrés imbriqués est une tâche difficile à accomplir avec précision pour VLM.

La précision du modèle varie considérablement, GPT-4o (48,33 %) et Gemini-1,5 (55,00 %) étant en retard d'au moins 30 points par rapport à Gemini-1,5 (80,00 %) et Claude3,5 (87,50 %).

Tâche 6 : Combien de colonnes et de lignes le tableau comporte-t-il ?

Les résultats des tâches précédentes ont montré que VLM était incapable de gérer des problèmes tels que le chevauchement (tâche 4) ou l'imbrication (tâche 5). L'auteur a décidé de changer l'orientation de VLM et de voir ses performances sur les problèmes liés aux graphiques adjacents.

L'auteur a mis les carrés dans une grille et a demandé à VLM de les compter. Ces VLM ont bien fonctionné dans DocVQA (précision ≥ 90 %), qui contient de nombreuses questions avec des tableaux, cette tâche devrait donc être simple pour les VLM.

Pour simplifier la tâche, les auteurs ont uniquement demandé au modèle de compter le nombre de lignes et de colonnes dans un tableau donné.

Il a été constaté que le modèle n'était jamais capable de calculer correctement le nombre de lignes et de colonnes pour la grille vide.

Cependant, les performances de tous les VLM s'améliorent lorsque les cellules de la grille contiennent du texte, en particulier Sonnet-3.5.

Tâche 7 : Identifier la feuille de route

Cette tâche teste la capacité du VLM à identifier des chemins spécialement colorés et à suivre une ligne colorée donnée depuis un point de départ donné jusqu'à une destination, une capacité importante requise pour lire et comprendre des cartes.

Comme le montre la figure ci-dessous, créez un plan de métro sur une image de taille C×C, où C∈{512, 1024}px.

Écrivez 4 noms de stations (A, B, C, D) à 4 coordonnées fixes. Divisez le canevas en une grille invisible de 18 × 18 cellules et initialisez 3 points de départ du chemin à C/18px de chaque station.

Tracez un chemin partant d'une station aléatoire et d'un point de départ aléatoire à l'aide d'un algorithme de recherche en profondeur, où chaque étape peut déplacer une cellule dans n'importe quelle direction. Ce processus est répété de sorte que chaque station ait N∈{1,2,3} chemins de sortie et qu'un total de 180 cartes soient dessinées.

Étant donné deux stations désignées, la tâche nécessite que VLM calcule le nombre de chemins de couleurs différentes entre les deux stations.

Les résultats expérimentaux ont montré que même s’il n’y a qu’un seul chemin de couleur entre deux stations, aucun modèle ne peut atteindre une précision de 100 %.

La précision la plus élevée est Sonnet-3,5, qui peut atteindre 95 % lorsqu'il n'y a qu'une seule route. Cependant, lorsqu'il y a deux routes, la précision chute rapidement à seulement 50,18 %.

À mesure que la complexité du chemin augmente, de 1 chemin à 3 chemins, la plupart des VLM présenteront une dégradation significative des performances.

La « cécité » du VLM

Pourquoi VLM est-il extrêmement instable lors du test de capacité visuelle ci-dessus ?

Peut-être pouvons-nous trouver des indices sur la préférence du modèle pour les « anneaux olympiques » dans la tâche 4. L’explication la plus sensée est la suivante :

Dans les données d'entraînement du VLM, l'image des « anneaux olympiques » apparaît à plusieurs reprises et est décrite en détail dans de nombreux textes.

Cependant, dans les données d'entraînement VLM, 6 ou 7 anneaux imbriqués ne peuvent pas être trouvés, c'est pourquoi leurs réponses ne sont pas satisfaisantes.

Parce que VLM ne sait peut-être pas du tout ce qu'il « voit », et ne comprend pas vraiment ce qu'est une boucle, un chevauchement ou tout autre concept.

Cependant, même si nous utilisons aveugle pour décrire les performances du modèle, nous anthropomorphisons toujours le modèle, tout comme une grande entreprise de mannequins promouvant sa « capacité visuelle ».

Le chercheur Nguyen a également déclaré que la « cécité » a de nombreuses définitions, même pour les humains, et qu'il n'existe actuellement aucun mot pour décrire la cécité/l'insensibilité de l'intelligence artificielle aux images que nous montrons.

Le comportement d'un VLM est une fonction complexe d'invites de texte de saisie, d'images de saisie et de milliards de poids, et il n'existe actuellement aucune technologie permettant de visualiser avec précision ce que voit le modèle.

Il suppose que ces modèles ne sont pas complètement « aveugles ». Ils peuvent uniquement extraire des informations visuelles « approximatives » et abstraites de l’image, mais ne peuvent pas porter de jugements visuels, ils se comportent donc comme s’ils comprenaient l’image mais ne pouvaient pas réellement la voir.

Nguyen a utilisé un exemple pour bien étayer l’hypothèse ci-dessus :

Utilisateur : De quelle couleur est la zone où les deux cercles se chevauchent ? GPT-4o : La zone superposée de deux cercles est de couleur turquoise (cyan ombré). Gemini-1.5 : La zone de chevauchement du cercle vert et du cercle bleu sera cyan. Sonnet-3.5 : Je suis désolé, mais il n'y a que deux cercles distincts sur l'image, un vert et un bleu, et il n'y a aucune zone qui se chevauche.

Évidemment, à l'exception de Sonnet-3.5, GPT-4o et Gemini-1.5 ne font qu'« imaginer » l'image plutôt que de « voir » réellement l'image.

Alors, cette recherche signifie-t-elle que ces modèles d’IA « visuels » sont inutiles ?

Mais en fait, ce n'est pas le cas. Chacun de ces modèles a démontré une grande précision dans un large éventail de tâches, telles que la reconnaissance des actions et expressions humaines, des objets du quotidien et des photos environnementales.

L’intérêt de cette recherche est de nous désenchanter face à la stratégie marketing trop « anthropomorphique » de VLM.

Si l'on écoute la rhétorique marketing des géants de la technologie, on peut vraiment penser que les grands modèles visuels peuvent « voir ».

Mais avec seulement quelques petits tests, nous pouvons facilement découvrir la différence essentielle entre le VLM et les humains. Il est « anthropomorphisé », ce qui met effectivement en évidence son caractère inhumain.

Les références:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/les-modeles-d-intelligence-intellectuelle-sont-ils-en-fait-aveugles/?_refluxos=a10

https://vlmsareblind.github.io/

nouvelles

VLM est collectivement « aveugle » ?Le test de vision a lamentablement échoué, GPT-4o et Claude 3.5 ont tous deux échoué

Introduction

mes coordonnées