Nachricht

Ist VLM insgesamt „blind“?Der Sehtest ist kläglich gescheitert, GPT-4o und Claude 3.5 sind beide durchgefallen

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit]Visuelle große Sprachmodelle sind bei den grundlegendsten visuellen Aufgaben kollektiv „umgekippt“. Vielleicht haben diese fortschrittlichsten VLMs noch keine echten visuellen Fähigkeiten entwickelt?

Die neuesten Sprachmodelle wie GPT-4o und Gemini 1.5 Pro wurden bei ihrer Veröffentlichung als „nativ multimodal“ definiert und sind in der Lage, mehrere Eingabeformen wie Bilder, Audio und Text zu verstehen.

Diese multimodalen LLMs verwenden Ausdrücke wie „visuelle Fähigkeit“ und „visuelles Verständnis“ in relevanten Einführungen, im Marketing und sogar in wissenschaftlichen Arbeiten.

Dies scheint zu bedeuten, dass das Modell in gewissem Sinne Dinge sehen und verstehen kann, und diese Fähigkeit entspricht bereits der des Menschen.

Machen wir uns also eine Idee: Wenn ein visuelles Sprachmodell auf Sehvermögen getestet wird, wird es dann eine Standardsichtigkeit von 5,2 oder eine schwere Kurzsichtigkeit haben oder wird es überhaupt nichts sehen können?

Eine neue Studie zeigt, dass große Sprachmodelle tatsächlich nicht über die erwarteten menschenähnlichen visuellen Fähigkeiten verfügen. Die Wahrheit ist, dass sie einfach „blind“ sind.

Forscher der Auburn University und der University of Alberta testeten vier der heute hochmodernen multimodalen Modelle anhand einer Reihe sehr einfacher Sehaufgaben und stellten fest, dass die Ergebnisse unbefriedigend waren.

Diese Aufgaben sind für Menschen äußerst einfach, beispielsweise ob sich zwei Formen überlappen, wie viele Fünfecke ein Bild enthält oder welche Buchstaben in einem Wort eingekreist sind.

Allerdings ist die Sicht dieser fortschrittlichen Modelle bestenfalls „kurzsichtig“ und die erkennbaren Details sind sehr verschwommen. Im schlimmsten Fall verhält sich das Modell wie ein „kluger Blinder“, der fundierte Vermutungen anstellt.


Papieradresse: https://arxiv.org/pdf/2407.06581

7 Hauptaufgaben

Jetzt beginnt offiziell der Sehtest und VLM muss sieben kleine Aufgaben erledigen.


Anh Nguye, Mitautor des Papiers, betonte besonders: „Unsere sieben Aufgaben sind sehr einfach und die Genauigkeit der menschlichen Leistung kann 100 % erreichen.“

Wie wird sich das KI-Modell also verhalten, wenn es mit diesen Fragen konfrontiert wird, die selbst Erstklässler richtig beantworten können?


Aufgabe 1: Wie viele Schnittpunkte haben die beiden Polylinien?

Angesichts der Tatsache, dass VLM in früheren Benchmark-Tests für Diagramme eine erstaunliche Leistung erbracht hat, beispielsweise mit einem Wert von 94,7 % in AI2D und 90,8 % in ChartQA, können wir vernünftigerweise spekulieren, dass diese Art von Problem für sie kein Problem darstellen sollte.

Wie im Bild unten gezeigt, werden auf der weißen Leinwand insgesamt 150 Liniendiagramme gezeichnet, die alle aus zwei Polylinien bestehen, die jeweils durch drei Punkte definiert werden.

Die x-Koordinaten dieser drei Punkte sind fest und äquidistant, und die y-Koordinaten werden durch Zufallsstichproben ermittelt, wodurch zwei Polylinien mit den Schnittpunktzahlen 0, 1 oder 2 erstellt werden.


Das Experiment verwendete zwei unterschiedliche Formulierungen, um das große Modell zu fragen, wie zum Beispiel: „Wie oft kreuzen sich die blauen und roten Linien?“ und „Wie oft kreuzen sich die blauen und roten Linien?“

Indem wir die durchschnittliche Genauigkeit jedes Modells berechnen, das diese beiden Fragen beantwortet, können wir einige Soforteffekte eliminieren und genauere Ergebnisse erzielen.


Im Vergleich dazu schneidet Sonnet-3.5 bei dieser Aufgabe mit einer durchschnittlichen Genauigkeit von 77,33 % etwas besser ab, während andere Modelle schlechter abschneiden.

Obwohl 77,33 % nach einem guten Ergebnis klingen, da es nur drei mögliche Antworten gibt: 0, 1 und 2, liegt die korrekte Zufallsrate bei 33 %.

Es ist erwähnenswert, dass VLM tendenziell eine schlechtere Leistung erbringt, wenn der Abstand zwischen zwei Polylinien kleiner wird. Zusammenfassend lässt sich sagen, dass VLM die Schnittpunkte von Liniensegmenten nicht zuverlässig identifizieren und berechnen kann.


Aufgabe 2: Probleme des Schnittpunkts, der Tangentialität und der Trennung von Kreisen


Dieses Problem gehört zur Kategorie der Geometrie der Mittelstufe: Schnittpunkt, Tangentialität und Trennung von Kreisen (niemand wird sich an den Rücken des Lehrers erinnern, der Kreise freihändig zeichnet).

Wir werden VLM jedoch nicht in diesem Sinne untersuchen, sondern ihm einen einfachen Test überlappender Formen unterziehen, was wohl eine der einfachsten visuellen Denkaufgaben ist, die man sich vorstellen kann.

Unabhängig davon, ob sich die beiden Kreise leicht überlappen, sich nur berühren oder einen gewissen Abstand voneinander haben, ist das Modell leider nie in der Lage, in jedem Fall ein korrektes Urteil zu fällen.


Im Vergleich: Wenn die beiden Kreise weit voneinander entfernt sind, ist GPT-4o in mehr als 95 % der Fälle korrekt, bei null oder sehr kleinen Abständen ist es jedoch nur in 18 % der Fälle korrekt, was weniger als die 50 % korrekt ist Rate beim zufälligen Raten.


Gemini Pro 1.5 schnitt mit einer durchschnittlichen Genauigkeitsrate von 92,78 am besten ab, aber die Genauigkeitsrate betrug nur 70 %, wenn der Abstand zwischen den beiden Kreisen gering war.


Aufgabe 3: Identifizieren Sie die eingekreisten Buchstaben

Verwenden Sie den roten Kreis ⭕, um die Buchstaben im Wort nacheinander einzukreisen. Für die Aufgabe muss VLM die eingekreisten Buchstaben identifizieren.

Offensichtlich ist diese Aufgabe für Menschen einfach, aber die Hypothese der Autoren lautet, dass der VLM bei verschwommener Sicht aufgrund des geringen Abstands zwischen benachbarten Buchstaben möglicherweise nicht in der Lage ist, den eingekreisten Buchstaben genau zu erkennen.


Die Wörter Acknowledgement, Subdermatoglyphic und die Zeichenfolge tHyUiKaRbNqWeOpXcZvM wurden ausgewählt, weil sie Zeichen mit unterschiedlichen Breiten und Höhen enthalten. (Wissenswertes: Subdermatoglyphisch ist das längste Wort ohne wiederholte Buchstaben)

Das Experiment ergab, dass VLM zwar die Form eines roten Kreises genau erkennen und Wörter perfekt buchstabieren kann, das „Lesen der eingekreisten Buchstaben“ jedoch alle Modelle überfordert. Beispielsweise kommt es bei der VLM-Erkennung häufig zu Fehlern, wenn Buchstaben teilweise durch rote Ovale verdeckt werden.


Wenn Fehler auftreten, sagt VLM normalerweise Buchstaben voraus, die an den eingekreisten Buchstaben angrenzen.

Manchmal halluziniert das Modell und obwohl es das Wort genau buchstabieren kann, erscheinen Zeichen, die in der Subdermatoglyphe nicht vorkommen (z. B. 9, n, ©).


Alle Modelle außer GPT-4o schnitten bei den beiden englischen Wörtern etwas besser ab als bei den Zufallszeichenfolgen (2 bis 6 Punkte besser), was darauf hindeutet, dass die Vertrautheit mit den Wörtern selbst dem VLM helfen könnte, fundiertere Vermutungen anzustellen.

Gemini-1.5 und Sonnet-3.5 sind die beiden besten Modelle (92,81 % und 89,22 %), fast 20 Punkte höher als GPT-4o und Sonnet-3.

Alles in allem ist VLM möglicherweise in der Lage, die eingekreisten Buchstaben anhand der Schreibweise des Wortes zu erraten, was die Genauigkeit leicht verbessert. Dies bedeutet jedoch nicht, dass VLM die Buchstaben im roten Kreis erkennen kann.

Aufgabe 4: Verriegelungsprobleme

Als nächstes muss sich VLM einem „Ineinandergreifen“-Problem stellen, das heißt, es muss berechnet werden, wie viele Kreise im Bild ineinandergreifen.

Die Hintergrundmusik sollte hier erklingen: Ahhhhh~ Five Rings, du hast einen Ring mehr als Four Rings~


Die Ergebnisse dieses Tests sind etwas bizarr: Wenn das Bild fünf Ringe enthält, ist das Modell zu 100 % korrekt; sobald es einen weiteren Ring gibt, ist VLM völlig verwirrt.


Gemini war desorientiert und hat sogar einmal falsch geantwortet, Sonnet-3.5 hat es in einem Drittel der Fälle richtig gemacht und GPT-4o hat es fast in der Hälfte der Fälle richtig gemacht.


Der Autor schlug vor, dass die Genauigkeit der Identifizierung der „fünf Ringe“ so hoch ist und eng mit dem gemeinsamen „Fünf Ringe“-Symbol der Olympischen Spiele zusammenhängt.

Wie in Tabelle 5 zu sehen ist, neigen alle vier Modelle dazu, 5 Kreise zu zählen, was viel größer ist als die Häufigkeit, mit der 5 Fünfecke gezählt werden.


Dieser Test zeigt, dass diese Modelle, was auch immer sie tun, kein „Sehvermögen“ haben, wie wir Menschen es verstehen. Das Hauptproblem besteht darin, dass ihre Leistung sehr instabil ist und es große Unterschiede in den Erkennungserfolgsraten zwischen Bildern gibt, die aus unterschiedlichen Zahlen und Formen bestehen.


Aufgabe 5: Verschachtelte Quadrate

Aufgabe 2 zeigt, dass VLM Schwierigkeiten hat, sich schneidende Kreise zu berechnen. Was passiert also mit der Leistung von VLM, wenn die Quadrate vollständig in einem anderen größeren Quadrat verschachtelt sind, sodass sich ihre Kanten nicht schneiden?

Wie in der Abbildung unten gezeigt, rendert der Autor auf einer Leinwand der Größe C×C N∈{2,3,4,5} verschachtelte Quadrate.


Rendern Sie zunächst das äußerste Quadrat mit einer zufälligen Seitenlänge d∈{2,3,4}px. Die verbleibenden N-1 Quadrate werden mit einem Reduktionsfaktor von 0,75×d gezeichnet und an zufälligen Koordinaten platziert, um sicherzustellen, dass sie die äußeren Quadrate nicht berühren.

Generieren Sie 10 Bilder für jede der 3 Linienstärkeneinstellungen (wobei die Quadrate unterschiedliche zufällige Positionen haben) und wiederholen Sie den Vorgang für alle N Werte, was insgesamt 120 Bilder ergibt.

Es zeigt sich, dass es für VLM schwierig ist, die Anzahl der verschachtelten Quadrate genau zu berechnen.


Die Modellgenauigkeit variiert stark, wobei GPT-4o (48,33 %) und Gemini-1,5 (55,00 %) mindestens 30 Punkte hinter Gemini-1,5 (80,00 %) und Claude3,5 (87,50 %) zurückbleiben.


Aufgabe 6: Wie viele Spalten und Zeilen hat die Tabelle?

Die Ergebnisse früherer Aufgaben zeigten, dass VLM nicht in der Lage war, Probleme wie Überlappung (Aufgabe 4) oder Verschachtelung (Aufgabe 5) zu lösen. Die Autoren beschlossen, VLM eine andere Richtung zu geben und zu sehen, wie sie bei Problemen im Zusammenhang mit benachbarten Grafiken funktionieren.

Der Autor legte die Quadrate in ein Raster und bat VLM, sie zu zählen. Diese VLMs haben in DocVQA eine gute Leistung erbracht (Genauigkeit ≥ 90 %), das viele Fragen mit Tabellen enthält, sodass diese Aufgabe für VLMs einfach sein sollte.

Um die Aufgabe zu vereinfachen, forderten die Autoren das Modell lediglich auf, die Anzahl der Zeilen und Spalten in einer bestimmten Tabelle zu zählen.


Es stellte sich heraus, dass das Modell nie in der Lage war, die Anzahl der Zeilen und Spalten des leeren Rasters korrekt zu berechnen.


Allerdings verbessert sich die Leistung aller VLMs, wenn Rasterzellen Text enthalten, insbesondere Sonnet-3.5.


Aufgabe 7: Identifizieren Sie die Roadmap

Diese Aufgabe testet die Fähigkeit des VLM, speziell gefärbte Pfade zu identifizieren und einer bestimmten farbigen Linie von einem bestimmten Startpunkt zu einem Ziel zu folgen, eine wichtige Fähigkeit, die zum Lesen und Verstehen von Karten erforderlich ist.

Erstellen Sie, wie in der folgenden Abbildung gezeigt, eine U-Bahn-Karte auf einem Bild der Größe C×C, wobei C∈{512, 1024}px.

Schreiben Sie 4 Stationsnamen (A, B, C, D) an 4 festen Koordinaten. Teilen Sie die Leinwand in ein unsichtbares Raster aus 18×18 Zellen und initialisieren Sie 3 Pfadstartpunkte C/18px von jeder Station entfernt.

Zeichnen Sie mithilfe eines Tiefensuchalgorithmus einen Pfad ausgehend von einer zufälligen Station und einem zufälligen Startpunkt, wobei jeder Schritt eine Zelle in jede Richtung verschieben kann. Dieser Vorgang wird wiederholt, sodass jede Station N∈{1,2,3} Ausgabepfade hat und insgesamt 180 Karten gezeichnet werden.


Bei zwei festgelegten Stationen muss VLM für die Aufgabe berechnen, wie viele verschiedenfarbige Pfade zwischen den beiden Stationen vorhanden sind.

Die experimentellen Ergebnisse ergaben, dass kein Modell eine 100-prozentige Genauigkeit erreichen kann, selbst wenn zwischen zwei Stationen nur ein Farbpfad vorhanden ist.


Die höchste Genauigkeit hat Sonnet-3.5, die bei nur einer Straße 95 % erreichen kann. Bei zwei Straßen sinkt die Genauigkeit jedoch schnell auf nur 50,18 %.


Wenn die Pfadkomplexität von 1 Pfad auf 3 Pfade zunimmt, kommt es bei den meisten VLMs zu erheblichen Leistungseinbußen.

Die „Blindheit“ von VLM

Warum schneidet VLM im oben genannten Sehfähigkeitstest äußerst instabil ab?

Vielleicht können wir in Aufgabe 4 Hinweise auf die Vorliebe des Modells für die „Olympischen Ringe“ finden. Die vernünftigste Erklärung ist:

In den Trainingsdaten von VLM taucht das Bild „Olympische Ringe“ immer wieder auf und wird in vielen Textmaterialien ausführlich beschrieben.

Allerdings sind in den VLM-Trainingsdaten 6 oder 7 ineinandergreifende Ringe nicht zu finden, weshalb deren Antworten unbefriedigend sind.

Weil VLM möglicherweise überhaupt nicht weiß, was sie „sehen“, noch wirklich versteht, was eine Schleife, Überlappung oder ein anderes Konzept ist.

Selbst wenn wir die Leistung des Modells mit „blind“ beschreiben, vermenschlichen wir das Modell dennoch, genau wie ein großes Modellunternehmen seine „visuellen Fähigkeiten“ fördert.

Der Forscher Nguyen sagte auch, dass „Blindheit“ selbst für Menschen viele Definitionen habe und es derzeit kein Wort gebe, um die Blindheit/Unempfindlichkeit der künstlichen Intelligenz gegenüber den von uns gezeigten Bildern zu beschreiben.

Das Verhalten von VLMs ist eine komplexe Funktion von Eingabetextaufforderungen, Eingabebildern und Milliarden von Gewichtungen, und es gibt derzeit keine Technologie, die genau visualisieren kann, was das Modell sieht.

Er vermutete, dass diese Modelle nicht völlig „blind“ sind. Sie können nur „ungefähre“ und abstrakte visuelle Informationen aus dem Bild extrahieren, aber keine visuellen Urteile fällen, sodass sie sich so verhalten, als ob sie das Bild verstehen, es aber nicht wirklich sehen können.

Nguyen verwendete ein Beispiel, um die obige Hypothese gut zu untermauern:


Benutzer: Welche Farbe hat der Bereich, in dem sich die beiden Kreise überlappen? GPT-4o: Der überlappende Bereich zweier Kreise hat die Farbe Türkis (schattiertes Cyan). Gemini-1.5: Der überlappende Bereich des grünen Kreises und des blauen Kreises ist Cyan. Sonnet-3.5: Es tut mir leid, aber auf dem Bild gibt es nur zwei separate Kreise, einen grünen und einen blauen, und es gibt keinen überlappenden Bereich.

Mit Ausnahme von Sonnet-3.5 „stellen“ sich GPT-4o und Gemini-1.5 das Bild offensichtlich nur vor, anstatt es tatsächlich zu „sehen“.

Bedeutet diese Forschung also, dass diese „visuellen“ KI-Modelle nutzlos sind?

Aber tatsächlich ist es das nicht. Jedes dieser Modelle hat bei einer Vielzahl von Aufgaben eine hohe Genauigkeit bewiesen, beispielsweise beim Erkennen menschlicher Handlungen und Ausdrücke, Alltagsgegenständen und Umgebungsfotos.

Die Bedeutung dieser Forschung besteht darin, uns von der übermäßig „anthropomorphen“ Marketingstrategie von VLM zu enttäuschen.

Wenn wir uns die Marketing-Rhetorik der Technologiegiganten anhören, denken wir vielleicht wirklich, dass große visuelle Modelle „sehen“ können.

Aber mit nur ein paar kleinen Tests können wir den wesentlichen Unterschied zwischen VLM und Menschen leicht entdecken. Es ist „anthropomorphisiert“, was seine unmenschliche Natur tatsächlich hervorhebt.

Verweise:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/