notizia

VLM è collettivamente "cieco"?Il test della vista ha fallito miseramente, GPT-4o e Claude 3.5 hanno fallito entrambi

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza]I modelli di linguaggio visivo di grandi dimensioni vengono collettivamente "ribaltati" sui compiti visivi più basilari. Anche il semplice riconoscimento di modelli può essere sconcertato. Forse questi VLM più avanzati non hanno ancora sviluppato capacità visive reali?

L'ultima serie di modelli linguistici, come GPT-4o e Gemini 1.5 Pro, sono stati definiti come "multimodali nativi" al momento del rilascio, in grado di comprendere molteplici forme di input come immagini, audio e testo.

Questi LLM multimodali utilizzano espressioni come "capacità visiva" e "comprensione visiva" nelle presentazioni pertinenti, nel marketing e persino nei documenti accademici.

Questo sembra voler dire che il modello può vedere e comprendere le cose in un certo senso, e questa capacità sta già eguagliando quella umana.

Quindi facciamoci un’idea: se un modello di linguaggio visivo viene testato per la vista, avrà una visione standard 5.2 o una miopia grave o non sarà in grado di vedere nulla?

Un nuovo studio mostra che i modelli linguistici di grandi dimensioni in realtà non hanno le capacità visive simili a quelle umane previste. La verità è che sono semplicemente "ciechi".

I ricercatori dell'Università di Auburn e dell'Università di Alberta hanno testato quattro degli attuali modelli multimodali all'avanguardia su una serie di compiti visivi molto semplici e hanno scoperto che i risultati erano insoddisfacenti.

Questi compiti sono estremamente semplici per gli esseri umani, ad esempio se due forme si sovrappongono, quanti pentagoni ci sono in un'immagine o quali lettere in una parola sono cerchiate.

Tuttavia, la visione di questi modelli avanzati è nella migliore delle ipotesi "miope" e i dettagli visti sono molto sfocati. Nel peggiore dei casi, il modello si comporta come un "cieco intelligente" che fa alcune ipotesi plausibili.


Indirizzo del documento: https://arxiv.org/pdf/2407.06581

7 compiti principali

Ora inizia ufficialmente il test della vista e VLM deve completare 7 piccoli compiti.


Anh Nguye, coautore dell'articolo, ha sottolineato in particolare: "I nostri sette compiti sono molto semplici e la precisione delle prestazioni umane può raggiungere il 100%".

Quindi, come si comporterà il modello di intelligenza artificiale di fronte a queste domande che anche gli studenti di prima elementare possono rispondere correttamente?


Compito 1: Quanti punti di intersezione hanno le due polilinee?

Dato che VLM ha ottenuto risultati sorprendenti nei precedenti test benchmark sui grafici, come il punteggio di Claude 3.5 Sonnet del 94,7% in AI2D e del 90,8% in ChartQA, possiamo ragionevolmente ipotizzare che questo tipo di problema non dovrebbe essere un problema per loro.

Come mostrato nell'immagine seguente, sulla tela bianca sono disegnati un totale di 150 grafici a linee, tutti composti da due polilinee, ciascuna delle quali è definita da tre punti.

Le coordinate x di questi tre punti sono fisse ed equidistanti, mentre le coordinate y sono ottenute tramite campionamento casuale, creando così due polilinee con numeri di intersezione pari a 0, 1 o 2.


L'esperimento ha utilizzato due diverse frasi per chiedere al modello grande, come: "Quante volte le linee blu e rosse si incrociano?" e ​​"Quante volte le linee blu e rosse si incrociano?"

Calcolando la precisione media di ciascun modello che risponde a queste due domande, possiamo eliminare alcuni effetti immediati e ottenere risultati più accurati.


In confronto, Sonnet-3.5 ha prestazioni leggermente migliori in questo compito, con una precisione media del 77,33%, mentre altri modelli hanno prestazioni peggiori.

Sebbene il 77,33% sembri un buon risultato, poiché ci sono solo tre risposte possibili: 0, 1 e 2, la percentuale corretta di ipotesi casuali è del 33%.

Vale la pena notare che VLM tende a peggiorare le prestazioni quando la distanza tra due polilinee si riduce. In sintesi, VLM non è in grado di identificare e calcolare in modo affidabile le intersezioni dei segmenti di linea.


Compito 2: Problemi di intersezione, tangenza e separazione di cerchi


Questo problema appartiene alla categoria della geometria delle scuole medie: l'intersezione, la tangenza e la separazione dei cerchi (nessuno si ricorderà della schiena dell'insegnante che disegnava cerchi a mano libera).

Tuttavia, non esamineremo il VLM in questi termini, ma piuttosto lo faremo con un semplice test di forme sovrapposte, che è probabilmente uno dei compiti di ragionamento visivo più semplici immaginabili.

Purtroppo, se i due cerchi si sovrappongono leggermente, si toccano appena o sono ad una certa distanza l'uno dall'altro, il modello non è mai in grado di dare un giudizio corretto in ogni caso.


In confronto, quando i due cerchi sono distanti, GPT-4o è corretto più del 95% delle volte, ma a distanze zero o molto piccole, è corretto solo il 18% delle volte, che è meno del 50% corretto. tasso quando si indovina in modo casuale.


Gemini Pro 1.5 ha ottenuto le prestazioni migliori, con un tasso di precisione medio di 92,78, ma il tasso di precisione era solo del 70% quando la distanza tra i due cerchi era vicina.


Attività 3: Identifica le lettere cerchiate

Usa il cerchio rosso ⭕ per cerchiare le lettere nella parola, una alla volta, e l'attività richiede che VLM identifichi le lettere cerchiate.

Ovviamente questo compito è facile per gli esseri umani, ma l'ipotesi degli autori è che se la visione del VLM è offuscata, potrebbe non essere in grado di riconoscere l'esatta lettera cerchiata a causa della piccola spaziatura tra le lettere adiacenti.


Le parole Riconoscimento, Sottodermatoglifico e la stringa tHyUiKaRbNqWeOpXcZvM sono state scelte perché contengono caratteri con larghezze e altezze diverse. (Curiosità, subdermatoglifico è la parola più lunga senza lettere ripetute)

L'esperimento ha scoperto che sebbene VLM possa riconoscere con precisione la forma di un cerchio rosso e scrivere perfettamente le parole, "leggere le lettere cerchiate" confonde tutti i modelli. Ad esempio, il riconoscimento VLM tende a commettere errori quando le lettere sono leggermente parzialmente oscurate da ovali rossi.


Quando si verificano errori, VLM solitamente prevede le lettere adiacenti alla lettera cerchiata.

A volte il modello avrà allucinazioni e, sebbene riesca a scrivere la parola in modo accurato, appariranno caratteri che non esistono nel sottodermatoglifico (es. 9, n, ©).


Tutti i modelli, tranne GPT-4o, hanno ottenuto risultati leggermente migliori con le due parole inglesi rispetto alle stringhe casuali (da 2 a 6 punti in più), suggerendo che la familiarità con le parole stesse può aiutare il VLM a fare ipotesi più plausibili.

Gemini-1.5 e Sonnet-3.5 sono i primi due modelli (92,81% e 89,22%), quasi 20 punti in più rispetto a GPT-4o e Sonnet-3.

Tutto sommato, VLM potrebbe essere in grado di indovinare quali sono le lettere cerchiate in base all'ortografia della parola, migliorando leggermente la precisione, ma ciò non significa che VLM possa vedere le lettere nel cerchio rosso.

Compito 4: Problemi di interblocco

Successivamente, VLM deve affrontare un problema di "interblocco", ovvero calcolare quanti cerchi si incastrano nell'immagine.

La musica di sottofondo dovrebbe suonare qui: Ahhhhh~ Five Rings, hai uno squillo in più rispetto a Four Rings~


I risultati di questo test sono un po' bizzarri: quando ci sono cinque squilli nell'immagine, il modello è corretto al 100% quando c'è un altro squillo, VLM è completamente confuso;


Gemini era disorientato e ha risposto in modo errato anche una volta, Sonnet-3.5 ha risposto correttamente un terzo delle volte e GPT-4o ha risposto correttamente quasi la metà delle volte.


L'autore ha proposto che la precisione nell'identificazione dei "cinque anelli" sia così elevata, ed è strettamente correlata al comune simbolo dei "cinque anelli" dei Giochi Olimpici.

Come si può vedere nella Tabella 5, tutti e quattro i modelli tendono a contare 5 cerchi, che è molto maggiore della frequenza con cui si contano 5 pentagoni.


Questo test dimostra che qualunque cosa stiano facendo questi modelli, non ha la “vista” come la intendiamo noi umani. Il problema principale è che le loro prestazioni sono molto instabili, con enormi differenze nel tasso di successo del riconoscimento tra immagini composte da numeri e forme diverse.


Compito 5: Quadrati nidificati

L'attività 2 mostra che VLM ha difficoltà nel calcolare i cerchi che si intersecano. Quindi cosa accadrà alle prestazioni di VLM se i quadrati fossero completamente nidificati all'interno di un altro quadrato più grande in modo che i loro bordi non si intersechino?

Come mostrato nella figura seguente, su una tela di dimensione C×C, l'autore restituisce N∈{2,3,4,5} quadrati nidificati.


Per prima cosa renderizza il quadrato più esterno usando una lunghezza del lato casuale d∈{2,3,4}px. I restanti N-1 quadrati vengono disegnati utilizzando un fattore di riduzione di 0,75×d e posizionati in coordinate casuali per garantire che non tocchino i quadrati esterni.

Genera 10 immagini per ciascuna delle 3 impostazioni di spessore della linea (dove i quadrati hanno posizioni casuali diverse) e ripeti il ​​processo per tutti i valori N, ottenendo un totale di 120 immagini.

Si può riscontrare che il calcolo del numero di quadrati annidati è un compito difficile da completare in modo accurato per VLM.


L'accuratezza del modello varia notevolmente, con GPT-4o (48,33%) e Gemini-1.5 (55,00%) in ritardo rispetto a Gemini-1.5 (80,00%) e Claude3.5 (87,50%) di almeno 30 punti.


Attività 6: quante colonne e righe ha la tabella?

I risultati delle attività precedenti hanno mostrato che VLM non era in grado di gestire problemi come la sovrapposizione (attività 4) o l'annidamento (attività 5). Gli autori hanno deciso di dare a VLM una direzione diversa e vedere come si comportano sui problemi relativi alla grafica adiacente.

L'autore ha disposto i quadrati in una griglia e ha chiesto a VLM di contarli. Questi VLM hanno ottenuto buoni risultati in DocVQA (precisione ≥ 90%), che contiene molte domande con tabelle, quindi questo compito dovrebbe essere semplice per i VLM.

Per semplificare il compito, gli autori hanno chiesto al modello solo di contare il numero di righe e colonne in una determinata tabella.


Si è riscontrato che il modello non è mai stato in grado di calcolare correttamente il numero di righe e colonne della griglia vuota.


Tuttavia, le prestazioni di tutti i VLM migliorano quando le celle della griglia contengono testo, in particolare Sonetto-3.5.


Compito 7: Identificare la tabella di marcia

Questo compito mette alla prova la capacità del VLM di identificare percorsi appositamente colorati e di seguire una determinata linea colorata da un determinato punto di partenza a una destinazione, un'abilità importante richiesta per leggere e comprendere le mappe.

Come mostrato nella figura seguente, crea una mappa della metropolitana su un'immagine di dimensione C×C, dove C∈{512, 1024}px.

Scrivi 4 nomi di stazione (A, B, C, D) in 4 coordinate fisse. Dividi la tela in una griglia invisibile di 18×18 celle e inizializza 3 punti di partenza del percorso C/18px di distanza da ciascuna stazione.

Disegna un percorso partendo da una stazione casuale e da un punto di partenza casuale utilizzando un algoritmo di ricerca in profondità, in cui ogni passaggio può spostare una cella in qualsiasi direzione. Questo processo viene ripetuto in modo che ciascuna stazione abbia N∈{1,2,3} percorsi di uscita e vengano disegnate un totale di 180 mappe.


Date due stazioni designate, l'attività richiede che VLM calcoli quanti percorsi di colore diverso ci sono tra le due stazioni.

I risultati sperimentali hanno rilevato che anche se è presente un solo percorso cromatico tra due stazioni, nessun modello può raggiungere una precisione del 100%.


La precisione più alta è Sonnet-3.5, che può raggiungere il 95% quando c'è solo una strada. Tuttavia, quando ci sono due strade, la precisione scende rapidamente solo al 50,18%.


All'aumentare della complessità del percorso, da 1 a 3 percorsi, la maggior parte dei VLM mostrerà un significativo degrado delle prestazioni.

La "cecità" di VLM

Perché VLM risulta estremamente instabile nel test di abilità visiva di cui sopra?

Forse possiamo trovare indizi sulla preferenza del modello per gli "Anelli Olimpici" nell'Attività 4. La spiegazione più basata sul buon senso è:

Nei dati di allenamento di VLM, l'immagine degli "anelli olimpici" appare ripetutamente ed è descritta in dettaglio in molti materiali di testo.

Tuttavia, nei dati di addestramento VLM, non è possibile trovare 6 o 7 anelli ad incastro, motivo per cui le loro risposte sono insoddisfacenti.

Perché VLM potrebbe non sapere affatto cosa sta "vedendo", né capire veramente cosa sia un loop, una sovrapposizione o qualsiasi altro concetto.

Tuttavia, anche se usiamo il cieco per descrivere le prestazioni del modello, stiamo comunque antropomorfizzando il modello, proprio come una grande azienda di modellismo promuove la sua "capacità visiva".

Il ricercatore Nguyen ha anche affermato che "cecità" ha molte definizioni anche per gli esseri umani, e attualmente non esiste una parola per descrivere la cecità/insensibilità dell'intelligenza artificiale alle immagini che mostriamo.

Il comportamento dei VLM è una funzione complessa di prompt di testo di input, immagini di input e miliardi di pesi e attualmente non esiste una tecnologia in grado di visualizzare con precisione ciò che vede il modello.

Ha ipotizzato che questi modelli non siano completamente "ciechi": possono solo estrarre informazioni visive "approssimate" e astratte dall'immagine, ma non possono esprimere giudizi visivi, quindi si comportano come se comprendessero l'immagine ma non possano effettivamente vederla.

Nguyen ha utilizzato un esempio per supportare bene l’ipotesi di cui sopra:


Utente: Di che colore è l'area in cui i due cerchi si sovrappongono? GPT-4o: l'area sovrapposta di due cerchi è di colore turchese (ciano ombreggiato). Gemini-1.5: l'area sovrapposta del cerchio verde e del cerchio blu sarà ciano. Sonetto-3.5: Mi dispiace, ma nell'immagine ci sono solo due cerchi separati, uno verde e uno blu, e non c'è alcuna area di sovrapposizione.

Ovviamente, ad eccezione di Sonnet-3.5, GPT-4o e Gemini-1.5 stanno solo "immaginando" l'immagine anziché "vederla" effettivamente.

Quindi, questa ricerca significa che questi modelli di intelligenza artificiale “visiva” sono inutili?

Ma in realtà non lo è. Ciascuno di questi modelli ha dimostrato un’elevata precisione in un’ampia gamma di compiti, come il riconoscimento di azioni ed espressioni umane, oggetti di uso quotidiano e foto ambientali.

Il significato di questa ricerca è di disincantarci dalla strategia di marketing eccessivamente “antropomorfica” di VLM.

Se ascoltiamo la retorica di marketing dei giganti della tecnologia, potremmo davvero pensare che i grandi modelli visivi possano "vedere".

Ma con solo pochi piccoli test, possiamo facilmente scoprire la differenza essenziale tra VLM e gli esseri umani. È "antropomorfizzato", il che ne evidenzia effettivamente la natura disumana.

Riferimenti:

Italiano: https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/i-modelli-di-intelligenza-visiva-sono-effettivamente-ciechi/?_refluxos=a10

Italiano: https://vlmsareblind.github.io/