notícias

VLM é coletivamente "cego"?O teste de visão falhou miseravelmente, GPT-4o e Claude 3.5 falharam

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria]Modelos visuais de linguagem grande são coletivamente "derrubados" nas tarefas visuais mais básicas. Talvez esses VLMs mais avançados ainda não tenham desenvolvido capacidades visuais reais.

A última rodada de modelos de linguagem, como GPT-4o e Gemini 1.5 Pro, foi definida como “multimodal nativo” quando lançada, capaz de compreender múltiplas formas de entrada, como imagens, áudio e texto.

Esses LLMs multimodais usam expressões como “capacidade visual” e “compreensão visual” em introduções relevantes, marketing e até mesmo em trabalhos acadêmicos.

Isto parece significar que o modelo pode ver e compreender as coisas num certo sentido, e esta capacidade já se equipara à dos humanos.

Então vamos ter uma ideia: se o modelo de linguagem visual for testado para visão, eles terão visão padrão 5.2 ou miopia grave, ou não conseguirão ver nada?

Um novo estudo mostra que grandes modelos de linguagem não possuem as capacidades visuais humanas esperadas. A verdade é que eles são simplesmente “cegos”.

Pesquisadores da Universidade de Auburn e da Universidade de Alberta testaram quatro dos modelos multimodais de última geração em uma série de tarefas de visão muito simples e descobriram que os resultados foram insatisfatórios.

Essas tarefas são extremamente simples para os humanos, como saber se duas formas se sobrepõem, quantos pentágonos há em uma imagem ou quais letras de uma palavra estão circuladas.

No entanto, a visão desses modelos avançados é, na melhor das hipóteses, “míope” e os detalhes vistos são muito embaçados. Na pior das hipóteses, o modelo age como um “cego esperto” fazendo algumas suposições fundamentadas.


Endereço do artigo: https://arxiv.org/pdf/2407.06581

7 tarefas principais

Agora, o teste de visão começa oficialmente e o VLM precisa completar 7 pequenas tarefas.


Anh Nguye, coautor do artigo, enfatizou particularmente: “Nossas sete tarefas são muito simples e a precisão do desempenho humano pode chegar a 100%”.

Então, como será o desempenho do modelo de IA diante dessas questões que até mesmo os alunos da primeira série conseguem responder corretamente?


Tarefa 1: Quantos pontos de interseção as duas polilinhas possuem?

Dado que o VLM teve um desempenho surpreendente em testes de benchmark anteriores, como a pontuação de Claude 3.5 Sonnet de 94,7% no AI2D e 90,8% no ChartQA, podemos especular razoavelmente que esse tipo de problema não deve ser um problema para eles.

Conforme mostrado na imagem abaixo, um total de 150 gráficos de linhas são desenhados na tela branca, todos compostos por duas polilinhas, cada uma delas definida por três pontos.

As coordenadas x desses três pontos são fixas e equidistantes, e as coordenadas y são obtidas por meio de amostragem aleatória, criando assim duas polilinhas com números de interseção 0, 1 ou 2.


O experimento usou duas frases diferentes para perguntar ao modelo grande, como: “Quantas vezes as linhas azul e vermelha se cruzam?”

Ao calcular a precisão média de cada modelo respondendo a estas duas questões, podemos eliminar alguns efeitos imediatos e obter resultados mais precisos.


Em comparação, o Sonnet-3.5 tem um desempenho um pouco melhor nesta tarefa, com uma precisão média de 77,33%, enquanto outros modelos têm um desempenho pior.

Embora 77,33% pareça um bom resultado, já que existem apenas três respostas possíveis: 0, 1 e 2, a taxa correta de adivinhação aleatória é de 33%.

É importante notar que o VLM tende a ter pior desempenho quando a distância entre duas polilinhas se torna mais estreita. Em resumo, o VLM não pode identificar e calcular de forma confiável interseções de segmentos de linha.


Tarefa 2: Problemas de intersecção, tangência e separação de círculos


Este problema pertence à categoria da geometria do ensino fundamental: interseção, tangência e separação de círculos (ninguém vai se lembrar das costas do professor desenhando círculos à mão livre).

No entanto, não examinaremos o VLM nesses termos, mas sim faremos um teste simples de formas sobrepostas, que é sem dúvida uma das tarefas de raciocínio visual mais simples que se possa imaginar.

Infelizmente, não importa se os dois círculos se sobrepõem ligeiramente, apenas se tocam ou estão a uma certa distância, não importa qual seja a situação, o modelo nunca é capaz de fazer um julgamento correto.


Em comparação, quando os dois círculos estão distantes, o GPT-4o está correto mais de 95% do tempo, mas em distâncias zero ou muito pequenas, está correto apenas 18% do tempo, o que é menos que os 50% corretos taxa ao adivinhar aleatoriamente.


O Gemini Pro 1.5 teve o melhor desempenho, com uma taxa média de precisão de 92,78, mas a taxa de precisão foi de apenas 70% quando a distância entre os dois círculos era próxima.


Tarefa 3: Identifique as letras circuladas

Use o círculo vermelho ⭕ para circular as letras da palavra, uma de cada vez, e a tarefa exigirá que o VLM identifique as letras circuladas.

Obviamente esta tarefa é fácil para os humanos, mas a hipótese dos autores é que se a visão do VLM estiver turva, ele pode não ser capaz de reconhecer a letra exata que está circulada devido ao pequeno espaçamento entre as letras adjacentes.


As palavras Acknowledgement, Subdermatoglyphic e a string tHyUiKaRbNqWeOpXcZvM foram escolhidas por conterem caracteres com diferentes larguras e alturas. (Curiosidades, subdermatoglífico é a palavra mais longa sem letras repetidas)

O experimento descobriu que, embora o VLM possa reconhecer com precisão a forma de um círculo vermelho e soletrar as palavras perfeitamente, “ler as letras circuladas” confunde todos os modelos. Por exemplo, o reconhecimento VLM tende a cometer erros quando as letras são parcialmente obscurecidas por ovais vermelhos.


Quando ocorrem erros, o VLM geralmente prevê letras adjacentes à letra circulada.

Às vezes o modelo terá alucinações e, embora consiga soletrar a palavra com precisão, aparecerão caracteres que não existem no subdermatoglífico (por exemplo, 9, n, ©).


Todos os modelos, exceto GPT-4o, tiveram desempenho ligeiramente melhor nas duas palavras em inglês do que nas sequências aleatórias (2 a 6 pontos melhor), sugerindo que a familiaridade com as próprias palavras pode ajudar o VLM a fazer suposições mais fundamentadas.

Gemini-1.5 e Sonnet-3.5 são os dois principais modelos (92,81% e 89,22%), quase 20 pontos acima do GPT-4o e Sonnet-3.

Resumindo, o VLM pode ser capaz de adivinhar quais são as letras circuladas com base na grafia da palavra, melhorando ligeiramente a precisão, mas isso não significa que o VLM possa ver as letras no círculo vermelho.

Tarefa 4: Problemas de intertravamento

Em seguida, o VLM precisa enfrentar um problema de “intertravamento”, ou seja, calcular quantos círculos se interligam na imagem.

A música de fundo deve soar aqui: Ahhhhh~ Five Rings, você tem um toque a mais que Four Rings~


Os resultados deste teste são um pouco bizarros: quando há cinco anéis na imagem, o modelo está 100% correto; uma vez que há mais um anel, o VLM fica completamente confuso;


Gêmeos ficou desorientado e respondeu incorretamente pelo menos uma vez, o Sonnet-3.5 acertou um terço das vezes e o GPT-4o acertou quase metade das vezes.


O autor propôs que a precisão na identificação dos “cinco anéis” é muito alta e está intimamente relacionada ao símbolo comum dos “cinco anéis” dos Jogos Olímpicos.

Como pode ser visto na Tabela 5, todos os quatro modelos tendem a contar 5 círculos, o que é muito maior do que a frequência de contagem de 5 pentágonos.


Este teste mostra que o que quer que estes modelos estejam fazendo, não tem “visão” como nós, humanos, a entendemos. O principal problema é que seu desempenho é muito instável, com enormes diferenças nas taxas de sucesso de reconhecimento entre imagens compostas por diferentes números e formas.


Tarefa 5: Quadrados Aninhados

A tarefa 2 mostra que o VLM tem dificuldade em calcular círculos que se cruzam. Então, o que acontecerá com o desempenho do VLM se os quadrados estiverem completamente aninhados dentro de outro quadrado maior, de modo que suas arestas não se cruzem?

Conforme mostrado na figura abaixo, em uma tela de tamanho C×C, o autor renderiza N∈{2,3,4,5} quadrados aninhados.


Primeiro, renderize o quadrado mais externo usando um comprimento lateral aleatório d∈{2,3,4}px. Os quadrados N-1 restantes são desenhados usando um fator de redução de 0,75×d e colocados em coordenadas aleatórias para garantir que não toquem nos quadrados externos.

Gere 10 imagens para cada uma das 3 configurações de espessura de linha (onde os quadrados têm diferentes posições aleatórias) e repita o processo para todos os valores N, resultando em um total de 120 imagens.

Pode-se descobrir que calcular o número de quadrados aninhados é uma tarefa difícil para o VLM concluir com precisão.


A precisão do modelo varia muito, com GPT-4o (48,33%) e Gemini-1.5 (55,00%) ficando atrás de Gemini-1.5 (80,00%) e Claude3.5 (87,50%) em pelo menos 30 pontos.


Tarefa 6: Quantas colunas e linhas a tabela possui?

Os resultados das tarefas anteriores mostraram que o VLM não foi capaz de lidar com problemas como sobreposição (tarefa 4) ou aninhamento (tarefa 5). O autor decidiu mudar a direção do VLM e ver seu desempenho em problemas relacionados a gráficos adjacentes.

O autor colocou os quadrados em uma grade e pediu ao VLM que os contasse. Esses VLMs tiveram um bom desempenho no DocVQA (precisão ≥ 90%), que contém muitas questões com tabelas, portanto esta tarefa deve ser simples para VLMs.

Para simplificar a tarefa, os autores apenas pediram ao modelo que contasse o número de linhas e colunas de uma determinada tabela.


Verificou-se que o modelo nunca foi capaz de calcular corretamente o número de linhas e colunas da grade em branco.


No entanto, o desempenho de todos os VLMs melhora quando as células da grade contêm texto, especialmente o Sonnet-3.5.


Tarefa 7: Identifique o roteiro

Esta tarefa testa a capacidade do VLM de identificar caminhos especialmente coloridos e seguir uma determinada linha colorida de um determinado ponto de partida até um destino, uma habilidade importante necessária para a leitura e compreensão de mapas.

Conforme mostrado na figura abaixo, crie um mapa do metrô em uma imagem de tamanho C×C, onde C∈{512, 1024}px.

Escreva 4 nomes de estações (A, B, C, D) em 4 coordenadas fixas. Divida a tela em uma grade invisível de 18×18 células e inicialize 3 pontos iniciais do caminho a C/18px de distância de cada estação.

Desenhe um caminho começando em uma estação aleatória e um ponto inicial aleatório usando um algoritmo de busca em profundidade, onde cada etapa pode mover uma célula em qualquer direção. Este processo é repetido para que cada estação tenha N∈{1,2,3} caminhos de saída, e um total de 180 mapas sejam desenhados.


Dadas duas estações designadas, a tarefa exige que o VLM calcule quantos caminhos de cores diferentes existem entre as duas estações.

Os resultados experimentais descobriram que mesmo que haja apenas um caminho de cores entre duas estações, nenhum modelo pode atingir 100% de precisão.


A maior precisão é do Sonnet-3.5, que pode chegar a 95% quando há apenas uma estrada. No entanto, quando há duas estradas, a precisão cai rapidamente para apenas 50,18%.


À medida que a complexidade do caminho aumenta, de 1 caminho para 3 caminhos, a maioria dos VLMs apresentará degradação significativa de desempenho.

A “cegueira” do VLM

Por que o VLM tem um desempenho extremamente instável no teste de habilidade visual acima?

Talvez possamos encontrar pistas sobre a preferência do modelo pelos “Anéis Olímpicos” na Tarefa 4. A explicação mais sensata é:

Nos dados de treinamento do VLM, a imagem dos “anéis olímpicos” aparece repetidamente e é descrita em detalhes em muitos materiais de texto.

Porém, nos dados de treinamento do VLM, não podem ser encontrados 6 ou 7 anéis interligados, razão pela qual suas respostas são insatisfatórias.

Porque o VLM pode não saber o que está "vendo", nem realmente entender o que é um loop, sobreposição ou qualquer outro conceito.

No entanto, mesmo que usemos cego para descrever o desempenho do modelo, ainda estaremos antropomorfizando o modelo, tal como uma grande empresa de modelos promove a sua “capacidade visual”.

O pesquisador Nguyen também disse que “cegueira” tem muitas definições até mesmo para humanos, e atualmente não há palavras para descrever a cegueira/insensibilidade da inteligência artificial às imagens que mostramos.

O comportamento de um VLM é uma função complexa de prompts de texto de entrada, imagens de entrada e bilhões de pesos, e atualmente não há tecnologia que possa visualizar com precisão o que o modelo está vendo.

Ele especula que esses modelos não são completamente “cegos”. Eles só podem extrair informações visuais “aproximadas” e abstratas da imagem, mas não podem fazer julgamentos visuais, então se comportam como se entendessem a imagem, mas não pudessem realmente vê-la.

Nguyen usou um exemplo para apoiar bem a hipótese acima:


Usuário: Qual é a cor da área onde os dois círculos se sobrepõem? GPT-4o: A área sobreposta de dois círculos é de cor turquesa (sombreado em ciano). Gêmeos-1.5: A área sobreposta do círculo verde e do círculo azul será ciano. Soneto-3.5: Sinto muito, mas há apenas dois círculos separados na imagem, um é verde e o outro é azul, e não há área sobreposta.

Obviamente, com exceção do Sonnet-3.5, GPT-4o e Gemini-1.5 estão apenas “imaginando” a imagem em vez de realmente “ver” a imagem.

Então, esta pesquisa significa que esses modelos “visuais” de IA são inúteis?

Mas, na verdade, não é. Cada um desses modelos demonstrou alta precisão em uma ampla gama de tarefas, como reconhecimento de ações e expressões humanas, objetos do cotidiano e fotos ambientais.

O significado desta pesquisa é desencantar-nos com a estratégia de marketing excessivamente “antropomórfica” da VLM.

Se ouvirmos a retórica de marketing dos gigantes da tecnologia, podemos realmente pensar que grandes modelos visuais podem “ver”.

Mas com apenas alguns pequenos testes, podemos descobrir facilmente a diferença essencial entre o VLM e os humanos. É “antropomorfizado”, o que na verdade evidencia a sua natureza desumana.

Referências:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/