VLM коллективно «слеп»? Проверка зрения с треском провалилась, GPT-4o и Claude 3.5 оба провалились

VLM коллективно «слеп»?Проверка зрения с треском провалилась, GPT-4o и Claude 3.5 оба провалились.

2024-07-16

Новый отчет мудрости

Редактор: Редакционный отдел

[Введение в новую мудрость]Визуальные модели большого языка в совокупности «перевернуты» на самых простых визуальных задачах. Возможно, эти самые продвинутые VLM еще не развили настоящие визуальные возможности?

Последние версии языковых моделей, такие как GPT-4o и Gemini 1.5 Pro, при выпуске были определены как «родные мультимодальные», способные понимать несколько форм ввода, таких как изображения, аудио и текст.

Эти мультимодальные LLM используют такие выражения, как «визуальные возможности» и «визуальное понимание» в соответствующих введениях, маркетинговых и даже научных статьях.

Похоже, это означает, что модель может видеть и понимать вещи в каком-то смысле, и эта способность уже соответствует человеческой.

Итак, давайте задумаемся: если модель визуального языка проверить на зрение, будет ли у них стандартное зрение 5,2 или тяжелая близорукость, или они вообще ничего не смогут увидеть?

Новое исследование показывает, что большие языковые модели на самом деле не обладают ожидаемыми зрительными способностями, подобными человеческим. На самом деле они просто «слепы».

Исследователи из Обернского университета и Университета Альберты протестировали четыре современные мультимодальные модели на серии очень простых задач по зрению и обнаружили, что результаты оказались неудовлетворительными.

Эти задачи чрезвычайно просты для человека, например, перекрываются ли две фигуры, сколько пятиугольников на картинке или какие буквы в слове обведены.

Однако зрение этих продвинутых моделей в лучшем случае «близорукое», а видимые детали очень размыты. В худшем случае модель ведет себя как «умный слепой», делающий какие-то обоснованные предположения.

Адрес статьи: https://arxiv.org/pdf/2407.06581.

7 главных задач

Теперь официально начинается проверка зрения, и VLM необходимо выполнить 7 небольших задач.

Ань Нгуе, соавтор статьи, особо подчеркнул: «Наши семь задач очень просты, а точность выполнения человеком может достигать 100%».

Итак, как же поведет себя модель ИИ, столкнувшись с этими вопросами, которые могут правильно решить даже первоклассники?

Задача 1: Сколько точек пересечения имеют две ломаные линии?

Учитывая, что VLM показала потрясающие результаты в предыдущих тестах производительности на диаграммах, таких как результат Claude 3.5 Sonnet, равный 94,7% в AI2D и 90,8% в ChartQA, мы можем обоснованно предположить, что такого рода проблемы не должны быть для них проблемой.

Как показано на рисунке ниже, на белом холсте нарисовано в общей сложности 150 линейных графиков, состоящих из двух полилиний, каждая из которых определяется тремя точками.

Координаты x этих трех точек фиксированы и равноудалены, а координаты y получаются путем случайной выборки, в результате чего создаются две ломаные линии с номерами пересечений 0, 1 или 2.

В эксперименте использовались две разные формулировки для вопроса большой модели, например: «Сколько раз синяя и красная линии пересекаются друг с другом?» и «Сколько раз синяя и красная линии пересекаются?»

Рассчитав среднюю точность каждой модели, отвечающей на эти два вопроса, мы можем устранить некоторые немедленные эффекты и добиться более точных результатов.

Для сравнения, Sonnet-3.5 справляется с этой задачей чуть лучше, со средней точностью 77,33%, тогда как другие модели показывают себя хуже.

Хотя 77,33% звучит как хороший результат, поскольку существует только три возможных ответа: 0, 1 и 2, правильный процент случайного угадывания составляет 33%.

Стоит отметить, что VLM имеет тенденцию работать хуже, когда расстояние между двумя полилиниями становится уже. Таким образом, VLM не может надежно идентифицировать и рассчитывать пересечения сегментов линий.

Задача 2: Задачи пересечения, касания и разделения окружностей.

Эта задача относится к разряду младшей школьной геометрии: пересечение, касание и разделение окружностей (никто не вспомнит, как за спиной учителя рисовали круги от руки).

Однако мы не будем рассматривать VLM в таких терминах, а скорее проведем простой тест перекрывающихся фигур, который, возможно, является одной из самых простых задач визуального мышления, которые только можно себе представить.

К сожалению, независимо от того, перекрываются ли два круга слегка, просто соприкасаются или находятся на определенном расстоянии, в любой ситуации модель никогда не сможет принять правильное суждение.

Для сравнения, когда два круга находятся далеко друг от друга, GPT-4o верен более чем в 95% случаев, но при нулевых или очень малых расстояниях он верен только в 18% случаев, что меньше, чем в 50% случаев. ставка при случайном угадывании.

Gemini Pro 1.5 показал лучшие результаты со средней точностью 92,78, но точность составляла всего 70%, когда расстояние между двумя кругами было близким.

Задание 3: Назовите буквы, обведенные кружком.

Используйте красный кружок ⭕, чтобы обвести буквы в слове по одной, и для выполнения задания требуется, чтобы VLM идентифицировал буквы в кружочках.

Очевидно, что эта задача проста для людей, но гипотеза авторов состоит в том, что если зрение VLM затуманено, он не сможет распознать точную букву, обведенную кружком, из-за небольшого расстояния между соседними буквами.

Слова «Подтверждение», «Субдерматоглифический» и строка tHyUiKaRbNqWeOpXcZvM были выбраны потому, что они содержат символы разной ширины и высоты. (Пустяка, субдерматоглифическое — самое длинное слово без повторяющихся букв)

Эксперимент показал, что, хотя VLM может точно распознавать форму красного круга и идеально произносить слова, «чтение букв в кружке» ставит в тупик все модели. Например, распознавание VLM имеет тенденцию совершать ошибки, когда буквы слегка частично закрыты красными овалами.

При возникновении ошибок VLM обычно прогнозирует буквы, расположенные рядом с буквой в кружке.

Иногда у модели возникают галлюцинации, и, хотя она может правильно произнести слово, появляются символы, которых нет в субдерматоглифике (например, 9, n, ©).

Все модели, за исключением GPT-4o, работали с двумя английскими словами немного лучше, чем со случайными строками (на 2–6 баллов лучше), что позволяет предположить, что знание самих слов может помочь VLM сделать более обоснованные предположения.

Gemini-1.5 и Sonnet-3.5 занимают лидирующие позиции (92,81% и 89,22%), почти на 20 пунктов выше, чем GPT-4o и Sonnet-3.

В целом, VLM может угадать, что означают буквы в кружке, на основе написания слова, что немного повышает точность, но это не означает, что VLM может видеть буквы в красном кружке.

Задача 4: Проблемы блокировки

Затем VLM придется столкнуться с проблемой «взаимосвязывания», то есть расчета количества переплетающихся кругов на изображении.

Здесь должна прозвучать фоновая музыка: Аааа~ Пять Колец, у тебя на один звонок больше, чем Четыре Кольца~

Результаты этого теста немного странные: когда на картинке пять колец, модель верна на 100%, как только появляется еще одно кольцо, VLM приходит в полное замешательство;

Близнецы были дезориентированы и ответили неправильно хотя бы один раз, Сонет-3.5 ответил правильно в трети случаев, а GPT-4o ответил правильно почти в половине случаев.

Автор предположил, что точность идентификации «пяти колец» настолько высока, что она тесно связана с общепринятым символом Олимпийских игр «пятью кольцами».

Как видно из таблицы 5, все четыре модели склонны считать 5 кругов, что значительно превышает частоту счета 5 пятиугольников.

Этот тест показывает, что что бы ни делали эти модели, у них нет «зрения», как мы, люди, его понимаем. Основная проблема заключается в том, что их производительность очень нестабильна, с огромными различиями в показателях успешного распознавания изображений, состоящих из разных чисел и форм.

Задача 5: Вложенные квадраты

Задача 2 показывает, что VLM испытывает трудности с вычислением пересекающихся кругов. Так что же произойдет с производительностью VLM, если квадраты будут полностью вложены в другой квадрат большего размера, так что их края не пересекаются?

Как показано на рисунке ниже, на холсте размером C×C автор визуализирует Nε{2,3,4,5} вложенных квадратов.

Сначала визуализируйте самый внешний квадрат, используя случайную длину стороны dε{2,3,4}px. Остальные N-1 квадратов рисуются с использованием коэффициента уменьшения 0,75×d и размещаются в случайных координатах, чтобы гарантировать, что они не касаются внешних квадратов.

Создайте по 10 изображений для каждой из трех настроек толщины линий (где квадраты имеют разные случайные положения) и повторите процесс для всех значений N, в результате чего в общей сложности получится 120 изображений.

Можно обнаружить, что вычисление количества вложенных квадратов является сложной задачей для точного выполнения VLM.

Точность модели сильно различается: GPT-4o (48,33%) и Gemini-1,5 (55,00%) отстают от Gemini-1,5 (80,00%) и Claude3.5 (87,50%) как минимум на 30 пунктов.

Задание 6: Сколько столбцов и строк в таблице?

Результаты предыдущих задач показали, что VLM не смог справиться с такими проблемами, как перекрытие (задача 4) или вложение (задача 5). Автор решил изменить направление VLM и посмотреть их производительность на задачах, связанных со смежной графикой.

Автор поместил квадраты в сетку и попросил ВЛМ их посчитать. Эти VLM хорошо зарекомендовали себя в DocVQA (точность ≥ 90%), который содержит много вопросов с таблицами, поэтому эта задача для VLM должна быть простой.

Чтобы упростить задачу, авторы лишь попросили модель посчитать количество строк и столбцов в данной таблице.

Было обнаружено, что модель никогда не могла правильно рассчитать количество строк и столбцов для пустой сетки.

Однако производительность всех VLM улучшается, когда ячейки сетки содержат текст, особенно Sonnet-3.5.

Задача 7: Определить дорожную карту

В этом задании проверяется способность VLM идентифицировать пути особого цвета и следовать по заданной цветной линии от заданной начальной точки до пункта назначения — важная способность, необходимая для чтения и понимания карт.

Как показано на рисунке ниже, создайте карту метро на изображении размера C×C, где Cε{512, 1024}px.

Напишите 4 названия станций (A, B, C, D) в 4 фиксированных координатах. Разделите холст на невидимую сетку из ячеек 18×18 и инициализируйте 3 начальные точки пути на расстоянии C/18 пикселей от каждой станции.

Нарисуйте путь, начинающийся со случайной станции и случайной начальной точки, используя алгоритм поиска в глубину, где каждый шаг может перемещать одну ячейку в любом направлении. Этот процесс повторяется так, что каждая станция имеет Nε{1,2,3} выходных путей, и всего рисуется 180 карт.

Учитывая две назначенные станции, задача требует, чтобы VLM вычислил, сколько путей разного цвета существует между двумя станциями.

Результаты экспериментов показали, что даже если между двумя станциями существует только один цветовой путь, ни одна модель не может достичь 100% точности.

Самая высокая точность у Сонет-3,5, которая может достигать 95% при наличии только одной дороги. Однако при наличии двух дорог точность быстро падает всего до 50,18%.

По мере увеличения сложности пути (от 1 до 3) большинство VLM будут демонстрировать значительное снижение производительности.

«Слепота» VLM

Почему VLM показывает крайне нестабильные результаты в приведенном выше тесте на зрительные способности?

Возможно, мы сможем найти подсказки в предпочтении моделью «Олимпийских колец» в задании 4. Наиболее распространенное объяснение, основанное на здравом смысле, таково:

В тренировочных данных ВЛМ изображение «олимпийских колец» встречается неоднократно и подробно описано во многих текстовых материалах.

Однако в обучающих данных VLM не удается обнаружить 6 или 7 взаимосвязанных колец, поэтому их ответы неудовлетворительны.

Потому что VLM может вообще не знать, что они «видят», и при этом они действительно не понимают, что такое цикл, перекрытие или любая другая концепция.

Однако, даже если мы используем слепой подход для описания характеристик модели, мы все равно антропоморфизируем модель, точно так же, как крупная модельная компания продвигает свои «визуальные способности».

Исследователь Нгуен также сказал, что «слепота» имеет множество определений даже для людей, и в настоящее время нет слова, которое могло бы описать слепоту/нечувствительность искусственного интеллекта к изображениям, которые мы показываем.

Поведение VLM — это сложная функция ввода текстовых подсказок, изображений и миллиардов весов, и в настоящее время не существует технологии, которая могла бы точно визуализировать то, что видит модель.

Он предполагает, что эти модели не являются полностью «слепыми». Они могут лишь извлекать из изображения «приблизительную» и абстрактную визуальную информацию, но не могут выносить визуальные суждения, поэтому они ведут себя так, как будто понимают изображение, но на самом деле не могут видеть его.

Нгуен привел пример, подтверждающий вышеизложенную гипотезу:

Пользователь: Какого цвета область, где пересекаются два круга? GPT-4o: Область перекрытия двух кругов имеет бирюзовый цвет (затененный голубой). Близнецы-1.5: Область перекрытия зеленого круга и синего круга будет голубого цвета. Сонет-3.5: Извините, но на картинке только два отдельных круга, зеленый и синий, и никакой перекрывающейся области нет.

Очевидно, что, за исключением Сонета-3.5, GPT-4o и Близнецы-1.5 лишь «воображают» изображение, а не фактически «видят» его.

Итак, означает ли это исследование, что эти «визуальные» модели ИИ бесполезны?

Но на самом деле это не так. Каждая из этих моделей продемонстрировала высокую точность в широком спектре задач, таких как распознавание действий и выражений людей, предметов повседневного обихода и фотографий окружающей среды.

Значение этого исследования состоит в том, чтобы разочаровать нас чрезмерно «антропоморфной» маркетинговой стратегией VLM.

Если мы прислушаемся к маркетинговой риторике технологических гигантов, мы действительно можем подумать, что большие визуальные модели могут «видеть».

Но с помощью всего лишь нескольких небольших тестов мы можем легко обнаружить существенную разницу между VLM и людьми. Он «антропоморфизирован», что фактически подчеркивает его бесчеловечную природу.

Использованная литература:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/

Новости

VLM коллективно «слеп»?Проверка зрения с треском провалилась, GPT-4o и Claude 3.5 оба провалились.

Введение

моя контактная информация