новости

Команда Ли Си из Чжэцзянского университета: новый метод понимания выражений ScanFormer устраняет избыточность от грубого к точному

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет рубрика Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

Все авторы этой статьи — члены команды профессора Ли Си из Чжэцзянского университета. Первым автором статьи является докторант Су Вэй, а автором-корреспондентом — профессор Ли Си (член ИЭПП, заслуженный молодой учёный страны). За последние годы команда профессора Ли Си опубликовала более 180 исследовательских работ, связанных с CV/AIGC, в авторитетных международных журналах (таких как TPAMI, IJCV и т. д.) и на ведущих международных научных конференциях (ICCV, CVPR, ECCV и т. д.). и сотрудничает с известными университетами и научно-исследовательскими учреждениями в стране и за рубежом. Учреждения широко сотрудничают.

В качестве основной задачи визуального языка, обращение к выражению (REC) находит указанную цель в изображении на основе описания на естественном языке. Модель REC обычно состоит из трех частей: визуального кодировщика, текстового кодировщика и кросс-модального взаимодействия, которые используются для извлечения визуальных функций, текстовых функций и взаимодействия и улучшения кросс-модальных функций соответственно.

Большинство текущих исследований сосредоточено на разработке эффективных модулей кросс-модального взаимодействия для повышения точности задач, при этом визуальные кодировщики недостаточно изучены. Распространенный подход заключается в использовании экстракторов функций, предварительно обученных задачам классификации и обнаружения, таких как ResNet, DarkNet, Swin Transformer или ViT и т. д. Эти модели пересекают все пространственные местоположения изображения для извлечения признаков в виде скользящего окна или разделенного фрагмента. Их вычислительная сложность будет быстро возрастать с увеличением разрешения изображения, что более очевидно в моделях на основе преобразователей.

Из-за характеристик пространственной избыточности изображений существует большое количество фоновых областей с низкой информативностью и областей, которые не имеют отношения к референтному выражению в изображении. Извлечение признаков в этих областях таким же образом увеличит вычислительную сложность, но не увеличит. не способствуют эффективному извлечению признаков. Более эффективный способ — заранее спрогнозировать релевантность текста и насыщенность содержимого области изображения, полностью извлечь функции из области переднего плана, связанной с текстом, и грубо извлечь функции из области фона. Для регионального прогнозирования более интуитивный способ — использовать пирамиду изображений, чтобы заранее определить область фона в крупнозернистом изображении в верхней части пирамиды, а затем постепенно добавлять мелкозернистые области переднего плана с высоким разрешением.

На основании вышеизложенного анализа мы предложилиScanFormer, инфраструктура, учитывающая итерации от грубого до мелкого, сканируйте слой за слоем в пирамиде изображений, начиная с крупномасштабных изображений с низким разрешением, и постепенно отфильтровывайте ненужные/фоновые области, которые относятся к выражениям, чтобы уменьшить вычислительные затраты, позволяя модели больше сосредоточиться на переднем плане/областях, связанных с задачами. .



  • Название статьи: ScanFormer: обращение к пониманию выражений путем итеративного сканирования
  • Ссылка на документ: https://arxiv.org/pdf/2406.18048.

Введение метода

1. Схема восприятия итераций от грубой к тонкой

Чтобы упростить структуру, мы принимаем модель ViLT [1], которая объединяет текстовые и визуальные модальности и делит ее на две части, Encoder1 и Encoder2, по измерению глубины для разных задач.

Сначала извлеките текстовые объекты и сохраните их в KV-кэше, затем создайте пирамиду изображений и выполните итерацию вниз от вершины пирамиды. На каждой итерации вводится патч, выбранный в текущем масштабе, и Encoder1 используется для прогнозирования следующего шага. соответствующий каждому патчу. Выбор мелкозернистых патчей в одном масштабе. В частности, выбираются все патчи изображения верхнего уровня, чтобы модель могла получать крупнозернистую информацию о полном изображении. Encoder2 дополнительно извлекает объекты и прогнозирует ограничивающую рамку этого масштаба на основе токена [cls] текущего масштаба.

В то же время промежуточные функции Encoder1 и Encoder2 будут храниться в KV Cache для облегчения последующего стандартного использования. По мере увеличения масштаба вводятся более мелкие функции, прогнозирование положения становится более точным, а большинство ненужных фрагментов отбрасываются, чтобы сэкономить массу вычислений.

Кроме того, патчи внутри каждой шкалы имеют двунаправленное внимание, обращая внимание на все патчи и текстовые особенности предыдущих шкал. Такое причинно-следственное внимание в разных масштабах может еще больше снизить вычислительные требования.



2. Динамический выбор патчей

Выбор каждого патча определяется коэффициентом выбора, сгенерированным предыдущим масштабом. Существует два варианта расположения приложения. Один используется во всех головках каждого уровня MHSA в кодировщике. H головы, очень сложно получить эффективную информацию о градиенте для обновления, поэтому изученный коэффициент выбора не идеален, второй напрямую используется в качестве входных данных кодировщика, то есть встраивания патча. используется в этом положении, его легче изучить. Наконец, эта статья также была принята.

Кроме того, следует отметить, что даже если для внедрения входного патча установлено значение 0, из-за существования MHSA и FFN функции патча на последующих уровнях все равно станут отличными от 0 и повлияют на функции других патчей. К счастью, когда в последовательности токенов много одинаковых токенов, вычисление MHSA можно упростить и добиться фактического ускорения вывода. Кроме того, чтобы повысить гибкость модели, в этой статье встраивание патча не устанавливается напрямую на 0, а заменяется обучаемым постоянным токеном.

Таким образом, проблема выбора патча трансформируется в задачу замены патча. Процесс выбора патча можно разбить на два этапа: постоянная замена токенов и слияние токенов. Невыбранные патчи будут заменены тем же постоянным токеном. Поскольку эти невыбранные токены одинаковы, в соответствии с методом расчета масштабированного скалярного произведения внимания эти токены можно объединить в один токен и умножить на общее число, что эквивалентно добавлению к измерению, поэтому метод внимания скалярного произведения имеет вид рассчитывается без изменений, общие методы ускорения по-прежнему доступны.



Результаты экспериментов

Этот метод обеспечивает производительность, аналогичную современной, на четырех наборах данных: RefCOCO, RefCOCO+, RefCOCOg и ReferItGame. Путем предварительного обучения на крупномасштабных наборах данных и точной настройки конкретных наборов данных производительность модели можно значительно улучшить и достичь результатов, аналогичных предварительно обученным моделям, таким как MDETR [2] и OFA [3].





Что касается скорости рассуждения, предлагаемый метод обеспечивает скорость рассуждения в реальном времени, обеспечивая при этом высокую точность задачи.



Кроме того, в экспериментальной части также велась статистика по выбору патчей модели и распределению точности позиционирования по каждому масштабу (масштаб1 и масштаб2).

Как показано на рисунке слева, по мере увеличения масштаба добавляются детализированные элементы изображения, и точность модели постепенно улучшается. Поэтому можно попробовать добавить механизм раннего выхода, чтобы выйти вовремя, когда точность позиционирования будет соответствовать требованиям, избегая дальнейших вычислений на изображениях с высоким разрешением и добиваясь эффекта адаптивного выбора подходящего разрешения на основе выборок. В этой статье также были предприняты некоторые предварительные попытки, включая добавление ветвей прогнозирования, таких как IoU, GIoU и неопределенность, а также возврат индикаторов раннего выхода. Однако было обнаружено, что эффект не был идеальным. Как разработать соответствующие и точные индикаторы раннего выхода. продолжал исследовать.

На рисунке справа показана ситуация с выбором патчей в разных масштабах. Во всех масштабах выбранные патчи составляют относительно небольшую долю, и большинство патчей можно удалить, что позволяет эффективно сэкономить вычислительные ресурсы. Для каждого образца (изображение + референтное выражение) количество реально выбранных патчей относительно невелико, примерно 65% от общего количества.



Наконец, экспериментальная часть показывает некоторые результаты визуализации. По мере увеличения масштаба (красный → зеленый → синий) точность позиционирования модели постепенно улучшается. Кроме того, по изображению, реконструированному по выбранному патчу, видно, что модель обращает внимание только на крупномасштабную информацию для области фона, а для соответствующей области переднего плана модель может обращать внимание на мелкозернистую детализацию. информация.



Сопутствующая литература:

[1].Ким В., Сон Б., Ким И. Вилт: Преобразователь зрения и языка без свертки или контроля регионов [C] // Международная конференция по машинному обучению. PMLR, 2021: 5583-5594.

[2].Камат А., Сингх М., ЛеКун Й. и др. Mdetr-модулированное обнаружение для сквозного многомодального понимания [C]//Труды международной конференции IEEE/CVF по компьютерному зрению. 2021: 1780-1790.

[3].Ван П., Ян А., Мэн Р. и др. Ofa: Объединение архитектур, задач и модальностей с помощью простой структуры обучения «последовательность-последовательность» [C] // Международная конференция по машинному обучению. PMLR, 2022: 23318-23340.