новости

2Б мультимодальная новая СОТА! Хуаке и Южно-Китайский технологический университет выпустили Mini-Monkey, специализирующийся на «нарезке для увеличения разрешения».

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Редактор: LRST Так хочется спать

[Введение в новую мудрость]Mini-Monkey — это легкая мультимодальная крупномасштабная языковая модель, которая эффективно устраняет эффект псевдонимов, вызванный традиционными стратегиями сегментации изображений, за счет использования стратегии многомасштабной адаптивной сегментации (MSAC) и механизма сжатия масштаба (SCM). Улучшена производительность модели в высоком разрешении. - разрешение задач обработки изображений и понимания документов. Он достигает ведущих результатов в нескольких тестах, демонстрируя свой потенциал в области мультимодального понимания и анализа документов.

В последнее время улучшение способности мультимодальных больших моделей обрабатывать изображения высокого разрешения привлекает все большее внимание в этой области.

Большинство методов направлены на улучшение способности мультимодальных больших моделей понимать детали изображения посредством стратегии сегментации и повторного объединения изображений.

Однако из-за операции сегментации изображения неизбежно возникает фрагментация цели и связанных с ней областей, что влияет на способность MLMM распознавать небольшие цели или цели неправильной формы. Это явление чрезвычайно очевидно в задачах понимания документов, поскольку текстовая часть часто прерывается.

В ответ на эту проблему Хуачжунский университет науки и технологий и Южно-Китайский технологический университет недавно совместно выпустили мультимодальную большую модель Mini-Monkey, которая использует подключаемую многомасштабную адаптивную стратегию (MSAC) для облегчения мультимодальных больших моделей. .

Mini-Monkey адаптивно генерирует многомасштабные представления, позволяя модели выбирать несегментированные объекты в различных масштабах, а ее производительность достигает нового SOTA мультимодальных больших моделей 2B.


Адрес статьи: https://arxiv.org/pdf/2408.02034.

Адрес проекта: https://github.com/Yuliang-Liu/Monkey

Чтобы уменьшить вычислительные затраты, вызванные MSAC, мы предлагаем механизм сжатия масштаба (SCM) для эффективного сжатия токенов изображений.

Mini-Monkey не только добился высочайшей производительности в ряде задач анализа документов, но также добился постоянного улучшения производительности в общих задачах понимания мультимодальных моделей, достигнув производительности 2B SOTA.

На OCRBench Mini-Monkey набрал 802 балла, что лучше, чем у моделей с большими параметрами, таких как GLM-4v-9B.


Рисунок 3. Блок-схема метода: H-Attn представляет высокий вес внимания; L-Attn представляет низкий вес внимания; токены с меньшим весом внимания будут фильтроваться; общий уровень LLM представляет собой уровень блоков, использующий LLM в SCM;

История исследования

Мультимодальные модели большого языка (MLMM) в последние годы привлекли большое внимание. Исследователи активно изучают эффективные способы интеграции визуальных кодировщиков с LLM.

Некоторые методы, такие как Flamingo, BLIP-2, MiniGPT4, Qwen-VL и LLaVA, достигли этих достижений, но предыдущие мультимодальные модели большого языка не обеспечивали хорошего понимания сцены из-за ограниченного разрешения обработки.


Рисунок 1. Эффект псевдонимов, вызванный сегментацией универсальных объектов: (а) входное изображение; (б) стратегия расширения сегментации; (в) стратегия расширения перекрывающейся сегментации; (г) многомасштабные адаптивные стратегии сегментации;

Исследователи начали решать эту проблему за счет расширения входного разрешения изображения. Стратегия нарезки — один из наиболее часто используемых методов. Например, Monkey, LLaVA 1.6, InternVL 1.5 и LLama3-V и т. д.

Несмотря на значительный прогресс в мультимодальных крупномасштабных языковых моделях, остаются проблемы с детальным пониманием сцены из-за стратегий сегментации.

Операции сегментации изображений неизбежно сегментируют объекты и связанные области, тем самым ослабляя способность MLLM идентифицировать небольшие объекты или объекты неправильной формы, особенно в контексте понимания документа.

Эта стратегия приведет к появлению двух типов семантической несогласованности:

1. Если предмет или персонаж сегментирован, его можно не распознать. Например, сегментированный нос очень похож на обезьяний, как показано на рисунке 1(b);

2. Если слово или предложение сегментировано, это нанесет семантический ущерб сегментированному слову. Например, слово «Классные комнаты» можно разделить на «Класс» и «Комнаты», что приведет к семантическому повреждению сегментированных слов.

Для простоты авторы называют эту проблему пилообразным эффектом. Очень простая идея — использовать стратегию перекрывающейся сегментации для решения этой проблемы, как показано на рисунке 1(c).

Однако авторы обнаружили, что стратегия перекрывающейся сегментации создавала определенные иллюзии, которые приводили к снижению производительности, а не к улучшению.

Идеи метода

Автор предлагает Mini-Monkey, легкую мультимодальную крупномасштабную языковую модель, предназначенную для смягчения пилообразного эффекта, вызванного стратегиями сегментации. Блок-схема метода представлена ​​на рисунке 2.


Рис. 2. Эффект зубчатости, вызванный обрезкой текстовых изображений.

В отличие от существующих методов, которые напрямую сегментируют входное изображение, Mini-Monkey использует подход «включай и работай», называемый многомасштабной адаптивной стратегией сегментации (MSAC).

MSAC может эффективно дополнять функции разных масштабов, как показано на рисунке 1(d).

Многомасштабная адаптивная стратегия сегментации (MSAC)

MSAC сначала выполняет операцию наслоения этих сеток, разделяя их на три группы в зависимости от соотношения сторон. Автор выберет соотношение сторон для каждого слоя. Различные слои предоставляют модели разную информацию.

Уровень детализации отвечает за предоставление подробной информации. Он ограничивает как максимальное, так и минимальное разрешение изображения, делая изображение максимально большим и делая объекты на нем более четкими. Из-за стратегии сегментации, используемой для обрезки изображения, изображения, созданные этим слоем, могут иметь семантические несоответствия.

Поэтому авторы используют адаптивные слои в сочетании со слоями детализации, чтобы модель могла выбирать несегментированные объекты в различных масштабах. Адаптивный уровень будет адаптивно генерировать соотношение сторон в соответствии с уровнем детализации, гарантируя, что линия сегментации на слое детализации не перекрывается с линией сегментации на адаптивном слое, тем самым предотвращая двойное сегментирование одного и того же объекта на разных слоях. Этот процесс гарантирует, что уровень детализации и уровень адаптации предоставляют модели различную семантическую информацию и визуальные функции.

механизм сжатия масштаба

MSAC может привести к некоторым дополнительным вычислительным затратам. Поэтому автор предлагает механизм сжатия масштаба (SCM) для ситуаций, когда существуют ограничения на вычислительные затраты. SCM — это механизм, который не требует обучения и параметров для снижения вычислительных затрат.

Автор выбирает визуальные токены адаптивного слоя, визуальные токены глобального слоя и текстовые токены, чтобы сосредоточиться на визуальных маркерах слоя детализации, а затем генерирует карту внимания, а затем извлекает визуальные особенности верхнего K. карты внимания.

Хорошо обученный LLM может эффективно выбирать необходимые визуальные функции на основе задачи ввода. Таким образом, SCM использует первый и второй уровни LLM для выбора визуальных токенов без генерации каких-либо дополнительных параметров.

Самая сильная мультимодальная большая модель Mini-Monkey 2B.

Авторы проверили свой метод на общее мультимодальное понимание и понимание документов. Результаты эксперимента показывают, что Mini-Monkey достигла наилучших результатов в общем мультимодальном понимании и понимании документов одновременно с параметрами 2B.


Таблица 1. Результаты общего понимания мультимодальности


Таблица 2. Результаты по пониманию документа

Автор сравнивает предложенный MSAC с существующими методами. Первая строка — метод динамической сегментации, вторая строка — метод сегментации с фиксированным разрешением, третья строка — перекрывающаяся сегментация, а четвертая строка — многомасштабная стратегия S2.


В таблице 3 сравниваются различные стратегии сегментации.

MSAC может применяться к различным мультимодальным архитектурам, стабилизируя и улучшая

В то же время автор также применил MSAC к другим методам для сравнения, и можно видеть, что наблюдаются последовательные улучшения в общих задачах мультимодального понимания и понимания документов.


В таблице 4 MSAC применяется к различным платформам.

Эффективно устраняйте «последствия», вызванные сегментацией, для повышения разрешения.

В то же время автор также предоставляет некоторый качественный анализ, как показано на рисунке 4. Автор задает вопросы о сегментированных локациях, таких как «классы» и «школа», которые сегментированы.

Видно, что Mini-Monkey может эффективно смягчить «последствия», вызванные увеличением разрешения сегментации посредством MSAC.


Рисунок 4. Качественные результаты: (а) входное изображение и основная истина; (б) результаты с использованием перекрывающейся стратегии сегментации, OSC представляет перекрывающуюся стратегию сегментации; (в) результаты internv2-2b и internv2-26b; (d) результаты Mini-Monkey;

Визуальное сравнение

Mini-Monkey может точно извлечь текстовое содержимое неоднозначных древних книг, в то время как MiniCPM-V 2.6 и InternVL2-2B пропустили много текста: GPT4-O отказался отвечать:


(а) Входное изображение


(б)Мими-Манки: точно распознает весь текст.


(c)MiniCPM-V 2.6: Пропущено много текста.


(d) InternVL2-2B: Пропущено целое предложение относительно расплывчатого текста.


(e)GPT-4o: отказываемся отвечать

Подвести итог

Методы, использующие сегментацию для расширения разрешения, часто сегментируют объекты и связанные области, что ограничивает распознавание небольших объектов и текста неправильной формы. Эта проблема особенно очевидна в облегченных MLLM.

В этом исследовании автор предлагает Mini-Monkey, мультимодальную большую модель 2B, которая достигает производительности SOTA, стремясь устранить ограничения существующих стратегий сегментации и улучшить способность MLLM обрабатывать изображения с высоким разрешением.

Mini-Monkey использует многомасштабную адаптивную стратегию сегментации (MSAC) для создания многомасштабных представлений, позволяя модели выбирать несегментированные объекты в разных масштабах, тем самым облегчая эту проблему.

В то же время автор также проверил эффективность стратегии многомасштабной адаптивной сегментации на мультимодальных больших моделях других архитектур, предоставив простое и эффективное решение для облегчения «последствий», вызванных повышенным разрешением плана сегментации. .

Ссылки:

[1] Чэнь З., Ван В., Тянь Х. и др. Насколько мы далеки от gpt-4v? Закрытие разрыва с коммерческими мультимодальными моделями с помощью пакетов с открытым исходным кодом[J]. Препринт arXiv arXiv:2404.16821, 2024.

[2] Ли Дж., Ли Д., Саварезе С. и др. Blip-2: Начальная загрузка языкового изображения предварительного обучения с помощью кодировщиков замороженных изображений и больших языковых моделей [C] // Международная конференция по машинному обучению. PMLR, 2023: 19730-19742.

[3] Лю И., Ян Б., Лю К. и др. Textmonkey: большая мультимодальная модель без OCR для понимания документа [J]. Препринт arXiv arXiv:2403.04473, 2024.

[4] Бай Дж., Бай С., Ян С. и др. Qwen-vl: передовая большая модель языка видения с универсальными способностями [J]. Препринт arXiv arXiv:2308.12966, 2023.

[5] Дубей А., Джаухри А., Пандей А. и др. Модели стада лам 3 [J]. Препринт arXiv arXiv:2407.21783, 2024.