Новости

Чтобы повысить производительность задач обнаружения GPT-4V и Gemini, вам понадобится эта парадигма подсказок.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет рубрика Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];

Авторы этой статьи из Чжэцзянского университета, Шанхайской лаборатории искусственного интеллекта, Китайского университета Гонконга, Сиднейского университета и Оксфордского университета. Список авторов: У Исюань, Ван Ичжоу, Тан Шисян, У Вэньхао, Хэ Тун, Ванли Оуян, Филип Торр, Цзянь Ву. Среди них соавтор У Исюань — аспирант Чжэцзянского университета, а Ван Ичжоу — научный сотрудник Шанхайской лаборатории искусственного интеллекта. Соответствующий автор Тан Шисян — научный сотрудник Китайского университета Гонконга.

Мультимодальные модели большого языка (MLLM) показали впечатляющие возможности в различных задачах, несмотря на это, потенциал этих моделей в задачах обнаружения до сих пор недооценен. Когда для сложных задач по обнаружению объектов требуются точные координаты, галлюцинации MLLM часто заставляют их пропускать целевые объекты или давать неточные ограничивающие рамки. Чтобы обеспечить обнаружение MLLM, существующая работа требует не только сбора большого количества высококачественных наборов данных инструкций, но и тонкой настройки моделей с открытым исходным кодом. Несмотря на то, что этот метод требует много времени и труда, он также не позволяет использовать более мощные возможности визуального понимания моделей с закрытым исходным кодом.С этой целью Чжэцзянский университет, Шанхайская лаборатория искусственного интеллекта и Оксфордский университет предложилиDetToolChain , новую парадигму подсказок, которая раскрывает возможности обнаружения мультимодальных моделей большого языка. Большие мультимодальные модели могут научиться точно обнаруживать без обучения.Соответствующие исследования былиECCV 2024 включено

Чтобы решить проблемы MLLM в задачах обнаружения, DetToolChain начинается с трех пунктов: (1) Разработка визуальных подсказок для обнаружения, которые являются более прямыми и эффективными, чем традиционные текстовые подсказки, и позволяют MLLM понимать информацию о местоположении, (2) Разбивка задачи точного обнаружения на небольшие и простые задачи и (3) использовать цепочку мыслей, чтобы постепенно оптимизировать результаты обнаружения и максимально избежать иллюзии больших мультимодальных моделей.

В соответствии с вышеизложенным, DetToolChain содержит две ключевые конструкции: (1) Полный набор подсказок для визуальной обработки, которые рисуются непосредственно на изображении и могут значительно сократить разрыв между визуальной и текстовой информацией. (2) Комплексный набор обоснований обнаружения побуждает улучшить пространственное понимание цели обнаружения и постепенно определить окончательное точное местоположение цели с помощью цепочки инструментов обнаружения, адаптивной к образцу.

Объединив DetToolChain с MLLM, таким как GPT-4V и Gemini, можно поддерживать различные задачи обнаружения без настройки инструкций, включая обнаружение открытого словаря, обнаружение цели описания, понимание ссылочных выражений и обнаружение ориентированной цели.



Название статьи: DetToolChain: новая парадигма, раскрывающая возможности обнаружения MLLM

Ссылка на документ: https://arxiv.org/abs/2403.12488.

Что такое DetToolChain?



Рис. 1. Общая структура DetToolChain

Как показано на рисунке 1, для данного изображения запроса MLLM поручено выполнить следующие шаги:

I. Форматирование: преобразуйте исходный входной формат задачи в соответствующий шаблон инструкций в качестве входных данных MLLM;

II. Подумайте: разбейте конкретную сложную задачу обнаружения на более простые подзадачи и выберите эффективные подсказки из набора подсказок для обнаружения;

III Выполнить: выполнять определенные подсказки (подсказки) итеративно и последовательно;

IV. Ответ: используйте собственные возможности MLLM для контроля всего процесса обнаружения и возврата окончательного ответа (окончательного ответа).

Инструментарий подсказок обнаружения: подсказки визуальной обработки



Рисунок 2: Схематическая диаграмма подсказок визуальной обработки. Мы разработали (1) региональный усилитель, (2) стандарт пространственных измерений, (3) анализатор изображений сцены, чтобы улучшить возможности обнаружения MLLM с разных точек зрения.

Как показано на рисунке 2, (1) Региональный усилитель направлен на повышение видимости MLLM в интересующей области (ROI), включая обрезку исходного изображения на различные субрегионы с акцентом на субрегион, где расположен целевой объект. Кроме того, функция усиления позволяет детально наблюдать за конкретными участками изображения.

(2) Стандарт пространственных измерений обеспечивает более четкое представление об обнаружении цели путем наложения линейки и циркуля с линейными масштабами на исходное изображение, как показано на рисунке 2 (2). Вспомогательные линейки и компасы позволяют MLLM выводить точные координаты и углы, используя привязки поступательного и вращательного движения, наложенные на изображение. По сути, эта вспомогательная линия упрощает задачу обнаружения, позволяя MLLM считывать координаты объектов вместо того, чтобы напрямую их прогнозировать.

(3) Анализатор изображения сцены отмечает прогнозируемые положения или отношения объектов и использует пространственную и контекстную информацию для понимания пространственных отношений изображения. Парсер изображений сцены можно разделить на две категории:Во-первых, для одного целевого объекта мы помечаем прогнозируемые объекты центроидами, выпуклыми оболочками и ограничивающими прямоугольниками именами меток и индексами блоков. Эти маркеры представляют информацию о положении объекта в различных форматах, что позволяет MLLM обнаруживать разнообразные объекты различной формы и фона, особенно объекты неправильной формы или сильно закрытые объекты. Например, маркер выпуклой оболочки отмечает граничные точки объекта и соединяет их в выпуклую оболочку, чтобы повысить эффективность обнаружения объектов очень неправильной формы.Во-вторых, для нескольких целей , мы соединяем центры различных объектов с помощью маркеров графа сцены, чтобы подчеркнуть взаимосвязи между объектами на изображении. На основе графа сцены MLLM может использовать свои возможности контекстного рассуждения для оптимизации прогнозируемых ограничивающих рамок и предотвращения галлюцинаций. Например, как показано на рисунке 2 (3), Джерри хочет съесть сыр, поэтому их ограничивающие рамки должны быть очень близко.

Набор инструментов для обоснования обнаружения: Подсказки для обоснования обнаружения



Чтобы повысить надежность блока прогнозирования, мы выполнили подсказки для вывода обнаружения (показаны в таблице 1), чтобы проверить результаты прогнозирования и диагностировать потенциальные проблемы, которые могут существовать. Во-первых, мы предлагаем «Путеводитель по проблеме», который выделяет сложные проблемы и предоставляет эффективные рекомендации по обнаружению и аналогичные примеры для изображений запросов. Например, для рисунка 3 Руководство по анализу проблем определяет запрос как задачу обнаружения небольших объектов и предлагает решить ее путем увеличения области доски для серфинга. Во-вторых, чтобы использовать присущие MLLM пространственные и контекстуальные возможности, мы разработали Обозреватель пространственных отношений и Предиктор контекстных объектов, чтобы гарантировать, что результаты обнаружения соответствуют здравому смыслу. Как показано на рисунке 3, доска для серфинга может находиться рядом с океаном (контекстуальное знание), и доска для серфинга должна находиться рядом с ногами серфера (пространственное знание). Кроме того, мы применяем промоутер самопроверки, чтобы повысить согласованность ответов в нескольких раундах. Чтобы еще больше улучшить способности MLLM к рассуждению, мы применяем широко используемые методы подсказки, такие как дебаты и самоотладка. Подробное описание смотрите в исходном тексте.



Рисунок 3. Подсказки по обоснованию обнаружения могут помочь MLLM решить проблемы обнаружения небольших объектов, например, используя здравый смысл, чтобы найти доску для серфинга под ногами человека, и побудить модель обнаружить доски для серфинга в океане.



Рис. 4. Пример применения DetToolChain для обнаружения вращающихся целей (набор данных HRSC2016).

Эксперимент: вы можете превзойти методы тонкой настройки без обучения.



Как показано в таблице 2, мы оценили наш метод обнаружения открытого словаря (OVD), протестировав результаты AP50 для 17 новых классов, 48 базовых классов и всех классов в тесте COCO OVD. Результаты показывают, что при использовании нашей DetToolChain производительность как GPT-4V, так и Gemini значительно улучшается.



Чтобы продемонстрировать эффективность нашего метода в понимании ссылочных выражений, мы сравниваем наш метод с другими методами нулевого выстрела на наборах данных RefCOCO, RefCOCO+ и RefCOCOg (таблица 5). На RefCOCO DetToolChain улучшил производительность базового GPT-4V на 44,53%, 46,11% и 24,85% соответственно по val, тесту A и тесту B, продемонстрировав превосходное понимание референтных выражений и производительность DetToolChain в условиях нулевого позиционирования.