Моя контактная информация
Почта[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Используя только подсказки, мультимодальная большая модель может лучше понять взаимоотношения между персонажами сцены.
Пекинский университет недавно предложил метод условного многомодального запроса (CMMP), который используетПодскажите технологию инженерного словаНаучите мультимодальные большие модели понимать взаимоотношения взаимодействия персонажей на региональном уровне.
В этом процессе самое сложное — научить модель распознаватьНевидимые типы взаимодействия персонажей。
Знаете, большинство существующих исследований сосредоточено на закрытых средах. Как только среда станет открытой, более близкой к реальности, модель запутается!
Например, на рисунке ниже предыдущие детекторы сталкивались с трудностями при балансировке видимых и невидимых категорий.что приводит к более низкому гармоническому среднему значениюи хуже работают в невидимых категориях.
Напротив, метод CMMP эффективно решает эту проблему балансировки, значительно повышает производительность и обеспечивает новую современную производительность для невидимых категорий.
Что касается того, как метод CMMP решает невидимые категории,слово:
Визуально-пространственные подсказки используются в процессе извлечения признаков, чтобы помочь идентифицировать невидимые концепции взаимодействия человека и объекта и улучшить обобщение невидимых категорий посредством обучения условным подсказкам.
Подводя итог, можно сказать, что метод CMMP обеспечивает новую парадигму для точной настройки мультимодальных больших моделей, чтобы сделать ихобобщенныйВозможности обнаружения взаимоотношений между персонажами на региональном уровне.
Вышеупомянутое исследование проведено Институтом компьютерных технологий Вансюань Пекинского университета, а соответствующие статьи были приняты на ведущей конференции ECCV 2024.
Новая структура для обнаружения человеческого взаимодействия с нулевой выборкой
Команда предложила новую структуру для обнаружения HOI (взаимодействия человека и объекта) с нулевой выборкой с использованием CMMP.
В частности, CMMP будет обнаруживать человеческое взаимодействие с нулевой выборкой.Разделен на две подзадачи:
Тогда для каждой подзадачипредлагается отдельноРазделение визуальных и текстовых подсказок для устранения зависимостей между ними и уменьшения распространения ошибок.
Условные визуальные сигналы (Pv) используются для ввода знаний о пространственном и интерактивном восприятии в кодировщик изображений, ограниченных визуальными априорами уровня экземпляра (Cins) и глобальными пространственными шаблонами взаимодействий (Cgsp). Условные языковые сигналы (PL) ограничиваются созданными человеком сигналами (CL) из-за потери регуляризации.
Извлечение визуальных признаков для восприятия интерактивности
Кодировщик изображений мультимодальной модели, принятой командой, изначально был обучен с помощью предварительного обучения контрастному обучению (CLIP) на крупномасштабных парах изображение-текст, и его возможности могут быть ограничены пониманием семантики первого порядка на уровне изображения.
Чтобы дать возможность кодировщику изображений различать всю интерактивность человека на изображении, команда предложила интегрировать предварительные знания о различных деталях в условные визуальные сигналы, чтобы понять их, адаптированные для задачи обнаружения отношений человеческого взаимодействия.Региональная семантика второго порядка。
В частности, исследователиИспользуйте информацию уровня экземпляра в качестве предварительных знаний.Включите условные визуальные подсказки.
Учитывая входное изображение, предварительно обученный детектор объектов сначала используется для получения всех предварительных знаний на уровне экземпляра, включая ограничивающие рамки, оценки достоверности и семантическое кодирование обнаруженных экземпляров.
Кроме того, чтобы побудить каждый экземпляр осознавать свои потенциальные взаимодействующие объекты, команда объединила глобальную пространственную структуру взаимодействий в обучающем наборе с визуальным априором на уровне экземпляра.
В частности, для каждой аннотированной пары взаимодействующих людей исследователиСначала рассчитайте его одномерные и бинарные пространственные характеристики.
Впоследствии алгоритм кластеризации K-средних используется для определения центров кластеров и использования их в качестве репрезентативных пространственных шаблонов взаимодействующих пар символов.
Шаблон глобального пространственного взаимодействия обеспечивает независимую от категории репрезентативную пространственную конфигурацию в качестве моста для понимания интерактивности между видимыми и невидимыми концепциями взаимодействия персонажей.
Наконец, исследователи интегрировали объединенные знания в кодировщик изображений с помощью легкого адаптера.
Обобщающая классификация взаимодействий
Чтобы сохранить обобщаемые общие знания о CLIP при изучении представлений для конкретных задач для обнаружения человеческого взаимодействия, команда принялаБыстрое обучение с учетом языка и ограничениями последовательности。
Это ограничение гарантирует, что изученные прототипы видимых и невидимых категорий сохраняют разумные границы разделения и не сильно отклоняются друг от друга.
В частности, по каждой категории действий исследователиПервое использованиеСозданные вручную подсказки отформатируют его. Используйте обучаемые контекстные слова, чтобы они служили мостами между семантикой видимых и невидимых категорий.
Окончательное представление категории получается путем объединения обучаемых контекстных слов с векторами слов приведенных выше предложений и последующей передачи их через текстовый кодер.
Чтобы в дальнейшем использовать пространство признаков, полученное самим кодировщиком текста мультимодальной модели, и улучшить способность обобщения невидимых категорий, исследователи предложилиСоветы по использованию дизайна человеканаправлять пространство признаков изучаемых языковых сигналов.
Это ограничение гарантирует, что прототипы видимых и невидимых категорий сохраняют разумные границы разделения и не слишком сильно отклоняются друг от друга.
Командная заявкаРегуляризация против потери обученияуменьшить разницу между представлениями функций и представлениями искусственно созданных языковых сигналов.
Обучение CMMP
На основе интерактивной карты объектов и ограничивающих рамок людей и объектов, извлеченных предварительно обученным детектором объектов, команда сначала применила ROI-Pooling для извлечения функций в различных областях.
Затем функции, извлеченные из разных регионов, объединяются, и окончательный прогноз класса взаимодействия делается с помощью классификатора взаимодействия.
Вся модель использует потерю фокуса при обучении интерактивной классификации, а также применяет потерю регуляризации языка.
Результаты эксперимента
На этапе проверки результатов команда использовалаHICO-DET, широко используемый набор данных для обнаружения взаимодействия между людьми.600 категорий взаимодействия символов состоят из 80 категорий объектов и 117 категорий глаголов.
Чтобы проверить производительность модели с нулевой выборкой, исследователи оценили ее с помощью HICO-DET.Пять настроек нулевой выборки。
Чтобы добиться справедливого сравнения с существующими методами, мы изучаемПо умолчанию используется ВиТ-Б/16.в качестве магистральной сети.
Как показано в таблице ниже, экспериментальные результаты показывают, что CMMP хорошо работает при всех настройках нулевой выборки.Все достигли лучших результатов на невидимых занятиях., что доказывает эффективность введения условных мультимодальных сигналов.
Как показано в таблице для каждого типаПоследняя строка показывает, используя магистраль ViT-L/14 для расширения CMMP до уровня FLOP CLIP4HOI, новый метод обеспечивает наилучшую производительность во всех разделах.
Это демонстрирует, что модель команды обладает отличными возможностями для извлечения пространственных отношений визуальных особенностей и обучения прототипов для интерактивной классификации.
Более того, предыдущие методы показывают серьезные различия в производительности между видимыми и невидимыми категориями, что указывает на отсутствие у них способности к обобщению.
Модель данного исследования может в значительной степени облегчить эту проблему, иобобщатьВысокий потенциал достижения ранее невиданных категорий взаимодействия подтверждает эффективность мультимодальных сигналов с ограничениями.
Пожалуйста, обратитесь к оригинальной статье для получения более подробной информации.