Моя контактная информация
Почта[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
После просмотра 2-часового фильма за 4 секунды были официально представлены новые достижения команды Alibaba——
посадочная дистанцияУниверсальная мультимодальная большая модель mPLUG-Сова3, специально используемый для понимания нескольких изображений и длинных видеороликов.
В частности, взяв в качестве эталона LLaVA-Next-Interleave, mPLUG-Owl3.Задержка первого токена сократилась в 6 раз, а количество изображений, которые можно смоделировать с помощью одного A100, увеличилось в 8 раз, достигнув400 фотографий, согласно реальному тесту, 2-часовой фильм можно посмотреть за 4 секунды.
Другими словами, эффективность рассуждений модели значительно улучшилась.
иБез ущерба для точности модели。
mPLUG-Owl3 также прошел множество тестов в различных сценариях, связанных с мультимодальными большими моделями, включая поля с одним изображением, несколькими изображениями и видео.СОТА。
Автор статьи родом изКоманда Alibaba mPLUG, они глубоко занимались мультимодальными базами больших моделей, а до этого еще предлагали:
Давайте посмотрим, какие черные технологии привносит эта версия mPLUG-Owl3.
Геймплей разблокирован
Команда продемонстрировала несколько распространенных вариантов использования mPLUG-Owl3.
Улучшение мультимодального поиска
Вообще говоря, это обычная практика – дополнять знания, которые модель не получила, через поисковую систему. Это требует, чтобы модель точно понимала поступающие мультимодальные знания и использовала их для ответа на вопросы.
В следующем примере mPLUG-Owl3 может не только правильно ответить на основе полученных знаний, но и передать их.На каких знаниях основано суждение?и предоставить подробную основу для суждения. Это очень удобно для последующего научно-исследовательского персонала, занимающегося разработкой и отладкой.
Поисковая часть: Ниже приведены несколько мультимодальных знаний, которые помогут вам принять решение.
Задать вопрос: Основываясь на ваших наблюдениях за четырьмя фотографиями собак выше, можете ли вы классифицировать собаку на фото 5? Приведите причины.
отвечать: На основании наблюдений за четырьмя фотографиями собак собаку на фото 5 можно классифицировать как ирландского терьера. Собака на фото 1 описана как ирландский терьер, а собака на фото 5 имеет физические характеристики, похожие на собаку на фото 1…
Многографическое рассуждение
Подобные ситуации часто случаются в жизни——
Многие пользователи ведут разговор не только вокруг одной картинки, у пользователя может быть несколько материалов, и модель должна уметь правильно понимать взаимосвязь между контентом в разных материалах.
В приведенном ниже примере mPLUG-Owl3 может активировать знание языковой модели, основанное на здравом смысле, посредством того, что он видит в двух изображениях, и рассуждать на основе этих двух изображений.
Задать вопрос: Может ли животное слева выжить в окружающей среде справа? Ответы и пояснения обязательны.
отвечать(Правильный ответ отмечен зеленым): Общая идея состоит в том, что он не может выжить, потому что окружающая среда слишком холодна.
В другом примере mPLUG-Owl3 может не только обнаружить разницу в стиле между двумя изображениями, но также понять, что, хотя символы на двух изображениях имеют разные стили, на самом деле это один и тот же символ.
первый раз вопрос: Какие художественные стили изображены на изображении и чем они отличаются?
отвечать: Первая картинка в пиксельном стиле, вторая картинка в мультяшном... (приведите причины)
второй вопрос: Кто изображен на обеих картинах? Каковы их характеристики?
отвечать: На обеих картинах изображен мужчина в ковбойской шляпе, изображенный в двух разных стилях.
Долгое понимание видео
Просмотр очень длинных видеороликов — это задача, которую большинство современных моделей не могут выполнить сквозным образом. Если она основана на платформе Agent, сложно гарантировать скорость отклика.
mPLUG-Owl3 может смотреть 2-часовой фильм, аНачните отвечать на вопросы пользователей за 4 секунды。
Если пользователь задает вопросы об очень подробных клипах в начале, середине и конце фильма, mPLUG-Owl3 может свободно на них ответить.
Как вы это сделали?
В отличие от традиционных моделей, mPLUG-Owl3Нет необходимости заранее вклеивать визуальную последовательность в текстовую последовательность языковой модели.。
Другими словами, независимо от того, что вводится (десятки изображений или часы видео), оно не занимает емкость последовательности языковой модели, что позволяет избежать огромных вычислительных затрат и использования видеопамяти, вызванных длинными визуальными последовательностями.
Кто-то может спросить, как визуальная информация интегрируется в языковую модель?
Для достижения этой цели команда предложилаЛегкий модуль гипервнимания, который может расширить существующий блок-трансформер, который может моделировать только текст, в новый модуль, который может выполнять как графическое, так и текстовое взаимодействие элементов, а также моделирование текста.
Распространяясь по всей языковой модели,4Трансформаторный блок mPLUG-Owl3 может модернизировать LLM до мультимодального LLM за очень небольшую плату.
После того, как визуальные функции извлекаются из визуального кодировщика, размеры выравниваются с размерами языковой модели посредством простого линейного сопоставления.
Впоследствии визуальные функции будут взаимодействовать только с текстом в этих четырех слоях блока Transformer. Поскольку визуальный токен не подвергался сжатию, детальная информация может быть сохранена.
Посмотрите нижеКак устроено гипервнимание?。
Чтобы языковая модель могла воспринимать визуальные особенности, Hyper Attention вводитПерекрестное вниманиеВ этой операции визуальные функции используются как ключ и значение, а скрытое состояние языковой модели используется как запрос для извлечения визуальных функций.
В последние годы другие исследования, такие как Flamingo и IDEFICS, рассматривали возможность использования перекрестного внимания для мультимодального слияния, но эти усилия не привели к достижению хороших результатов.
В техническом отчете по mPLUG-Owl3 командаСравнивая дизайн Flamingo, чтобы подробнее объяснить гипервниманиеКлючевые технические моменты:
Прежде всего, гипервнимание не использует структуру каскада перекрестного внимания и самовнимания, а встроено в блок самовнимания.
Его преимущество заключается в том, что оно значительно уменьшает количество вводимых дополнительных новых параметров, что упрощает обучение модели, а эффективность обучения и вывода можно дополнительно улучшить.
Во-вторых, выбор гипервниманияLayerNorm для общих языковых моделей, поскольку выходные данные распределения LayerNorm — это стабильное распределение, обученное слоем внимания. Совместное использование этого слоя имеет решающее значение для стабильного обучения недавно введенному перекрестному вниманию.
Фактически, Hyper Attention использует параллельную стратегию перекрестного внимания и само-внимания, используя общий запрос для взаимодействия с визуальными функциями и интегрируя эти две функции через адаптивные ворота.
Это позволяет Query выборочно выбирать соответствующие визуальные функции на основе своей собственной семантики.
Команда Дискавери, Изображениеотносительное положение к тексту в исходном контекстеДля модели очень важно лучше понимать мультимодальные входные данные.
Чтобы смоделировать это свойство, они представили мультимодальное кодирование положения чередующегося вращения MI-Rope для моделирования информации о положении для визуального ключа.
В частности, они предварительно записали информацию о положении каждого изображения в исходном тексте и использовали эту позицию для расчета соответствующего встраивания веревки, и каждый фрагмент одного и того же изображения будет использовать это встраивание.
Кроме того, они также выполняют перекрестное внимание.Представлена маска внимания, чтобы текст перед картинкой в исходном контексте не видел признаков, соответствующих последующим картинкам.
Подводя итог, можно сказать, что эти конструктивные особенности Hyper Attention позволили дополнительно повысить эффективность mPLUG-Owl3 и гарантировать, что он по-прежнему может иметь первоклассные мультимодальные возможности.
Результаты экспериментов
Проводя эксперименты на широком спектре наборов данных, mPLUG-Owl3Большинство мультимодальных тестов с одним изображениемВсе могут достичь результатов SOTA, а многие тесты могут даже превзойти модели с более крупными размерами.
в то же время,В оценке нескольких изображений, mPLUG-Owl3 также превзошёл LLAVA-Next-Interleave и Mantis, которые специально оптимизированы для сцен с несколькими изображениями.
Кроме того, в LongVideoBench (52,1 балла) появилась специализированная модель оценки.Что такое длинные видеоОн превосходит существующие модели в списке.
Группа исследований и разработок также предложила интересный вариант.Метод оценки длинной визуальной последовательности。
Как мы все знаем, в реальных сценариях взаимодействия человека и компьютера не все изображения служат проблемам пользователя. Исторический контекст будет наполнен мультимодальным контентом, не имеющим отношения к проблеме. Чем длиннее последовательность, тем серьезнее это явление.
Чтобы оценить производительность модели на входных данных длинных визуальных последовательностей.Антиинтерференционная способность, они построили один на базе MMBench-devНовый набор данных оценки。
Путем введения нерелевантных изображений для каждого образца оценки цикла MMBench и нарушения порядка изображений затем задаются вопросы об исходных изображениях, чтобы увидеть, может ли модель реагировать правильно и стабильно. (Для одного и того же вопроса будут построены четыре выборки с разным порядком вариантов и интерференционными картинками, и при правильном ответе на все будет записан только один правильный ответ.)
Эксперимент разделен на несколько уровней в зависимости от количества входных изображений.
Видно, что модели без обучения на нескольких графах, такие как Qwen-VL и mPLUG-Owl2, быстро вышли из строя.
LLAVA-Next-Interleave и Mantis, обученные на нескольких изображениях, могут вначале сохранять кривую затухания, аналогичную mPLUG-Owl3, но по мере того, как количество изображений достигает50При такой величине эти модели уже не могут отвечать правильно.
И mPLUG-Owl3 сохранился.400 фотографийВсе еще может поддерживатьточность 40%。
Однако следует сказать одно: хотя mPLUG-Owl3 превосходит существующие модели, его точность далека от превосходного уровня. Можно лишь сказать, что этот метод оценки раскрывает антиинтерференционную способность всех моделей при необходимости в длинных последовательностях. будет дополнительно улучшен в будущем.
Более подробную информацию можно найти в документе и коде.