Моя контактная информация
Почта[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Отчет о сердце машины
Редакция «Машинное сердце»
В области открытого исходного кода снова есть хорошие новости.
Модели больших языков (LLM) претерпели значительную эволюцию, и в последнее время мы также стали свидетелями бума мультимодальных моделей большого языка (MLLM), которые демонстрируют удивительные мультимодальные возможности.
В частности, появление GPT-4o значительно способствовало развитию сферы MLLM. Однако модели с открытым исходным кодом, соответствующие этим моделям, существенно недостаточны. Невозможно переоценить острую необходимость дальнейшего развития сообщества открытого исходного кода в этой области.
В этой статье исследователи из Tencent Youtu Lab и других учреждений предлагают VITA, которая является первой мультимодальной моделью большого языка (MLLM) с открытым исходным кодом, которая может одновременно обрабатывать и анализировать видео, изображения, текст и аудио. в то же время он обладает передовым мультимодальным интерактивным интерфейсом.
Исследователи использовали Mixtral 8x7B в качестве языковой основы, затем расширили словарный запас китайского языка и доработали двуязычные инструкции. Кроме того, исследователи дополнительно наделили языковую модель визуальными и звуковыми возможностями посредством двухэтапного многозадачного обучения мультимодального выравнивания и точной настройки инструкций.
VITA демонстрирует сильные возможности многоязычного, визуального и аудиопонимания, о чем свидетельствуют его отличные результаты в одномодальных и мультимодальных тестах.
Помимо базовых возможностей, это исследование также добилось большого прогресса в улучшении естественного мультимодального взаимодействия человека с компьютером. Насколько нам известно, это первое исследование, в котором используются взаимодействия без бодрствования и прерывания звука в MLLM. Исследователи также разработали дополнительные токены статуса и соответствующие обучающие данные и стратегии для восприятия различных сценариев взаимодействия.
VITA развертывается с использованием дуплексного подхода: одна модель отвечает за генерацию ответов на запросы пользователей, а другая модель постоянно отслеживает воздействие окружающей среды. Это дает VITA впечатляющие возможности взаимодействия человека с компьютером.
VITA — это первый шаг сообщества открытого исходного кода к исследованию плавной интеграции мультимодального понимания и взаимодействия. Хотя над VITA еще предстоит проделать большую работу, чтобы приблизиться к своим аналогам с закрытым исходным кодом, в исследовании надеются, что роль VITA как пионера может послужить краеугольным камнем для последующих исследований.
视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
В приведенном выше видео пользователи могут безбарьерно общаться с VITA. Увидев белую футболку, которую носит пользователь, ему будет предложено выбрать цвет брюк, когда ему зададут математический вопрос, и он сможет просмотреть тип вопроса; в режиме реального времени и делать выводы, а затем давать точные ответы, когда вы разговариваете с другими, VITA не будет перебивать, поскольку знает, что пользователь не общается с ним во время путешествия, VITA также будет давать некоторые подсказки в процессе; вывода VITA вы также можете прервать разговор в реальном времени и начать другую тему.
视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
В этом видео пользователь держит печенье и спрашивает ВИТА, что он ест. ВИТА говорит ему, что он ест печенье, и предлагает, чтобы печенье было вкуснее с молоком или чаем.
Во время тренировки будьте вашим собеседником:
视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Примечание. Вышеупомянутые видео воспроизводятся в реальном времени со скоростью 1x и без ускорения.
На основе блок-схемы, предоставленной пользователем, VITA может написать код:
Предоставьте изображение, и VITA также сможет ответить на вопросы, основанные на содержании изображения:
Вы также можете смотреть видео и отвечать на вопросы. Когда пользователи задают вопрос «Подробно опишите движения собаки», VITA также может дать точные ответы:
Введение метода
Как показано на рисунке 3, общий процесс обучения VITA включает три этапа: точная настройка инструкций LLM, мультимодальное согласование и точная настройка мультимодальных инструкций.
Точная настройка инструкций LLM
Производительность Mixtral 8x7B входит в число лучших LLM с открытым исходным кодом, поэтому она была использована в качестве основы для данного исследования. Однако исследователи заметили, что официальная модель Mixtral имеет ограниченную способность понимать китайский язык. Чтобы расширить возможности двуязычного (китайского и английского) понимания, исследование расширило словарный запас китайского языка до базовой модели, увеличив словарный запас с 32 000 до 51 747. После расширения словарного запаса исследователи использовали синтетический двуязычный корпус из 5 миллионов человек для точной настройки простых текстовых инструкций.
Мультимодальное выравнивание
Преодолеть разрыв в репрезентации между текстом и другими модальностями, тем самым закладывая основу для мультимодального понимания. Визуальные коннекторы тренируются только на этапе визуального выравнивания. В таблице 1 приведены использованные данные обучения, за исключением текстовой части.
визуальная модальность
Первый — визуальный кодер. Исследователи использовали InternViT-300M-448px в качестве визуального кодировщика, который принимал на вход изображение с разрешением 448×448 и генерировал 256 токенов после использования визуального коннектора в качестве простого двухслойного MLP. Для ввода изображений с высоким разрешением исследователи используют стратегии динамического исправления для захвата локальных деталей.
Видео считается особым вариантом использования изображений. Если продолжительность видео короче 4 секунд, равномерно будет выбрано 4 кадра в секунду. Если продолжительность видео составляет от 4 до 16 секунд, каждую секунду производится выборка одного кадра. Для видео продолжительностью более 16 секунд равномерно выбираются 16 кадров.
Во-вторых, визуальное выравнивание. Мы тренировали зрительный коннектор только на этапе визуального выравнивания и не использовали аудиовопросы на этом этапе.
Наконец, существует каскадирование данных. Для простых текстовых данных и данных изображения цель данного исследования — объединить длину контекста с токенами длиной 6 000, как показано на рисунке 4. Стоит отметить, что видеоданные не объединяются.
Каскадирование разрозненных данных имеет два преимущества:
Кроме того, исследование показало, что модели, обученные с использованием каскадных данных, работают сравнимо с моделями, обученными с использованием необработанных данных.
аудио модальность
С одной стороны находится аудиокодер. Входной звук первоначально обрабатывается через блок фильтра Mel, который разлагает аудиосигнал на отдельные полосы частот в пределах диапазона частот Mel, имитируя нелинейное восприятие звука человеком. Впоследствии исследователи использовали слой понижающей дискретизации 4 × CNN и 24-слойный преобразователь с общим количеством 341 миллиона параметров для обработки входных функций. Также они используют простой двухслойный MLP в качестве модального соединителя аудио-текста. Наконец, каждые 2 секунды аудиовхода кодируются в 25 токенов.
Еще одним аспектом является выравнивание звука. Для задачи выравнивания исследователи использовали автоматическое распознавание речи (ASR). Наборы данных включают Wenetspeech (более 10 000 часов данных многодоменного распознавания речи, в основном ориентированных на задачи на китайском языке) и Gigaspeech (10 000 часов высококачественных аудиоданных, большинство из которых ориентированы на задачи распознавания английской речи). Для создания аудиосубтитров исследователи использовали подмножество Wavcaps AudioSet SL, которое содержит 400 тысяч аудиоклипов с соответствующими аудиосубтитрами. В процессе выравнивания обучаются как аудиокодеры, так и разъемы.
Точная настройка мультимодальных инструкций
Исследование адаптировало модель, чтобы улучшить ее способность следовать инструкциям, будь то текстовые или аудио.
Построение данных. Источники данных для этапа настройки инструкций такие же, как и для этапа согласования в таблице 1, но в этом исследовании были внесены следующие улучшения:
Вопросы случайным образом (примерно половина) заменяются их аудиоверсиями (с использованием технологии TTS, например GPT-SoVITS6), с целью улучшить понимание моделью аудиозапросов и ее способность следовать инструкциям.
Установите разные системные подсказки, чтобы избежать конфликтов между разными типами данных, как показано в Таблице 2. Например, на некоторые вопросы можно ответить на основе визуальной информации или на основе собственных знаний модели, что приводит к конфликтам. Кроме того, данные изображения были исправлены, как и данные многокадрового видео, что может запутать модель. Системная подсказка явно различает разные типы данных, что помогает интуитивно понимать.
Для реализации двух интерактивных функций, а именно взаимодействия без пробуждения и взаимодействия с прерыванием звука, в этом исследовании предлагается структура дуплексного развертывания, то есть одновременно развертываются две модели VITA, как показано на рисунке 1.
Обычно модель генерации отвечает на запросы пользователей. В то же время модель мониторинга обнаруживает звуки окружающей среды в процессе генерации. Он игнорирует голоса пользователей, не запрашивающие запросы, но останавливает процесс создания модели, когда распознается звук запроса. Затем модель мониторинга интегрирует исторический контекст и отвечает на последние запросы пользователей, при этом идентификаторы моделей генерации и мониторинга меняются местами.
Экспериментальная оценка
языковая производительность. Чтобы проверить эффективность процесса обучения языковой модели, исследователи использовали четыре набора данных, а именно C-EVAL, AGIEVAL, MMLU и GSM8K. Эти наборы данных охватывают различные сценарии, включая общие вопросы с несколькими вариантами ответов, междисциплинарные вопросы викторины, а также задачи на математическое и логическое рассуждение, охватывающие как китайский, так и английский контекст.
Результаты, представленные в Таблице 3 ниже, показывают, что обучение в этой статье значительно улучшает возможности языковой модели в оценочном наборе китайского языка (C-EVAL и AGIEVAL), сохраняя при этом первоначальный уровень производительности в тесте, связанном с английским языком (MMLU), и улучшение математических рассуждений. Значительное улучшение достигнуто в выполнении задачи (GSM8K).
аудио исполнение. Чтобы проверить надежность речевого представления, изученного моделью, исследователи провели тестирование на двух наборах данных: Wenetspeech и Librispeech.
Среди них Wenetspeech имеет два индикатора оценки, а именно test_net и test_meeting. Источник данных первого более соответствует данным обучения, поэтому второй представляет собой более сложную задачу. В качестве резервного набора данных модели Librispeech оценивает способность модели к обобщению на невидимых наборах данных. Он имеет четыре набора оценок: набор, начинающийся с «dev», и набор, начинающийся с «test». — это тестовый набор, «Чистый» представляет собой менее сложный набор, а «другое» представляет собой более сложный набор.
Как видно из результатов, представленных в Таблице 4 ниже, VITA достигла очень хороших результатов в тесте ASR.
Мультимодальное исполнение. Чтобы оценить мультимодальные возможности, в исследовании VITA оценивалась по четырем критериям, включая MME, OCRBench, HallusionBench и Video-MME. Результаты показаны на рисунке 5.
С точки зрения понимания изображений VITA лучше, чем модель с открытым исходным кодом для конкретных изображений LLaVA-Next, и близка к модели с закрытым исходным кодом Gemini 1.5 Pro.
С точки зрения понимания видео VITA превосходит Video-CCAM, видеомодель с открытым исходным кодом. Хотя существует разрыв между VITA и LLaVA-Next-Video, предназначенным для видео, это приемлемо, учитывая, что VITA поддерживает более широкий спектр модальностей и отдает приоритет интерактивности.
Наконец, стоит отметить, что по-прежнему существует большой разрыв в возможностях понимания видео между моделями с открытым исходным кодом и проприетарными моделями.