Не ждите OpenAI GPT-4o с открытым исходным кодом, дождитесь версии с открытым исходным кодом VITA

Не ждите OpenAI GPT-4o с открытым исходным кодом, дождитесь версии VITA с открытым исходным кодом.

2024-08-14

Отчет о сердце машины

Редакция «Машинное сердце»

В области открытого исходного кода снова есть хорошие новости.

Модели больших языков (LLM) претерпели значительную эволюцию, и в последнее время мы также стали свидетелями бума мультимодальных моделей большого языка (MLLM), которые демонстрируют удивительные мультимодальные возможности.

В частности, появление GPT-4o значительно способствовало развитию сферы MLLM. Однако модели с открытым исходным кодом, соответствующие этим моделям, существенно недостаточны. Невозможно переоценить острую необходимость дальнейшего развития сообщества открытого исходного кода в этой области.

В этой статье исследователи из Tencent Youtu Lab и других учреждений предлагают VITA, которая является первой мультимодальной моделью большого языка (MLLM) с открытым исходным кодом, которая может одновременно обрабатывать и анализировать видео, изображения, текст и аудио. в то же время он обладает передовым мультимодальным интерактивным интерфейсом.

Исследователи использовали Mixtral 8x7B в качестве языковой основы, затем расширили словарный запас китайского языка и доработали двуязычные инструкции. Кроме того, исследователи дополнительно наделили языковую модель визуальными и звуковыми возможностями посредством двухэтапного многозадачного обучения мультимодального выравнивания и точной настройки инструкций.

VITA демонстрирует сильные возможности многоязычного, визуального и аудиопонимания, о чем свидетельствуют его отличные результаты в одномодальных и мультимодальных тестах.

Помимо базовых возможностей, это исследование также добилось большого прогресса в улучшении естественного мультимодального взаимодействия человека с компьютером. Насколько нам известно, это первое исследование, в котором используются взаимодействия без бодрствования и прерывания звука в MLLM. Исследователи также разработали дополнительные токены статуса и соответствующие обучающие данные и стратегии для восприятия различных сценариев взаимодействия.

VITA развертывается с использованием дуплексного подхода: одна модель отвечает за генерацию ответов на запросы пользователей, а другая модель постоянно отслеживает воздействие окружающей среды. Это дает VITA впечатляющие возможности взаимодействия человека с компьютером.

VITA — это первый шаг сообщества открытого исходного кода к исследованию плавной интеграции мультимодального понимания и взаимодействия. Хотя над VITA еще предстоит проделать большую работу, чтобы приблизиться к своим аналогам с закрытым исходным кодом, в исследовании надеются, что роль VITA как пионера может послужить краеугольным камнем для последующих исследований.

Адрес статьи: https://arxiv.org/pdf/2408.05211.
Домашняя страница бумаги: https://vita-home.github.io/
Название статьи: VITA: На пути к интерактивному омни-мультимодальному LLM с открытым исходным кодом

视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

В приведенном выше видео пользователи могут безбарьерно общаться с VITA. Увидев белую футболку, которую носит пользователь, ему будет предложено выбрать цвет брюк, когда ему зададут математический вопрос, и он сможет просмотреть тип вопроса; в режиме реального времени и делать выводы, а затем давать точные ответы, когда вы разговариваете с другими, VITA не будет перебивать, поскольку знает, что пользователь не общается с ним во время путешествия, VITA также будет давать некоторые подсказки в процессе; вывода VITA вы также можете прервать разговор в реальном времени и начать другую тему.

В этом видео пользователь держит печенье и спрашивает ВИТА, что он ест. ВИТА говорит ему, что он ест печенье, и предлагает, чтобы печенье было вкуснее с молоком или чаем.

Во время тренировки будьте вашим собеседником:

Примечание. Вышеупомянутые видео воспроизводятся в реальном времени со скоростью 1x и без ускорения.

На основе блок-схемы, предоставленной пользователем, VITA может написать код:

Предоставьте изображение, и VITA также сможет ответить на вопросы, основанные на содержании изображения:

Вы также можете смотреть видео и отвечать на вопросы. Когда пользователи задают вопрос «Подробно опишите движения собаки», VITA также может дать точные ответы:

Введение метода

Как показано на рисунке 3, общий процесс обучения VITA включает три этапа: точная настройка инструкций LLM, мультимодальное согласование и точная настройка мультимодальных инструкций.

Точная настройка инструкций LLM

Производительность Mixtral 8x7B входит в число лучших LLM с открытым исходным кодом, поэтому она была использована в качестве основы для данного исследования. Однако исследователи заметили, что официальная модель Mixtral имеет ограниченную способность понимать китайский язык. Чтобы расширить возможности двуязычного (китайского и английского) понимания, исследование расширило словарный запас китайского языка до базовой модели, увеличив словарный запас с 32 000 до 51 747. После расширения словарного запаса исследователи использовали синтетический двуязычный корпус из 5 миллионов человек для точной настройки простых текстовых инструкций.

Мультимодальное выравнивание

Преодолеть разрыв в репрезентации между текстом и другими модальностями, тем самым закладывая основу для мультимодального понимания. Визуальные коннекторы тренируются только на этапе визуального выравнивания. В таблице 1 приведены использованные данные обучения, за исключением текстовой части.

визуальная модальность

Первый — визуальный кодер. Исследователи использовали InternViT-300M-448px в качестве визуального кодировщика, который принимал на вход изображение с разрешением 448×448 и генерировал 256 токенов после использования визуального коннектора в качестве простого двухслойного MLP. Для ввода изображений с высоким разрешением исследователи используют стратегии динамического исправления для захвата локальных деталей.

Видео считается особым вариантом использования изображений. Если продолжительность видео короче 4 секунд, равномерно будет выбрано 4 кадра в секунду. Если продолжительность видео составляет от 4 до 16 секунд, каждую секунду производится выборка одного кадра. Для видео продолжительностью более 16 секунд равномерно выбираются 16 кадров.

Во-вторых, визуальное выравнивание. Мы тренировали зрительный коннектор только на этапе визуального выравнивания и не использовали аудиовопросы на этом этапе.

Наконец, существует каскадирование данных. Для простых текстовых данных и данных изображения цель данного исследования — объединить длину контекста с токенами длиной 6 000, как показано на рисунке 4. Стоит отметить, что видеоданные не объединяются.

Каскадирование разрозненных данных имеет два преимущества:

Он поддерживает большую длину контекста, позволяя масштабировать взаимодействие с вопросом с одним изображением до взаимодействия с несколькими вопросами с изображением, что приводит к более гибким формам ввода и расширенной длине контекста.
Это повышает эффективность вычислений, поскольку видеокадры обычно содержат большое количество визуальных токенов. Объединив пары «изображение-вопрос», это исследование может поддерживать сбалансированное количество токенов в обучающем пакете, тем самым повышая эффективность вычислений.

Кроме того, исследование показало, что модели, обученные с использованием каскадных данных, работают сравнимо с моделями, обученными с использованием необработанных данных.

аудио модальность

С одной стороны находится аудиокодер. Входной звук первоначально обрабатывается через блок фильтра Mel, который разлагает аудиосигнал на отдельные полосы частот в пределах диапазона частот Mel, имитируя нелинейное восприятие звука человеком. Впоследствии исследователи использовали слой понижающей дискретизации 4 × CNN и 24-слойный преобразователь с общим количеством 341 миллиона параметров для обработки входных функций. Также они используют простой двухслойный MLP в качестве модального соединителя аудио-текста. Наконец, каждые 2 секунды аудиовхода кодируются в 25 токенов.

Еще одним аспектом является выравнивание звука. Для задачи выравнивания исследователи использовали автоматическое распознавание речи (ASR). Наборы данных включают Wenetspeech (более 10 000 часов данных многодоменного распознавания речи, в основном ориентированных на задачи на китайском языке) и Gigaspeech (10 000 часов высококачественных аудиоданных, большинство из которых ориентированы на задачи распознавания английской речи). Для создания аудиосубтитров исследователи использовали подмножество Wavcaps AudioSet SL, которое содержит 400 тысяч аудиоклипов с соответствующими аудиосубтитрами. В процессе выравнивания обучаются как аудиокодеры, так и разъемы.

Точная настройка мультимодальных инструкций

Исследование адаптировало модель, чтобы улучшить ее способность следовать инструкциям, будь то текстовые или аудио.

Построение данных. Источники данных для этапа настройки инструкций такие же, как и для этапа согласования в таблице 1, но в этом исследовании были внесены следующие улучшения:

Вопросы случайным образом (примерно половина) заменяются их аудиоверсиями (с использованием технологии TTS, например GPT-SoVITS6), с целью улучшить понимание моделью аудиозапросов и ее способность следовать инструкциям.

Установите разные системные подсказки, чтобы избежать конфликтов между разными типами данных, как показано в Таблице 2. Например, на некоторые вопросы можно ответить на основе визуальной информации или на основе собственных знаний модели, что приводит к конфликтам. Кроме того, данные изображения были исправлены, как и данные многокадрового видео, что может запутать модель. Системная подсказка явно различает разные типы данных, что помогает интуитивно понимать.

Для реализации двух интерактивных функций, а именно взаимодействия без пробуждения и взаимодействия с прерыванием звука, в этом исследовании предлагается структура дуплексного развертывания, то есть одновременно развертываются две модели VITA, как показано на рисунке 1.

Обычно модель генерации отвечает на запросы пользователей. В то же время модель мониторинга обнаруживает звуки окружающей среды в процессе генерации. Он игнорирует голоса пользователей, не запрашивающие запросы, но останавливает процесс создания модели, когда распознается звук запроса. Затем модель мониторинга интегрирует исторический контекст и отвечает на последние запросы пользователей, при этом идентификаторы моделей генерации и мониторинга меняются местами.

Экспериментальная оценка

языковая производительность. Чтобы проверить эффективность процесса обучения языковой модели, исследователи использовали четыре набора данных, а именно C-EVAL, AGIEVAL, MMLU и GSM8K. Эти наборы данных охватывают различные сценарии, включая общие вопросы с несколькими вариантами ответов, междисциплинарные вопросы викторины, а также задачи на математическое и логическое рассуждение, охватывающие как китайский, так и английский контекст.

Результаты, представленные в Таблице 3 ниже, показывают, что обучение в этой статье значительно улучшает возможности языковой модели в оценочном наборе китайского языка (C-EVAL и AGIEVAL), сохраняя при этом первоначальный уровень производительности в тесте, связанном с английским языком (MMLU), и улучшение математических рассуждений. Значительное улучшение достигнуто в выполнении задачи (GSM8K).

аудио исполнение. Чтобы проверить надежность речевого представления, изученного моделью, исследователи провели тестирование на двух наборах данных: Wenetspeech и Librispeech.

Среди них Wenetspeech имеет два индикатора оценки, а именно test_net и test_meeting. Источник данных первого более соответствует данным обучения, поэтому второй представляет собой более сложную задачу. В качестве резервного набора данных модели Librispeech оценивает способность модели к обобщению на невидимых наборах данных. Он имеет четыре набора оценок: набор, начинающийся с «dev», и набор, начинающийся с «test». — это тестовый набор, «Чистый» представляет собой менее сложный набор, а «другое» представляет собой более сложный набор.

Как видно из результатов, представленных в Таблице 4 ниже, VITA достигла очень хороших результатов в тесте ASR.

Мультимодальное исполнение. Чтобы оценить мультимодальные возможности, в исследовании VITA оценивалась по четырем критериям, включая MME, OCRBench, HallusionBench и Video-MME. Результаты показаны на рисунке 5.

С точки зрения понимания изображений VITA лучше, чем модель с открытым исходным кодом для конкретных изображений LLaVA-Next, и близка к модели с закрытым исходным кодом Gemini 1.5 Pro.

С точки зрения понимания видео VITA превосходит Video-CCAM, видеомодель с открытым исходным кодом. Хотя существует разрыв между VITA и LLaVA-Next-Video, предназначенным для видео, это приемлемо, учитывая, что VITA поддерживает более широкий спектр модальностей и отдает приоритет интерактивности.

Наконец, стоит отметить, что по-прежнему существует большой разрыв в возможностях понимания видео между моделями с открытым исходным кодом и проприетарными моделями.

новости

Не ждите OpenAI GPT-4o с открытым исходным кодом, дождитесь версии VITA с открытым исходным кодом.

Введение

Моя контактная информация