Новости

Отказавшись от визуального кодировщика, эта мультимодальная большая модель «родной версии» также сравнима с основными методами.

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];

Дяо Хайвэнь — аспирант Даляньского технологического университета, его научный руководитель — профессор Лу Хучуань. В настоящее время работает стажером в Пекинском научно-исследовательском институте искусственного интеллекта Чжиюань под руководством доктора Ван Синьлуна. Его исследовательские интересы — видение и язык, эффективная передача больших моделей, мультимодальные большие модели и т. д. Соавтор Цуй Юфэн окончил Бэйханский университет и является исследователем алгоритмов в Центре зрения Пекинского научно-исследовательского института искусственного интеллекта Чжиюань. Его исследовательские интересы — мультимодальные модели, генеративные модели и компьютерное зрение, а его основная работа включает серию Emu.

В последнее время исследования мультимодальных больших моделей идут полным ходом, и отрасль вкладывает в это все больше средств. За рубежом были запущены горячие модели, такие как GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) и Grok-1.5V (xAI) и т. д. В то же время отечественные GLM-4V (Wisdom Spectrum AI), Step-1,5V (Step Star), Emu2 (Пекин Чжиюань), Intern-VL (Шанхайская лаборатория искусственного интеллекта), Qwen-VL (Alibaba) и т. д. Модели в полном расцвете.

Текущая модель визуального языка (VLM) обычно использует визуальный кодировщик (Vision Encoder, VE) для извлечения визуальных функций, а затем объединяет пользовательские инструкции с большой языковой моделью (LLM) для обработки и ответа. Визуальный кодер и разделение обучения модели большого языка. Такое разделение приводит к тому, что визуальные кодировщики создают проблемы смещения визуальной индукции при взаимодействии с большими языковыми моделями, такие как ограниченное разрешение изображения и соотношение сторон, а также сильные визуальные семантические априорные значения. Поскольку возможности визуальных кодеров продолжают расширяться, эффективность развертывания мультимодальных больших моделей при обработке визуальных сигналов также сильно ограничена. Кроме того, поиск оптимальной конфигурации емкости визуальных кодировщиков и больших языковых моделей становится все более сложным и трудным.

На этом фоне быстро возникли еще несколько передовых идей:

  • Можем ли мы удалить визуальный кодировщик, то есть напрямую построить большую собственную мультимодальную модель без визуального кодировщика?
  • Как эффективно и плавно превратить большую языковую модель в нативную мультимодальную большую модель без визуальных кодировщиков?
  • Как преодолеть разрыв в производительности между собственными мультимодальными платформами без кодировщиков и основными мультимодальными парадигмами на основе кодировщиков?

Adept AI выпустил серию моделей Fuyu в конце 2023 года и предпринял несколько связанных с этим попыток, но не раскрыл никаких стратегий обучения, ресурсов данных и информации об оборудовании. В то же время существует значительный разрыв в производительности между моделью Фую и основными алгоритмами в показателях публичной визуальной оценки текста. В тот же период некоторые пилотные эксперименты, которые мы провели, показали, что даже если масштаб данных предварительного обучения будет увеличен в больших масштабах, собственная мультимодальная большая модель без кодировщика по-прежнему сталкивается с такими сложными проблемами, как медленная скорость сходимости и низкая производительность.

В ответ на эти проблемы группа видения Чжиюаньского научно-исследовательского института объединилась с местными университетами, такими как Даляньский технологический университет и Пекинский университет, чтобы запустить новое поколение модели визуального языка EVE, не требующей кодирования. Благодаря усовершенствованным стратегиям обучения и дополнительному визуальному контролю EVE интегрирует визуально-лингвистическое представление, выравнивание и вывод в единую архитектуру чистого декодера. Используя общедоступные данные, EVE хорошо показывает себя во многих визуально-лингвистических тестах, конкурируя с основными мультимодальными методами на основе кодировщиков аналогичной мощности и значительно превосходя по производительности аналог Fuyu-8B. Предполагается, что EVE обеспечит прозрачный и эффективный путь разработки собственных мультимодальных архитектур для чистых декодеров.





  • Адрес статьи: https://arxiv.org/abs/2406.11832.
  • Код проекта: https://github.com/baaivision/EVE.
  • Адрес модели: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Технические особенности

  • Модель собственного визуального языка: ломает фиксированную парадигму основных мультимодальных моделей, удаляет визуальный кодировщик и может обрабатывать любое соотношение сторон изображения. Он значительно лучше, чем модель Fuyu-8B того же типа в нескольких тестах визуального языка, и близок к основной архитектуре визуального языка на основе визуального кодировщика.
  • Низкие затраты на данные и обучение: при предварительном обучении модели EVE были проверены только общедоступные данные из OpenImages, SAM и LAION, а также использовано 665 000 данных инструкций LLaVA и дополнительные 1,2 миллиона данных визуальных диалогов для создания обычных и высокоуровневых версий соответственно. версия EVE-7B. Обучение занимает примерно 9 дней на двух узлах 8-A100 (40G) или 5 дней на четырех узлах 8-A100.
  • Прозрачное и эффективное исследование: EVE пытается исследовать эффективный, прозрачный и практичный путь к собственной модели визуального языка, предоставляя новые идеи и ценный опыт для разработки нового поколения архитектуры модели визуального языка с чистым декодером для будущих мультимодальных систем. моделей открывает новые направления для исследований.

2. Структура модели



Во-первых, он инициализируется с помощью языковой модели Vicuna-7B, что обеспечивает ему богатые знания языка и мощные возможности выполнения инструкций. На этой основе удаляется глубокий визуальный кодер, создается облегченный уровень визуального кодирования, входное изображение кодируется эффективно и без потерь и вводится в унифицированный декодер вместе с командами пользовательского языка. Кроме того, уровень визуального выравнивания выполняет выравнивание объектов с помощью общего визуального кодировщика для улучшения детального кодирования и представления визуальной информации.



2.1 Слой внедрения патча

  • Сначала используйте один сверточный слой, чтобы получить 2D-карту объектов изображения, а затем выполните понижающую дискретизацию с помощью среднего слоя пула;
  • Используйте модуль перекрестного внимания (CA1) для взаимодействия в ограниченном рецептивном поле, чтобы улучшить локальные особенности каждого патча;
  • Используйте токен <CLS> и объедините его с модулем перекрестного внимания (CA2), чтобы предоставить глобальную информацию для каждой последующей функции исправления;
  • Обучаемый токен <SPL> вставляется в конец каждой характерной линии патча, чтобы помочь сети понять двумерную пространственную структуру изображения.

2.2 Слой выравнивания патча

  • Запишите 2D-форму действительного патча, отбросьте <CLS>/;
  • токены и использовать слой адаптивного пула для восстановления исходной двумерной формы;
  • С помощью иерархического модуля перекрестного внимания (CA3) визуальные функции многоуровневой сети интегрируются для достижения точного согласования с выходными данными визуального кодировщика.

3. Стратегия обучения



  • Этап предварительного обучения, основанный на большой языковой модели: устанавливает первоначальную связь между зрением и языком, закладывая основу для последующего стабильного и эффективного крупномасштабного предварительного обучения;
  • Генеративный этап предварительного обучения: дальнейшее улучшение способности модели понимать визуально-лингвистический контент и достижение плавного перехода от чисто языковой модели к мультимодальной модели;
  • Этап контролируемой тонкой настройки: дальнейшая стандартизация способности модели следовать языковым инструкциям и изучать шаблоны диалогов для соответствия требованиям различных тестов визуального языка.



  • На этапе предварительного обучения было проверено 33 миллиона общедоступных данных из SA-1B, OpenImages и LAION, и были сохранены только образцы изображений с разрешением выше 448×448. В частности, для решения проблемы высокой избыточности изображений LAION было создано 50 000 кластеров путем применения кластеризации K-средних к функциям изображения, извлеченным с помощью EVA-CLIP, и, наконец, были выбраны 300 изображений, ближайших к каждому центру кластера. отобрали 15 миллионов образцов изображений LAION. Впоследствии высококачественные описания изображений восстанавливаются с помощью Emu2 (17B) и LLaVA-1.5 (13B).
  • На этапе контролируемой тонкой настройки набор данных тонкой настройки LLaVA-mix-665K используется для обучения стандартной версии EVE-7B и смешанных наборов данных, таких как AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan. и Bunny-695K интегрированы для обучения версии EVE-7B с высоким разрешением.

4. Количественный анализ



Модель EVE значительно превосходит аналогичную модель Fuyu-8B во многих тестах визуального языка и работает на одном уровне с различными распространенными моделями визуального языка на основе кодировщиков. Однако из-за использования большого количества данных визуального языка для обучения возникают проблемы с точным реагированием на конкретные инструкции, и необходимо улучшить его производительность в некоторых тестах производительности. Что интересно, так это то, что благодаря эффективным стратегиям обучения EVE без кодировщика может достичь производительности, сравнимой с моделью визуального языка на основе кодера, фундаментально решая проблемы гибкости размера входных данных, эффективности развертывания и модальности основных моделей.



По сравнению с моделями с кодировщиками, которые подвержены таким проблемам, как упрощение языковой структуры и потеря богатых знаний, EVE продемонстрировала постепенное и стабильное улучшение производительности по мере увеличения размера данных, постепенно приближаясь к уровню производительности моделей на основе кодировщиков. Это может быть связано с тем, что кодирование и согласование визуальных и языковых модальностей в единой сети является более сложной задачей, что делает модели без кодировщиков менее склонными к переоснащению по сравнению с моделями с кодировщиками.

5. Что думают ваши сверстники?

Али Хатамизаде, старший научный сотрудник NVIDIA, сказал, что EVE обновляется и пытается предложить новую историю, которая отличается от построения сложных стандартов оценки и прогрессивных улучшений модели визуального языка.



Арманд Жулен, главный исследователь Google Deepmind, сказал, что создание модели визуального языка в чистом декодере — это увлекательно.



Инженер Apple по машинному обучению принц Канума сказал, что архитектура EVE очень интересна и является хорошим дополнением к набору проектов MLX VLM.



6. Перспективы на будущее

Как модель родного визуального языка без кодирования, EVE в настоящее время добилась обнадеживающих результатов. На этом пути есть несколько интересных направлений, которые стоит изучить в будущем:

  • Дальнейшее улучшение производительности: эксперименты показали, что предварительное обучение с использованием только визуально-лингвистических данных значительно снизило языковые способности модели (показатель SQA снизился с 65,3% до 63,0%), но постепенно улучшило мультимодальную производительность модели. Это указывает на то, что при обновлении больших языковых моделей происходит внутреннее катастрофическое забывание языковых знаний. Рекомендуется соответствующим образом интегрировать данные предварительной подготовки по чистому языку или использовать стратегию смешанных экспертов (МО), чтобы уменьшить взаимодействие между визуальными и языковыми модальностями.
  • Видение архитектуры без кодировщика: при наличии соответствующих стратегий и обучения с использованием высококачественных данных модели визуального языка без кодировщиков могут конкурировать с моделями с кодировщиками. Итак, какова производительность этих двух моделей при одинаковой мощности модели и массивных обучающих данных? Мы предполагаем, что за счет расширения емкости модели и объема обучающих данных архитектура без кодировщика может достичь или даже превзойти архитектуру на основе кодера, поскольку первая вводит изображения почти без потерь и позволяет избежать априорной предвзятости визуального кодировщика.
  • Создание собственных мультимодальных моделей: EVE полностью демонстрирует, как эффективно и стабильно создавать собственные мультимодальные модели, что открывает прозрачный и осуществимый способ интеграции большего количества модальностей (таких как аудио, видео, тепловидение, глубина и т. д.). в будущем. Основная идея состоит в том, чтобы предварительно согласовать эти модальности с помощью замороженной большой языковой модели перед внедрением крупномасштабного унифицированного обучения и использовать соответствующие одномодальные кодировщики и согласование языковых концепций для контроля.