моя контактная информация
Почтамезофия@protonmail.com
2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];
Дяо Хайвэнь — аспирант Даляньского технологического университета, его научный руководитель — профессор Лу Хучуань. В настоящее время работает стажером в Пекинском научно-исследовательском институте искусственного интеллекта Чжиюань под руководством доктора Ван Синьлуна. Его исследовательские интересы — видение и язык, эффективная передача больших моделей, мультимодальные большие модели и т. д. Соавтор Цуй Юфэн окончил Бэйханский университет и является исследователем алгоритмов в Центре зрения Пекинского научно-исследовательского института искусственного интеллекта Чжиюань. Его исследовательские интересы — мультимодальные модели, генеративные модели и компьютерное зрение, а его основная работа включает серию Emu.
В последнее время исследования мультимодальных больших моделей идут полным ходом, и отрасль вкладывает в это все больше средств. За рубежом были запущены горячие модели, такие как GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) и Grok-1.5V (xAI) и т. д. В то же время отечественные GLM-4V (Wisdom Spectrum AI), Step-1,5V (Step Star), Emu2 (Пекин Чжиюань), Intern-VL (Шанхайская лаборатория искусственного интеллекта), Qwen-VL (Alibaba) и т. д. Модели в полном расцвете.
Текущая модель визуального языка (VLM) обычно использует визуальный кодировщик (Vision Encoder, VE) для извлечения визуальных функций, а затем объединяет пользовательские инструкции с большой языковой моделью (LLM) для обработки и ответа. Визуальный кодер и разделение обучения модели большого языка. Такое разделение приводит к тому, что визуальные кодировщики создают проблемы смещения визуальной индукции при взаимодействии с большими языковыми моделями, такие как ограниченное разрешение изображения и соотношение сторон, а также сильные визуальные семантические априорные значения. Поскольку возможности визуальных кодеров продолжают расширяться, эффективность развертывания мультимодальных больших моделей при обработке визуальных сигналов также сильно ограничена. Кроме того, поиск оптимальной конфигурации емкости визуальных кодировщиков и больших языковых моделей становится все более сложным и трудным.
На этом фоне быстро возникли еще несколько передовых идей:
Adept AI выпустил серию моделей Fuyu в конце 2023 года и предпринял несколько связанных с этим попыток, но не раскрыл никаких стратегий обучения, ресурсов данных и информации об оборудовании. В то же время существует значительный разрыв в производительности между моделью Фую и основными алгоритмами в показателях публичной визуальной оценки текста. В тот же период некоторые пилотные эксперименты, которые мы провели, показали, что даже если масштаб данных предварительного обучения будет увеличен в больших масштабах, собственная мультимодальная большая модель без кодировщика по-прежнему сталкивается с такими сложными проблемами, как медленная скорость сходимости и низкая производительность.
В ответ на эти проблемы группа видения Чжиюаньского научно-исследовательского института объединилась с местными университетами, такими как Даляньский технологический университет и Пекинский университет, чтобы запустить новое поколение модели визуального языка EVE, не требующей кодирования. Благодаря усовершенствованным стратегиям обучения и дополнительному визуальному контролю EVE интегрирует визуально-лингвистическое представление, выравнивание и вывод в единую архитектуру чистого декодера. Используя общедоступные данные, EVE хорошо показывает себя во многих визуально-лингвистических тестах, конкурируя с основными мультимодальными методами на основе кодировщиков аналогичной мощности и значительно превосходя по производительности аналог Fuyu-8B. Предполагается, что EVE обеспечит прозрачный и эффективный путь разработки собственных мультимодальных архитектур для чистых декодеров.
1. Технические особенности
2. Структура модели
Во-первых, он инициализируется с помощью языковой модели Vicuna-7B, что обеспечивает ему богатые знания языка и мощные возможности выполнения инструкций. На этой основе удаляется глубокий визуальный кодер, создается облегченный уровень визуального кодирования, входное изображение кодируется эффективно и без потерь и вводится в унифицированный декодер вместе с командами пользовательского языка. Кроме того, уровень визуального выравнивания выполняет выравнивание объектов с помощью общего визуального кодировщика для улучшения детального кодирования и представления визуальной информации.
2.1 Слой внедрения патча
2.2 Слой выравнивания патча
3. Стратегия обучения
4. Количественный анализ
Модель EVE значительно превосходит аналогичную модель Fuyu-8B во многих тестах визуального языка и работает на одном уровне с различными распространенными моделями визуального языка на основе кодировщиков. Однако из-за использования большого количества данных визуального языка для обучения возникают проблемы с точным реагированием на конкретные инструкции, и необходимо улучшить его производительность в некоторых тестах производительности. Что интересно, так это то, что благодаря эффективным стратегиям обучения EVE без кодировщика может достичь производительности, сравнимой с моделью визуального языка на основе кодера, фундаментально решая проблемы гибкости размера входных данных, эффективности развертывания и модальности основных моделей.
По сравнению с моделями с кодировщиками, которые подвержены таким проблемам, как упрощение языковой структуры и потеря богатых знаний, EVE продемонстрировала постепенное и стабильное улучшение производительности по мере увеличения размера данных, постепенно приближаясь к уровню производительности моделей на основе кодировщиков. Это может быть связано с тем, что кодирование и согласование визуальных и языковых модальностей в единой сети является более сложной задачей, что делает модели без кодировщиков менее склонными к переоснащению по сравнению с моделями с кодировщиками.
5. Что думают ваши сверстники?
Али Хатамизаде, старший научный сотрудник NVIDIA, сказал, что EVE обновляется и пытается предложить новую историю, которая отличается от построения сложных стандартов оценки и прогрессивных улучшений модели визуального языка.
Арманд Жулен, главный исследователь Google Deepmind, сказал, что создание модели визуального языка в чистом декодере — это увлекательно.
Инженер Apple по машинному обучению принц Канума сказал, что архитектура EVE очень интересна и является хорошим дополнением к набору проектов MLX VLM.
6. Перспективы на будущее
Как модель родного визуального языка без кодирования, EVE в настоящее время добилась обнадеживающих результатов. На этом пути есть несколько интересных направлений, которые стоит изучить в будущем: