Выпущена среда оценки мультимодальных моделей lmms-eval! Комплексное покрытие, низкая стоимость, нулевой уровень загрязнения

Выпущена среда оценки мультимодальных моделей lmms-eval! Комплексное покрытие, низкая стоимость, нулевое загрязнение

2024-08-21

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета.Электронная почта для отправки: [email protected];

вместе сбольшая модельС углублением исследований вопрос о том, как распространить их на большее количество модальностей, стал горячей темой в научных кругах и промышленности. Недавно выпущенные большие модели с закрытым исходным кодом, такие как ГПТ-4о、Клод 3.5 и другие уже обладают возможностями суперпонимания изображений, а модели предметной области с открытым исходным кодом, такие как LLaVA-NeXT, MiniCPM и InternVL, также продемонстрировали производительность, приближающуюся к закрытому исходному коду.

В эпоху «80 000 килограммов на му» и «одного SoTA каждые 10 дней» мультимодальные системы оценки, которые просты в использовании, имеют прозрачные стандарты и воспроизводимы, становятся все более важными, и это непросто.

Чтобы решить вышеупомянутые проблемы, исследователи из лаборатории LMMs-Lab Наньянского технологического университета совместно открыли исходный код LMMs-Eval, который представляет собой среду оценки, специально разработанную для мультимодальных крупномасштабных моделей и предоставляющую метод оценки мультимодальных моделей. (LMM). Универсальное и эффективное решение.

Репозиторий кода: https://github.com/EvolvingLMMs-Lab/lmms-eval.
Официальная домашняя страница: https://lmms-lab.github.io/
Адрес статьи: https://arxiv.org/abs/2407.12772.
Адрес списка: https://huggingface.co/spaces/lmms-lab/LiveBench.

С момента своего выпуска в марте 2024 года платформа LMMs-Eval получила совместный вклад от многих сторон, включая сообщество открытого исходного кода, компании и университеты. На данный момент он получил 1,1 тыс. звезд на Github при участии более 30+ участников, включая в общей сложности более 80 наборов данных и более 10 моделей, и его число продолжает расти.

Стандартизированная система оценки

Чтобы предоставить стандартизированную платформу оценки, LMMs-Eval включает в себя следующие функции:

Унифицированный интерфейс: LMMs-Eval улучшен и расширен на основе текстовой среды оценки lm-evaluation-harness. За счет определения единого интерфейса для моделей, наборов данных и показателей оценки пользователям удобно добавлять новые мультимодальные модели и данные. набор.
Запуск в один клик: LMMs-Eval размещает на HuggingFace более 80 (и их количество растет) наборов данных, тщательно преобразованных из исходных источников, включая все варианты, версии и разделения. Пользователям не нужно делать никаких приготовлений. С помощью всего лишь одной команды несколько наборов данных и моделей будут автоматически загружены и протестированы, а результаты будут доступны через несколько минут.
Прозрачность и воспроизводимость: LMMs-Eval имеет встроенный унифицированный инструмент регистрации. Каждый вопрос, на который отвечает модель, и является ли он правильным или нет, будет записан, что обеспечивает воспроизводимость и прозрачность. Это также облегчает сравнение преимуществ и недостатков различных моделей.

Концепция LMMs-Eval заключается в том, что будущие мультимодальные модели больше не требуют написания собственного кода обработки данных, вывода и отправки. В сегодняшних условиях, когда мультимодальные наборы тестов очень сконцентрированы, этот подход нереалистичен, а полученные результаты трудно напрямую сравнивать с другими моделями. Получив доступ к LMMs-Eval, инструкторы моделей могут больше сосредоточиться на улучшении и оптимизации самой модели, а не тратить время на оценку и согласование результатов.

«Невозможный треугольник» оценки

Конечная цель LMMs-Eval — найти метод оценки LMM с 1. широким охватом, 2. низкой стоимостью и 3. нулевой утечкой данных. Однако даже при использовании LMMs-Eval команда авторов обнаружила, что достичь этих трех пунктов одновременно сложно или даже невозможно.

Как показано на рисунке ниже, когда они расширили набор оценочных данных до более чем 50, выполнение комплексной оценки этих наборов данных стало очень трудоемким. Более того, эти тесты также подвержены загрязнению во время обучения. С этой целью LMMs-Eval предложила LMMs-Eval-Lite, учитывая широкий охват и низкую стоимость. Они также разработали LiveBench, чтобы он был недорогим и не допускал утечки данных.

LMMs-Eval-Lite: упрощенная оценка с широким охватом

При оценке больших моделей большое количество параметров и задач тестирования часто резко увеличивают время и стоимость задачи оценки. Поэтому люди часто предпочитают использовать меньшие наборы данных или использовать конкретные наборы данных для оценки. Однако ограниченная оценка часто приводит к непониманию возможностей модели. Чтобы принять во внимание как разнообразие оценок, так и стоимость оценки, компания LMMs-Eval запустила LMMs-Eval-Lite.

LMMs-Eval-Lite стремится создать упрощенный набор тестов для предоставления полезных и быстрых сигналов во время разработки модели, что позволяет избежать проблемы раздувания сегодняшних тестов. Если мы сможем найти подмножество существующего тестового набора, в котором абсолютные оценки и относительные рейтинги между моделями останутся такими же, как и в полном наборе, то мы сможем считать безопасным сокращение этих наборов данных.

Чтобы найти важные точки данных в наборе данных, LMMs-Eval сначала использует модели CLIP и BGE для преобразования набора мультимодальных оценочных данных в форму векторного внедрения, а затем использует метод k-жадной кластеризации для поиска важных данных. точки. При тестировании эти меньшие наборы данных по-прежнему демонстрировали возможности оценки, аналогичные полному набору.

Впоследствии LMMs-Eval использовала тот же метод для создания версии Lite, охватывающей больше наборов данных. Эти наборы данных предназначены для того, чтобы помочь людям сэкономить затраты на оценку во время разработки и быстро оценить производительность модели.

LiveBench: динамическое тестирование LMM

Традиционные тесты ориентированы на статическую оценку с использованием фиксированных вопросов и ответов. С развитием мультимодальных исследований модели с открытым исходным кодом часто превосходят коммерческие модели, такие как GPT-4V, в сравнении оценок, но отстают в реальном пользовательском опыте. Динамичные, ориентированные на пользователя чат-боты Arenas и WildVision становятся все более популярными для оценки моделей, но они требуют сбора тысяч пользовательских предпочтений, что делает оценку чрезвычайно дорогой.

Основная идея LiveBench — оценить производительность модели на постоянно обновляемом наборе данных, чтобы добиться нулевого загрязнения и снизить затраты. Команда авторов собрала данные оценки из Интернета и создала конвейер для автоматического сбора самой последней глобальной информации с таких веб-сайтов, как новости и форумы сообщества. Чтобы обеспечить своевременность и достоверность информации, команда авторов отобрала источники из более чем 60 средств массовой информации, включая CNN, BBC, японское агентство Asahi Shimbun и китайское информационное агентство Синьхуа, а также такие форумы, как Reddit. Конкретные шаги заключаются в следующем:

Сделайте снимок экрана своей домашней страницы и удалите рекламу и элементы, не относящиеся к новостям.
Создавайте наборы вопросов и ответов, используя самые мощные мультимодальные модели, доступные на данный момент, такие как GPT4-V, Claude-3-Opus и Gemini-1.5-Pro. Пересмотрено и доработано другой моделью
вопросы для обеспечения точности и актуальности.
Окончательный набор вопросов и ответов просматривается вручную, каждый месяц собирается около 500 вопросов, а 100–300 сохраняются в качестве окончательного набора вопросов Livebench.
Используются стандарты оценки LLaVA-Wilder и Vibe-Eval: оценки модели оценки основаны на предоставленных стандартных ответах, а диапазон оценок составляет [1, 10]. Модель оценки по умолчанию — GPT-4o, в качестве альтернативы также включены Claude-3-Opus и Gemini 1.5 Pro. Окончательные результаты будут основаны на балле, преобразованном в показатель точности в диапазоне от 0 до 100.

В будущем вы также сможете просматривать последние данные оценки мультимодальных моделей, динамически обновляемые каждый месяц, в нашем динамически обновляемом списке, а также результаты последних оценок в списке.

новости

Выпущена среда оценки мультимодальных моделей lmms-eval! Комплексное покрытие, низкая стоимость, нулевое загрязнение

Введение

Моя контактная информация