Новости

Специализируется на решении задач для больших моделей!Новый тест команды Jiajiaya позволяет модели только обнаруживать ошибки, но не решать проблемы.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Предоставлено командой MR-Ben
    Кубиты | Публичный аккаунт QbitAI

Решена проблема достижения высоких результатов в крупных модельных тестах, но низкой производительности в реальных сценариях.

Команда Jiajiaya объединилась с рядом известных университетов, чтобы предложить новый метод оценки, позволяющий некоторым моделям сразу стать прототипами.

Теперь вам не придется беспокоиться о том, что в большой модели будет слишком много «вопросов», а набор тестов не сможет отразить реальный уровень.



Этот новый набор оценочных данных называется MR-Ben и использует существующие вопросы в GSM8K, MMLU и других наборах данных.

Однако личность большой модели в тесте изменилась с «отвечающего ученика» на «выставляющего оценки учителя», и задача состоит в том, чтобыУкажите ошибки в существующих шагах решения.

Таким образом, модель больше не может отвечать на вопросы путем декламации или угадывания, и нет необходимости беспокоиться об утечке тестовых вопросов.

Используя MR-Ben, команда Jiajiaya оценила множество моделей с открытым и закрытым исходным кодом, таких как GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B и т. д.

В настоящее время весь код и данные, включенные в этот набор данных, имеют открытый исходный код.

Знакомые вопросы теста, совершенно новые задания

В настоящее время основным направлением тестирования больших моделей является использование стандартизированных человеческих тестов — вопросов с множественным выбором и вопросов с заполнением пустых полей для проведения оценки большой модели.

Преимущества этого метода тестирования — четкие стандарты, интуитивно понятные индикаторы, а количественные результаты, естественно, актуальны.

Однако автор считает, что, поскольку современные большие модели обычно используют метод пошаговой цепочки мышления для получения окончательного ответа, этот метод не является «надежным».

Модель предварительного обучения уже рассмотрела триллионы токенов во время предварительного обучения.Трудно сказать, видела ли уже оцениваемая модель соответствующие данные., чтобы правильно отвечать на вопросы, «запоминая вопросы».

А поскольку метод оценки в основном основан на проверке окончательного ответа, модельТакже неизвестно, выбран ли правильный вариант на основе правильного понимания и рассуждения.

Хотя академическое сообщество продолжает обновлять и трансформировать наборы данных, такие как GSM8K и MMLU, например, вводя многоязычную версию набора данных MGSM в GSM8K и вводя более сложные вопросы на основе MMLU, оно все еще не может избавиться от стереотипа выбрав или заполнив пробелы.

Более того, эти наборы данных столкнулись с серьезнымипроблема насыщения, значения больших языковых моделей по этим показателям достигли максимума и постепенно утратили свою индивидуальность.

С этой целью команда Jiajiaya объединилась со многими известными университетами, такими как Массачусетский технологический институт, Цинхуа и Кембридж, и сотрудничала с ведущими отечественными компаниями-аннотаторами, чтобы аннотировать набор оценочных данных MR-Ben для процесса рассуждения сложных проблем.



MR-Ben основан на вопросах GSM8K, MMLU, LogiQA, MHPP и других больших наборов тестовых данных, необходимых для предварительного обучения.Трансформация парадигмы «оценки», новый генерируемый набор данных является более сложным и дифференцированным и может более точно отражать способность модели к рассуждению!

Нет необходимости повторно находить вопросы или деформировать вопросы для проверки надежности модели. MR-Ben напрямую меняет модель с «ответа» на «маркер» и оценивает существующий процесс ответа в наборе данных. модель быть учителем, чтобы проверить свое мастерство в знаниях!

В частности, команда Jiajiaya организовала основные наборы оценочных данных на рынке, такие как GSM8K, MMLU, LogiQA, MHPP и другие наборы данных, и разделила их на несколько категорий, таких как математика, физика, химия, биология, код, логика, медицина и т. д. и т. д., а также различают разные уровни сложности.

Для каждой категории и каждого собранного вопроса команда тщательно собрала соответствующий пошаговый процесс решения проблем, прошла обучение и аннотировала профессиональных магистров и докторантов.

В процессе аннотации будет подробно указано, является ли процесс решения проблемы правильным, местонахождение ошибки и причина ошибки путем сравнения результатов оценки большой модели и результатов оценки экспертов. вы можете узнать, насколько хорошо модель осваивает точки знаний.



Из метода оценки метод, предложенный MR-Ben, требует, чтобы модель проводила подробный анализ предпосылок, предположений и логики каждого шага в процессе решения проблемы, а также предварительно просматривала процесс рассуждения, чтобы определить, является ли текущий шаг может привести к правильному ответу.

Этот метод оценки «маркировки» гораздо сложнее, чем метод оценки, основанный на простом ответе на вопросы, но он позволяет эффективно избежать проблемы ложно высоких оценок, вызванной запоминанием вопросов моделью. Студенту, который умеет только запоминать вопросы, сложно стать квалифицированным учителем оценивания.

GPT4-Turbo работает лучше всего

Команда Jiajiaya оценила несколько известных крупных моделей, а у некоторых моделей в тесте участвовало несколько версий.



Видно, что среди моделей с закрытым исходным кодом лучше всего работает GPT4-Turbo (хотя при «оценке» ошибок в расчетах обнаружено не было). По большинству предметов есть демо (k=1) и нет демо (k =0). опережают другие модели.

Модель GLM команды Zhipu занимает второе место в списке, обогнав последнюю версию 3.5-Sonnet Клода.

Однако разница между разными моделями относительно велика. Самый сильный GPT4-Turbo набрал менее 50 баллов в наборе данных MR-Ben. Видно, что его производительность еще не достигла предела.



Кроме того, некоторые модели с открытым исходным кодом и высокой производительностью уже догнали некоторые коммерческие модели.



Кроме того, в ходе работы команда MR-Ben также обнаружила некоторые интересные явления, такие как:

  • В сценариях с ограниченными ресурсами маленькие модели также имеют много преимуществ. По оценке MR-Ben Phi-3-mini выделился среди маленьких моделей, даже превосходя или не уступая большим моделям с десятками миллиардов параметров, демонстрируя эффективность. важность точной настройки данных о сексе.
  • Сцена MR-Ben содержит сложный логический анализ и пошаговый вывод. Слишком длинный контекст в режиме нескольких кадров запутает модель и приведет к снижению производительности.
  • MR-Ben проанализировал множество экспериментов по абляции «поколение-отражение-регенерация», чтобы проверить различия между различными стратегиями подсказок. Он обнаружил, что это не оказало никакого влияния на модели низкого уровня, а эффект на модели высокого уровня, такие как GPT4-Turbo, не был очевидным. . Напротив, для моделей среднего уровня эффект немного улучшается, поскольку всегда исправляются неправильные и исправляются правильные.
  • После грубого разделения субъектов, оцениваемых MR-Ben, на основанные на знаниях, логические, вычислительные и алгоритмические типы, разные модели имеют свои преимущества и недостатки в разных типах рассуждений.

Команда Jiajiaya загрузила метод оценки в один клик на github. Количество токенов, использованных в одном тесте, составляет примерно 12 миллионов. Разработчики могут оценивать и отправлять свои собственные модели, а команда MR-Ben своевременно обновит соответствующую таблицу лидеров. образом.

Бумажный адрес:
https://arxiv.org/abs/2406.13975
Домашняя страница проекта:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Репозиторий Github:
https://github.com/dvlab-research/Mr-Ben