новости

лавина мини-рейтинга gpt-4o, обновлены правила арены для больших моделей, советы по увеличению очков ультрачеловека недействительны

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

обновлены правила арены для больших моделей,рейтинг gpt-4o mini тут же рухнул и выпал из топ-10

новый список ответов на вопросы иитакие характеристики, как длина и стиль, были понижены., гарантируя, что оценка отражает истинную способность модели решить проблему.

попытки использовать красивые форматы, увеличение количества субтитров и другие приемы, чтобы угодить пользователям и повысить рейтинг, сейчас бесполезны.

по новым правилам ультрачеловекгпт-4о мини, маскасерия грок-2значительное падение рейтинга, googlegemini-1.5-флэшмаленькие модели также отступили.

клод серииллама-3.1-405боценки крупных моделей увеличивались одна за другой.

когда рассчитываются только сложные задачи (hard prompt), преимущество больших моделей в списке управления стилем становится еще более очевидным.

ранее мини-модель gpt-4o однажды достигла вершины, разделив первое место с версией gpt-4o с полным здоровьем, что явно не соответствовало физическому опыту пользователей сети.

lmsys large model arena, стандарт оценки, когда-то рекомендованный karpathy, также упал до такой степени, что «может отражать только предпочтения пользователя, а не возможности модели».

организация lmsys извлекла уроки из опыта и впервые раскрыла данные 1000 боев, в которых участвовал gpt-4o mini, тем самым проанализировав процент отклонения модели, длину генерируемого контента и форматирование как несколько факторов, влияющих на результаты голосования.

более того, перед выпуском gpt-4o mini ultraman намекнул, что он оптимизирован под предпочтения человека.

теперь компания lmsys пошла еще дальше и запустила новый алгоритм для контроля этих факторов, и это только первый шаг в планировании.

как контролировать влияние стиля?

предположим, естьмодель аон хорошо генерирует код, факты, объективные ответы и т. д., но его результаты очень кратки.

модель бэто не очень хорошо с точки зрения содержания (например, правильности), но результат длинный, подробный и красиво отформатированный.

так какой из них лучше?

ответ не уникален: lmsys пытается математически выяснить, какая часть оценки модели зависит от содержания или стиля.

кроме того, недавние исследования показали, чтолюди могут отдавать предпочтение ответам ии, которые красиво отформатированы и более подробны.

вбрэдли-терри возвращаетсядобавьте такие функции стиля, как длина ответа, количество субтитров с уценкой, списки и количество выделенного жирным шрифтом текста в качестве аргументов.

это распространенный метод в статистике, который недавно использовался alpacaeval lc и другими для оценки больших моделей.

включение любых мешающих переменных (таких как длина ответа) в регрессию позволяет отнести увеличение баллов за счет мешающих переменных, а не за счет самой мощности модели.

соответствующий код был опубликован в google colab.

кроме того, команда также провела эксперименты по абляции, «контролируя только длину» и «только контроль формата». на оценки серий gpt-4o mini и google gemini больше влияет формат.

однако у этого подхода есть ограничения, такие как возможность ненаблюдаемых мешающих факторов, таких как положительная корреляция между длиной и качеством ответа, которые не принимаются во внимание (например, подсказки в виде цепочки мыслей).

многие пользователи сети заявили, что скорректированный список сложных задач больше соответствует их субъективным впечатлениям.

некоторые люди также думают, что именно игра туда и обратно между списком и крупными модельными компаниями, которые конкурируют за список, может вместе добиться прогресса во всей области.

вы все еще выбираете модели, основываясь на результатах большой модельной арены? или, если у вас есть более эффективные методы оценки, поделитесь ими в области комментариев.