GPT-4o mini достигает вершины арены больших моделей Ultraman: бесплатная доводка в течение двух месяцев

2024-07-24

Креси происходит из храма Аофей.
Кубиты | Публичный аккаунт QbitAI

Только что мини-версия GPT-4o открыла свой «кульминационный момент» ——

Поднялся на арену больших моделей lmsys, разделив первое место с версией с полным здоровьем и оставив позади Клода 3.5.

В отличие от общей оценки набора данных, большая модельная арена является результатом того, что пользователи задают свои собственные вопросы и голосуют ногами. Невозможно использовать ярлыки, «задавая вопросы», поэтому это более реально.

Как только стал известен этот результат, даже генеральный директор Альтман пришел в восторг:

Столкнувшись с результатами оценки, мы изначально старались быть сдержанными, но когда мы увидели, что GPT-4o mini работает так же, как полнофункциональная версия, но цена составляет всего 1/20, мы все равно были очень взволнованы.

Пользователи сети сказали, что все в порядке, увидев это, но их больше беспокоило, когда «Она», продемонстрированная на пресс-конференции GPT-4o, будет онлайн.

В то же время OpenAI также прислала еще одну хорошую новость, которая принесет пользу разработчикам:

ГПТ-4о миниТонкая настройка будет открываться постепенно, в настоящее время открыт для пользователей уровня 4 и 5 и постепенно будет расширять сферу применения.

иС сегодняшнего дня и до 23 сентября вы можете бесплатно использовать 2 миллиона жетонов обучения каждый день.。

Мини-версия находится на одном уровне с полной версией Health.

После миллионов раундов соревнований 1 на 1 с участием более 80 моделей результат GPT-4o mini в списке lmsys отстает от полноценной версии всего на 7 баллов.

Согласно расположению списка lmsys, этот разрыв в 7 пунктов не влияет на рейтинг, и обе модели считаются равными на первом месте.

Следом за ними следуют семейства Claude 3.5 и Gemini, а также две другие версии GPT-4.

Если мы посмотрим на необработанные данные GPT-4o mini, мы обнаружим, что его средний процент побед, равный 0,6, уступает только версии с полной работоспособностью.

Глядя на результаты соревнования между ними, они одинаково совпадают.

Причина, по которой производительность lmsys привлекла внимание, заключается в том, что она обладает уникальным набором методов конкуренции.

Вместо использования набора данныхПозвольте пользователям придумывать свои вопросы и случайным образом рисовать две модели в бою один на один., а затем выберите, какая модель работает лучше.

До того, как будет сделан выбор, модель анонимна, и пользователь не знает, какие две модели конкурируют. Если в модели что-то произойдет, голосование будет недействительным.

Полученные таким образом баллы более реалистичны, что не только позволяет избежать возможности получения искусственно высоких баллов путем «закрашивания вопросов», но и ближе к пользовательскому опыту.

Эта большая модель арены, недавноПосетил ведущую конференцию по машинному обучению ICML2024.。

Более того, оценка lmsys такжеОчень популярен среди OpenAI., ранняя версия GPT-4o mini до ее официального выпуска значилась под псевдонимом gpt-mini.

На тот момент он уже занимал 4-е место, на том же уровне, что и GPT4-Turbo.

Ранее, до того как GPT-4o вышел в сеть, он также тестировался под псевдонимом gpt2-chatbot на lmsys.

Однако некоторые люди сомневаются, что, хотя GPT-4o mini работает очень хорошо, было бы преувеличением сказать, что он превосходит сонет Claude 3.5.

Некоторые даже прямо заявили, что целостность метода lmsys начала разрушаться и его необходимо изменить, иначе он перестанет быть полезным тестовым тестом.

«Маленькая модель» тоже свернута

Запуск мини-версии ориентирован на экономическую эффективность.

Цены на миллион токенов ввода/вывода составляют 15 центов и 60 центов соответственно (приблизительно 1,09/4,36 юаня), что даже не половина цены 3,5 Turbo.

Если сравнивать с версией GPT-3 text-davinci-003 двухлетней давности (лучшей моделью на тот момент), цена снизилась на 99%.

Помимо открытия пользователям небольших моделей, OpenAI также предлагает новые способы игры:

В посмертной работе команды «Super Alignment» для оптимизации большой модели использовалась маленькая модель с одной тысячной или сотой параметров большой модели.

В эксперименте большая и маленькая модели «играют» друг с другом. Большой модели необходимо постоянно оптимизировать и корректировать свои выходные данные, чтобы маленькая модель поверила, что она говорит правду.

В процессе этой «игры» возможности большой модели были улучшены, а понятность значительно улучшена без существенной потери точности.

Помимо OpenAI, другие компании также выпустили небольшие модели.

Например, до GPT-4o mini Google и Anthropic выпустили Gemini Flash и Claude 3-Haiku соответственно.

Можно даже сказать, что GPT-4o mini — это контратака OpenAI против двух моделей, превосходящая эти две модели по производительности и цене.

На той же неделе, когда был выпущен GPT-4o mini, Hugging Face и European OpenAI Mistral выпустили небольшие модели.

Даже Apple запустила собственную модель 7B и сразу открыла исходные коды всех процессов обучения и ресурсов.

Короче говоря, пока производительность достаточна для удовлетворения потребностей использования, маленькая модель, несомненно, является более экономичным выбором.

В то же время меньший масштаб также означает, что его можно запускать на стороне терминала, демонстрируя преимущества в защите конфиденциальности и других аспектах.

Таким образом, нетрудно понять, почему «маленькие» модели становятся все более скручивающимися.

Справочные ссылки:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015

Новости