моя контактная информация
Почтамезофия@protonmail.com
2024-07-24
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Креси происходит из храма Аофей.
Кубиты | Публичный аккаунт QbitAI
Только что мини-версия GPT-4o открыла свой «кульминационный момент» ——
Поднялся на арену больших моделей lmsys, разделив первое место с версией с полным здоровьем и оставив позади Клода 3.5.
В отличие от общей оценки набора данных, большая модельная арена является результатом того, что пользователи задают свои собственные вопросы и голосуют ногами. Невозможно использовать ярлыки, «задавая вопросы», поэтому это более реально.
Как только стал известен этот результат, даже генеральный директор Альтман пришел в восторг:
Столкнувшись с результатами оценки, мы изначально старались быть сдержанными, но когда мы увидели, что GPT-4o mini работает так же, как полнофункциональная версия, но цена составляет всего 1/20, мы все равно были очень взволнованы.
Пользователи сети сказали, что все в порядке, увидев это, но их больше беспокоило, когда «Она», продемонстрированная на пресс-конференции GPT-4o, будет онлайн.
В то же время OpenAI также прислала еще одну хорошую новость, которая принесет пользу разработчикам:
ГПТ-4о миниТонкая настройка будет открываться постепенно, в настоящее время открыт для пользователей уровня 4 и 5 и постепенно будет расширять сферу применения.
иС сегодняшнего дня и до 23 сентября вы можете бесплатно использовать 2 миллиона жетонов обучения каждый день.。
После миллионов раундов соревнований 1 на 1 с участием более 80 моделей результат GPT-4o mini в списке lmsys отстает от полноценной версии всего на 7 баллов.
Согласно расположению списка lmsys, этот разрыв в 7 пунктов не влияет на рейтинг, и обе модели считаются равными на первом месте.
Следом за ними следуют семейства Claude 3.5 и Gemini, а также две другие версии GPT-4.
Если мы посмотрим на необработанные данные GPT-4o mini, мы обнаружим, что его средний процент побед, равный 0,6, уступает только версии с полной работоспособностью.
Глядя на результаты соревнования между ними, они одинаково совпадают.
Причина, по которой производительность lmsys привлекла внимание, заключается в том, что она обладает уникальным набором методов конкуренции.
Вместо использования набора данныхПозвольте пользователям придумывать свои вопросы и случайным образом рисовать две модели в бою один на один., а затем выберите, какая модель работает лучше.
До того, как будет сделан выбор, модель анонимна, и пользователь не знает, какие две модели конкурируют. Если в модели что-то произойдет, голосование будет недействительным.
Полученные таким образом баллы более реалистичны, что не только позволяет избежать возможности получения искусственно высоких баллов путем «закрашивания вопросов», но и ближе к пользовательскому опыту.
Эта большая модель арены, недавноПосетил ведущую конференцию по машинному обучению ICML2024.。
Более того, оценка lmsys такжеОчень популярен среди OpenAI., ранняя версия GPT-4o mini до ее официального выпуска значилась под псевдонимом gpt-mini.
На тот момент он уже занимал 4-е место, на том же уровне, что и GPT4-Turbo.
Ранее, до того как GPT-4o вышел в сеть, он также тестировался под псевдонимом gpt2-chatbot на lmsys.
Однако некоторые люди сомневаются, что, хотя GPT-4o mini работает очень хорошо, было бы преувеличением сказать, что он превосходит сонет Claude 3.5.
Некоторые даже прямо заявили, что целостность метода lmsys начала разрушаться и его необходимо изменить, иначе он перестанет быть полезным тестовым тестом.
Запуск мини-версии ориентирован на экономическую эффективность.
Цены на миллион токенов ввода/вывода составляют 15 центов и 60 центов соответственно (приблизительно 1,09/4,36 юаня), что даже не половина цены 3,5 Turbo.
Если сравнивать с версией GPT-3 text-davinci-003 двухлетней давности (лучшей моделью на тот момент), цена снизилась на 99%.
Помимо открытия пользователям небольших моделей, OpenAI также предлагает новые способы игры:
В посмертной работе команды «Super Alignment» для оптимизации большой модели использовалась маленькая модель с одной тысячной или сотой параметров большой модели.
В эксперименте большая и маленькая модели «играют» друг с другом. Большой модели необходимо постоянно оптимизировать и корректировать свои выходные данные, чтобы маленькая модель поверила, что она говорит правду.
В процессе этой «игры» возможности большой модели были улучшены, а понятность значительно улучшена без существенной потери точности.
Помимо OpenAI, другие компании также выпустили небольшие модели.
Например, до GPT-4o mini Google и Anthropic выпустили Gemini Flash и Claude 3-Haiku соответственно.
Можно даже сказать, что GPT-4o mini — это контратака OpenAI против двух моделей, превосходящая эти две модели по производительности и цене.
На той же неделе, когда был выпущен GPT-4o mini, Hugging Face и European OpenAI Mistral выпустили небольшие модели.
Даже Apple запустила собственную модель 7B и сразу открыла исходные коды всех процессов обучения и ресурсов.
Короче говоря, пока производительность достаточна для удовлетворения потребностей использования, маленькая модель, несомненно, является более экономичным выбором.
В то же время меньший масштаб также означает, что его можно запускать на стороне терминала, демонстрируя преимущества в защите конфиденциальности и других аспектах.
Таким образом, нетрудно понять, почему «маленькие» модели становятся все более скручивающимися.
Справочные ссылки:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015