Новости

За меньшим и более мощным GPT-4o mini будущее моделей искусственного интеллекта больше не значит, что больше — значит лучше.

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

на прошлой неделе OpenAI Выпустите большой ход поздно ночью,ГПТ-4о Мини вытеснил GPT-3.5 Turbo из отставки и даже превзошел GPT-4 на арене больших моделей LMSYS.
На этой неделе вышла Мета Для крупных моделей, если размер 405В первого эшелона еще ожидается, то размеры 8В и 70В новых версий преподносят больше сюрпризов.
И это, возможно, не конец конкурса небольших моделей, а, скорее, новая отправная точка.
Дело не в том, что большие модели недоступны по цене, но маленькие модели более рентабельны.
В огромном мире ИИ о маленьких моделях всегда ходили легенды.
Если посмотреть со стороны, то прошлогодний блокбастер Mistral 7B был назван «лучшей моделью 7B» сразу после его выпуска. Он превзошел модель Llama 2 с параметром 13B в нескольких оценочных тестах и ​​превзошел ее в рассуждениях, математике и генерации кода. .
В этом году Microsoft также открыла исходный код самой мощной модели с большими параметрами phi-3-mini. Хотя количество параметров составляет всего 3,8B, результаты оценки производительности намного превышают тот же уровень шкалы параметров и сопоставимы с более крупными моделями, такими как GPT-. 3.5 и Клод-3 Сонет.
Заглянув внутрь, в начале февраля компания Wall Intelligence запустила MiniCPM, модель горизонтального языка с параметрами всего 2B. Она использует меньший размер для достижения более высокой производительности. Ее производительность превосходит популярную французскую модель Mistral-7B, известную как «. Маленькая Сталь. "пистолет".
Не так давно MiniCPM-Llama3-V2.5, имеющий размер параметра всего 8B, также превзошел более крупные модели, такие как GPT-4V и Gemini Pro, с точки зрения мультимодальной комплексной производительности и возможностей оптического распознавания символов. Поэтому он подвергся критике со стороны. Команда Стэнфордского университета по борьбе с плагиатом.
До прошлой недели OpenAI, которая бомбила поздно ночью, выпустила то, что она описала как «самую мощную и экономичную модель с малыми параметрами» — GPT-4o mini, которая снова привлекла всеобщее внимание к маленькой модели.
С тех пор, как OpenAI втянул мир в воображение генеративного ИИ, от длинных контекстов к изменяющимся параметрам, к агентам, а теперь и к ценовым войнам, развитие внутри страны и за рубежом всегда вращалось вокруг одной логики — оставаться в поле, двигаясь к коммерциализации. . На карточном столе.
Поэтому в поле общественного мнения больше всего бросается в глаза то, что OpenAI, снизившая цены, похоже, вступает в ценовую войну.
Многие люди могут не иметь четкого представления о цене GPT-4o mini. GPT-4o mini на 1 миллион входовтокен Цена составляет 15 центов, а цена за 1 миллион выходных токенов — 60 центов, что более чем на 60% дешевле, чем GPT-3.5 Turbo.
Другими словами, GPT-4o mini создает книгу на 2500 страниц всего за 60 центов.
Генеральный директор OpenAI Сэм Альтман также посетовал на X, что по сравнению с GPT-4o mini самая мощная модель двухлетней давности не только имела огромный разрыв в производительности, но и имела стоимость использования, которая была в 100 раз выше, чем сейчас.
В то время как ценовая война за большие модели становится все более ожесточенной, некоторые эффективные и экономичные небольшие модели с открытым исходным кодом с большей вероятностью привлекут внимание рынка. В конце концов, дело не в том, что большие модели нельзя использовать, а в том, что маленькие модели более рентабельны. .
С одной стороны, когда графические процессоры по всему миру распроданы или даже отсутствуют на складе, небольших моделей с открытым исходным кодом с меньшими затратами на обучение и развертывание достаточно, чтобы постепенно одержать верх.
Например, MiniCPM, запущенный Mianbi Intelligence, может добиться резкого снижения затрат на вывод благодаря меньшим параметрам и даже может обеспечить вывод ЦП. Для этого требуется только одна машина для непрерывного обучения параметров и видеокарта для точной настройки параметров. также постоянные улучшения стоимости пространства.
Если вы зрелый разработчик, вы даже можете обучить вертикальную модель в юридической сфере, построив небольшую модель самостоятельно, и стоимость вывода может составлять лишь одну тысячную от стоимости тонкой настройки большой модели.
Внедрение некоторых приложений «малых моделей» на стороне терминала позволило многим производителям увидеть зарождение прибыльности. Например, Facewall Intelligence помогла Народному суду промежуточной инстанции Шэньчжэня запустить судебную систему с использованием искусственного интеллекта, доказав ценность технологии для рынка.
Конечно, правильнее было бы сказать, что изменения, которые мы начнем видеть, — это не переход от больших моделей к маленьким, а переход от одной категории моделей к портфелю моделей, при этом выбор правильной модели зависит от от конкретных потребностей организации, сложности задач и имеющихся ресурсов.
С другой стороны, небольшие модели легче развернуть и интегрировать в мобильные устройства, встроенные системы или среды с низким энергопотреблением.
Масштаб параметров небольшой модели относительно невелик, по сравнению с большой моделью, ее потребность в вычислительных ресурсах (таких как вычислительная мощность искусственного интеллекта, память и т. д.) ниже, и она может работать более плавно на конечных устройствах с ограниченными возможностями. Ресурсы. Кроме того, к конечному оборудованию обычно предъявляются более строгие требования к энергопотреблению, выделению тепла и другим проблемам. Специально разработанные небольшие модели могут лучше адаптироваться к ограничениям конечного оборудования.
Генеральный директор Honor Чжао Мин сказал, что из-за проблем с вычислительной мощностью искусственного интеллекта на стороне клиента параметры могут находиться в диапазоне от 1B до 10B, а модель большой сетиоблачные вычисленияЭта способность может достигать 10-100 миллиардов или даже выше. Эта способность представляет собой разрыв между ними.
Телефон занимает очень ограниченное пространство, не так ли? Он поддерживает 7 миллиардов при ограниченной батарее, ограниченном рассеивании тепла и ограниченной среде хранения. Если вы представляете, что существует так много ограничений, это должно быть самым сложным.
Мы также раскрыли закулисных героев, отвечающих за работу со смартфонами Apple. Среди них хорошо настроенная маленькая модель 3B, предназначенная для таких задач, как суммирование и полировка. Благодаря адаптеру ее возможности лучше, чем у других. Gemma-7B подходит для работы на терминалах мобильных телефонов.
Итак, мы видим, что бывший гуру OpenAI Андрей Карпати недавно высказал мнение, что конкуренция в размерах моделей будет «обратной инволюцией», то есть не становиться все больше и больше, а кто меньше и гибче.
Почему маленькие модели могут победить большие с помощью маленьких?
Прогноз Андрея Карпати не лишен оснований.
В нашу эпоху, ориентированную на данные, модели быстро становятся больше и сложнее. Большинство очень больших моделей (таких как GPT-4), обученных на огромных данных, фактически используются для запоминания большого количества ненужных деталей, то есть для запоминания информации. наизусть.
Однако точно настроенная модель может даже «выиграть большое с малым» в конкретных задачах, а ее удобство использования сравнимо со многими «сверхбольшими моделями».
Генеральный директор Hugging Face Клем Деланг также предположил, что до 99% случаев использования можно решить с помощью небольших моделей, и предсказал, что 2024 год станет годом малых языковых моделей.
Прежде чем исследовать причины, мы должны сначала популяризировать некоторые научные знания.
В 2020 году OpenAI в статье предложила знаменитый закон: закон масштабирования, который означает, что с увеличением размера модели растет и ее производительность. С появлением таких моделей, как GPT-4, постепенно стали проявляться преимущества закона масштабирования.
Исследователи и инженеры в области искусственного интеллекта твердо верят, что за счет увеличения количества параметров модели можно еще больше улучшить ее обучаемость и способность к обобщению. Таким образом, мы стали свидетелями скачка масштаба модели от миллиардов параметров до сотен миллиардов и даже к моделям с триллионами параметров.
В мире искусственного интеллекта размер модели — не единственный критерий измерения ее интеллекта.
Напротив, хорошо спроектированная маленькая модель за счет оптимизации алгоритма, улучшения качества данных и применения передовой технологии сжатия часто может показывать производительность, сравнимую или даже лучшую, чем у большой модели при выполнении конкретных задач.
Эта стратегия использования малого для достижения больших результатов становится новой тенденцией в области ИИ.Среди них улучшение качества данных — один из способов победы небольших моделей над большими.
Сатиш Джаянти, технический директор и соучредитель Coalesce, однажды описал роль данных в моделях:
Если бы в 17 веке было Магистр права , и мы спросили ChatGPT, круглая или плоская Земля, и он ответил, что Земля плоская, потому что предоставленные нами данные убедили его в этом. Данные, которые мы предоставляем LLM, и то, как мы их обучаем, напрямую повлияют на его результаты.
Для получения высококачественных результатов большие языковые модели необходимо обучать на высококачественных целевых данных для конкретных тем и областей. Точно так же, как студентам нужны качественные учебники для обучения, магистратурам также нужны качественные источники данных.
Отказавшись от традиционной жестокой эстетики упорного труда для достижения чудес, Лю Чжиюань, постоянный доцент кафедры компьютерных наук Университета Цинхуа и главный научный сотрудник разведки, стоящей лицом к стене, недавно предложила закон «лицом к стене» в эпоху больших моделей, то есть плотность знаний модели продолжает расти, удваиваясь в среднем каждые восемь месяцев.
Среди них плотность знаний = возможности модели/параметры модели, участвующие в расчете.
Лю Чжиюань ярко объяснил, что если вам зададут 100 вопросов теста IQ, ваш результат будет зависеть не только от того, на сколько вопросов вы ответите правильно, но и от количества нейронов, которые вы используете для ответа на эти вопросы. Чем больше задач вы выполняете с меньшим количеством нейронов, тем выше ваш IQ.
Это именно основная идея, которую передает плотность знаний:
Он состоит из двух элементов. Один элемент — это способность этой модели. Второй элемент — это количество нейронов, необходимое для этой способности, или соответствующее потребление вычислительной мощности.
По сравнению с 175 миллиардами параметров GPT-3, выпущенными OpenAI в 2020 году, в 2024 году был выпущен MiniCPM-2.4B с той же производительностью, но всего с 2,4 миллиардами параметров, что и GPT-3, что увеличило плотность знаний примерно в 86 раз.
Исследование Университета Торонто также показывает, что не все данные необходимы, выявляя высококачественные подмножества из больших наборов данных, которые легче обрабатывать и сохранять всю информацию и разнообразие исходного набора данных.
Даже если до 95% обучающих данных будет удалено, прогнозная эффективность модели в рамках конкретного распределения может существенно не пострадать.
Самым последним примером, несомненно, является большая модель Meta Llama 3.1.
Когда Meta обучала Llama 3, она передала 15T токенов обучающих данных, но Томас Сиалом, исследователь Meta AI, ответственный за работу после обучения Llama2 и Llama3, сказал: «Текст в Интернете полон бесполезной информации, и обучение основано на эта информация является пустой тратой вычислительных ресурсов.
Лама 3 не получила никаких ответов, написанных человеком, после обучения... она просто использовала чисто синтетические данные Ламы 2.
Кроме того, дистилляция знаний также является одним из важных методов «покорения большого малым».
Под дистилляцией знаний понимается использование большой и сложной «модели учителя» для управления обучением небольшой и простой «модели ученика», которая может передать высокую производительность и превосходную способность к обобщению большой модели более легким, вычислительным моделям меньшего размера, которые стоят дороже. меньше.
После выпуска Llama 3.1 генеральный директор Meta Цукерберг также подчеркнул важность тонкой настройки и очистки небольших моделей в своей длинной статье «ИИ с открытым исходным кодом — путь вперед».
Нам необходимо обучать, настраивать и совершенствовать наши собственные модели. Каждая организация имеет разные потребности, которые лучше всего удовлетворяются с помощью моделей, которые обучены или настроены в разных масштабах и на конкретных данных.

Теперь вы можете взять самые современные модели Llama, продолжить их обучение на собственных данных, а затем преобразовать их до размера модели, который лучше всего соответствует вашим потребностям, причем ваши данные не будут видны ни нам, ни кому-либо еще.
В отрасли также принято считать, что версии Meta Llama 3.1 8B и 70B перегоняются из сверхбольших чашек. Таким образом, общая производительность значительно улучшена, а эффективность модели также выше.
Или оптимизация архитектуры модели также имеет ключевое значение. Например, первоначальная цель разработки MobileNet — реализовать эффективные модели глубокого обучения на мобильных устройствах.
Это значительно уменьшает количество параметров модели за счет отделимой по глубине свертки. По сравнению с ResNet MobileNetV1 уменьшает количество параметров примерно в 8-9 раз.
MobileNet более эффективен в вычислительном отношении из-за меньшего количества параметров. Это особенно важно для сред с ограниченными ресурсами, таких как мобильные устройства, поскольку это может значительно снизить требования к вычислительным ресурсам и хранилищам, не жертвуя при этом слишком большой производительностью.
Несмотря на прогресс, достигнутый на техническом уровне, сама индустрия искусственного интеллекта по-прежнему сталкивается с проблемой долгосрочных инвестиций и высоких затрат, а цикл окупаемости относительно длинный.
По неполной статистике «Daily Economic News», по состоянию на конец апреля этого года в Китае было запущено в общей сложности около 305 крупных моделей, но по состоянию на 16 мая оставалось еще около 165 крупных моделей, которые еще не вышли на рынок. завершена регистрация.
Основатель Baidu Робин Ли публично раскритиковал существование многих нынешних базовых моделей — это пустая трата ресурсов, и предложил больше использовать ресурсы для изучения возможности объединения моделей с отраслями и разработки следующего потенциального суперприложения.
Это также основная проблема современной индустрии искусственного интеллекта: непропорциональное противоречие между увеличением количества моделей и реализацией практических приложений.
Столкнувшись с этой проблемой, внимание отрасли постепенно переключилось на ускорение применения технологий искусственного интеллекта, а небольшие модели с низкими затратами на развертывание и более высокой эффективностью стали более подходящей точкой прорыва.
Также начали появляться некоторые небольшие модели, ориентированные на конкретные области, например, большие модели для приготовления пищи и большие модели для прямых трансляций. Хотя эти имена могут показаться немного блефовыми, они находятся на правильном пути.
Короче говоря, ИИ в будущем перестанет быть единым огромным существом, а станет более разнообразным и персонализированным. Рост количества маленьких моделей является отражением этой тенденции. Их отличное выполнение конкретных задач доказывает, что «маленькие, но красивые» тоже могут завоевать уважение и признание.
Еще кое-что
Если вы хотите заранее запустить модель на своем iPhone, вы также можете попробовать приложение для iOS под названием «Hugging Chat», запущенное Hugging Face.
Загрузив приложение с учетной записью в магазине приложений Magic и Outer Zone, пользователи могут получить доступ и использовать различные модели с открытым исходным кодом, включая, помимо прочего, Phi 3, Mixtral, Command R+ и другие модели.
Напоминаем: для лучшего опыта и производительности рекомендуется использовать последнюю версию iPhone Pro последнего поколения.