Новости

Ценовая война ожесточена, а маленькая модель искусственного интеллекта стремительно растет.

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Взрывное развитие небольших моделей ИИ стало новой ареной конкуренции для гигантов ИИ.

Война цен на большие модели продолжается вечно. Компании, занимающиеся искусственным интеллектом, которые вложили огромные суммы денег, срочно нуждаются в дальнейшем прогрессе в своем бизнесе. Недавно они запустили свои собственные недорогие и простые в развертывании небольшие модели. , и начался новый раунд конкурса.

Сначала HuggingFace выпустила SmolLM — 135M, 360M и 1,7B. Она использовала для обучения всего 650B токенов, но ее производительность превысила Qwen 1,5B и Phi 1,5B.

На следующий день Mistral AI и NVIDIA совместно выпустили Mistral NeMo, которую называют «лучшей маленькой моделью Mistral AI». Она проста в использовании и может напрямую заменить любую систему, использующую Mistral 7B.

В тот же день OpenAI начала «шопинг» и выпустила мини-версию GPT-4o — GPT-4o Mini. Она назвала эту новую модель «самой мощной и экономичной моделью с малыми параметрами» и назвала ее «самой мощной и экономичной моделью с малыми параметрами». Модель отображения заменяет положение «на переднем плане» веб-версии GPT-3.5.

Чтобы не отставать, Apple выпустила небольшую модель DCLM в тот же день, что и OpenAI, и сразу же после выпуска она стала открытым исходным кодом. «На сегодняшний день это самая эффективная модель с открытым исходным кодом», — сказал Вайшаал Шанкар, научный сотрудник команды машинного обучения Apple.

Эти модели имеют небольшие параметры и занимают меньше памяти. В определенных сценариях после тонкой настройки результаты могут быть сопоставимы с результатами больших моделей, что делает их экономически эффективным выбором.

«Маленькие модели должны легче реализовать ценность», — сказал Сюй Сяотянь, главный архитектор данных и искусственного интеллекта IBM в Китае, в интервью репортеру 21st Century Business Herald: «Группа профессиональных небольших моделей сотрудничает с агентами для достижения целей». интеграция бизнес-потоков, функциональности и экономики станет более осуществимой в сексуальном плане».

На поле битвы генеративных моделей искусственного интеллекта скорость итерации чрезвычайно высока. Сегодняшнее «лучшее» может быть немедленно побеждено завтрашней новой версией, а «исторические рекорды» постоянно отменяются и переписываются. «Модели обновляются слишком быстро, и об этом сложно судить. Один производитель утверждает, что они «самые большие и лучшие», а другой производитель утверждает, что они «самые маленькие и лучшие». Старший наблюдатель в области искусственного интеллекта Об этом рассказали в журнале 21st Century Business Herald. По мнению журналистов, модели искусственного интеллекта впечатляют, если компании, занимающиеся искусственным интеллектом, хотят добиться успеха в бизнес-историях, они должны работать в десять или сто раз больше.


Источник изображения: Creative Drawing Xu Shuxing


Малая модельная гусеница открывается «роллом»

Гиганты искусственного интеллекта интенсивно выпускают небольшие модели, чтобы конкурировать не только по производительности, но и по цене.

По данным официального сайта Open AI, в тестах производительности, таких как MMLU, MGSM, HumanEval и MMMU, GPT-4o mini продемонстрировал лучшее текстовое, визуальное и математическое мышление, чем небольшие модели, такие как GPT-3.5 Turbo и Gemini Flash, Клод Haiku, возможности кодирования и мультимодального рассуждения, особенно математические рассуждения и возможности кодирования, намного лучше, чем у GPT-3.5 Turbo и других небольших моделей, и немного слабее, чем у GPT-4o. В последнем рейтинге арен для слепых испытаний LMSYS GPT-4o mini также занял первое место вместе с GPT-4o. Даже генеральный директор OpenAI Сэм Альтман не смог скрыть своего волнения и написал в социальной сети: «Мы никогда не были так взволнованы. ни о какой оценке».

Помимо превосходной производительности, у OpenAI есть еще и недорогой козырь. Когда он был опубликован 18 июля, OpenAI объявила, что цена GPT-4o mini будет составлять 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов, что более чем на 60% дешевле, чем GPT-3.5 Turbo. 24 июля OpenAI вновь объявила, что с сегодняшнего дня и до 23 сентября она будет бесплатно предоставлять услуги мини-тонкой настройки GPT-4o для пользователей уровней 4 и 5 с ежедневным лимитом в 2 миллиона токенов, а за превышение будет взиматься плата. по цене 3 доллара США за 1 миллион токенов. OpenAI заявила: «Мы ожидаем, что GPT-4o mini расширит сферу применения искусственного интеллекта и сделает искусственный интеллект более доступным».

В исследовательском отчете Ping An Securities говорится, что GPT-4o mini — это новое поколение «маленькой модели» искусственного интеллекта начального уровня со значительно сниженной ценой, которая обладает как производительностью, так и экономической эффективностью. В настоящее время крупные модели по всему миру постепенно демонстрируют тенденцию развития, которая смещается от односторонней конкуренции по производительности к конкуренции, делающей упор как на производительность, так и на практичность. Когда возможности больших моделей достигнут определенного уровня, они неизбежно перейдут в сторону применения. Повышая экономическую эффективность своих продуктов и способствуя продвижению и развертыванию последующих приложений, крупные производители моделей, как ожидается, ускорят формирование замкнутого бизнес-цикла в отрасли. крупная сеть модельного бизнеса.

Модель Apple DCLM, выпущенная после GPT-4o mini, также привлекает внимание. DCLM имеет полностью открытый код, веса, процесс обучения и наборы данных. DCLM разделен на два размера: 1,4 миллиарда параметров и 7 миллиардов параметров. Его версия с 7 миллиардами параметров превосходит Мистраль-7Б, а ее производительность близка к Llama 3 и Gemma. В тесте MMLU (5 выстрелов) DCLM-7B достиг точности 63,7%. По словам исследователей, эта производительность на 6,6% выше, чем у предыдущей современной модели языка открытых данных MAP-Neo, и требует на 40% меньше вычислений. Что еще более важно, этот результат превосходит Мистраль-7Б-v0.3 с точностью 62,7% и близок к Gemma 8B с точностью 64,3%, Llama3 8B с точностью 66,2% и Phi-3 7B с точностью 69,9%.

Вместо того, чтобы «чем больше, тем лучше», Apple предпочитает идти по пути маленьких моделей. В апреле этого года Apple анонсировала семейство из четырёх предварительно обученных больших моделей под названием OpenELM, которые были чрезвычайно малы по размеру. На тот момент они уже двигались к цели «позволить искусственному интеллекту работать локально на устройствах Apple».

В июне Apple обнародовала свою дорожную карту развития искусственного интеллекта и планировала плавно встраивать небольшие модели в мобильные устройства, что не только позволит достичь цели «быстрее и безопаснее», но и решить конечную проблему интеграции мобильных устройств и моделей одним махом. .

Mistral NeMo, созданный в сотрудничестве с Mistral AI и NVIDIA, проходит расширенный этап тонкой настройки и согласования, чтобы добиться превосходных результатов в следовании точным инструкциям, рассуждениях, обработке нескольких раундов разговоров и генерации кода. Понятно, что Mistral NeMo в основном ориентирован на корпоративные среды и призван позволить предприятиям внедрять решения искусственного интеллекта, не требуя больших объемов облачных ресурсов.

В интервью Venturebeat Брайан Катандзаро, вице-президент по прикладным исследованиям глубокого обучения NVIDIA, подробно остановился на преимуществах небольших моделей. «Небольшие модели легче получить и запустить, и они могут иметь разные бизнес-модели, поскольку люди могут запускать их на своих собственных системах дома», — сказал он.

Во вторую половину вошли крупные модели. От технических объемов до приложений рынок все больше интересуется высокоэффективными и недорогими моделями, которые легче развертывать локально. Это отражает стремление к безопасности, конфиденциальности, высокой эффективности и высокой стоимости. производительность.

Отраслевые аналитики полагают, что существует явная новая тенденция в развертывании ИИ, то есть моделей, которые могут эффективно работать на локальном оборудовании, что развеивает опасения многих предприятий по поводу широкомасштабного внедрения решений ИИ, таких как конфиденциальность данных, задержка и высокая производительность. расходы. «Это может сделать конкуренцию более справедливой, а малые предприятия с ограниченными ресурсами также получат благословение от моделей искусственного интеллекта, тем самым сокращая свойственный им разрыв с крупными предприятиями».


Садитесь за руль маленькой модельной трассы

Почему гиганты искусственного интеллекта открывают небольшие модели? частично или из соображений стоимости.

Разработка и эксплуатация больших моделей обходятся дорого, и даже такие гиганты, как OpenAI, с трудом могут себе это позволить.

Недавно инсайдер проанализировал, что «OpenAI может потерять 5 миллиардов долларов США в этом году и столкнется с риском исчерпания средств в течение 12 месяцев». По состоянию на март этого года OpenAl потратила почти 4 миллиарда долларов на аренду серверов Microsoft для запуска ChatGPT и лежащей в его основе модели большого языка (LLM). Помимо запуска ChatGPT, затраты OpenAl на обучение, включая плату за передачу данных, могут вырасти в этом году до 3 миллиардов долларов. По словам людей, знакомых с ситуацией, в прошлом году OpenAl ускорила обучение новых ИИ быстрее, чем первоначально планировалось. OpenAl изначально планировала потратить на такие расходы около 800 миллионов долларов, но в итоге потратила гораздо больше.

Для сравнения, небольшие модели имеют низкую стоимость, быстрый отклик и могут запускаться локально, что делает их более адаптируемыми к персонализированным и точным потребностям использования. Инсайдеры отрасли заявили: «Поскольку во всем мире не хватает оборудования для искусственного интеллекта, небольшие модели означают меньшие затраты на развертывание и обучение, а их выходной эффект достаточен для решения некоторых конкретных задач».

Соответствующий деловой человек, отвечающий за отечественную компанию, занимающуюся искусственным интеллектом, рассказал репортеру 21st Century Business Herald, что небольшой масштаб параметров может значительно сэкономить затраты на логические выводы. Стоимость оборудования, необходимого для обучения и настройки модели, намного ниже, чем у большой модели. Зрелые разработчики могут даже обучать вертикальные модели с небольшими затратами, затраты на эти операции намного ниже, чем у больших моделей.

Недавнее предсказание Андрея Карпати, одного из основателей OpenAI и бывшего старшего директора по искусственному интеллекту в Tesla, весьма показательно. Он предположил, что конкуренция по размерам генеративных моделей будет изменена на противоположную, чтобы соревноваться с тем, чья модель меньше и умнее.

По объяснению Андрея Карпати, причина, по которой текущая большая модель такая большая, заключается в том, что она все еще очень расточительна во время обучения. Хотя большая модель очень хороша в памяти, это также означает, что большая модель запоминает множество ненужных деталей. это содержимое. Это не следует вызывать повторно в конкретной задаче.

Для небольших моделей цели обучения становятся проще, более прямыми и эффективными, что позволяет ИИ напрямую изучать больше полезной информации.

Однако большие модели и маленькие модели не являются «выбором», и пути их развития по-прежнему имеют значение обучения друг у друга.

Андрей Карпати сказал: «Модель должна сначала стать больше, прежде чем она сможет стать меньше. Потому что нам нужны большие модели для реконструкции и придания данным идеальной формы. Одна модель помогает генерировать обучающие данные для следующей модели и постепенно получает идеальное обучение. Затем передайте его маленькой модели, которой не нужно все запоминать, но ей нужно время от времени проверять, чтобы убедиться в точности».

Робин Ли также заявил на конференции Baidu AI Developer Conference Create 2024, что крупномасштабные собственные приложения искусственного интеллекта в будущем будут в основном использовать архитектуру Moe, которая представляет собой смесь больших и малых моделей. Робин Ли также сказал, что дистилляция базовой модели путем сжатия большой модели и последующее обучение ее данным намного лучше, чем обучение небольшой модели с нуля. Это лучше, быстрее и экономичнее, чем модель, обученная на основе модели с открытым исходным кодом. . Низкий.