Новости

Направление масштабных моделей изменилось, и OpenAI Apple сделала разворот

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


умные вещи
АвторZeR0
Редактор Мо Ин

Генеративный ИИ, похоже, имеет невидимую закономерность: время от времени происходит шокирующая крупномасштабная «автокатастрофа».

Только в этом году была выпущена модель Google Gemini 1.5 Pro, модель Sora для генерации видео OpenAI, а OpenAI GPT-4o был представлен на конференции разработчиков Google I/O, что позволило зрителям по всему миру почувствовать жесткую конкуренцию за гегемония среди крупных моделей. Запах пороха.

Если все предыдущие совпадения позволяют предположить, что OpenAI намеренно перехватила Google, то в течение четырех дней на прошлой неделе Hugging Face, OpenAI, Mistral и Apple последовательно выпустили свои самые мощные и легкие модели, что, безусловно, является последней тенденцией в AI-индустрии.

Теперь большие модели искусственного интеллекта больше не предназначены только для гонок.«Больше и сильнее»и резко свернул«Делайте маленькие дела и делайте хорошие дела»

Превышение GPT-4o больше не является единственным ключевым показателем эффективности. Большие модели вступили в критический период борьбы за рынок. Чтобы произвести впечатление на пользователей, мы должны не только демонстрировать техническую мощь, но и доказывать, что наши собственные модели стоят дороже. -эффективный——Модель меньше при той же производительности, а производительность выше при тех же параметрах и экономит деньги.


▲Недавно выпущенные легкие модели GPT-4o mini и Mistral NeMo на прошлой неделе лидируют по показателям стоимости (Источник: Искусственный анализ).

Фактически этот технологический тренд «перемотки больших моделей в миниатюризацию» начал назревать во второй половине прошлого года.

Меняют правила игры две компании. Один из них — французский ИИ-стартап Mistral AI. В сентябре прошлого года он использовал большую модель с 7 миллиардами параметров, чтобы победить Llama 2 с 13 миллиардами параметров. Он шокировал всех и стал известен в сообществе разработчиков. Другой — китайский ИИ-стартап. Face the Wall Intelligence. В феврале этого года была запущена более концентрированная конечная модель MiniCPM, производительность которой превышает Llama 2 13B всего лишь с 2,4 миллиарда параметров.

Оба стартапа хорошо известны в сообществе разработчиков, и многие модели возглавили горячий список с открытым исходным кодом. В частности, Wall-Facing Intelligence, разработанная в Лаборатории обработки естественного языка Университета Цинхуа, вызвала в этом году бурю негодования, когда ее мультимодальная модель была «обстреляна» командой из ведущих университетов США. Оригинальная работа получила признание в академических кругах в стране и за рубежом, благодаря чему отечественные модели искусственного интеллекта с открытым исходным кодом гордятся собой.

С прошлого года Apple также начала исследование моделей терминала, которые лучше адаптируются к мобильным телефонам. OpenAI, идущая по пути экстенсивного и бурного расширения, является относительно неожиданным новым игроком. Запуск облегченной модели GPT-4o mini на прошлой неделе означает, что старший брат модели взял на себя инициативу отойти от «алтаря» и начал следовать тенденциям отрасли, пытаясь использовать более дешевые и простые в приобретении модели для повышения эффективности. более широкий рынок.

2024 год станет переломным для «миниатюризации» крупных моделей!


▲Неполная статистика облегченных общеязыковых моделей, недавно выпущенных в 2024 году, включена только в общеязыковую модель с количеством параметров ≤8B, которую можно развернуть на стороне устройства, а мультимодальные модели не включены (Источник: Zhidongxi)

1. «Закон Мура» в эпоху больших моделей: только эффективность может привести к устойчивому развитию

В настоящее время крупные модельные исследования и разработки впадают в инерцию:Энергичное чудо

В 2020 году статья OpenAI подтвердила, что существует сильная корреляция между производительностью модели и масштабом. Пока вы поглощаете больше высококачественных данных и обучаете более крупную модель, вы можете добиться более высокой производительности.


Следуя этому простому, но эффективному пути, в последние два года в мире наблюдается стремительная гонка за созданием более крупных моделей. В этом кроется скрытая опасность алгоритмической гегемонии. Только команды, обладающие достаточными средствами и вычислительными мощностями, имеют капитал для участия в соревновании в течение длительного времени.

В прошлом году генеральный директор OpenAI Сэм Альтман сообщил, что стоимость обучения GPT-4 составляет как минимум100 миллионов долларов США . В отсутствие высокодоходной бизнес-модели даже крупным технологическим компаниям с глубокими карманами будет трудно позволить себе долгосрочные инвестиции, независимо от затрат. Экологическая среда не может терпеть эту бездонную игру по сжиганию денег.

Разрыв в производительности между ведущими моделями больших языков заметно сокращается. Хотя GPT-4o прочно занимает первое место, разница в результатах тестов с Claude 3 Opus и Gemini 1.5 Pro остается неизменной. По некоторым возможностям десятки миллиардов крупных моделей могут даже достичь более высокой производительности. Размер модели больше не является единственным решающим фактором, влияющим на производительность.

Дело не в том, что топовые большие модели непривлекательны, а в том, что легкие модели более экономичны.

На рисунке ниже представлена ​​диаграмма тенденций затрат на вывод ИИ, которой инженер ИИ Карина Нгуген поделилась на социальных платформах в конце марта этого года. Она четко отображает взаимосвязь между производительностью больших языковых моделей в тесте MMLU и их стоимостью с 2022 года: более. раз языковая модель получает более высокие оценки точности MMLU, и связанные с этим затраты значительно снижаются. Точность новой модели достигает около 80%, а экономическая эффективность на порядки ниже, чем всего несколько лет назад.


Мир меняется очень быстро, и в последние несколько месяцев прокатилась волна новых экономичных легких моделей.


▲Модели меньшего размера могут обеспечить превосходную производительность при меньших затратах (Источник: Embedded AI)

«Конкуренция за большие размеры языковых моделей усиливается – наоборот!» Гуру технологий искусственного интеллекта Андрей Карпати делает ставку: «Мы увидим очень, очень маленькие модели, которые «думают» очень хорошо и надежно».

Возможности модели ÷ параметры модели, участвующие в расчете = плотность знаний , это измерение измерения можно использовать для представления того, что модели с одинаковым масштабом параметров могут иметь высокий интеллект. Большая модель GPT-3, выпущенная в июне 2020 года, имеет 175 миллиардов параметров.В феврале этого года размер параметров настенной интеллектуальной модели MiniCPM-2.4B, достигшей той же производительности, был уменьшен до 2,4 миллиарда, что эквивалентно увеличению плотности знаний примерно на86 раз


Основываясь на этих тенденциях, Лю Чжиюань, постоянный доцент кафедры компьютерных наук Университета Цинхуа и главный научный сотрудник настенного интеллекта, недавно выдвинул интересную точку зрения:В эпоху больших моделей есть свой «закон Мура».

в частности,Благодаря скоординированному развитию данных, вычислительной мощности и алгоритмов плотность знаний больших моделей продолжает расти, удваиваясь в среднем каждые восемь месяцев.


▲Из изменений в списке OpenCompass мы видим, что небольшие параметры и высокопроизводительные модели стали тенденцией.

За счет увеличения плотности микросхем на кристалле вычислительные устройства с одинаковой вычислительной мощностью эволюционируют от суперкомпьютеров, способных разместиться в нескольких комнатах, до мобильных телефонов, которые можно носить в карманах. Дальнейшее развитие крупных моделей будет следовать аналогичной схеме. Лю Чжиюань назвал предложенный им руководящий закон «Законом об облицовке стены».

Если эта тенденция сохранится,Чтобы обучить модель со 100 миллиардами параметров, она сможет достичь возможностей модели с 50 миллиардами параметров за 8 месяцев. Еще за 8 месяцев этого можно достичь всего с 25 миллиардами параметров.

2. Силы разделены на несколько направлений: ценовая война с закрытым исходным кодом находится в самом разгаре, а Китай, Соединенные Штаты и Европа с открытым исходным кодом конкурируют друг с другом.

Игроки, которые в настоящее время участвуют в соревнованиях крупных моделей в легком весе, разделены на множество групп.

OpenAI, Google и Anthropic выбрали путь закрытого исходного кода. Их флагманские модели, такие как GPT-4o, Claude 3.5 Sonnet и Gemini 1.5 Pro, обеспечивают высочайший уровень производительности, а масштаб параметров этих моделей достигает сотен миллиардов или даже триллионов.

Легкая модель представляет собой урезанную версию флагманской модели. После запуска OpenAI на прошлой неделе GPT-4o mini стал наиболее экономичным вариантом до 10B на рынке благодаря своей производительности, превосходящей Gemini Flash, а Claude To C заменил GPT-3.5 для бесплатного использования пользователями. ToB резко снизил цену API, снизив порог внедрения технологии больших моделей.


Андрей Бурков, автор книги «Машинное обучение», приходит к выводу, что технические характеристики GPT-4o mini составляют около 7B в зависимости от цены. Генеральный директор Wall-facing Intelligence Ли Дахай предполагает, что GPT-4o mini — это «широкая модель MoE» с большим количеством экспертов, а не модель со стороны устройства. Она позиционируется как экономичная облачная модель, позволяющая значительно сократить промышленные затраты. стоимость реализации больших моделей.

Лагерь легких моделей с открытым исходным кодом еще больше: в нем представлены игроки из Китая, США и Европы.

Внутренние компании Alibaba, Wall-Facing Intelligence, SenseTime и Шанхайская лаборатория искусственного интеллекта открыли исходный код некоторых легких моделей.Среди них модели серии Qwen от Alibaba часто используются в тестах производительности легких моделей, а модели настенного интеллекта серии MiniCPM также являются примерами использования малых параметров для обгона больших моделей за секунды и высоко оцениваются в сообществе открытого исходного кода.

Face Wall Intelligence — это дальновидная предпринимательская команда. В 2020 году она взяла на себя инициативу по освоению большого модельного маршрута в Китае. Она очень рано начала изучать способы использования эффективных технологий точной настройки для снижения затрат на обучение. агента ИИ в начале прошлого года и выпустила более 100 миллиардов агентов ИИ в августе. Модальная большая модель, применяющая большие модели и агентские технологии в финансах, образовании, государственных делах, интеллектуальных терминалах и других сценариях, формулирует направление развития устройств. облачное сотрудничество в конце года, а затем в этом году интенсивно запускать различные высокоэффективные модели устройств с низким энергопотреблением.

За последние шесть месяцев Wallface Intelligence выпустила базовые модели MiniCPM 2.4B и MiniCPM 1.2B, модель длинного текста MiniCPM-2B-128k, мультимодальную модель MiniCPM-V 2.0 и уровень производительности GPT-4V MiniCPM- Llama3-V 2.5 Гибридная экспертная модель MiniCPM-MoE-8x2B и т.д. На данный момент общий объем загрузок серии MiniCPM достиг почти 950 000 с 12 000 звездами.

Этот стартап также реализовал более энергоэффективную модель MiniCPM-S 1.2B с помощью эффективной разреженной архитектуры: плотность знаний достигла 2,57 раз, чем у плотной модели MiniCPM 1.2B того же масштаба, и в 12,1 раза больше, чем у Mistral-7B, что дает дальнейший вывод «Закон об облицовке стены». Способствует значительному снижению стоимости вывода больших моделей.


▲Настенная интеллектуальная модель серии MiniCPM быстро повторяется и повышает плотность знаний.

В лагере легких моделей с открытым исходным кодом в США широкое участие принимают крупнейшие технологические компании, в том числе Meta, Microsoft, Google, Apple, Stability AI и т. д., и история о том, что «волна позади сбивает волну вперед». пляж» часто ставится.

На прошлой неделе компания Hugging Face также выпустила модели SmolLM с тремя характеристиками: 135M, 360M и 1.7B. По сравнению с моделями того же размера производительность очень конкурентоспособна. Версия 1.7B превзошла Microsoft Phi-1.5 в нескольких тестах производительности. , Google MobileLLM-1.5B и Alibaba Qwen2-1.5B.

Apple, известная своей «закрытостью», — известная школа с открытым исходным кодом в области ИИ: в октябре прошлого года она выпустила мультимодальную модель Ferret, в апреле этого года выпустила четыре предварительных обучения OpenELM; модели с параметрами в диапазоне от 2,7 млрд до 30 млрд. Среди последних моделей DCLM производительность версии 6.9В превосходит Mistral 7B, а показатель MMLU версии 1.4B превосходит SmolLM-1.7B;


▲Apple использует DCLM-Baseline для обучения модели (оранжевый цвет), которая показывает хорошую производительность по сравнению с моделями с закрытым исходным кодом (крестики) и другими наборами данных и моделями с открытым исходным кодом (круги).

Репрезентативным игроком в Европе является не кто иной, как французская большая модель-единорог Mistral AI.На прошлой неделе компания выпустила небольшую модель чашки Mistral Nemo 12B, которая поддерживает обработку контекста 128k. Ее производительность превосходит Google Gemma 2 9B и Llama 2 8B. Ее логика, мировые знания и возможности кодирования являются самыми сильными среди моделей с открытым исходным кодом такого же масштаба. .

Эти достижения показывают потенциал применения миниатюризации больших моделей.

Клем Деланг, соучредитель и генеральный директор Hugging Face, предсказал: «Меньшие, более дешевые, быстрые и более персонализированные модели будут охватывать 99% случаев использования. . Вам не нужна машина Формулы-1 стоимостью 1 миллион долларов, чтобы каждый день ездить на работу, и вам не нужен чат-бот для клиентов банка, который расскажет вам о смысле жизни! "

3. Как вы стали экспертом по экономии денег в крупной модельной индустрии?

Перемотка и миниатюризация больших моделей — неизбежная тенденция для ИИ, приносящая пользу всем.

Не для всех приложений требуется самая мощная большая модель. Деловая конкуренция учитывает экономическую эффективность и подчеркивает высокое качество и низкую цену. Различные сценарии и предприятия предъявляют очень разные требования к качеству продукции и экономической эффективности.

Очень крупномасштабные модели потребуют от разработчиков больших затрат на обучение, и от обучения до развертывания потребуется много хлопот. Более оптимизированная модель может снизить соотношение ввода-вывода и использовать меньше средств, данных, аппаратных ресурсов и циклов обучения для создания конкурентоспособных моделей, тем самым снижая затраты на инфраструктуру, помогая улучшить доступность и ускорить разработку моделей.


▲Согласно статье Apple DataComp-LM, чем меньше параметров модели, тем меньше вычислительной мощности и времени требуется для обучения.

Для конкретных приложений облегченные модели требуют меньше данных, поэтому их легче настроить для конкретных задач и добиться производительности и эффективности, соответствующих вашим потребностям. Благодаря оптимизированной архитектуре этот тип модели требует меньше места для хранения и вычислительной мощности. После оптимизации конструкции для конечного оборудования он может работать локально на ноутбуках, смартфонах или других небольших устройствах с низкой задержкой, легким доступом и защитой. Преимущества конфиденциальности и безопасности гарантируют, что личные данные не будут переданы наружу.

Хотя легкая высокопроизводительная модель имеет небольшие размеры, она должна быть "Используйте ограниченную вычислительную мощность и энергопотребление для объединения знаний в модель с меньшими параметрами.«Технический порог не низкий.

Тренировочный процесс этоСначала стань больше, потом стань меньше , извлекая суть знаний из сложных больших моделей. Например, мультимодальная модель небольшой чашки Google Gemma-2 усовершенствована с использованием знаний модели 27B.

Но с точки зрения конкретных технических маршрутов у разных игроков разные подходы.

Например вданные обучения С другой стороны, Meta с гордостью предоставила данные обучения токенов Llama 3 15T. Microsoft, Apple и т. д. сосредоточены на оптимизации наборов обучающих данных и инновациях методов обработки данных. Microsoft Phi-3 использует только токены 3,3T, а Apple DCLM 7B использует только токены 2,6T. Согласно документу Apple DataComp-LM,Улучшение наборов обучающих данных может обеспечить баланс между вычислениями и производительностью, сокращая затраты на обучение. . Недавно выпущенный на прошлой неделе, Mistral NeMo сжимает текст и код более эффективно, чем предыдущие модели, благодаря использованию усовершенствованного тегера Tekken.

«Становление меньше» все еще требуетАрхитектурные инновации . Например, модель OpenELM от Apple выполняет иерархическую тонкую настройку аппаратных узких мест для повышения эффективности работы на конечной стороне; интеллектуальная эффективная разреженная модель MiniCPM-S 1.2B обеспечивает разреженность почти 88%, позволяя использовать полный канальный уровень. потребление снижено до 84%, а скорость декодирования в 2,8 раза выше, чем у соответствующей плотной модели без ущерба для производительности.


▲Техническая классификация для реализации ресурсоэффективных моделей большого языка (Источник: документ «За пределами эффективности: систематический обзор ресурсоэффективных моделей большого языка»)

Большая модель — это систематический проект, который необходимо изучить».наука об искусственном интеллекте«Направление, то естьБлагодаря непрерывной итерации технических решений, таких как алгоритмы, архитектура, управление данными и мультимодальное объединение, мы можем обучать модели более надежно, предсказуемо и с более высоким качеством., чтобы постоянно улучшать плотность знаний больших моделей.

Для быстрого обучения и оптимизации моделей необходимо создать эффективную производственную линию.Необходимо построить полноценную платформу инструментов и сформировать эффективную и масштабируемую стратегию обучения модели. . Например, механизм «песочницы» модели, обращенной к стене, обеспечивает быстрое формирование возможностей модели за счет использования небольших моделей для прогнозирования производительности больших моделей и совместного использования схем гиперпараметров между большими и малыми моделями.


▲Фактическое сравнение скорости декодирования вывода MiniCPM 1.2B и MiniCPM-S 1.2B.

Чтобы ускорить использование больших моделей в интеллектуальных терминалах, Facewall Intelligence недавно открыла исходный код первого в отрасли готового набора инструментов для работы с большими моделями на стороне клиента «MobileCPM» и предоставила учебные пособия в стиле няни, которые помогут разработчикам интегрировать большие модели. в приложения одним щелчком мыши.


▲Настенный интеллектуальный набор инструментов для большой модели терминала «MobileCPM»

Этот год совпадает с бурным развитием искусственного интеллекта на стороне устройства: от таких гигантов в сфере производства чипов, как Intel, Nvidia, AMD и Qualcomm, до крупных производителей компьютеров и смартфонов с искусственным интеллектом — все они продвигают различные приложения искусственного интеллекта на стороне устройства. Производители терминалов начали объединять усилия с производителями обычных моделей, чтобы продвигать внедрение облегченных моделей в широкий спектр конечных устройств.

По мере повышения производительности конечных микросхем и увеличения плотности знаний о моделях модели, которые можно запускать локально на конечных устройствах, становятся больше и лучше.Теперь GPT-4V может работать на стороне терминала, прогнозирует Лю ЧжиюаньВ течение следующего года модели уровня GPT-3,5 могут быть введены в эксплуатацию на стороне устройства, а в ближайшие два года модели уровня GPT-4o могут быть введены в эксплуатацию на конечной стороне.

Вывод: начните большой конкурс моделей, который не потребует сумасшедших денег.

В мире технологий всегда повторяется историческая тенденция становиться меньше, дешевле и проще в использовании. В эпоху мэйнфреймов компьютеры были предметом роскоши высокого класса, доступным только богатым и элите. С наступлением эры миникомпьютеров технологические достижения сделали вычислительные устройства более портативными и простыми в использовании, а ПК и мобильные телефоны вошли в повседневную работу и жизнь широкой публики.

Точно так же, как нам нужны суперкомпьютеры с огромной вычислительной мощностью и мобильные телефоны, которые обычные люди могут положить в свои карманы, эра генеративного искусственного интеллекта требует чрезвычайно интеллектуальных больших моделей, которые ближе к пользователям, более экономичны и способны решать конкретные задачи. модель спроса.

OpenAI GPT-4o по-прежнему находится на вершине самых мощных крупных моделей искусственного интеллекта, но он уже не так непобедим, как раньше. Ряд крупных моделей уровня GPT-4 достигли аналогичной производительности. В то же время более компактные и эффективные большие модели бросают вызов концепции «чем больше, тем лучше». искусственного интеллекта в корпоративной и потребительской среде.

Переход к миниатюризации знаменует собой серьезное изменение в индустрии искусственного интеллекта. Соревнования по большим моделям начали смещаться от фокуса на повышении производительности к более детальным потребностям в реальном мире. На фоне этого увлечения мощь Китая с открытым исходным кодом, представленная скрытым интеллектом, активно растет. Благодаря ряду технологических инноваций он проверяет закон плотности знаний больших моделей более экономически целесообразным способом и, в конечном итоге, способствует использованию большие модели в сценариях практического применения.