Выпущена первая в мире смешанная тренировочная платформа на гетерогенных чипах, рассчитанная на килокалории! Увэнь Синьцюн: Пусть в мире не будет сложных в использовании вычислительных мощностей искусственного интеллекта

Выпущена первая в мире смешанная тренировочная платформа на гетерогенных чипах, рассчитанная на килокалории!Увэнь Синьцюн: Пусть в мире не будет сложных в использовании вычислительных мощностей искусственного интеллекта

2024-07-15

умные вещи
АвторZeR0
Редактор Мо Ин

«Прежде чем включить кран, нам не нужно знать, из какой реки течет вода. Точно так же, когда мы будем использовать различные приложения ИИ в будущем, мы не будем знать, какие базовые модели он вызывает и какие карты-ускорители использует. Вычислительная мощность — это лучшая инфраструктура AI Native».

Такая инфраструктура AI Native должна создаваться всеми вместе. 4 июля на Форуме по инфраструктуре искусственного интеллекта Всемирной конференции по искусственному интеллекту 2024 года Ся Лисюэ, соучредитель и генеральный директор Wuwen Core Dome, представил первую в мире платформу обучения гибридным гетерогенным чипам в масштабе килокалорий — гетерогенное гибридное обучение килокалорий. кластера. Загрузка вычислительной мощности достигает максимума 97,6%.

В то же время Ся Лисюэ объявил, что облачная платформа Infini-AI от Wuwen Core Dome интегрировала возможности смешанного обучения на гетерогенных картах больших моделей. Это первая в мире платформа, которая может выполнять смешанное обучение на гетерогенных чипах в масштабе одной килокарты. и имеет масштабируемость 10 000 ка. Поддерживает смешанное обучение больших моделей, включая шесть гетерогенных чипов от AMD, Huawei Ascend, Tianshu Zhixin, Muxi, Moore Thread и NVIDIA.

Начиная с июля пользователи, подавшие заявку на пробное обучение, могут одним щелчком мыши инициировать обучение крупных моделей с масштабом 70 миллиардов параметров на Infini-AI.

Всего 4 месяца назад облачная платформа разработки и обслуживания крупных моделей Infini-AI от Wuwen Xinqiong объявила о своей первой публичной бета-версии. Клиенты крупных модельных компаний, таких как Zhipu AI, Dark Side of the Moon и Shengshu Technology, стабильно используют Infini-AI. Разнородная вычислительная мощность и более 20 стартапов приложений AI Native продолжают вызывать различные API-интерфейсы предустановленных моделей на Infini-AI и использовать цепочку инструментов, предоставленную Wuwen Xinqiong, для разработки собственных бизнес-моделей.

Запуск первой в мире платформы, которая может выполнять смешанное обучение разнородных чипов в масштабе килокарты, является не только отражением технической мощи Wuwen Core Dome в оптимизации гетерогенных вычислений и проектировании кластерных систем, но также отражением приверженности Wu Wen Core Dome «MxN» Важное достижение экологической концепции среднего уровня.

Увэнь Синьцюн возглавил создание экологической модели среднего уровня «MxN» для достижения эффективного и унифицированного развертывания нескольких алгоритмов больших моделей на нескольких чипах.

Платформа Infini-AI поддерживает более 30 моделей, включая Qwen2, GLM4, Llama 3, Gemma, Yi, Baichuan2, серию ChatGLM3 и AMD, Huawei Shengteng, Biren, Cambrian, Suiyuan, Haiguang, Tianshu Zhixin, более 10 типов вычислений. Карты, включая Muxi, Moore Thread и NVIDIA, не только поддерживают соединение «один к одному» между одним алгоритмом и чипом, но также поддерживают свободное сопоставление и комбинацию нескольких моделей и нескольких чипов.

По словам Ся Лисюэ, ожидается, что к концу этого года Wuwen Xinqiong полностью внедрит автоматическую маршрутизацию M×N от модели к чипу.

1. Кластер Ванка является полем битвы для крупных военных стратегов, и страна сталкивается с трудностями в открытии экосистемы.

Ся Лисюэ, соучредитель и генеральный директор Wuwen Core Dome, считает, что вычислительная мощность — это форпост и краеугольный камень развития искусственного интеллекта. Масштаб моделей, появившихся после GPT-4, не увеличился в геометрической прогрессии, а вычислительная мощность, необходимая для поддержки алгоритма, столкнулась с узким местом. В настоящее время никто не может реализовать большую систему с большим масштабом и большим объемом вычислений. Другими словами, в состоянии замедления и стагнации все еще необходимо разработать и построить систему вычислительных мощностей, поддерживающую возможности модели для перехода к следующему поколению. .

Большие модели конкурируют за глобальную вычислительную мощность под действием закона масштабирования. Есть сообщения, что Microsoft и OpenAI строят крупный проект по вычислительной мощности стоимостью более 100 миллиардов долларов США. По сравнению со многими другими методами, это простое и грубое расширение масштаба обеспечивает наиболее практичную отдачу от интеллекта модели. Google, OpenAI, а также крупные отечественные производители и три крупнейших оператора строят большие кластеры масштаба Ванки.

В действительно устойчивой итеративной, большой и стабильной системе закон масштабирования имеет уникальные преимущества. Он не имеет такого большого количества сложных методов, его легче поддерживать и расширять. Для системы, которой действительно необходимо работать в течение длительного времени, масштабируемость является очень важным атрибутом, а масштабируемая система — хорошая система.

Диаграмма IDC показывает, что потребность в вычислительной мощности для будущих выводов и обучения ИИ быстро растет во всем мире, и как обучение, так и вывод требуют поддержки мощных вычислительных ресурсов. Внутренняя и зарубежная экология этого огромного рынка сильно различается. Структура уровня зарубежной экологической модели и уровня чипов относительно сконцентрирована, в то время как китайская экосистема относительно децентрализована и динамична. И уровень модели, и уровень чипов конкурируют за расширение рынка вычислительной мощности и сталкиваются со многими ключевыми проблемами при открытии рынка. экосистема.

Кластер Ванка — поле битвы крупных военных стратегов. Ся Лисюэ рассказал, что в настоящее время в Китае строятся или планируются более 100 кластеров килокарт, и большинство из них имеют гетерогенную вычислительную мощность. Многие кластеры используют различные сервисы чипов и занимаются производством искусственного интеллекта. Причины включают возможность рисков в цепочке поставок, возникающих из-за чрезмерной зависимости от единой аппаратной платформы, а также быстрое улучшение производительности отечественных чипов, которые предоставляют участникам кластера множество вариантов.

Однако большое количество разнородных микросхем также образует «экологические бункеры». Различные аппаратные экосистемы закрыты и несовместимы друг с другом. Использование вычислительных мощностей сталкивается с рядом очень сложных инженерных проблем. Даже если кластеров вычислительной мощности много, добиться эффективной интеграции и использования все равно сложно. Это не только напрасная трата ресурсов вычислительной мощности. Это не только самая большая трудность в построении собственной инфраструктуры искусственного интеллекта, но и важная причина. Современная индустрия крупных моделей сталкивается с «дефицитом вычислительной мощности».

Wuwen Core Dome хочет создать инфраструктуру AI Native, которая сможет адаптироваться к многомодельному и многочиповому экологическому ландшафту Китая, предоставить полезную вычислительную платформу, которая эффективно интегрирует разнородные вычислительные ресурсы, и промежуточное программное обеспечение, которое поддерживает совместную оптимизацию и ускорение программного и аппаратного обеспечения. , разрушая существующие «экологические разрозненности» и позволяя гетерогенным чипам и кластерам по-настоящему трансформироваться в большие вычислительные мощности.

Задачи вывода обучения ИИ сильно отличаются от традиционных вычислений. Например, одна задача будет большой и периодической. Поэтому, если не будет принята стратегия планирования, основанная на искусственном интеллекте, использование ресурсов всей системы будет очень низким или даже низким. В результате задачи клиентов часто зависают и перезапускаются, тем самым задерживая процесс разработки ИИ.

Решение Wuwenxinqiong включает в себя полную систему управления облаком, включая возможности планирования и платформы PaaS и MaaS. Нижеследующее эквивалентно базе вычислительных мощностей для совместной работы в облаке, позволяющей разработчикам и исследователям больших моделей перемещаться со своими сумками и быстро использовать различные вычислительные мощности.

Построенная на этой основе сервисная платформа MaaS, то есть сервисная платформа набора моделей, может предоставлять множество крупных модельных сервисов с гибкими приложениями, чтобы помочь некоторым компаниям, которые все еще находятся в периоде обучения искусственному интеллекту, быстро разработать некоторые крупномасштабные приложения большие модели.

2. Обеспечьте перекрестное обучение различных чипов и снизьте затраты на реализацию приложений для крупных моделей.

За плечами ряда производственных и исследовательских работ научно-исследовательская группа Wuwen Xinqiong имеет большой практический опыт и достижения в оптимизации вычислений на гетерогенных микросхемах и проектировании кластерных систем.

Недавно совместная исследовательская группа Увэнь Синьцюн, Университета Цинхуа и Шанхайского университета Цзяо Тонг выпустила HETHUB, гетерогенную распределенную гибридную систему обучения для крупномасштабных моделей. Впервые в отрасли было достигнуто перекрестное обучение шести различных марок чипов, а степень инженерной готовности высока. По словам Ся Лисюэ, первоначальное намерение разработки этой технологии состоит в том, чтобы продолжать расширять верхний предел технических возможностей больших моделей за счет интеграции более разнородных вычислительных мощностей и в то же время, открывая экосистему гетерогенных чипов, продолжать снижать стоимость реализации больших модельных приложений.

Он сказал, что двумя основными проблемами, с которыми пришлось столкнуться при создании системы, были коммуникация и распределенное обучение. Различные коммуникационные библиотеки для разных аппаратных архитектур эквивалентны тому, что два человека используют совершенно разные языки для выполнения большого проекта. Разнородные карты имеют множество различий в производительности из-за разных концепций проектирования и адаптируются к разным задачам, что приводит к множеству различий в производительности; Эффективность, демонстрируемая различными типами карточек, может сделать крупномасштабное распределенное обучение неэффективным.

Поэтому его командой была проделана большая работа, в том числе:

1. Что касается связи, создайте универсальную библиотеку коллективного общения для обеспечения эффективной связи различных типов чипов и совместимости со многими типами оборудования;

2. Предложите неравномерную схему разделения, основанную на параллелизме конвейеров, для решения проблемы различной эффективности оборудования и распределения наиболее подходящих задач в соответствии с вашей собственной ситуацией;

3. Самостоятельно разработанный инструмент прогнозирования смешанного обучения может заранее предсказывать значение каждой фишки в самом начале обучения, тем самым находя оптимальную стратегию разделения для выполнения всей задачи обучения и формирования наилучшего решения на разных картах.

Судя по фактическому эффекту смешанной тренировки, Увэнь Синьцюн выполнил множество комбинаций, которые могут достигать более 70%, а использование вычислительной мощности может достигать 97,6%. Смешанная тренировка на 6 различных комбинациях чипов достигла шкалы килокалорий. .

Раньше Wuwen Xinqiong достигал вывода M×N, но теперь он достиг обучения M×N, что является очень большим прорывом.

Такая функциональность интегрирована в существующую платформу Infini-AI. Платформа позволяет пользователям эффективно развертывать приложения и услуги на платформе. После добавления возможностей смешанного обучения она может поддерживать перекрестное сочетание 6 брендов, устраняя узкие места в обучении одного бренда. мир поддерживает гетерогенность килокалорий. Платформа для смешанного обучения.

Верхний уровень Infini-AI поддерживает различные стратегии обучения, включая тензорный параллелизм, параллелизм данных и перекрытие коммуникаций, что позволяет добиться эффективного обучения и поддерживать обучение больших моделей с более чем 70 миллиардами токенов, а также смешанное обучение больших моделей в один клик. -масштабные модели. Используя эту платформу, разработчикам не нужно тратить больше времени на рассмотрение различий в базовой вычислительной мощности. Они могут быстро настроить свои собственные большие модели на гибридном кластере, состоящем из разных чипов, и быстро реализовать свой собственный бизнес.

3. Эффективное планирование + эффективная отказоустойчивость для обеспечения стабильного выполнения задач на кластерах большой вычислительной мощности.

После создания большого кластера вычислительной мощности одна из основных задач заключается в том, как его использовать? Это связано с проблемами эффективного планирования. Эффективная система планирования вычислительной мощности может улучшить использование интегрированных гетерогенных ресурсов всеми пользователями.

Wuwen Core Dome добился большого прогресса в эффективной системе планирования вычислительной мощности. С помощью Wuwen Core Dome унифицированное управление мультигетерогенными кластерами может поддерживать более десяти видов чипов и создавать более 10 000 вычислительных систем уровня карт. серия гибридных стратегий планирования обеспечивает среднюю задержку планирования задач на уровне миллисекунд, а использование ресурсов всего системного кластера может поддерживаться выше 90%. Улучшив основу всего AI-контейнера, Wuwen Xinqiong может увеличить SLO всего кластера до 99,95 % в многопользовательском сценарии, при этом масштабируемость будет очень высокой.

Помимо планирования, при обучении модели нельзя постоянно перезапускать обучение. Wuwen Core Qiong разработала эффективную отказоустойчивую систему обучения, включающую отказоустойчивую систему выполнения для больших моделей, гибридную систему прогнозирования аномалий индикаторов и систему асинхронного чтения и записи контрольных точек.

Часть отказоустойчивости увеличила эффективное время обучения больших моделей на 30%, вероятность успешного обнаружения аномалий больших моделей увеличилась до 70%, а большинство ошибок можно обнаружить и избежать заранее. Эффективность чтения и записи контрольных точек. увеличено в 20 раз и улучшено аварийное завершение крупных моделей. Время сокращено до менее 5 минут, что позволяет обеспечить стабильное выполнение задач на кластерах большой вычислительной мощности.

Чтобы облегчить разработчикам более эффективное использование кластера, платформа объединяет технические возможности оптимизации системы обслуживания больших моделей Wuwenxinqiong. При высокой степени параллелизма и одновременной отправке запросов несколькими пользователями с помощью планирования запросов могут использоваться такие технологии, как кэширование подсказок. помогают лучше распределять задачи и возвращать результаты вычислений, что может увеличить пропускную способность более чем в 30 раз, делая работу приложений более плавной и плавной.

Вывод: пусть в мире не будет сложных в использовании вычислительных мощностей ИИ

«Между повышением технического потолка и внедрением и распространением технологии нет противоречия, и это зависит от того, как мы настроены относиться к этой технологии». Ся Лисюэ считает, что говорить о снижении стоимости крупных моделей до 1/10 000 сегодня просто. как говорить об электрификации каждого дома 30 лет назад.

Отличная инфраструктура – это такое «волшебство». Когда предельные издержки падают до критического значения, больше людей могут освоить новые технологии.

В настоящее время развитие индустрии крупных моделей вступает в стадию крупномасштабного промышленного внедрения. Расцвет сценариев применения привел к все более острой необходимости в обучении крупных моделей. Создание собственной инфраструктуры искусственного интеллекта в эпоху больших моделей может не только предоставить разработчикам искусственного интеллекта более универсальную, эффективную и удобную среду для исследований и разработок, но также является ключевым краеугольным камнем для достижения эффективной интеграции вычислительных ресурсов и поддержки устойчивого развития искусственного интеллекта. промышленность.

Разработка ИИ требует как базовых системных возможностей, которые могут единообразно интегрировать несколько разнородных чипов, так и промежуточного уровня, который обеспечивает простоту использования между разнородными вычислительными мощностями и несколькими алгоритмами, позволяя пользователям одновременно планировать различные вычислительные мощности с помощью единой среды программирования. Со временем на нем устанавливаются интерфейсы, совместимые с существующими привычками пользовательского программирования, чтобы облегчить будущее расширение.

Wuwen Core стремится создать инфраструктуру AI Native, которая действительно адаптируется к нескольким моделям и нескольким чипам, чтобы в мире не было сложных в использовании вычислительных мощностей AI. Мы надеемся достичь не только эффективного соединения, использование и интеграция «M×N», но также и конечная цель. Это превратить, казалось бы, бездействующие вычислительные ресурсы в большие вычислительные мощности, улучшить целостность экосистемы больших моделей, значительно снизить стоимость реализации больших моделей и способствовать продвижению применение инноваций крупных моделей в различных отраслях промышленности.

Новости

Введение

моя контактная информация