Новости

Разрушая экологический остров, были выпущены отечественные гетерогенные вычислительные инструменты искусственного интеллекта от Чжункэ Цзяхэ.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Отчет о сердце машины

Автор: Зенан

"С помощью программного обеспечения для оптимизации систем будет снижен порог развития, унифицировано различное оборудование, развита технологическая экология. Это имеет большое значение для прогресса современной интеллектуальной экологии", - сказал академик РАН. На пресс-конференции выступил председатель комитета и председатель CCF Сунь Нинхуэй, академик Китайской инженерной академии и академик Института вычислительных технологий Китайской академии наук. «Помимо интеллектуальных чипов и отраслевых приложений искусственного интеллекта, нам нужно, чтобы стороны, занимающиеся оптимизацией системного программного обеспечения, объединились и работали вместе, чтобы мы могли улучшить внутреннюю экосистему».



Академик Сунь Нинхуэй на пресс-конференции

Столкнувшись с проблемой «зависания» вычислительной мощности, мы наконец-то нашли решение на уровне системы.

20 июля стартап по инфраструктуре искусственного интеллекта Zhongke Jiahe официально выпустил первое поколение гетерогенных собственных вычислительных инструментов искусственного интеллекта.

Учитывая нынешнюю тенденцию широкомасштабного внедрения отечественных вычислительных мощностей, метод, предложенный Чжункэ Цзяхэ, может позволить распараллеливать различные типы микросхем в больших масштабах, обеспечивая при этом максимальную эффективность, а также позволяет пользователям вычислительной мощности напрямую получать доступ к вычислительной мощности без приходится обращать внимание на различную экологию чипа. Приходите и используйте его.

Цуй Хуйминь, основатель и генеральный директор Zhongke Jiahe, заявил и сообщил, что «разнородные собственные вычислительные инструменты искусственного интеллекта Jiahe» уже сыграли определенную роль в инфраструктуре искусственного интеллекта отечественных вычислительных мощностей. Он совместим с различными отечественными чипами искусственного интеллекта и обеспечивает высокопроизводительный унифицированный интерфейс, позволяющий скрыть различия между чипами.На основе гетерогенных собственных платформ кластеры вычислительной мощности ИИ повысили производительность при рассуждении на больших моделях.Задержка может быть уменьшена в 3–74 раза, пропускная способность увеличена в 1,4–2,1 раза, энергоэффективность повышена в 1,46 раза, а также может поддерживать плотные большие модели с параметрами 340B и большие модели MoE с 640B.

В то же время Zhongke Jiahe предоставила высокопроизводительную поддержку рассуждений более чем 10 клиентам, включая чипы, интеграторов, поставщиков услуг и т. д. Его архитектура поддерживает основные отечественные и зарубежные основные крупные модели и может выполнять разнообразные параллельные рассуждения.

В число поставщиков вычислительной мощности и партнеров по приложениям, объявленных на пресс-конференции, входят: AMD, Boyd, Huawei, Ханчжоуский вычислительный центр искусственного интеллекта, Open Transun, Moore Thread, Qingyun Technology, Rise VAST, Suiyuan Technology и Wuwenxin Qiong, Yunxi Hashrate, Xinhua San. и т. д. (отсортировано в алфавитном порядке по системе пиньинь).



Цуй Хуйминь, основатель и генеральный директор Zhongke Jiahe, на пресс-конференции

Гетерогенная вычислительная мощность искусственного интеллекта с целью достижения «три нуля и один максимум».

План, предложенный Чжункэ Цзяхэ, направлен на обеспечение возможности применения крупных моделей искусственного интеллекта.Обеспечьте нулевую миграцию, использование с нулевыми потерями и эффективное развертывание с нулевой задержкой на разных чипах.

Этот набор программных инструментов включает в себя три продукта: гетерогенный собственный механизм вывода больших моделей «SigInfer», гетерогенный собственный механизм точной настройки «SigFT» и инструмент автоматического создания и перевода операторов «SigTrans».

Среди них выпущенный вчера SigInfer — это кроссплатформенный высокопроизводительный гетерогенный собственный механизм вывода, который поддерживает не только карты ускорителей искусственного интеллекта серверного уровня, но и графические процессоры потребительского уровня. Следовательно, его можно развернуть в центрах обработки данных и ускорить различные конечные устройства.



В качестве технической базы для гетерогенных вычислений различные вычислительные мощности искусственного интеллекта, доступные через SigInfer, могут обеспечить унифицированные интерфейсы вызовов и плавную миграцию бизнес-приложений. SigInfer выполнит многоуровневую глубокую оптимизацию, используя различные вычислительные мощности, чтобы полностью раскрыть потенциал вычислительной мощности чипа.

Он обладает различными функциями современных механизмов вывода больших моделей, такими как поддержка обслуживания API, планирование запросов, пакетное управление, оптимизация KV-кэша, тензорный параллелизм, конвейерный параллелизм, экспертный параллелизм и даже параллелизм конвейеров с несколькими машинами.

Чжункэ Цзяхе сказал, что SigInfer уже поддерживает большинство крупных модельных структур в отрасли.



В настоящее время SigInfer уже может реализовать все возможности механизма вывода. Поддерживаемый гетерогенный кластер карт-ускорителей может гибко планировать карты-ускорители NVIDIA AI + отечественные карты-ускорители AI для гибридного вывода и может быть расширен до триллионов крупных моделей.

Использование SigInfer для помощи в развертывании чипов ИИ может позволить крупным модельным сервисам поддерживать высокую пропускную способность и низкую задержку, когда требования к бизнес-доступу возрастают. Эти показатели имеют решающее значение для крупномасштабных приложений генеративного ИИ.

При использовании той же видеокарты NVIDIA мы видим, что SigInfer может обеспечить более очевидный эффект ускорения:



Кроме того, при использовании отечественных чипов для выполнения аналогичных задач SigInfer также может повысить пропускную способность карт-ускорителей искусственного интеллекта при параллельных вычислениях, при этом значительно сокращая задержку вывода токенов.

Гетерогенные собственные вычислительные инструменты искусственного интеллекта могут регулировать вычислительную частоту ускорителя искусственного интеллекта на основе различных этапов обработки задач большой модели, характеристик оператора, адаптивной оптимизации цели оптимизации и т. д., тем самым достигая высокой эффективности. Чжункэ Цзяхе рассчитал для нас счет. Во время работы дата-центра использование A800 плюс SigInfer позволяет повысить коэффициент энергоэффективности на 46% по сравнению с vllm.

Помимо оптимизации облачной инфраструктуры, Чжункэ Цзяхэ также продемонстрировал оптимизацию производительности для обработки выводов на стороне клиента. SigInfer может ускорить работу микросхем основных производителей, таких как Intel, Qualcomm и AMD. По сравнению с основными решениями для развертывания в отрасли, SigInfer может повысить эффективность вывода на стороне устройства до 5 раз.

За гетерогенными вычислениями и повышением эффективности стоит применение и оптимизация ряда передовых технологий и инженерных разработок.

Чтобы повысить эффективность параллельных вычислений, Чжункэ Цзяхэ представил ряд оптимизаций. Например, оптимизация доступа к памяти на этапе углубленного декодирования позволяет KV Cache получить мультиплексирование на уровне регистров. По сравнению с загрузкой из L2 оптимизированы как задержка, так и пропускная способность.

В то же время, чтобы смягчить сокращение параллелизма, исследователи из Чжункэ Цзяхэ также выполнили параллельное деление в измерении последовательности данных. В сочетании с оптимизацией повторного использования KV Cache это не только экономит доступ к памяти, но и увеличивает параллелизм, повышая эффективность выполнения основных вычислений всего механизма внимания.

Чжункэ Цзяхэ также исследовал высокопроизводительные методы генерации операторов для гетерогенной вычислительной мощности. Сотрудничая с производителями вычислительной мощности, Чжункэ Цзяхе перевел абордаж на отечественную архитектуру микросхем, значительно повысив эффективность работы матричного умножения. Среди них компания добилась повышения производительности более чем на 20% за счет оптимизации в сочетании с технологией компиляции.

Благодаря поддержке ряда технологий гетерогенные вычислительные инструменты искусственного интеллекта Jiahe достигли превосходной оптимизации энергоэффективности.

Начиная с технологии компиляции: технический путь Чжункэ Цзяхэ

В отличие от возможностей, предоставляемых некоторыми компаниями, занимающимися вычислительной инфраструктурой искусственного интеллекта в прошлом,Гетерогенные вычисления и ускорение, обеспечиваемые Чжункэ Цзяхе, основаны на технологии компиляции.

Для компьютеров работой, выполняемой уровнем компиляции, является «перевод». Он отвечает за преобразование содержимого языка программирования высокого уровня, написанного людьми, в язык, который машина может понимать и выполнять.



В этом процессе компиляцию также необходимо оптимизировать, то есть повысить эффективность работы сгенерированного машинного кода. Когда дело доходит до производительности чипа, компиляция играет большую роль, но ее часто упускают из виду.

Вычислительная платформа CUDA играет важную роль в самых популярных в отрасли чипах NVIDIA. Он включает в себя языки программирования, компиляторы, различные высокопроизводительные библиотеки ускорения и платформы искусственного интеллекта. Он может выступать в качестве распределителя, когда компьютер выполняет задачи, полностью используя вычислительные ресурсы различного оборудования для ускорения работы сложных моделей кода. Можно сказать, что сегодняшняя экосистема искусственного интеллекта во многом основана на CUDA.

Для достижения крупномасштабного применения отечественных вычислительных мощностей необходимо создать необходимую экологию и возможности.



В эпоху генеративного искусственного интеллекта потребность людей в вычислительной мощности способствовала развитию чиповых технологий, но возникли и новые проблемы:

  • С точки зрения производителей чипов, экосистема также развивается в виде множества фрагментов, что приведет к увеличению затрат на разработку и возникновению таких проблем, как эффективность реализации и совместимость.
  • С точки зрения развития отрасли, технология искусственного интеллекта быстро развивается и охватывает все больше и больше сценариев, а это означает, что будет задействовано все больше типов вычислительной мощности, что еще больше стимулирует спрос на гетерогенные вычисления.

Поэтому отрасли срочно нужна эффективная цепочка инструментов, способная поддерживать различные отечественные чипы. Если появится набор универсального, недорогого и высокопроизводительного базового программного обеспечения, который поможет экологическим партнерам быстро пересадить приложения, разработанные на основе экосистемы NVIDIA, потенциал отечественных чипов может быть полностью раскрыт, ускоряя темпы технологических исследований и разработок, тем самым Постепенно создайте позитивный цикл, который создаст экосистему вычислительных мощностей ИИ.

Именно этим и занимается Чжункэ Цзяхэ.

Базовый уровень программной платформы, предоставляемый Чжункэ Цзяхе, расположен на уровнях оператора, компилятора и платформы, создавая мост между аппаратным и программным обеспечением.Предоставляемые им гетерогенные собственные вычислительные инструменты искусственного интеллекта могут помочь пользователям плавно мигрировать модели искусственного интеллекта и архитектуры чипов, что обеспечивает большое удобство для приложений искусственного интеллекта.



Все эти уровни возможностей связаны с технологией компиляции. Охват компиляции ИИ включает как уровень, так и уровень операторов. По сравнению с традиционными компиляторами диапазон семантического преобразования шире. Например, компиляторам ИИ обычно необходимо учитывать разделение графа вычислений, объединение подграфов, параллельные вычисления, блокировку данных и т. д. Это трудные для решения проблемы.

В этом отношении Чжункэ Цзяхэ провел множество исследований, таких как проведение глобального анализа потоков данных на уровне тензорных выражений, построение точных графиков вычислений и графиков зависимостей данных, а затем нарушение границ операторов для объединения операторов, и добился хороших результатов. Эффект. В некоторых сетях этот метод достиг коэффициента ускорения до 3,7 раз по сравнению с передовым уровнем отрасли. Соответствующие результаты работы были опубликованы на ведущей конференции этого года в компьютерной сфере.

Создайте комплексные вычислительные мощности, позволяющие создавать решения, способствующие процветанию отечественной экосистемы искусственного интеллекта.

Zhongke Jiahe была основана в июле 2023 года, и ее команда в основном состоит из Института вычислительных технологий Китайской академии наук. Основатель Цуй Хуйминь окончил факультет компьютерных наук Университета Цинхуа и является главой сборной команды Института вычислительных технологий Китайской академии наук. Основная команда компании имеет более чем 20-летний опыт исследований и разработок компиляторов и выступала в качестве основного члена, руководя или участвуя в исследованиях и разработках компиляторов для ряда отечественных микросхем.

С момента своего основания компания сосредоточила свое внимание на технологиях компиляции и оптимизации чипов и стремится предоставлять универсальные, недорогие и высокопроизводительные вычислительные ресурсы с миссией «собрать объединенную мощь чипов для построения внутренней экосистемы». В настоящее время Чжункэ Цзяхэ получил несколько раундов финансирования на общую сумму около 100 миллионов юаней.



Чжункэ Цзяхе создает серию продуктов по трем направлениям, включая механизм вывода больших моделей искусственного интеллекта, который поддерживает гетерогенную вычислительную мощность, среду точной настройки больших моделей и набор инструментов компиляции искусственного интеллекта. Они могут не только помочь пользователям вычислительной мощности быстро использовать диверсифицированные вычислительные мощности ИИ, но также помочь поставщикам вычислительной мощности улучшить экосистему программного обеспечения и повысить конкурентоспособность, завершая важную часть внутренней экосистемы вычислительных мощностей ИИ.



Что еще более важно, Чжункэ Цзяхэ надеется стать «коммуникационным» мостом, соединяющим большое количество пользователей вычислительной мощности и поставщиков вычислительной мощности, чтобы обе стороны могли счастливо двигаться в обоих направлениях, тем самым способствуя развитию гетерогенных вычислительных мощностей искусственного интеллекта. крупномасштабным приложениям и энергичному развитию отечественной экосистемы искусственного интеллекта.