новости

Доклад был представлен на ведущей конференции по компьютерной архитектуре, и архитектура микросхем стала лучшим выбором параллельных вычислений для периферийного ИИ.

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Сердце машины выпущено

Редакция «Машинное сердце»

Бурное развитие крупных моделей искусственного интеллекта вызвало высокий спрос на графические процессоры, а приложения искусственного интеллекта, распространяющиеся от облака до периферии, также будут стимулировать спрос на периферийные серверы искусственного интеллекта и процессоры ускорения. Сравнивая GPGPU, FPGA, NPU и ASIC, реконфигурируемая вычислительная архитектура CGRA становится наиболее подходящей архитектурой параллельных вычислений для периферийного ИИ. Реконфигурируемый параллельный процессор (RPP), предложенный Core Dynamics, представляет собой вычислительную архитектуру, более подходящую для крупномасштабной параллельной обработки, чем традиционный CGRA. Это не только подтверждено экспериментальными оценками, но также признано международными академическими органами через ISCA. конференция. Чип R8, основанный на архитектуре RPP и последующих более производительных итерациях, станет идеальным выбором процессора для ускорения ИИ для периферийных ИИ-серверов и ИИ-ПК.

Оглавление

1. Что такое периферийный ИИ?

2. Тенденции рынка Edge AI-серверов

3. Идеальная вычислительная архитектура, подходящая для периферийного искусственного интеллекта.

4. Подробное объяснение архитектуры RPP.

5. Сравнение энергоэффективности процессора RPP R8.

6. Процессор RPP признан международными академическими органами.

7. Заключение

1. Что такое периферийный ИИ?

Edge AI (AI Edge) — это передовая технология на стыке искусственного интеллекта (ИИ) и периферийных вычислений. Эта концепция возникла из-за смены парадигмы распределенных вычислений, при которой ИИ перемещается из облака в периферию. Суть периферийного ИИ заключается во внедрении алгоритмов ИИ непосредственно в локальную среду, генерирующую большие объемы данных, такую ​​как смартфоны, устройства IoT или локальные серверы, и проведение обработки данных в реальном времени с помощью устройств и систем, расположенных на «периферии». сетевой (то есть ближе к источнику данных) обработки и анализа.

По сравнению с обучением или выводом ИИ в традиционных центрах обработки данных или платформах облачных вычислений, основным преимуществом периферийного ИИ является «обработка на месте», что значительно снижает задержку передачи и обработки данных. Это полезно для интеллектуального мониторинга, автономного вождения, Медицинская диагностика в режиме реального времени или Это особенно важно в таких сценариях применения, как управление промышленной автоматизацией.

Оборудование и системы, реализующие периферийные вычисления ИИ, в основном включают:

  1. Смарт-терминал: устройство, используемое в основном для генерации или сбора данных, например интеллектуальные датчики, смартфоны, компьютеры с искусственным интеллектом или устройства IoT;
  2. Edge AI-сервер: периферийные устройства, а также программно-аппаратные системы, которые непосредственно обрабатывают и анализируют собранные данные, такие как выделенные серверы вывода искусственного интеллекта для моделей большого языка (LLM), серверы интеллектуальных вычислительных центров зоны вождения и т. д.;
  3. Оборудование сети связи. Хотя требования к полосе пропускания и скорости периферийных приложений ИИ для сетей связи не так высоки, как у облачных сетей, необходимо обеспечить надежные высокоскоростные соединения для достижения требований к низкой задержке и работе в реальном времени, требуемых периферийным ИИ.

В этой статье в основном обсуждаются периферийные серверы искусственного интеллекта и тенденции развития их рынка, требования к процессорам ускорения искусственного интеллекта, а также архитектура параллельных вычислений и реализация процессоров, подходящая для периферийных приложений искусственного интеллекта.

2. Тенденции рынка Edge AI-серверов

Серверы ИИ относятся к высокопроизводительному компьютерному оборудованию, разработанному специально для приложений искусственного интеллекта и способному поддерживать сложные задачи, такие как крупномасштабная обработка данных, обучение моделей и вычисления вывода. Серверы ИИ обычно оснащены высокопроизводительными процессорами, высокоскоростной памятью, высокоскоростными системами хранения данных большой емкости и эффективными системами охлаждения для удовлетворения чрезвычайно высокого спроса на вычислительные ресурсы со стороны алгоритмов ИИ. В соответствии с различными классификационными стандартами серверы ИИ можно грубо разделить на серверы обучения, серверы вывода, серверы графических процессоров, серверы FPGA, серверы ЦП, облачные серверы ИИ и пограничные серверы ИИ.

По прогнозу Gartner, с настоящего момента и до 2027 года рынок ИИ-серверов будет сохранять быстрый рост, с совокупным годовым темпом роста до 30%. «Отчет о мировом рынке серверов за первый квартал 2024 года», опубликованный агентством, показывает, что продажи мирового рынка серверов в первом квартале этого года составили 40,75 млрд долларов США, что на 59,9% больше, чем в прошлом году; поставки составили 2,82 млн единиц; рост по сравнению с аналогичным периодом прошлого года составил 5,9%. Среди многих поставщиков серверов искусственного интеллекта Inspur Information продолжает занимать второе место в мире и первое в Китае. На долю ее поставок серверов приходится 11,3% мирового рынка, что соответствует годовому приросту на 50,4% и самым быстрым темпам роста среди поставщиков. ТОП5 производителей.

Согласно «Прогнозу спроса на серверную индустрию Китая и прогнозному отчету о тенденциях развития на 2024–2029 годы», опубликованному Китайским научно-исследовательским институтом бизнес-индустрии, в конце 2022 года общий объем внутреннего рынка превысит 42 миллиарда юаней. -годовой рост примерно на 20%; в 2023 году он составит около 49 миллиардов юаней, темпы роста рынка постепенно замедляются; ожидается, что в 2024 году размер рынка достигнет 56 миллиардов юаней; С точки зрения поставок, поставки на рынок серверов искусственного интеллекта в Китае в 2022 году составят около 284 000 единиц, что увеличится примерно на 25,66% в годовом исчислении; в 2023 году будет отгружено около 354 000 единиц, а в 2024 году ожидается, что их количество достигнет 421 000 единиц.

На заре разработки крупных моделей ИИ спрос на серверы ИИ сводился в основном к обучению моделей, поэтому на рынке доминировали обучающие серверы. В настоящее время 57,33% рынка ИИ-серверов составляют обучающие серверы, а на серверы вывода приходится 42,67%. Однако по мере проникновения генеративных приложений ИИ на периферию ожидается, что серверы вывода постепенно станут основным направлением рынка в будущем, а периферийные серверы ИИ превзойдут облачные серверы обучения и серверы вывода с точки зрения поставок.

Данные последнего отчета IDC «Полугодовое отслеживание рынка периферийных вычислений в Китае (полный 2023 год)» показывают, что рынок серверов периферийных вычислений в Китае продолжит стабильно расти в 2023 году, при этом годовой рост составит 29,1%. IDC прогнозирует, что к 2028 году рынок серверов периферийных вычислений в Китае достигнет 13,2 миллиарда долларов США.



Масштаб настроенных пограничных серверов, которые являются важной частью периферийных вычислений, в 2023 году достиг 240 миллионов долларов США, что на 16,8% больше, чем в 2022 году. С точки зрения продаж производителей, крупнейшими производителями на рынке периферийных серверов являются Inspur Information, Lenovo, Huawei и H3C. Благодаря диверсифицированной разработке приложений для периферийных вычислений новые производители серверов добьются серьезных прорывов в бизнес-сценариях и на рынках приложений, таких как совместная работа транспортных средств и дорог, периферийный искусственный интеллект и интеллектуальные терминалы, что сделает рынок периферийных серверов диверсифицированным.

3. Идеальная вычислительная архитектура, подходящая для периферийного искусственного интеллекта.

Эру ПК возглавляет альянс WINTEL (Microsoft Windows + Intel CPU), а эру смартфонов возглавляет альянс Android+Arm. Какой альянс возглавит эпоху искусственного интеллекта? Появляется новый альянс, то есть NT Alliance (Nvidia+TSMC), образованный Nvidia и TSMC. По прогнозам инвестиционных экспертов с Уолл-стрит, общий доход NT Alliance, как ожидается, достигнет 200 миллиардов долларов США в 2024 году, общая чистая прибыль составит 100 миллиардов долларов США, а общая рыночная стоимость, как ожидается, превысит 5 триллионов долларов США. В этом году крупнейшими победителями станут подразделения графических процессоров Nvidia и подразделения TSMC по производству чипов искусственного интеллекта, основанные на обучении облачным технологиям искусственного интеллекта и приложениях для крупных моделей искусственного интеллекта.

Хотя NVIDIA занимает абсолютное доминирующее положение на рынке облачного обучения искусственного интеллекта и вывода, графический процессор NVIDIA не является лучшим выбором в сценариях периферийных приложений искусственного интеллекта, поскольку высокое энергопотребление и высокая стоимость его вычислительной архитектуры ограничивают его использование в большем количестве приложений. широко распространенные и рассредоточенные периферийные приложения ИИ. Ученые и эксперты в области компьютерной архитектуры ищут энергоэффективную архитектуру параллельных технологий, которая может заменить дизайн GPGPU, основанный на доменно-ориентированной архитектуре (DSA), такой как тензорный процессор Google (TPU). Этот процессор, предназначенный для ускорения рабочих нагрузок машинного обучения, использует архитектуру систолического массива, которая эффективно выполняет операции умножения и накопления и предназначен для приложений центров обработки данных. Другая идея — нейронный процессор (NPU), представленный Samsung, который специально разработан для мобильных сцен и имеет энергосберегающий механизм внутреннего продукта, который может использовать разреженность входной карты объектов для оптимизации производительности вывода глубокого обучения.

Хотя как TPU, так и NPU могут обеспечить высокопроизводительные и энергосберегающие решения, которые частично заменяют GPGPU, их специализированные конструктивные особенности ограничивают их универсальность и широкую применимость. Kneron, стартап по производству периферийных чипов искусственного интеллекта со штаб-квартирой в Калифорнии и центрами исследований и разработок в Тайване и Китае, предложил реконфигурируемое решение NPU, которое позволяет чипам NPU иметь высокую производительность ASIC, не жертвуя при этом надежностью программируемых алгоритмов с интенсивным использованием данных. Благодаря своей уникальной инновационной архитектуре и превосходной производительности команда Kneron получила награду IEEE CAS 2021 Darlington Best Paper Award. Реконфигурируемый NPU 4-го поколения Kneron может поддерживать одновременную работу сетей CNN и Transformer, а также выполнять как машинное зрение, так и семантический анализ. В отличие от обычных моделей искусственного интеллекта, которые ориентированы только на конкретные приложения, технология реконфигурируемой искусственной нейронной сети (RANN) Kneron более гибкая и может удовлетворять различные потребности приложений и адаптироваться к различным вычислительным архитектурам. По данным компании, ее Edge GPT AI-чип KL830 можно применять на компьютерах с искусственным интеллектом, USB-ускорителях и периферийных серверах. При использовании в сочетании с графическим процессором NPU может снизить энергопотребление устройства на 30%.

Реконфигурируемое оборудование — это еще одно решение, которое может обеспечить высокопроизводительные и энергосберегающие вычисления. Программируемые пользователем вентильные матрицы (FPGA) представляют собой реконфигурируемые аппаратные вычисления и характеризуются детальной реконфигурацией. В FPGA используются настраиваемые логические блоки с программируемыми соединениями для реализации пользовательских вычислительных ядер. Такая настраиваемая вычислительная мощность позволяет использовать ускорители на основе FPGA в широком спектре крупномасштабных вычислительных приложений, таких как финансовые вычисления, глубокое обучение и научное моделирование. Однако реконфигурация на уровне битов, обеспечиваемая FPGA, требует значительных затрат по площади и мощности без экономической эффективности масштабирования, что значительно ограничивает ее применимость в сценариях приложений, требующих низкого энергопотребления и небольшого размера.

Грубая реконфигурируемая архитектура (CGRA) представляет собой еще один класс реконфигурируемого оборудования. По сравнению с FPGA, CGRA обеспечивают возможность грубой реконфигурации, например, реконфигурируемые функциональные блоки на уровне слов. Поскольку модуль ALU в CGRA был построен, а его соединение проще и меньше, чем у FPGA, его задержка и производительность значительно лучше, чем у FPGA, которая соединена между собой на уровне вентилей для формирования комбинационной вычислительной логики. CGRA больше подходит для реконфигурируемых вычислений пословного типа (32-битные единицы) и может облегчить проблемы с синхронизацией, площадью и энергопотреблением FPGA. Это идеальная высокопроизводительная архитектура параллельных вычислений для будущего периферийного искусственного интеллекта.

Кратко рассмотрим историю развития CGRA:

  1. Еще в 1991 году международные академические круги начали исследования реконфигурируемых чипов;
  2. В 2003 году Европейская группа аэрокосмической обороны (EADS) стала лидером в использовании реконфигурируемых вычислительных чипов на спутниках;
  3. В 2004 году европейская компания IMEC предложила динамически реконфигурируемую структуру ADRES, которая применялась в биомедицинских телевизорах высокой четкости Samsung и других сериях продуктов. Японская компания Renesas Technology также использует эту архитектуру.
  4. В 2006 году группа реконфигурируемых вычислений под руководством профессора Вэй Шаоцзюня из Института микроэлектроники Университета Цинхуа начала проводить исследования в области теории и архитектуры реконфигурируемых вычислений;
  5. В 2017 году Агентство перспективных исследовательских проектов Министерства обороны США (DARPA) объявило о запуске Инициативы возрождения электроники (ERI), назвав технологию «реконфигурируемых вычислений» одной из стратегических технологий Соединенных Штатов на следующие 30 лет;
  6. В 2018 году была создана компания Qingwei Intelligence, основанная на реконфигурируемой вычислительной технологии Университета Цинхуа, которая официально начала процесс коммерциализации. В 2019 году компания Qingwei Intelligent произвела серийное производство первого в мире реконфигурируемого интеллектуального голосового чипа TX210, доказав коммерческую ценность реконфигурируемых вычислений. В 2020 году Qingwei Intelligent выиграла первую премию за технологические изобретения от Китайского общества электроники, в 2023 году это второй этап инвестиций Национального фонда в Qingwei Intelligent. В настоящее время у Qingwei Intelligent есть три основных продукта: чипы серии TX2 и TX5 для периферийных устройств, а также серия TX8 для серверов. Среди них чипы серий TX2 и TX5 используются во многих областях, таких как интеллектуальная безопасность, финансовые платежи, интеллектуальные носимые устройства и интеллектуальные роботы. Основным сценарием применения чипа для высоких вычислений TX8 на облачном рынке является обучение и вывод; больших моделей ИИ.
  7. Zhuhai Core Power, еще один отечественный стартап по производству чипов искусственного интеллекта, основанный на технологии реконфигурируемых вычислений, был основан в 2017 году. Его архитектура реконфигурируемого параллельного процессора (RPP) представляет собой улучшенную версию CGRA. В 2021 году был успешно выпущен первый чип RPP-R8. В 2023 году он вышел на рынок периферийных приложений искусственного интеллекта, таких как финансовые вычисления, промышленная фотография и роботы, и заключил стратегическое сотрудничество с Inspur Information для выхода на рынок периферийных серверов искусственного интеллекта.

Международное академическое сообщество и индустрия высоких технологий пришли к единому мнению, что реконфигурируемые вычислительные чипы на основе архитектуры CGRA обладают широким спектром общих вычислительных возможностей и могут применяться в различных сценариях периферийных вычислений с использованием искусственного интеллекта. Они являются идеальным решением для общих задач. только высокая вычислительная мощность и низкое энергопотребление.

4. Подробное объяснение архитектуры процессора RPP.

И RPP, и CGRA представляют собой крупномасштабные реконфигурируемые массивы, оба могут достигать плотности площади и энергоэффективности, подобных ASIC, и оба могут быть запрограммированы с помощью программного обеспечения. Однако RPP по-прежнему отличается от CGRA с точки зрения реконфигурируемых типов и моделей программирования, а именно следующим:

1. RPP представляет собой квазистатический реконфигурируемый массив, тогда как традиционный CGRA обычно используется для динамически реконфигурируемых массивов. Статический реконфигурируемый массив означает, что выполнение каждой инструкции в процессоре (PE) не меняется со временем, и поток данных также остается неизменным. Для компилятора статические реконфигурируемые массивы не требуют упорядочения инструкций во времени, что упрощает конструкцию RPP и делает скорость выделения инструкций очень низкой. Таким образом, RPP может легко реализовать большой массив, например массив 32x32. RPP больше подходит для крупномасштабных параллельных вычислений, чем традиционный CGRA.

2. RPP использует многопоточную модель программирования SIMT, тогда как CGRA обычно использует однопоточное языковое программирование. RPP совместим с языком CUDA и больше подходит для параллельных вычислений. Язык CUDA требует от программистов с самого начала учитывать степень параллелизма данных и выражать параллельные алгоритмы на языке CUDA. Компилятору не нужно анализировать степень параллельных вычислений, а язык CUDA является SIMT; Тип и используется только для параллельных вычислений данных, а степень параллелизма остается постоянной внутри программы. CGRA обычно использует язык C + независимый компилятор. Хотя теоретически он может охватывать любые типы вычислений, компилятор очень сложен, и трудно достичь высокой эффективности компиляции.

В приведенной ниже таблице сравнивается RPP с несколькими распространенными реконфигурируемыми архитектурами ускорения.



Преимущества архитектуры RPP можно свести к следующим четырем пунктам:

  1. Кольцевая реконфигурируемая архитектура параллельной обработки с прокладочной памятью позволяет эффективно повторно использовать данные между различными потоками данных;
  2. Иерархическая конструкция памяти имеет несколько режимов доступа к данным, стратегии сопоставления адресов и режимы общей памяти для достижения эффективного и гибкого доступа к памяти;
  3. Различные механизмы оптимизации оборудования, такие как параллельное выполнение ядра, разделение и пополнение регистров, а также гетерогенные скалярные и векторные вычисления, улучшают общее использование оборудования и производительность;
  4. Комплексный программный стек, совместимый с CUDA, с компилятором, средой выполнения и высокооптимизированной библиотекой RPP, обеспечивающий быстрое и эффективное развертывание периферийных приложений искусственного интеллекта.

Компания Core Dynamics предложила блок-схему аппаратного обеспечения RPP, основанную на архитектуре RPP, и наглядно продемонстрировала преимущества этой архитектуры параллельных вычислений с помощью чипа R8. Эта реализация аппаратного обеспечения в основном состоит из циклического реконфигурируемого процессора, блока памяти и секвенсора, как показано на рисунке ниже.

  1. Реконфигурируемые в цикле процессоры являются основными вычислительными компонентами массово-параллельных вычислений.
  2. Блок памяти разделен на несколько банков памяти, каждый из которых соединен с кэшем, чтобы обеспечить эффективное повторное использование данных за счет использования временной и пространственной локальности программы. Промежуточные данные передаются и сохраняются в блоке памяти только тогда, когда регистры и буферы внутри кольцевого реконфигурируемого процессора заполнены.
  3. Секвенсор используется для декодирования и распределения инструкций по кольцевому реконфигурируемому процессору и использует кэш для хранения инструкций, полученных из DDR.



Кольцевой реконфигурируемый процессор включает в себя процессор NPU (PE) и шим-память. Каждый PE оснащен портом памяти для облегчения доступа к данным в блоке памяти. Порт памяти оснащен контроллером режима, блоком вычисления адреса и несколькими мультиплексорами для поддержки различных режимов доступа к данным и режимов совместной памяти. Чтобы обеспечить гибкую внутрипроцессорную связь, каждый PE включает в себя коммутационный блок (SB) и коммутационный блок межсоединений (ICSB) для эффективной пересылки данных. Эти PE подключаются в линейной последовательности, при этом шим-память действует как мост между первым и последним PU, образуя таким образом кольцевую топологию.

Обработка данных внутри кольцевого реконфигурируемого процессора начинается с первого PE и проходит через PE по конвейеру, при этом промежуточные результаты вычислений последовательно выводятся на последующие PE. Промежуточная память кэширует выходные данные последнего PE и рециркулирует их в первый PE, тем самым максимизируя локальность данных и устраняя трафик памяти в блок памяти. Ключевым вычислительным компонентом PE является процессор. В каждом PE имеется несколько арифметико-логических блоков (АЛУ), каждый из которых связан с регистром данных и регистром адреса. Эти регистры данных объединяются для формирования буфера данных, обеспечивающего быстрый доступ к данным внутри каждого PE.

Кроме того, сочетание линейной коммутационной сети и шимм-памяти обеспечивает гибкое управление потоками данных и эффективное повторное использование данных, устраняя при этом сложную сетевую маршрутизацию в традиционных сетевых конструкциях CGRA. В сочетании с гибким и эффективным доступом к данным к блокам памяти RPP может оптимизировать обработку потока данных и минимизировать трафик памяти, тем самым максимизируя эффективность использования ресурсов.

Процессор RPP использует модель программирования SIMT для обеспечения потоковой обработки потоков данных для гибких многопоточных конвейеров.



Чтобы обеспечить совместимость с существующей экосистемой программного обеспечения GPGPU, процессор RPP Core Power использует CUDA, которая имеет широкую базу пользователей. Код CUDA анализируется интерфейсом на основе LLVM для создания кода PTX для серверной части RPP. Компилятор RPP интерпретирует ядра CUDA как графы потоков данных и сопоставляет их с виртуальными путями данных (VDP). Затем VDP разбивается на несколько физических путей данных (PDP) на основе аппаратных ограничений, и конфигурация каждого PDP генерируется секвенсором во время выполнения.

Программный стек RPP может поддерживать широкий спектр приложений с массовым параллелизмом, включая машинное обучение, обработку видео/изображений и обработку сигналов. Для приложений машинного обучения стек совместим с различными основными платформами, такими как PyTorch, ONNX, Caffe и TensorFlow. Кроме того, пользователи имеют возможность определять свои собственные программы с помощью CUDA. Эти высокоуровневые приложения обрабатываются средой RPP, которая состоит из компилятора и различных библиотек, специфичных для предметной области. В нижней части стека программного обеспечения находится среда выполнения RPP и драйверы RPP, обеспечивающие беспрепятственное выполнение программ, скомпилированных с использованием цепочки инструментов, на базовом оборудовании.

5. Сравнение энергоэффективности процессора RPP R8.

Как чип RPP-R8, основанный на вышеупомянутой аппаратной конструкции процессора RPP и полном стеке программного обеспечения, работает с точки зрения вычислительной производительности и энергоэффективности?

Параметры производительности чипа R8 показаны в следующей таблице:



В сценариях периферийных вычислений компания Core Power сравнила чип RPP-R8 с двумя периферийными графическими процессорами NVIDIA: Jetson Nano и Jetson Xavier AGX. Размер чипа Jetson Nano аналогичен RPP, что обеспечивает адекватное сравнение с учетом ограничений физической площади; Jetson Xavier AGX был выбран на основе его теоретической пропускной способности, эквивалентной RPP-R8. Компания Core Dynamics оценила эти три платформы ускорения искусственного интеллекта на основе выводов ResNet-50. Пропускная способность Jetson Nano взята из эталонного теста, а данные о производительности Xavier AGX — с официального сайта NVIDIA.



Как показано в таблице выше, измеренная пропускная способность RPP-R8 в 41,3 раза и 2,3 раза выше, чем у Jetson Nano и Jetson Xavier AGX соответственно. Знаете, размер чипа Jetson Xavier AGX почти в три раза больше, чем у R8, и процесс более совершенен (12 нм против 14 нм), но производительность у него ниже, чем у R8. Что касается энергоэффективности, энергоэффективность R8 в 27,5 и 4,6 раза выше, чем у Jetson Nano и Jetson Xavier AGX соответственно. Эти результаты показывают, что RPP-R8 значительно превосходит Jetson Nano и Jetson Xavier AGX в сценариях периферийного ИИ с ограниченной областью и бюджетом мощности.



Вывод глубокого обучения — это широко признанная рабочая нагрузка с массовым параллелизмом и ключевое приложение для оборудования RPP-R8. Ввиду более высокой вычислительной сложности моделей серии Yolo по сравнению с классификационными моделями, такими как ResNet-50, компания Core Power выбрала NVIDIA Jeston Nano Orin в качестве платформы графического процессора, пиковая производительность которой выше, чем у Jetson AGX Xavier, — 40 TOPS. Поскольку процессоры, как правило, не предназначены для высокопроизводительного вывода глубокого обучения, Jetson Xavier Nx был выбран в качестве относительно недорогой платформы графических процессоров с пиковой производительностью 21 TOPS. Оцениваются рабочие нагрузки с размерами пакетов 1, 2 и 4, что отражает реальные периферийные сценарии. На рисунке выше показано сравнение производительности пропускной способности трех платформ: RPP-R8 показывает более высокую пропускную способность на Yolo-v5m и Yolo-v7 tiny. При размере партии 1 пропускная способность RPP-R8 примерно в 1,5 × 2,5 раза выше, чем у Jeston Nano Orin, и в 2,6 × ∼4,3 раза выше, чем у Jeston Xavier Nx.

Результаты оценки и тестирования показывают, что RPP превосходит традиционные архитектуры GPU, CPU и DSP с точки зрения задержки, пропускной способности и энергоэффективности. Повышение производительности процессора RPP объясняется его уникальными аппаратными возможностями, которые в основном включают: 1) Циклическую обработку потока данных: промежуточные результаты проходят через конвейерные регистры и FIFO между PE, что значительно снижает перемещение данных и трафик памяти в удаленное хранилище памяти; Режим более эффективен по сравнению с обработкой данных в графическом процессоре и центральном процессоре. 2) Иерархическая система памяти: RPP максимизирует локальность данных благодаря своей иерархической системе памяти. Большая часть площади чипа RPP-R8 (около 39,9%) отведена под встроенную память. Такой выбор конструкции обеспечивает широкий диапазон объема памяти, расширяет возможности повторного использования данных и снижает потребность в частом доступе к внешней памяти. 3) Векторизация и многопоточные конвейеры. Аппаратная архитектура и модель программирования RPP обеспечивают эффективную векторизацию и многопоточные конвейеры. Эта конструкция в полной мере использует весь вычислительный потенциал RPP для параллельной обработки, гарантируя, что его ресурсы используются в максимальной степени, тем самым повышая производительность.

Помимо преимуществ в энергопотреблении, задержке и пропускной способности, RPP также выделяется своей небольшой площадью. Всего лишь 119 квадратных миллиметров занимаемой площади чипа делают RPP-R8 идеальной платформой для периферийных вычислений с ограниченной площадью. Еще одной особенностью RPP является его высокая программируемость, поддерживаемая комплексным комплексным программным стеком, который значительно повышает эффективность развертывания. Совместимость с CUDA позволяет пользователям использовать знакомую экосистему CUDA, сокращая время обучения и облегчая внедрение. Поддерживает режимы оперативного программирования и графического программирования, предоставляя пользователям высокую степень гибкости для удовлетворения различных вычислительных потребностей. Поддержка различных библиотек, включая OpenRT и RPP-BLAS, также обеспечивает высокую производительность и эффективное развертывание в различных сценариях. Комплексное решение, включая аппаратную архитектуру и поддержку программного обеспечения, выделяет RPP среди различного оборудования для периферийных вычислений.

6. Архитектура RPP признана международными академическими органами.

Документ «Циркулярный реконфигурируемый параллельный процессор для периферийных вычислений» (архитектура чипа RPP), написанный совместно с Core Dynamics и командами компьютерных архитектур из ведущих университетов, таких как Имперский колледж Лондона, Кембриджский университет, Университет Цинхуа и Университет Сунь Ятсена, был успешно принят. 51-й конференцией по компьютерной архитектуре, включенной в отраслевую программу Международного симпозиума (ISCA 2024). Основатель и генеральный директор Core Dynamics д-р Ли Юань и аспирант Имперского колледжа Хунсян Фань (ныне научный сотрудник Центра искусственного интеллекта Samsung в Кембридже, Великобритания) были приглашены выступить с речью на конференции ISCA 2024 в Буэнос-Айресе, Аргентина, а также эксперты из На сцене выступили всемирно известные компании, такие как Intel и AMD.



В этот ISCA поступило в общей сложности 423 высококачественных статьи со всего мира. После тщательного рассмотрения только 83 статьи были признаны лучшими, при этом общий уровень принятия составил всего 19,6%. Среди них особенно трудно выделить Industry Track: уровень принятия составляет всего 15,3%.

ISCA — главное академическое мероприятие в области компьютерной архитектуры, организованное совместно ACM SIGARCH и IEEE TCCA. С момента своего создания в 1973 году он был новатором в содействии прогрессу в области архитектуры компьютерных систем. Его широкое влияние и выдающийся вклад сделали его высококлассной платформой для конкуренции между такими гигантами отрасли, как Google, Intel и Nvidia. продемонстрировать передовые результаты исследований. ISCA, MICRO, HPCA и ASPLOS известны как четыре ведущих конференции, и ISCA является лидером среди них. Уровень приема статей остается на уровне около 18% круглый год. За прошедшие годы многочисленные результаты исследований, опубликованные в ISCA, стали ключевой движущей силой развития полупроводниковой и компьютерной промышленности.

Выбранные на этот раз статьи о реконфигурируемых параллельных процессорах (RPP) придали мощный импульс развитию периферийных вычислений. Результаты экспериментов полностью подтверждают, что производительность RPP в качестве аппаратной платформы для параллельных вычислений полностью превосходит производительность графических процессоров, представленных в настоящее время на рынке, особенно в сценариях приложений, которые предъявляют чрезвычайно высокие требования к задержке, энергопотреблению и объему.

6. Заключение

ChatGPT взорвал большие модели искусственного интеллекта, что привело к огромному спросу на графические процессоры и ускорители искусственного интеллекта. Тенденция развития приложений ИИ будет постепенно проникать от облачного обучения и рассуждений ИИ к периферийным и аппаратным серверам ИИ, которые обеспечивают программную и аппаратную поддержку различных приложений ИИ, а также будет следовать тенденции распределенного расширения от центров обработки данных к периферийным вычислениям. Традиционный GPGPU начал обнаруживать очевидные архитектурные недостатки в сценариях приложений периферийного ИИ. Его высокая стоимость, высокое энергопотребление и высокая задержка вынудили отраслевых экспертов искать более энергоэффективные архитектуры параллельных вычислений.

После сравнения различных вычислительных архитектур, таких как CPU, GPU, ASIC, FPGA и NPU, мы обнаружили, что реконфигурируемая вычислительная архитектура CGRA больше подходит для периферийных приложений искусственного интеллекта, особенно для реконфигурируемого параллельного процессора (RPP), предложенного Core Dynamics. По данным сравнительного анализа с аналогичными графическими процессорами NVIDIA, чип R8 на основе архитектуры RPP показывает хорошие результаты с точки зрения задержки, энергопотребления, стоимости занимаемой площади, универсальности и быстрого развертывания. Мы считаем, что на данный момент это самая идеальная архитектура параллельных вычислений на базе искусственного интеллекта.

На научной конференции ISCA2024, проходившей в Аргентине в июле этого года, статья об архитектуре процессора RPP была признана международными академическими авторитетами. С развитием периферийного ИИ серверы ИИ и ПК с ИИ откроют золотой период быстрого роста, а ускорители ИИ, поддерживающие такие периферийные устройства ИИ, также будут расти одновременно. Процессорный чип RPP, предложенный Zhuhai Core Power Technology, также будет признан в отрасли и станет самым идеальным процессором для ускорения искусственного интеллекта в сценариях периферийных приложений искусственного интеллекта.