noticias

El documento se presentó en la principal conferencia de arquitectura informática y la arquitectura de chip se ha convertido en la mejor opción de computación paralela para la IA de vanguardia.

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Lanzamiento del corazón de la máquina

Departamento editorial de Machine Heart

La explosión de grandes modelos de IA ha impulsado una fuerte demanda de GPU, y las aplicaciones de IA que penetran desde la nube hasta el borde también impulsarán la demanda de servidores de IA y procesadores de aceleración de borde. Al comparar GPGPU, FPGA, NPU y ASIC, la arquitectura informática reconfigurable CGRA se convierte en la arquitectura informática paralela más adecuada para la IA de borde. El Procesador Paralelo Reconfigurable (RPP) propuesto por Core Dynamics es una arquitectura informática más adecuada para el procesamiento paralelo a gran escala que el tradicional CGRA. Esto no sólo ha sido confirmado a través de evaluaciones experimentales, sino que también ha sido reconocido por autoridades académicas internacionales a través del ISCA. conferencia. El chip R8 basado en la arquitectura RPP y los chips de iteración posteriores de mayor rendimiento serán la opción ideal de procesador de aceleración de IA para servidores de IA de vanguardia y PC con IA.

Tabla de contenido

1. ¿Qué es la IA de vanguardia?

2. Tendencias del mercado de servidores Edge AI

3. Arquitectura informática ideal adecuada para la IA de vanguardia

4. Explicación detallada de la arquitectura RPP.

5. Comparación de eficiencia energética del procesador RPP R8

6. El procesador RPP está reconocido por autoridades académicas internacionales.

7. Conclusión

1. ¿Qué es la IA de vanguardia?

Edge AI (AI Edge) es una tecnología avanzada en la intersección de la inteligencia artificial (IA) y la computación de borde. Este concepto se origina en el cambio de paradigma de la computación distribuida en el que la IA pasa de la nube al borde. El núcleo de la IA de borde es incorporar algoritmos de IA directamente en el entorno local que genera grandes cantidades de datos, como teléfonos inteligentes, dispositivos de IoT o servidores locales, y realizar procesamiento de datos en tiempo real a través de dispositivos y sistemas ubicados en el "borde". del procesamiento y análisis de la red (es decir, más cerca de la fuente de datos).

En comparación con el entrenamiento o la inferencia de IA en los centros de datos tradicionales o las plataformas de computación en la nube, la principal ventaja de la IA de borde es el "procesamiento en el sitio", que reduce en gran medida el retraso en la transmisión y el procesamiento de datos. Esto es útil en el monitoreo inteligente y la conducción autónoma. diagnóstico médico en tiempo real o Es especialmente importante en escenarios de aplicación como el control de automatización industrial.

Los equipos y sistemas que implementan la informática de IA de vanguardia incluyen principalmente:

  1. Terminal inteligente: dispositivo utilizado principalmente para generar o recopilar datos, como sensores inteligentes, teléfonos inteligentes, PC con IA o dispositivos IoT;
  2. Servidor de IA de borde: dispositivos de borde y sistemas de software y hardware que procesan y analizan directamente los datos recopilados, como servidores de inferencia de IA de modelo de lenguaje grande (LLM) dedicados, servidores de centros de computación de área de conducción inteligente, etc.;
  3. Equipos de redes de comunicación: aunque los requisitos de ancho de banda y velocidad de las aplicaciones de IA de borde para redes de comunicación no son tan altos como los de la nube, se deben proporcionar conexiones confiables de alta velocidad para lograr la baja latencia y los requisitos en tiempo real que requiere la IA de borde.

Este artículo analiza principalmente los servidores de IA de borde y sus tendencias de desarrollo del mercado, los requisitos para los procesadores de aceleración de IA y la arquitectura de computación paralela y la implementación de procesadores adecuados para aplicaciones de IA de borde.

2. Tendencias del mercado de servidores Edge AI

Los servidores de IA se refieren a equipos informáticos de alto rendimiento diseñados específicamente para aplicaciones de inteligencia artificial y pueden admitir tareas complejas como el procesamiento de datos a gran escala, el entrenamiento de modelos y los cálculos de inferencia. Los servidores de IA suelen estar equipados con procesadores de alto rendimiento, memoria de alta velocidad, sistemas de almacenamiento de alta velocidad de gran capacidad y sistemas de refrigeración eficientes para satisfacer la demanda extremadamente alta de recursos informáticos por parte de los algoritmos de IA. Según diferentes estándares de clasificación, los servidores de IA se pueden dividir aproximadamente en servidores de entrenamiento, servidores de inferencia, servidores de GPU, servidores FPGA, servidores de CPU, servidores de IA en la nube y servidores de IA de borde.

Según el pronóstico de Gartner, desde ahora hasta 2027, el mercado de servidores de IA mantendrá un rápido crecimiento, con una tasa de crecimiento anual compuesta de hasta el 30%. El "Informe del mercado global de servidores para el primer trimestre de 2024" publicado por la agencia muestra que las ventas del mercado global de servidores en el primer trimestre de este año fueron de 40.750 millones de dólares, un aumento interanual del 59,9%, los envíos fueron de 2,82 millones de unidades; un incremento interanual del 5,9%. Entre muchos proveedores de servidores de IA, Inspur Information sigue ocupando el segundo lugar en el mundo y el primero en China. Sus envíos de servidores representan el 11,3% del mercado global, un aumento interanual del 50,4% y la tasa de crecimiento más rápida entre los fabricantes. TOP5 fabricantes.

Según el "Informe prospectivo de tendencias de desarrollo y pronóstico de la demanda de la industria de servidores de China 2024-2029" publicado por el Instituto de Investigación de la Industria Empresarial de China, a fines de 2022, el tamaño total del mercado interno superará los 42 mil millones de yuanes, un año después. -año de aproximadamente el 20% en 2023, será de aproximadamente 49 mil millones de yuanes, la tasa de crecimiento del mercado se está desacelerando gradualmente y se espera que el tamaño del mercado alcance los 56 mil millones de yuanes en 2024; Desde la perspectiva de los envíos, los envíos del mercado de servidores de IA de China serán de aproximadamente 284.000 unidades en 2022, un aumento interanual de aproximadamente el 25,66 %;

En los primeros días del desarrollo de grandes modelos de IA, la demanda de servidores de IA era principalmente la capacitación de modelos, por lo que los servidores de capacitación dominaban el mercado. Actualmente, el 57,33% del mercado de servidores de IA son servidores de capacitación y los servidores de inferencia representan el 42,67%. Sin embargo, a medida que las aplicaciones de IA generativa penetren en el borde, se espera que los servidores de inferencia se conviertan gradualmente en la corriente principal del mercado en el futuro, y los servidores de IA de borde superarán a los servidores de inferencia y entrenamiento en la nube en términos de envíos.

Los datos del último informe de IDC "Seguimiento del mercado semestral de computación de borde de China (año completo 2023)" muestran que el mercado de servidores de computación de borde de China seguirá aumentando de manera constante en 2023, con un crecimiento interanual del 29,1%. IDC predice que para 2028, el mercado de servidores informáticos de vanguardia de China alcanzará los 13.200 millones de dólares.



Como parte importante de la informática de punta, la escala de los servidores de borde personalizados alcanzó los 240 millones de dólares en 2023, un aumento del 16,8% en comparación con 2022. Desde la perspectiva de las ventas de los fabricantes, los mayores fabricantes en el mercado de servidores personalizados de borde son Inspur Information, Lenovo, Huawei y H3C. Con el desarrollo diversificado de las aplicaciones informáticas de borde, los fabricantes de servidores emergentes lograrán importantes avances en escenarios comerciales y mercados de aplicaciones como la colaboración entre vehículos y carreteras, la IA de borde y terminales inteligentes, lo que hará que el mercado de servidores de borde presente un panorama diversificado.

3. Arquitectura informática ideal adecuada para la IA de vanguardia

La era de las PC está liderada por la alianza WINTEL (Microsoft Windows + Intel CPU), y la era de los teléfonos inteligentes está liderada por la alianza Android + Arm. ¿Qué alianza liderará la era de la IA? Está surgiendo una nueva alianza, la NT Alliance (Nvidia+TSMC) formada por Nvidia y TSMC. Según las predicciones de los expertos en inversiones de Wall Street, se espera que los ingresos totales de NT Alliance alcancen los 200 mil millones de dólares en 2024, con un beneficio neto total de 100 mil millones de dólares, y se espera que el valor total de mercado supere los 5 billones de dólares. La GPU de Nvidia y el negocio de fabricación de chips de IA de TSMC, impulsados ​​por el entrenamiento de IA en la nube y las aplicaciones de modelos grandes de IA, serán los mayores ganadores este año.

Aunque NVIDIA ocupa una posición dominante absoluta en el mercado de inferencia y entrenamiento de IA en la nube, la GPGPU de NVIDIA no es la mejor opción en escenarios de aplicaciones de IA de borde porque el alto consumo de energía inherente y el alto costo de su arquitectura informática limitan su uso en más aplicaciones. Aplicaciones de IA de vanguardia generalizadas y dispersas. Los académicos y expertos en el campo de la arquitectura informática están buscando una arquitectura de tecnología paralela energéticamente eficiente que pueda reemplazar el diseño ASIC basado en una arquitectura de dominio específico (DSA) como una idea clave factible, como la unidad de procesamiento tensorial (TPU) de Google. Diseñado para acelerar las cargas de trabajo de aprendizaje automático, este procesador utiliza una arquitectura de matriz sistólica que realiza de manera eficiente operaciones de multiplicación y acumulación y está dirigido a aplicaciones de centros de datos. Otra idea es la unidad de procesamiento neuronal (NPU) representada por Samsung, que está especialmente diseñada para escenas móviles y tiene un motor de producto interno que ahorra energía y puede utilizar la escasez del mapa de características de entrada para optimizar el rendimiento de la inferencia de aprendizaje profundo.

Aunque tanto las TPU como las NPU pueden proporcionar soluciones de alto rendimiento y ahorro de energía que reemplazan parcialmente a las GPGPU, sus atributos de diseño especializados limitan su versatilidad y amplia aplicabilidad. Kneron, una startup de chips de IA de vanguardia con sede en California y centros de investigación y desarrollo en Taiwán y China, ha propuesto una solución NPU reconfigurable que permite que los chips NPU tengan el alto rendimiento de ASIC sin sacrificar la confiabilidad de los algoritmos de programación con uso intensivo de datos. Con su arquitectura única e innovadora y su excelente rendimiento, el equipo de Kneron ganó el premio Darlington Best Paper de IEEE CAS 2021. La NPU reconfigurable de cuarta generación de Kneron puede admitir la ejecución de redes CNN y Transformer al mismo tiempo, y puede realizar visión artificial y análisis semántico. A diferencia de los modelos de IA ordinarios que solo están dirigidos a aplicaciones específicas, la tecnología de red neuronal artificial reconfigurable (RANN) de Kneron es más flexible y puede satisfacer diferentes necesidades de aplicaciones y adaptarse a diversas arquitecturas informáticas. Según la compañía, su chip GPT AI KL830 se puede aplicar a PC con IA, memorias USB y servidores perimetrales. Cuando se usa junto con una GPU, la NPU puede reducir el consumo de energía del dispositivo en un 30%.

El hardware reconfigurable es otra solución que puede proporcionar computación de alto rendimiento y ahorro de energía. Los conjuntos de puertas programables en campo (FPGA) son representativos de la computación por hardware reconfigurable y se caracterizan por una reconfigurabilidad detallada. Los FPGA utilizan bloques lógicos configurables con interconexiones programables para implementar núcleos informáticos personalizados. Esta potencia informática personalizada permite implementar aceleradores basados ​​en FPGA en una amplia gama de aplicaciones informáticas a gran escala, como informática financiera, aprendizaje profundo y simulación científica. Sin embargo, la reconfigurabilidad a nivel de bits proporcionada por las FPGA conlleva una importante sobrecarga de área y energía sin rentabilidad de escala, lo que limita en gran medida su aplicabilidad en escenarios de aplicaciones que requieren un bajo consumo de energía y un tamaño pequeño.

La arquitectura reconfigurable de grano grueso (CGRA) representa otra clase de hardware reconfigurable. En comparación con los FPGA, los CGRA proporcionan reconfigurabilidad de grano grueso, como unidades funcionales reconfigurables a nivel de palabra. Dado que se construyó el módulo ALU dentro de CGRA y su interconexión es más simple y más pequeña que la FPGA, su latencia y rendimiento son significativamente mejores que los de la FPGA, que está interconectada a nivel de puerta para formar una lógica informática combinacional. CGRA es más adecuado para la computación reconfigurable de tipo palabra (unidad de 32 bits) y puede aliviar los problemas de sobrecarga de tiempo, área y energía de FPGA. Es una arquitectura de computación paralela de alto rendimiento ideal para la futura IA de borde.

Repasemos brevemente la historia de desarrollo de CGRA:

  1. Ya en 1991, los círculos académicos internacionales iniciaron investigaciones sobre chips reconfigurables;
  2. En 2003, el Grupo Europeo de Defensa Aeroespacial (EADS) tomó la iniciativa en el uso de chips informáticos reconfigurables en satélites;
  3. En 2004, el IMEC de Europa propuso la estructura dinámicamente reconfigurable ADRES, que se ha aplicado en los televisores biomédicos y de alta definición de Samsung y en otras series de productos. Renesas Technology de Japón también adopta esta arquitectura.
  4. En 2006, el equipo de computación reconfigurable dirigido por el profesor Wei Shaojun del Instituto de Microelectrónica de la Universidad de Tsinghua comenzó a realizar investigaciones sobre la teoría y arquitectura de la computación reconfigurable;
  5. En 2017, la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. (DARPA) anunció el lanzamiento de la Iniciativa de Resurgimiento de la Electrónica (ERI), que incluye la tecnología de "computación reconfigurable" como una de las tecnologías estratégicas de los Estados Unidos en los próximos 30 años;
  6. En 2018, se estableció Qingwei Intelligence basada en la tecnología informática reconfigurable de la Universidad de Tsinghua y comenzó oficialmente el proceso de comercialización. En 2019, Qingwei Intelligent produjo en masa el primer chip de voz inteligente reconfigurable TX210 del mundo, lo que demuestra el valor comercial de la informática reconfigurable. En 2020, Qingwei Intelligent ganó el primer premio de invención tecnológica de la Sociedad Electrónica de China; en 2023, la segunda fase del Fondo Nacional invirtió en Qingwei Intelligent. En la actualidad, Qingwei Intelligent tiene tres productos de chips principales: chips de las series TX2 y TX5 para el extremo del borde, así como la serie TX8 para el campo de servidores. Entre ellos, los chips de las series TX2 y TX5 se han utilizado en muchos campos, como seguridad inteligente, pagos financieros, dispositivos portátiles inteligentes y robots inteligentes. El principal escenario de aplicación del chip de alta computación TX8 para el mercado de la nube es la capacitación y la inferencia; de grandes modelos de IA.
  7. Zhuhai Core Power, otra startup nacional de chips de IA basada en tecnología informática reconfigurable, se estableció en 2017. Su arquitectura de procesador paralelo reconfigurable (RPP) es una versión mejorada de CGRA. En 2021, el primer chip RPP-R8 se grabó con éxito. En 2023, ingresó al mercado de aplicaciones de inteligencia artificial de vanguardia, como la informática financiera, la fotografía industrial y los robots, y alcanzó una cooperación estratégica con Inspur Information para ingresar al mercado de servidores de inteligencia artificial de vanguardia.

La comunidad académica informática internacional y la industria de alta tecnología han llegado a un consenso de que los chips informáticos reconfigurables basados ​​​​en la arquitectura CGRA tienen una amplia gama de capacidades informáticas generales y se pueden aplicar a varios escenarios informáticos de IA de vanguardia. necesidades de alta potencia informática y bajo consumo de energía.

4. Explicación detallada de la arquitectura del procesador RPP

Tanto RPP como CGRA son matrices reconfigurables de grano grueso, ambos pueden lograr densidad de área y eficiencia energética similares a las de ASIC, y ambos pueden programarse con software. Sin embargo, RPP todavía es diferente de CGRA en términos de tipos reconfigurables y modelos de programación, específicamente de la siguiente manera:

1. RPP es una matriz reconfigurable cuasiestática, mientras que CGRA tradicional se usa generalmente para matrices reconfigurables dinámicas. Una matriz reconfigurable estática significa que la ejecución de cada instrucción en la unidad de procesamiento (PE) no cambia con el tiempo y el flujo de datos tampoco cambia. Para el compilador, las matrices reconfigurables estáticas no necesitan organizar las instrucciones en el tiempo, lo que simplifica la construcción del RPP y la velocidad de asignación de instrucciones es muy baja. Por lo tanto, RPP puede implementar fácilmente una matriz grande, como una matriz de 32x32. RPP es más adecuado para computación paralela a gran escala que CGRA tradicional.

2. RPP utiliza el modelo de programación SIMT de subprocesos múltiples, mientras que CGRA generalmente usa programación en lenguaje de subproceso único. RPP es compatible con el lenguaje CUDA y es más adecuado para la computación paralela. El lenguaje CUDA requiere que los programadores consideren el grado de paralelismo de datos desde el principio y expresen algoritmos paralelos en el lenguaje CUDA; el compilador no necesita analizar el grado de computación paralela, y el compilador es muy simple. tipo y solo se usa para datos Cálculo paralelo, y el grado de paralelismo permanece constante dentro de un programa. CGRA generalmente usa lenguaje C + compilador independiente. Aunque teóricamente puede cubrir cualquier tipo de cálculo, el compilador es muy complejo y es difícil lograr una alta eficiencia de compilación.

El siguiente cuadro compara RPP con varias arquitecturas de aceleración reconfigurables convencionales.



Las ventajas de la arquitectura RPP se pueden resumir en los siguientes cuatro puntos:

  1. Una arquitectura de procesamiento paralelo reconfigurable en forma de anillo con memoria de junta permite la reutilización eficiente de datos entre diferentes flujos de datos;
  2. El diseño de memoria jerárquica tiene múltiples modos de acceso a datos, estrategias de mapeo de direcciones y modos de memoria compartida para lograr un acceso a la memoria eficiente y flexible;
  3. Varios mecanismos de optimización de hardware, como la ejecución simultánea del kernel, la división y recarga de registros y los cálculos escalares y vectoriales heterogéneos, mejoran la utilización y el rendimiento general del hardware;
  4. Una pila de software completa de extremo a extremo compatible con CUDA con compilador, entorno de ejecución y biblioteca RPP altamente optimizada, que permite una implementación rápida y eficiente de aplicaciones de IA de vanguardia.

Core Dynamics propuso el diagrama de bloques de diseño de hardware RPP basado en la arquitectura RPP y realmente demostró las ventajas de esta arquitectura de computación paralela a través del chip R8. Esta implementación de diseño de hardware consta principalmente de un procesador circular reconfigurable, una unidad de memoria y un secuenciador, como se muestra en la siguiente figura.

  1. Los procesadores reconfigurables en bucle son los componentes informáticos centrales de la informática masivamente paralela.
  2. La unidad de memoria está dividida en múltiples bancos de memoria, cada uno de los cuales está emparejado con un caché para permitir una reutilización eficiente de los datos explotando la localidad temporal y espacial del programa. Los datos intermedios se transfieren y almacenan en la unidad de memoria sólo cuando los registros y memorias intermedias dentro del procesador reconfigurable en anillo están llenos.
  3. El secuenciador se utiliza para decodificar y distribuir instrucciones al procesador reconfigurable en anillo y utiliza caché para almacenar las instrucciones recibidas del DDR.



El procesador reconfigurable en anillo incluye la unidad de procesamiento (PE) de NPU y una memoria de compensación. Cada PE está equipado con un puerto de memoria para facilitar el acceso de datos a la unidad de memoria. El puerto de memoria está diseñado con un controlador de modo, una unidad de cálculo de direcciones y múltiples multiplexores para admitir diferentes modos de acceso a datos y modos de memoria compartida. Para permitir una comunicación flexible dentro del procesador, cada PE integra una caja de conmutación (SB) y una caja de conmutación de interconexión (ICSB) para un reenvío de datos eficiente. Estos PE están conectados en una secuencia lineal, con la memoria de ajuste actuando como un puente entre la primera y la última PU, formando así una topología de anillo.

El procesamiento de datos dentro del procesador reconfigurable en anillo comienza desde el primer PE y atraviesa los PE en forma de tubería, con resultados de cálculo intermedios enviados a los PE posteriores en secuencia. La memoria de compensación almacena en caché las salidas del último PE y las recircula al primer PE, maximizando así la localidad de los datos y eliminando el tráfico de memoria a la unidad de memoria. El componente informático clave en PE es el motor de procesamiento. En cada PE, hay múltiples unidades aritméticas y lógicas (ALU), cada una de las cuales está acoplada a un registro de datos y un registro de direcciones. Estos registros de datos se agregan para formar un búfer de datos para facilitar el acceso rápido a los datos dentro de cada PE.

Además, la combinación de red de conmutación lineal y memoria shim permite un control flexible del flujo de datos y una reutilización eficiente de los datos, al tiempo que elimina el enrutamiento de red complejo en los diseños CGRA tradicionales basados ​​en grid. Combinado con un acceso de datos flexible y eficiente a las unidades de memoria, RPP puede optimizar el procesamiento del flujo de datos y minimizar el tráfico de memoria, maximizando así la eficiencia en la utilización de recursos.

El procesador RPP adopta el modelo de programación SIMT para permitir el procesamiento de flujo de datos en streaming para tuberías flexibles de subprocesos múltiples.



Para garantizar la compatibilidad con el ecosistema de software GPGPU existente, el procesador RPP de Core Power adopta CUDA, que tiene una amplia base de usuarios. El código CUDA es analizado por la interfaz basada en LLVM para generar código PTX para el servidor RPP. El compilador RPP interpreta los núcleos CUDA como gráficos de flujo de datos y los asigna a rutas de datos virtuales (VDP). Luego, el VDP se descompone en múltiples rutas de datos físicos (PDP) según las limitaciones del hardware, y el secuenciador genera la configuración de cada PDP en tiempo de ejecución.

La pila de software de RPP puede admitir una amplia gama de aplicaciones masivamente paralelas, incluido el aprendizaje automático, el procesamiento de videos/imágenes y el procesamiento de señales. Para aplicaciones de aprendizaje automático, la pila es compatible con diferentes marcos convencionales como PyTorch, ONNX, Caffe y TensorFlow. Además, los usuarios tienen la flexibilidad de definir sus programas personalizados utilizando CUDA. Estas aplicaciones de alto nivel son manejadas por el marco RPP, que consta de un compilador y diferentes bibliotecas específicas de dominio. En la parte inferior de la pila de software, el entorno de ejecución RPP y los controladores RPP se utilizan para garantizar que los programas compilados utilizando la cadena de herramientas puedan ejecutarse sin problemas en el hardware subyacente.

5. Comparación de eficiencia energética del procesador RPP R8

¿Cómo funciona el chip RPP-R8 basado en el diseño de hardware del procesador RPP anterior y la pila de software completa en términos de rendimiento informático y eficiencia energética?

Los parámetros de rendimiento del chip R8 se muestran en la siguiente tabla:



Para escenarios de computación de borde, Core Power comparó el chip RPP-R8 con dos GPU de borde de NVIDIA: Jetson Nano y Jetson Xavier AGX. El tamaño del chip del Jetson Nano es similar al del RPP, lo que proporciona una comparación relevante dentro de las limitaciones del área física; se eligió el Jetson Xavier AGX en función de su rendimiento teórico equivalente al RPP-R8. Core Dynamics evaluó estas tres plataformas de aceleración de IA en la inferencia ResNet-50. El rendimiento de Jetson Nano proviene del documento de referencia, mientras que los datos de rendimiento de Xavier AGX provienen del sitio web oficial de NVIDIA.



Como se muestra en la tabla anterior, el rendimiento operativo medido de RPP-R8 es 41,3 veces y 2,3 veces el de Jetson Nano y Jetson Xavier AGX respectivamente. Ya sabes, el tamaño del chip del Jetson Xavier AGX es casi tres veces mayor que el del R8, y el proceso es más avanzado (12 nm frente a 14 nm), pero su rendimiento es inferior al del R8. En términos de eficiencia energética, la eficiencia energética del R8 es 27,5 veces y 4,6 veces la del Jetson Nano y Jetson Xavier AGX respectivamente. Estos resultados muestran que RPP-R8 supera significativamente a Jetson Nano y Jetson Xavier AGX en escenarios de IA de borde con área y presupuestos de energía limitados.



La inferencia de aprendizaje profundo es una carga de trabajo masivamente paralela ampliamente reconocida y una aplicación clave para el hardware RPP-R8. En vista de la mayor complejidad computacional de los modelos de la serie Yolo en comparación con los modelos de clasificación como ResNet-50, Core Power eligió NVIDIA Jeston Nano Orin como plataforma GPU, cuyo rendimiento máximo es mayor que el de Jetson AGX Xavier, con 40 TOPS. Dado que las CPU generalmente no están diseñadas para la inferencia de aprendizaje profundo de alto rendimiento, se eligió Jetson Xavier Nx como una plataforma de GPU de gama relativamente baja con un rendimiento máximo de 21 TOPS. Se evalúan cargas de trabajo con tamaños de lote de 1, 2 y 4, lo que refleja escenarios extremos reales. La figura anterior muestra la comparación del rendimiento de las tres plataformas, con RPP-R8 mostrando un mayor rendimiento en Yolo-v5m y Yolo-v7 tiny. Con un tamaño de lote de 1, el rendimiento de RPP-R8 es aproximadamente 1,5 × ∼2,5 veces mayor que el de Jeston Nano Orin y 2,6 × ∼4,3 veces mayor que el de Jeston Xavier Nx.

Los resultados de las evaluaciones y pruebas muestran que RPP supera a las arquitecturas tradicionales de GPU, CPU y DSP en términos de latencia, rendimiento y eficiencia energética. La mejora del rendimiento del procesador RPP se atribuye a sus características únicas de hardware, que incluyen principalmente: 1) Procesamiento de flujo de datos circular: los resultados intermedios fluyen a través de registros de canalización y FIFO entre PE, lo que reduce significativamente el movimiento de datos y el tráfico de memoria al almacenamiento de memoria remota; El modo es más eficiente en comparación con el procesamiento de datos en GPU y CPU. 2) Sistema de memoria jerárquica: RPP maximiza la localidad de los datos a través de su sistema de memoria jerárquica. Una gran parte del área del chip RPP-R8 (aproximadamente el 39,9%) está dedicada a la memoria en el chip. Esta elección de diseño proporciona una amplia gama de capacidades de memoria, mejora la reutilización de datos y reduce la necesidad de acceso frecuente a la memoria externa. 3) Vectorización y canalizaciones multiproceso: la arquitectura de hardware y el modelo de programación de RPP permiten una vectorización eficiente y canalizaciones multiproceso. Este diseño aprovecha al máximo todo el potencial computacional de RPP para el procesamiento paralelo, asegurando que sus recursos se utilicen al máximo, mejorando así el rendimiento.

Además de sus ventajas en consumo de energía, latencia y rendimiento, RPP también destaca por su pequeña superficie. Solo 119 milímetros cuadrados de consumo de área de chip hacen del RPP-R8 una plataforma ideal para computación de borde con área restringida. Otra característica de RPP es su alta programabilidad, respaldada por una pila de software integral de extremo a extremo que aumenta significativamente la eficiencia de la implementación. La compatibilidad con CUDA permite a los usuarios aprovechar el conocido ecosistema CUDA, acortando la curva de aprendizaje y promoviendo una adopción más sencilla. Admite programación justo a tiempo y modos de programación gráfica, lo que brinda a los usuarios un alto grado de flexibilidad para satisfacer diversas necesidades informáticas. El soporte de diferentes bibliotecas, incluidas OpenRT y RPP-BLAS, también facilita un alto rendimiento y una implementación eficiente en diversos escenarios. Una solución completa, que incluye arquitectura de hardware y soporte de software, hace que RPP se destaque entre varios hardware informáticos de vanguardia.

6. La arquitectura RPP es reconocida por autoridades académicas internacionales.

Se ha adoptado con éxito el artículo "Procesador paralelo circular reconfigurable para computación de borde" (arquitectura de chip RPP), coescrito por Core Dynamics y equipos de arquitectura informática de las principales universidades como el Imperial College de Londres, la Universidad de Cambridge, la Universidad de Tsinghua y la Universidad Sun Yat-sen. por la 51ª Conferencia de Arquitectura de Computadoras incluida en el segmento industrial del Simposio Internacional (ISCA 2024). El fundador y director ejecutivo de Core Dynamics, el Dr. Li Yuan, y el doctorado del Imperial College Hongxiang Fan (ahora científico investigador en el Centro de IA de Samsung en Cambridge, Reino Unido) fueron invitados a pronunciar discursos en la conferencia ISCA 2024 en Buenos Aires, Argentina, y expertos de Empresas de renombre internacional como Intel y AMD compartieron escenario.



Esta ISCA recibió un total de 423 artículos de alta calidad de todo el mundo. Después de un riguroso proceso de revisión, solo 83 artículos se destacaron, con una tasa de aceptación general tan baja como el 19,6%. Entre ellos, Industry Track es particularmente difícil de admitir, con una tasa de aceptación de sólo el 15,3%.

Como principal evento académico en el campo de la arquitectura informática, ISCA está organizado conjuntamente por ACM SIGARCH e IEEE TCCA. Desde su creación en 1973, ha sido una fuerza pionera en la promoción del progreso en el campo de la arquitectura de sistemas informáticos. Su amplia influencia y destacadas contribuciones la han convertido en una plataforma de alto nivel para que compitan gigantes de la industria como Google, Intel y Nvidia. para mostrar los resultados de investigaciones de vanguardia. ISCA, MICRO, HPCA y ASPLOS son conocidas como las cuatro conferencias principales, y ISCA es la líder entre ellas. La tasa de aceptación de artículos se mantiene en alrededor del 18% durante todo el año. A lo largo de los años, numerosos resultados de investigación publicados en ISCA se han convertido en una fuerza impulsora clave en el desarrollo de las industrias de semiconductores e informática.

Los artículos sobre procesadores paralelos reconfigurables (RPP) seleccionados esta vez han inyectado un fuerte impulso al campo de la informática de punta. Los resultados experimentales confirman plenamente que, como plataforma de hardware de computación paralela, el rendimiento de RPP supera ampliamente al de las GPU actualmente en el mercado, especialmente en escenarios de aplicaciones que tienen requisitos extremadamente altos en cuanto a latencia, consumo de energía y volumen.

6. Conclusión

ChatGPT detonó grandes modelos de IA, generando así una gran demanda de GPU y aceleradores de IA. La tendencia de desarrollo de las aplicaciones de IA irá penetrando gradualmente desde el entrenamiento y el razonamiento de la IA en la nube hasta los servidores de IA del lado del dispositivo y del borde que brindan soporte de software y hardware para diversas aplicaciones de IA y también seguirá la tendencia de expansión distribuida desde los centros de datos hasta la computación de borde. La GPGPU tradicional ha comenzado a exponer fallas arquitectónicas obvias en escenarios de aplicaciones de IA de borde. Su alto costo, alto consumo de energía y alta latencia han obligado a los expertos de la industria a buscar arquitecturas informáticas paralelas más eficientes energéticamente.

Después de comparar diferentes arquitecturas informáticas como CPU, GPU, ASIC, FPGA y NPU, descubrimos que la arquitectura informática reconfigurable CGRA es más adecuada para aplicaciones de IA de vanguardia, especialmente el procesador paralelo reconfigurable (RPP) propuesto por Core Dynamics. A través de un análisis comparativo con GPU similares de NVIDIA, el chip R8 basado en la arquitectura RPP funciona bien en términos de latencia, consumo de energía, costo de área, versatilidad y rápida implementación. Creemos que esta es actualmente la arquitectura de computación paralela de IA de borde más ideal.

En la conferencia académica ISCA2024 celebrada en Argentina en julio de este año, el artículo sobre la arquitectura del procesador RPP fue reconocido por autoridades académicas internacionales. Con el desarrollo de la IA de vanguardia, los servidores de IA y las PC con IA marcarán el comienzo de un período dorado de rápido crecimiento, y los aceleradores de IA que admiten dichos dispositivos de IA de vanguardia también crecerán simultáneamente. El chip procesador RPP propuesto por Zhuhai Core Power Technology también será reconocido por la industria y se convertirá en el procesador de aceleración de IA más ideal en escenarios de aplicaciones de IA de vanguardia.