noticias

Rompiendo la isla ecológica, se lanzan herramientas de potencia informática de IA nativas heterogéneas nacionales, de Zhongke Jiahe

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Autor: Zenán

"Con la ayuda del software de optimización del sistema, se reducirá el umbral de desarrollo, se unificarán diversos hardware y se desarrollará la ecología tecnológica. Esto es de gran importancia para el progreso de la ecología inteligente actual", dijo el Académico de la Academia China de Ingeniería y académico del Instituto de Tecnología Informática de la Academia China de Ciencias, Sun Ninghui, presidente del comité y presidente de CCF, pronunció un discurso en la conferencia de prensa. "Además de los chips inteligentes y las aplicaciones de la industria de la inteligencia artificial, necesitamos que las partes de optimización del software del sistema se unan y trabajen juntas, para que podamos mejorar el ecosistema nacional".



Académico Sun Ninghui en la conferencia de prensa

Ante el problema de la potencia informática "atascada", finalmente tenemos una solución a nivel de sistema.

El 20 de julio, la startup de infraestructura de IA Zhongke Jiahe lanzó oficialmente la primera generación de herramientas informáticas de IA nativas heterogéneas.

Frente a la tendencia actual de implementación a gran escala de la potencia informática nacional, el método propuesto por Zhongke Jiahe puede permitir que diferentes tipos de chips se paralelicen a gran escala mientras se maximiza la eficiencia, y permite a los usuarios de potencia informática acceder directamente a la potencia informática sin tener que prestar atención a la diferente ecología del chip. Ven y úsalo.

Cui Huimin, fundador y director ejecutivo de Zhongke Jiahe, lanzó y presentó que las "herramientas de potencia informática de IA nativas heterogéneas de Jiahe" ya han desempeñado un cierto papel en la infraestructura de IA de la potencia informática nacional. Es compatible con una variedad de chips de IA nacionales y proporciona una interfaz unificada de alto rendimiento para proteger las diferencias de los chips.Sobre la base de plataformas nativas heterogéneas, los grupos de potencia informática de IA han mejorado el rendimiento en el razonamiento de modelos grandes.La latencia se puede reducir entre 3 y 74 veces, el rendimiento aumenta entre 1,4 y 2,1 veces, la eficiencia energética se mejora entre 1,46 veces y puede admitir modelos grandes y densos con parámetros de 340B y modelos MoE grandes con 640B.

Al mismo tiempo, Zhongke Jiahe ha brindado soporte de razonamiento de alto rendimiento a más de 10 clientes, incluidos chips, integradores, proveedores de servicios, etc. Su arquitectura admite grandes modelos nacionales y extranjeros y puede realizar razonamiento paralelo diversificado.

Los proveedores de energía informática y socios de aplicaciones anunciados en la conferencia de prensa incluyen: AMD, Boyd, Huawei, Hangzhou Artificial Intelligence Computing Center, Open Transun, Moore Thread, Qingyun Technology, Rise VAST, Suiyuan Technology y Wuwenxin Qiong, Yunxi Hashrate, Xinhua San. , etc. (ordenados alfabéticamente por pinyin).



Cui Huimin, fundador y director ejecutivo de Zhongke Jiahe, en la conferencia de prensa

Potencia informática de IA nativa heterogénea, con el objetivo de lograr "tres cero y uno alto"

El plan propuesto por Zhongke Jiahe pretende permitir la aplicación de grandes modelos de IALogre una migración sin costo, un uso sin pérdidas y un uso eficiente de la implementación sin demora en diferentes chips

Este conjunto de herramientas de software incluye tres productos: el motor de inferencia de modelos grandes nativos heterogéneos "SigInfer", el motor de ajuste fino nativo heterogéneo "SigFT" y la herramienta de traducción y generación automática de operadores "SigTrans".

Entre ellos, SigInfer, lanzado ayer, es un motor de inferencia nativo heterogéneo, multiplataforma y de alto rendimiento que no solo admite tarjetas aceleradoras de IA a nivel de servidor, sino también GPU a nivel de consumidor. Por lo tanto, se puede implementar en centros de datos y acelerar varios dispositivos finales.



Como base técnica para la informática heterogénea, diferentes potencias informáticas de IA a las que se accede a través de SigInfer pueden lograr interfaces de llamadas unificadas y una migración fluida de aplicaciones comerciales. SigInfer realizará una optimización en profundidad de varios niveles al tiempo que recurrirá a una variedad de potencias informáticas diferentes para aprovechar al máximo el potencial de la potencia informática del chip.

Tiene varias características de los motores de inferencia de modelos grandes modernos, como compatibilidad con API Serving, programación de solicitudes, administración de lotes, optimización de caché KV, paralelismo tensorial, paralelismo de canalización, paralelismo experto e incluso paralelismo de canalización de múltiples máquinas.

Zhongke Jiahe dijo que SigInfer ya es compatible con la mayoría de las grandes estructuras modelo de la industria.



Actualmente, SigInfer ya puede implementar capacidades completas de motor de inferencia. El grupo heterogéneo de tarjetas aceleradoras que admite puede programar de manera flexible tarjetas aceleradoras de IA de NVIDIA + tarjetas aceleradoras de IA nacionales para inferencia híbrida, y puede ampliarse hasta billones de modelos grandes.

El uso de SigInfer para ayudar en la implementación de chips de IA puede permitir que los servicios de modelos grandes mantengan un alto rendimiento y una baja latencia cuando aumentan los requisitos de acceso empresarial. Estos indicadores son cruciales para las aplicaciones a gran escala de IA generativa.

Cuando usamos la misma tarjeta gráfica NVIDIA, podemos ver que SigInfer puede proporcionar un efecto de aceleración más obvio:



Además, cuando se utilizan chips nacionales para completar tareas similares, SigInfer también puede mejorar la tasa de rendimiento de las tarjetas aceleradoras de IA en computación paralela, al tiempo que reduce significativamente el retraso en la salida de tokens.

Las potentes herramientas informáticas de IA nativas heterogéneas pueden ajustar la frecuencia de computación del acelerador de IA en función de las diferentes etapas del procesamiento de tareas de modelos grandes, las características del operador, la optimización adaptativa de objetivos de optimización, etc., logrando así una alta eficiencia. Zhongke Jiahe calculó una cuenta para nosotros Durante la operación del centro de datos, el uso de A800 más SigInfer puede aumentar el índice de eficiencia energética en un 46% en comparación con vllm.

Además de optimizar la infraestructura de la nube, Zhongke Jiahe también demostró la optimización del rendimiento para la inferencia del lado del cliente. SigInfer puede acelerar los equipos de chips basados ​​en los principales fabricantes como Intel, Qualcomm y AMD. En comparación con las principales soluciones de implementación de la industria, SigInfer puede aumentar la eficiencia de la inferencia del lado del dispositivo hasta 5 veces.

Detrás de las mejoras heterogéneas en computación y eficiencia se encuentra la aplicación y optimización de una serie de tecnologías e ingeniería de vanguardia.

Para mejorar la eficiencia de la computación paralela, Zhongke Jiahe ha introducido una serie de optimizaciones. Por ejemplo, la optimización del acceso a la memoria en la etapa de decodificación en profundidad permite que KV Cache obtenga multiplexación a nivel de registro. En comparación con la carga desde L2, se han optimizado tanto la latencia como el ancho de banda.

Al mismo tiempo, para aliviar la reducción del paralelismo, los investigadores de Zhongke Jiahe también realizaron divisiones paralelas en la dimensión de secuencia de los datos. Combinado con la optimización de la reutilización de KV Cache, no solo ahorra acceso a la memoria, sino que también aumenta el paralelismo y mejora la eficiencia de ejecución del cálculo central de todo el mecanismo de atención.

Zhongke Jiahe también ha explorado métodos de generación de operadores de alto rendimiento para potencia informática heterogénea. Al cooperar con los fabricantes de potencia informática, Zhongke Jiahe migró Cutlass a la arquitectura de chip nacional, mejorando en gran medida la eficiencia operativa de la multiplicación de matrices. Entre ellos, la empresa logró una mejora del rendimiento de más del 20 % mediante la optimización combinada con tecnología de compilación.

Con el apoyo de una serie de tecnologías, las potentes herramientas informáticas de IA nativas heterogéneas de Jiahe han logrado una excelente optimización de la eficiencia energética.

A partir de la tecnología de compilación: la ruta técnica de Zhongke Jiahe

A diferencia de las capacidades proporcionadas por algunas empresas de infraestructura informática de IA en el pasado,La computación heterogénea y la aceleración proporcionadas por Zhongke Jiahe se centran en la tecnología de compilación.

Para las computadoras, el trabajo realizado por la capa de compilación es la "traducción". Es responsable de convertir el contenido del lenguaje de programación de alto nivel escrito por humanos a un lenguaje que la máquina pueda entender y ejecutar.



En este proceso, también es necesario optimizar la compilación, es decir, mejorar la eficiencia operativa del código de máquina generado. Cuando se trata del rendimiento del chip, la compilación juega un papel importante, pero a menudo se pasa por alto.

La plataforma informática CUDA juega un papel importante en los chips NVIDIA más populares de la industria. Incluye lenguajes de programación, compiladores, varias bibliotecas de aceleración de alto rendimiento y marcos de inteligencia artificial. Puede actuar como distribuidor cuando la computadora realiza tareas, aprovechando al máximo los recursos informáticos de diferentes hardware para hacer que los modelos de código complejos se ejecuten más rápido. Se puede decir que el ecosistema de IA actual se basa en gran medida en CUDA.

Para la potencia informática doméstica, para lograr aplicaciones a gran escala, es necesario construir la ecología y las capacidades requeridas.



En la era de la IA generativa, la demanda de potencia informática por parte de las personas ha promovido el desarrollo de la tecnología de chips, pero también han surgido nuevos desafíos:

  • Desde la perspectiva de las empresas de chips, el ecosistema también se está desarrollando en múltiples fragmentos, lo que conducirá a mayores costos de desarrollo y problemas como la eficiencia y compatibilidad de la implementación.
  • Desde la perspectiva del desarrollo de la industria, la tecnología de IA se está desarrollando rápidamente y cubre cada vez más escenarios, lo que significa que se involucrarán más tipos de potencia informática, lo que promueve aún más la demanda de informática heterogénea.

Por lo tanto, la industria necesita urgentemente una cadena de herramientas eficiente que pueda soportar una variedad de chips nacionales. Si puede surgir un conjunto de software básico universal, de bajo costo y alto rendimiento que ayude a los socios ecológicos a trasplantar rápidamente aplicaciones desarrolladas basadas en el ecosistema de NVIDIA, se podrá liberar completamente el potencial de los chips nacionales, impulsando el ritmo de la investigación y el desarrollo tecnológico, y de ese modo Construya gradualmente un ciclo positivo que establezca el ecosistema de potencia informática de la IA.

Esto es lo que ha estado haciendo Zhongke Jiahe.

La capa de plataforma de software básica proporcionada por Zhongke Jiahe se ubica en las capas de operador, compilador y marco, construyendo un puente entre el hardware y el software.Las heterogéneas herramientas informáticas de IA nativas que proporciona pueden ayudar a los usuarios a migrar sin problemas modelos de IA y arquitecturas de chips, lo que aporta una gran comodidad a las aplicaciones de IA.



Todos estos niveles de capacidades implican tecnología de compilación. La cobertura de la compilación de IA incluye tanto la capa como la capa de operador. En comparación con los compiladores tradicionales, el alcance de la transformación semántica es más amplio. Por ejemplo, los compiladores de IA generalmente deben considerar la partición de gráficos de cálculo, la fusión de subgrafos, la computación paralela, el bloqueo de datos, etc. Estos son problemas difíciles de resolver.

En este sentido, Zhongke Jiahe ha completado una gran cantidad de investigaciones, como realizar un análisis de flujo de datos global a nivel de expresión tensorial, construir gráficos de cálculo precisos y gráficos de dependencia de datos, y luego romper los límites de los operadores para la fusión de operadores, y ha logrado buenos resultados. Efecto. En algunas redes, su método logró una tasa de aceleración de hasta 3,7 veces en comparación con el nivel avanzado de la industria. En la principal conferencia de este año en el campo de la informática se publicaron resultados de trabajos relevantes.

Desarrollar potencia informática de extremo a extremo que permita soluciones que ayuden a prosperar el ecosistema nacional de IA.

Zhongke Jiahe se estableció en julio de 2023 y su equipo proviene principalmente del Instituto de Tecnología Informática de la Academia de Ciencias de China. El fundador, Cui Huimin, se graduó en el Departamento de Ciencias de la Computación de la Universidad de Tsinghua y es el jefe del equipo de compilación del Instituto de Tecnología Informática de la Academia de Ciencias de China. El equipo central de la compañía tiene más de 20 años de experiencia en investigación y desarrollo de compiladores, y se ha desempeñado como miembro principal en la presidencia o participación en la investigación y desarrollo de compiladores de varios chips nacionales.

Desde su creación, la empresa se ha centrado en la tecnología de compilación y optimización de chips y se compromete a proporcionar recursos informáticos universales, de bajo costo y de alto rendimiento, con la misión de "reunir el poder combinado de los chips para construir un ecosistema nacional". En la actualidad, Zhongke Jiahe ha recibido múltiples rondas de financiación por un total de casi 100 millones de yuanes.



Zhongke Jiahe está construyendo una serie de productos en torno a tres rutas, incluido un motor de inferencia de modelos grandes de IA que admite potencia informática heterogénea, un marco de ajuste fino de modelos grandes y un conjunto de herramientas de compilación de IA. No solo pueden ayudar a los usuarios de potencia informática a utilizar rápidamente la potencia informática diversificada de la IA, sino que también pueden ayudar a los proveedores de potencia informática a mejorar el ecosistema de software y mejorar la competitividad, completando una pieza importante del ecosistema nacional de potencia informática de la IA.



Más importante aún, Zhongke Jiahe espera convertirse en un puente de "comunicación", que conecte a un gran número de usuarios de potencia informática y proveedores de potencia informática, de modo que ambas partes puedan ir felices en ambas direcciones, promoviendo así el desarrollo de potencia informática heterogénea de IA nativa. a aplicaciones a gran escala y al vigoroso desarrollo del ecosistema nacional de IA.