noticias

¡Se lanza la primera plataforma de entrenamiento mixto con chips heterogéneos a escala de kilocalorías del mundo!Wuwen Xinqiong: Que el mundo no tenga potencia informática de IA difícil de usar

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


cosas inteligentes
AutorZeR0
Editor Mo Ying

“Antes de abrir el grifo, no necesitamos saber de qué río proviene el agua. De manera similar, cuando usemos varias aplicaciones de inteligencia artificial en el futuro, no sabremos a qué modelos base llama ni qué tarjetas aceleradoras usa. Potencia informática: esta es la mejor infraestructura nativa de IA”.

Esta infraestructura nativa de IA debe ser construida entre todos. El 4 de julio, en el Foro de Infraestructura de IA de la Conferencia Mundial de Inteligencia Artificial de 2024, Xia Lixue, cofundador y director ejecutivo de Wuwen Core Dome, lanzó la primera plataforma de entrenamiento híbrido de chip heterogéneo a escala de kilocalorías del mundo, el entrenamiento híbrido heterogéneo de kilocalorías. La utilización de la potencia informática alcanza un máximo del 97,6%.


Al mismo tiempo, Xia Lixue anunció que la plataforma en la nube Infini-AI de Wuwen Core Dome ha integrado capacidades de entrenamiento mixto de kilotarjetas heterogéneas de modelo grande. Es la primera plataforma del mundo que puede realizar un entrenamiento mixto de chips heterogéneos a escala de kilotarjetas de una sola tarea. y tiene una escalabilidad de 10 000 ka. Admite entrenamiento mixto de modelos grandes, incluidos seis chips heterogéneos de AMD, Huawei Ascend, Tianshu Zhixin, Muxi, Moore Thread y NVIDIA.

A partir de julio, los usuarios que soliciten una capacitación de prueba pueden iniciar una capacitación en modelos grandes con una escala de 70 mil millones de parámetros en Infini-AI con un solo clic.

Hace solo 4 meses, la plataforma en la nube de servicios y desarrollo de grandes modelos Infini-AI de Wuwen Xinqiong anunció su primera versión beta pública. Los clientes de grandes empresas de modelos como Zhipu AI, Dark Side of the Moon y Shengshu Technology han estado utilizando Infini-AI de manera estable. Potencia informática heterogénea y más de 20 nuevas empresas de aplicaciones nativas de IA continúan llamando a varios modelos API preestablecidos en Infini-AI y utilizan la cadena de herramientas proporcionada por Wuwen Xinqiong para desarrollar sus propios modelos de negocio.

El lanzamiento de la primera plataforma del mundo que puede realizar entrenamiento mixto de chips heterogéneos en una escala de kilocard no es solo un reflejo de la fortaleza técnica de Wuwen Core Dome en la optimización informática heterogénea y el diseño de sistemas de clúster, sino también un reflejo de la adhesión de Wu Wen Core Dome a "MxN" Un logro importante del concepto ecológico de capa media.

Wuwen Xinqiong tomó la iniciativa en la construcción de un patrón ecológico de capa intermedia "MxN" para lograr una implementación eficiente y unificada de múltiples algoritmos de modelos grandes en múltiples chips.

La plataforma Infini-AI ha admitido más de 30 modelos, incluidos Qwen2, GLM4, Llama 3, Gemma, Yi, Baichuan2, ChatGLM3 series y AMD, Huawei Shengteng, Biren, Cambrian, Suiyuan, Haiguang, Tianshu Zhixin, más de 10 tipos de computación. Las tarjetas, incluidas Muxi, Moore Thread y NVIDIA, no solo admiten la conexión uno a uno entre un único algoritmo y un chip, sino que también admiten la combinación y combinación gratuitas de múltiples modelos y múltiples chips.

Según Xia Lixue, se espera que para finales de este año, Wuwen Xinqiong implemente completamente el enrutamiento automático M×N del modelo al chip.


1. El grupo Wanka es un campo de batalla para estrategas militares a gran escala y el país enfrenta dificultades para abrir el ecosistema.

Xia Lixue, cofundador y director ejecutivo de Wuwen Core Dome, cree que la potencia informática es la avanzada y la piedra angular del desarrollo de la IA. La escala de los modelos que aparecieron después de GPT-4 no ha aumentado exponencialmente y la potencia informática necesaria para respaldar el algoritmo ha encontrado un cuello de botella. Actualmente, nadie puede implementar un sistema grande con una escala mayor y una mayor cantidad de cálculo. para un solo modelo, lo que hace que el desarrollo del modelo entre en una nueva etapa en un estado de desaceleración y estancamiento, en otras palabras, el sistema de potencia informática que respalda las capacidades del modelo para pasar a la próxima generación aún necesita ser desarrollado y construido. .

Los modelos grandes compiten en potencia informática global bajo la influencia de la ley de escala. Hay informes de que Microsoft y OpenAI están construyendo un gran proyecto de potencia informática por valor de más de 100 mil millones de dólares estadounidenses. En comparación con muchas otras técnicas, esta expansión de escala simple y cruda brinda el retorno más práctico de la inteligencia del modelo. Google, OpenAI, así como los principales fabricantes nacionales y los tres principales operadores están construyendo grandes grupos de escala Wanka.

En un sistema iterativo, grande y estable verdaderamente sostenible, Scaling Law tiene ventajas únicas. No tiene tantas técnicas ricas y es más fácil de mantener y expandir. Para un sistema que realmente necesita funcionar durante mucho tiempo, la escalabilidad es un atributo muy importante y un sistema escalable es un buen sistema.


El gráfico de IDC muestra que la demanda de potencia informática para la futura deducción y formación de IA se está desarrollando rápidamente en todo el mundo, y tanto la formación como la inferencia requieren el apoyo de potentes recursos informáticos. La ecología nacional y extranjera detrás de este enorme mercado es muy diferente. El patrón de la capa de modelo ecológico y la capa de chip está relativamente concentrado, mientras que el ecosistema chino está relativamente descentralizado y vibrante. Tanto la capa de modelo como la capa de chip compiten para expandir el mercado de potencia informática y enfrentan muchos problemas clave para abrir el mercado. ecosistema.


El Cúmulo Wanka es un campo de batalla para estrategas militares a gran escala. Xia Lixue compartió que ahora hay más de 100 grupos de kilotarjetas en construcción o planificados en China, y la mayoría de ellos tienen una potencia informática heterogénea. Muchos grupos utilizan diferentes servicios de chips y se dedican a la producción de inteligencia artificial. Las razones incluyen la posibilidad de que surjan riesgos en la cadena de suministro debido a la excesiva dependencia de una única plataforma de hardware y las rápidas mejoras en el rendimiento de los chips nacionales que brindan a las partes del cluster una variedad de opciones.

Sin embargo, una gran cantidad de chips heterogéneos también han formado "silos ecológicos". Los diferentes ecosistemas de hardware son cerrados e incompatibles entre sí. Las pilas de software no pueden coordinarse ni conectarse correctamente. El uso de la potencia informática enfrenta una serie de desafíos de ingeniería muy complejos. Incluso si hay muchos grupos de potencia informática, todavía es difícil lograr una integración y utilización efectivas. Esto es un desperdicio de recursos de potencia informática y no solo se ha convertido en la mayor dificultad para construir una infraestructura nativa de IA, sino también en una razón importante. La actual industria de modelos grandes se enfrenta a una "escasez de potencia informática".


Wuwen Core Dome quiere construir una infraestructura nativa de IA que pueda adaptarse al panorama ecológico de múltiples modelos y chips de China, proporcionar una plataforma informática útil que integre de manera eficiente recursos informáticos heterogéneos y middleware que admita la optimización y aceleración conjuntas de software y hardware. , rompiendo los "silos ecológicos" existentes y permitiendo que chips y clústeres heterogéneos se transformen verdaderamente en una gran potencia informática.


Las tareas de inferencia de entrenamiento de IA son muy diferentes de la informática tradicional. Por ejemplo, una sola tarea será grande y estará en ráfagas. Por lo tanto, si no se adopta una estrategia de programación más nativa de IA, la utilización de recursos de todo el sistema será muy baja, o incluso. Como resultado, las tareas de los clientes a menudo se bloquean y se reinician, lo que retrasa el proceso de desarrollo de la IA.

La solución de Wuwenxinqiong tiene un sistema completo de gestión de la nube en la parte inferior, que incluye capacidades de programación y plataformas PaaS y MaaS. Lo siguiente es equivalente a una base de potencia informática para la colaboración en la nube, que permite a los desarrolladores e investigadores de modelos grandes moverse con sus bolsos y utilizar rápidamente diferentes potencias informáticas.

La plataforma de servicios MaaS construida sobre esta base, es decir, la plataforma de servicios de conjunto de modelos, puede proporcionar muchos servicios modelo grandes con aplicaciones flexibles para ayudar a algunas empresas que aún se encuentran en el período de aprendizaje de IA a desarrollar rápidamente algunas aplicaciones a gran escala de modelos grandes.


2. Lograr el entrenamiento cruzado de diferentes chips y reducir el costo de implementación de aplicaciones de modelos grandes.

Detrás de una serie de avances en producción e investigación, el equipo de I + D de Wuwen Xinqiong tiene mucha experiencia práctica y logros en la optimización de la computación de chips heterogéneos y el diseño de sistemas de clúster.

Recientemente, el equipo de investigación conjunto de Wuwen Xinqiong, la Universidad de Tsinghua y la Universidad Jiao Tong de Shanghai lanzó HETHUB, un sistema de entrenamiento híbrido distribuido heterogéneo para modelos a gran escala. Esta es la primera vez en la industria que se logra una capacitación mixta entre seis marcas diferentes de chips y el grado de finalización de la ingeniería es alto. Según Xia Lixue, la intención original de diseñar esta tecnología es continuar superando el límite superior de las capacidades técnicas de los modelos grandes mediante la integración de una potencia informática más heterogénea y, al mismo tiempo, al abrir el ecosistema de chips heterogéneo, continuar reduciendo la costo de implementar aplicaciones de modelos grandes.


Dijo que los dos principales desafíos enfrentados en la construcción del sistema fueron la comunicación y la capacitación distribuida. Diferentes bibliotecas de comunicación para diferentes arquitecturas de hardware equivalen a que dos personas usen lenguajes completamente diferentes para completar un gran proyecto. Las tarjetas heterogéneas tienen muchas diferencias de rendimiento debido a diferentes conceptos de diseño y se adaptan a diferentes tareas, lo que resulta en una variedad de diferencias; La eficiencia exhibida por diferentes tipos de tarjetas puede hacer que la capacitación distribuida a gran escala sea ineficiente.

Por ello, su equipo ha realizado mucho trabajo, entre ellos:


1. En términos de comunicación, establecer una biblioteca de comunicación colectiva universal para lograr una comunicación eficiente de diferentes tipos de chips y ser compatible con muchos tipos de hardware;

2. Proponga un esquema de división no uniforme basado en el paralelismo de tuberías para resolver el problema de diferentes eficiencias de hardware y asignar las tareas más adecuadas según su propia situación;

3. La herramienta de predicción de entrenamiento mixto de desarrollo propio puede predecir el valor de cada chip por adelantado al comienzo del entrenamiento, encontrando así una estrategia de división óptima para completar toda la tarea de entrenamiento y formar la mejor solución en diferentes tarjetas.

A juzgar por el efecto real del entrenamiento mixto, Wuwen Xinqiong ha realizado muchas combinaciones que pueden alcanzar más del 70%, y la utilización de la potencia informática puede alcanzar hasta el 97,6%. El entrenamiento mixto en 6 combinaciones diferentes de chips ha alcanzado una escala de kilocalorías. .


Anteriormente, Wuwen Xinqiong logró la inferencia M × N, pero ahora logró el entrenamiento M × N, lo cual es un gran avance.

Dicha funcionalidad está integrada en la plataforma Infini-AI existente. La plataforma tiene la capacidad de permitir a los usuarios implementar aplicaciones y servicios de manera eficiente en la plataforma. Después de agregar capacidades de capacitación mixta, puede admitir la combinación cruzada de 6 marcas, rompiendo el cuello de botella de capacitación de una sola marca. mundo para apoyar kilocalorías heterogéneas Una plataforma para el entrenamiento mixto.

La capa superior de Infini-AI admite una variedad de estrategias de capacitación, incluido el paralelismo tensorial, el paralelismo de datos y la superposición de comunicación, que pueden lograr un entrenamiento eficiente y pueden admitir el entrenamiento de modelos grandes con más de 70 mil millones de tokens, así como el entrenamiento mixto de grandes modelos con un solo clic. -modelos a escala. Al utilizar esta plataforma, los desarrolladores no necesitan dedicar más tiempo a considerar las diferencias en la potencia informática subyacente. Pueden personalizar rápidamente sus propios modelos grandes en un clúster híbrido compuesto por diferentes chips e implementar rápidamente su propio negocio.

3. Programación eficiente + tolerancia a fallas eficiente para garantizar la finalización estable de tareas en grandes grupos de potencia informática

Después de construir un gran clúster de potencia informática, una de las tareas principales que enfrentamos es cómo usarlo. Esto implica problemas de programación eficiente. Un sistema de programación de potencia informática eficiente puede hacer que todos los usuarios utilicen mejor los recursos heterogéneos integrados.

Wuwen Core Dome ha avanzado mucho en el sistema de programación eficiente de la potencia informática. La gestión unificada de clústeres multiheterogéneos puede admitir más de diez tipos de chips y construir más de 10.000 sistemas de potencia informática a nivel de tarjeta. serie de híbridos El diseño de la estrategia de programación hace que el retraso promedio en la programación de tareas sea de milisegundos y la utilización de recursos del clúster del sistema completo se puede mantener por encima del 90%. Al mejorar la base de todo el contenedor de IA, Wuwen Xinqiong puede aumentar el SLO de todo el clúster al 99,95 % en un escenario de múltiples inquilinos, y la escalabilidad es muy alta.

Además de la programación, al realizar el entrenamiento modelo, el entrenamiento no se puede reiniciar continuamente. Wuwen Core Qiong ha desarrollado un sistema de entrenamiento eficiente y tolerante a fallas, que incluye un sistema de tiempo de ejecución tolerante a fallas para modelos grandes, un sistema de predicción de anomalías de indicadores híbridos y un sistema de lectura y escritura asincrónica de punto de control.


La parte de tolerancia a fallas ha aumentado el tiempo de entrenamiento efectivo de modelos grandes en un 30%, la tasa de éxito de la detección de anomalías en modelos grandes ha aumentado al 70% y la mayoría de los errores se pueden descubrir y evitar de antemano La eficiencia de lectura y escritura de los puntos de control. Se ha aumentado 20 veces y se ha mejorado el terminal anormal de los modelos grandes. El tiempo se reduce a menos de 5 minutos, lo que puede garantizar la finalización estable de tareas en grandes grupos de potencia informática.

Para facilitar a los desarrolladores un mejor uso del clúster, la plataforma integra las capacidades técnicas de optimización del gran sistema de servicio modelo de Wuwenxinqiong. Cuando se encuentra una alta concurrencia y varios usuarios envían solicitudes al mismo tiempo, a través de la programación de solicitudes, se pueden utilizar tecnologías como el almacenamiento en caché de palabras rápidas. ayuda a que las tareas se distribuyan mejor y se devuelvan los resultados de los cálculos, lo que puede aumentar la tasa de rendimiento en más de 30 veces, lo que hace que las aplicaciones se ejecuten de manera más fluida y fluida.


Conclusión: Que no haya potencia informática de IA difícil de utilizar en el mundo

"No hay contradicción entre elevar el techo técnico y la implementación y difusión de la tecnología, y depende de cómo estemos decididos a tratar esta tecnología". Xia Lixue cree que hablar de reducir el costo de los modelos grandes a 1/10.000 hoy es solo. Es como hablar de electrificar todos los hogares hace 30 años.

Una infraestructura excelente es una gran "magia". Cuando el costo marginal cae a un valor crítico, más personas pueden adoptar nuevas tecnologías.


Actualmente, el desarrollo de la industria de modelos a gran escala está entrando en la etapa de implementación industrial a gran escala. El florecimiento de escenarios de aplicación ha provocado una necesidad cada vez más urgente de capacitación en modelos a gran escala. La construcción de una infraestructura nativa de IA en la era de los grandes modelos no solo puede proporcionar a los desarrolladores de IA un entorno de I+D más versátil, eficiente y conveniente, sino que también es una piedra angular para lograr una integración efectiva de los recursos informáticos y respaldar el desarrollo sostenible de la IA. ​industria.

El desarrollo de la IA requiere tanto capacidades del sistema subyacente que puedan integrar uniformemente múltiples chips heterogéneos como una capa intermedia que implemente la facilidad de uso entre la potencia informática heterogénea y múltiples algoritmos, permitiendo a los usuarios programar diferentes potencias informáticas a través de un marco de programación unificado. Al mismo tiempo, se instalan en él interfaces compatibles con los hábitos de programación de los usuarios existentes para facilitar una futura expansión.

Wuwen Core se compromete a construir una infraestructura nativa de IA que sea verdaderamente adaptable a múltiples modelos y múltiples chips, de modo que no haya potencia informática de IA difícil de usar en el mundo. Esperamos lograr no solo la conexión efectiva, utilización e integración de "M × N", pero también el objetivo final es convertir los recursos informáticos aparentemente inactivos en una gran potencia informática, mejorar la integridad del ecosistema de modelos grandes, reducir significativamente el costo de implementación de modelos grandes y ayudar a promover la innovación de aplicaciones de modelos grandes en diversas industrias.