Experto: China no puede desarrollar la IA "apilando fichas"

Experto: el desarrollo de la IA en China no puede depender de "apilar chips"

2024-07-29

Fuente: Tiempos globales

[Reportero del Global Times Ma Jun] Estados Unidos confía en sus ventajas en software y hardware para utilizar su escala para "apilar" la inteligencia artificial (IA) más poderosa del mundo. El multimillonario estadounidense Musk anunció recientemente en las redes sociales que su nueva empresa de IA xAI ha comenzado a utilizar un "Memphis Super Cluster" compuesto por 100.000 GPU H100 para el entrenamiento de IA, afirmando ser "el cluster de entrenamiento de IA más poderoso del mundo". ¿Debería China seguir este camino tecnológico liderado por Estados Unidos? Recientemente, en el Seminario de Expertos en Desarrollo de Energía Computadora de China 2024, copatrocinado por la Alianza de la Industria de Computación Inteligente de China y el Grupo de Trabajo sobre Estándares de Energía Computadora del Comité Nacional de Balizas, varios académicos y expertos dieron sus respectivas opiniones.

El futuro de la integración de la superinteligencia se dividirá en tres etapas

Chen Runsheng, académico de la Academia de Ciencias de China, dijo en el seminario: "Los grandes modelos de inteligencia artificial son representantes de una nueva productividad. El desarrollo integrado de grandes modelos y la supercomputación es muy importante. Nuestro país necesita diseñarlo y considerarlo seriamente. ". El investigador del Instituto de Tecnología Informática de la Academia de Ciencias de China, Zhang Yunquan, mencionó que el rápido desarrollo de modelos grandes demuestra las características de una nueva productividad, pero actualmente también encuentra un cuello de botella en la potencia informática. En vista de la profunda acumulación tecnológica de China en el campo de la supercomputación, se espera que la fusión superinteligente (la fusión de la supercomputación y la computación inteligente representada por grandes modelos) pueda resolver eficazmente este desafío. Shan Zhiguang, director del Departamento de Información y Desarrollo Industrial del Centro Nacional de Información, explicó: “La fusión superinteligente nació con el actual desarrollo diversificado de la potencia informática básica, la potencia informática inteligente, la potencia de supercómputo, etc., es decir, si puede utilizar recursos informáticos híbridos o sistemas informáticos integrados para satisfacer las necesidades de aplicaciones de múltiples recursos informáticos diferentes al mismo tiempo”.

Al predecir el futuro proceso de integración de la superinteligencia, Qian Depei, académico de la Academia de Ciencias de China, cree que evolucionará claramente a lo largo de las tres etapas de la IA, por la IA y siendo IA, evolucionando de forma integral. desde hardware hasta software para adaptarse y promover el desarrollo de la tecnología. En la primera fase de IA, se centrará en la transformación y actualización de los sistemas informáticos existentes y el desarrollo de hardware dedicado para garantizar que las tareas de IA puedan soportarse y ejecutarse de manera eficiente, y proporcionar una infraestructura sólida para la investigación de inteligencia artificial. En la segunda etapa de la IA, la IA se utilizará para transformar la informática tradicional. Por un lado, los métodos de IA se utilizarán para resolver problemas de supercomputación tradicionales. Por otro lado, la IA también afectará la estructura de las computadoras tradicionales. convertirse claro. En la etapa final de ser IA, el sistema informático exhibirá características inteligentes inherentes. La inteligencia artificial ya no es una capacidad externa, sino que se ha convertido en el atributo central y el componente básico de la computadora. La inteligencia será muy diferente. Superará la supercomputación o la computación inteligente que tenemos hoy.

Chen Runsheng notó que la comunidad científica y la industria han estado tratando de resolver el problema de la integración de la supercomputación y la computación inteligente. Por ejemplo, la última arquitectura GB200 de Nvidia es en realidad dos GPU más una CPU. En cierto sentido, se puede considerar que aprovecha tanto la computación inteligente como la supercomputación. En el diseño de dos GPU que ejecutan el aprendizaje automático, la CPU proporciona alta velocidad. transmisión de datos. Pero cree que esta arquitectura no resuelve fundamentalmente el problema de la eficiencia. "La combinación de supercomputación y computación inteligente es inevitable y se integrará orgánicamente en lugar de simplemente unirse".

Zheng Weimin, académico de la Academia China de Ingeniería, también dijo que todos los aspectos del desarrollo, entrenamiento, ajuste e inferencia de modelos grandes son inseparables de la potencia informática, y el costo de la potencia informática representa la mayor parte del costo total. el gasto, especialmente en la etapa de formación, que representa hasta el 70%. En la etapa de razonamiento, llega al 95%. En vista de esto, la potencia informática se ha convertido en un factor clave que apoya el desarrollo de modelos grandes.

La informática inteligente debería referirse a la "inteligencia humana"

Académicos y expertos chinos han expuesto sus propios puntos de vista sobre la actual moda de modelos a gran escala de China y el camino tecnológico a seguir la "escala de reactor" de Estados Unidos. Qian Depei dijo que China ahora tiene más modelos a gran escala en número y tipos que Estados Unidos, y también se dedica a la inteligencia artificial general. Sin embargo, Estados Unidos no solo nos restringe estrictamente en términos de hardware, sino también. La calidad de los datos utilizados para el entrenamiento de modelos a gran escala es relativamente pequeña, "¿Puede el modelo a gran escala producido de esta manera ser mejor que el de Estados Unidos? Creo que todavía tenemos que conformarnos". "Se adapta a las condiciones nacionales de China y no puede seguir completamente a los estadounidenses".

Chen Runsheng también cree que los grandes modelos que surgen actualmente en China son básicamente mejoras de los grandes modelos y algoritmos propuestos por los Estados Unidos, pero se tiene poca consideración de la teoría básica de todo el gran modelo. En el seminario destacó que, en comparación con el modelo de memoria local utilizado por las supercomputadoras tradicionales, la computación inteligente muestra una diferencia fundamental: el almacenamiento distribuido de información. Este método de almacenamiento imita la compleja estructura de la red neuronal del cerebro humano, transportando modelos cada vez más grandes a través de redes de chips de gran escala y densamente interconectadas. Sin embargo, aún no se han explorado completamente cómo incorporar eficazmente el conocimiento humano en estos sistemas complejos y cómo se distribuye y almacena la información en el sistema, ni los algoritmos y las teorías técnicas detrás de esto. "Con la expansión incontrolada de la escala de los modelos, un problema insuperable es el consumo de energía. Por lo tanto, no es del todo aconsejable agregar chips a ciegas y confiar en la creciente complejidad del sistema para resolver el problema de almacenamiento de los modelos grandes".

Por lo tanto, Chen Runsheng cree que la informática inteligente del futuro todavía debería referirse a la "inteligencia humana", que consiste en simular el mecanismo operativo del cerebro humano. El cerebro humano es muy pequeño y consume sólo decenas de vatios de energía, pero la inteligencia que genera supera la IA de última generación actual, que consume tanta energía como una ciudad entera. "El desarrollo de modelos grandes y computación inteligente requiere no solo mejoras en los modelos y algoritmos a nivel de aplicación, sino también avances desde la perspectiva de la teoría básica. Actualmente, los modelos grandes solo han desarrollado el primer 10% y el 90% del No se ha trabajado mucho. También creo que los modelos grandes definitivamente no se logran apilando más y más chips. Deben aprender como el cerebro humano, comprimiendo la complejidad del espacio y del tiempo para que sean más pequeños y reduciendo el consumo de energía. "Creo que es el más básico. El problema es estudiar la complejidad espacial actual para completar la teoría básica de la computación inteligente. Si podemos avanzar en la teoría básica, podemos lograr una innovación fundamental y original".

Yuan Guoxing, investigador del Instituto de Física Aplicada y Matemática Computacional de Beijing, cree que es imposible esperar que un modelo general grande pueda resolver problemas en todos los ámbitos de la vida. Desde la situación real, diferentes aplicaciones tienen diferentes tecnologías, requieren diferentes algoritmos y diferentes requisitos de potencia informática. Por ejemplo, en la informática científica, los requisitos de precisión de los cálculos son cada vez mayores a medida que se expande la escala de las computadoras, hay cada vez más datos y la credibilidad disminuye constantemente. La Administración Nacional de Aeronáutica y del Espacio (NASA) también hizo una observación similar y tiene requisitos muy altos en cuanto a la precisión de los cálculos. Por lo tanto, diferentes aplicaciones en el futuro tendrán diferentes modelos grandes y diferentes cálculos para resolver diferentes problemas. Los grandes modelos actuales tienen requisitos completamente diferentes en cuanto a precisión de cálculo y algoritmos.

He Baohong, director del Instituto de Computación en la Nube y Big Data de la Academia de Tecnología de la Información y las Comunicaciones de China, añadió: "La informática y la formación tienen requisitos diferentes para la infraestructura subyacente, y también es necesario determinar en qué escenarios deberían aparecer las diferencias". blindarse y en qué escenarios deberían reflejarse las diferencias".

Necesidad de desarrollar grandes modelos a nivel soberano

Zhang Yunquan dijo que Estados Unidos ha tratado recientemente de "atascar" a mi país en el desarrollo de la inteligencia artificial mediante una serie de acciones, incluida la prohibición de la venta de GPU de alta gama, la interrupción del intercambio de código fuente para modelos grandes y la interrupción de cooperación ecológica. Al mismo tiempo, cuando la escala informática de los modelos grandes alcanza ahora las 10.000 GPU, o incluso las 100.000 GPU, es necesario desarrollar supercomputadoras especiales para modelos grandes para superar cuellos de botella técnicos como los muros de consumo de energía, los muros de confiabilidad y los muros paralelos. En este contexto, si China quiere superar el cuello de botella de la potencia informática de los modelos grandes en el corto plazo, tiene un camino por recorrer: utilizar la tecnología de supercomputación avanzada acumulada durante las últimas dos décadas para desarrollar supercomputadoras especiales para modelos grandes que superen el problema. El cuello de botella de la potencia informática de los grandes modelos, para que nuestro país pueda captar firmemente el nivel más avanzado de los grandes modelos globales y no quedarse atrás.

Al presentar el plan "Gran Modelo Soberano" bajo el sistema de fusión superinteligente, Zhang Yunquan dijo que nuestro país tiene una profunda acumulación tecnológica en el campo de la supercomputación y en los últimos años ha invertido enormes cantidades de dinero en el desarrollo de la informática inteligente. potencia, centrándose en el establecimiento de un sistema de potencia informática de fusión superinteligente como centro. La ingeniería del sistema responde a las necesidades de potencia informática de modelos grandes, con la esperanza de maximizar el uso de las ventajas de la tecnología de supercomputación para resolver los desafíos de la potencia informática. Según el despliegue del plan "Modelo grande de nivel soberano", el consorcio de innovación del "Modelo grande de nivel soberano" se basará en la supercomputadora nacional, equipos de profesores de renombre de la Academia de Ciencias de China y universidades nacionales clave, empresas de chips inteligentes, grandes empresas de soluciones modelo, etc. para crear conjuntamente una organización abierta similar de OpenAI es desarrollada por el sector sin fines de lucro para organizar el "gran modelo a nivel soberano", y el sector con fines de lucro está organizado para implementar el "gran modelo a nivel soberano". ". Sugirió que la supercomputadora es "el arma más importante del país" y debe usarse para superar los desafíos más grandes y difíciles. El modelo grande a nivel soberano es un modelo raíz que puede apoyar el desarrollo nacional, no un modelo grande ordinario. Supermodelos similares a nivel nacional también han recibido gran atención de otros países. Por ejemplo, Microsoft en los Estados Unidos y OpenAI han anunciado planes para invertir 100 mil millones de dólares en una nueva supercomputadora de inteligencia artificial. Japón también anunció recientemente que invertirá mucho en ella. el desarrollo de modelos a nivel nacional.

Chen Runsheng cree que, dadas las condiciones básicas actuales de China y la inevitable tendencia de desarrollo de modelos grandes, no es realista para nosotros seguir completamente el enfoque occidental y será difícil ponernos al día en el corto plazo. Por lo tanto, es aún más importante encontrar una manera de desarrollar modelos a gran escala a nivel soberano.

noticias

Experto: el desarrollo de la IA en China no puede depender de "apilar chips"

Introducción

Mi informacion de contacto