Varios académicos y expertos hablan de inteligencia artificial: China no puede desarrollar IA "apilando chips"

2024-07-29

[Reportero del Global Times Ma Jun] Estados Unidos confía en sus ventajas en software y hardware para utilizar su escala para "apilar" la inteligencia artificial (IA) más poderosa del mundo. El multimillonario estadounidense Musk anunció recientemente en las redes sociales que su nueva empresa de IA xAI ha comenzado a utilizar un "Memphis Super Cluster" compuesto por 100.000 GPU H100 para el entrenamiento de IA, afirmando ser "el cluster de entrenamiento de IA más poderoso del mundo". ¿Debería China seguir este camino tecnológico liderado por Estados Unidos? Recientemente, en el Seminario de Expertos en Desarrollo de Energía Computadora de China 2024, copatrocinado por la Alianza de la Industria de Computación Inteligente de China y el Grupo de Trabajo sobre Estándares de Energía Computadora del Comité Nacional Beacon, varios académicos y expertos dieron sus respectivos puntos de vista.

El futuro de la integración de la superinteligencia se dividirá en tres etapas

Chen Runsheng, académico de la Academia de Ciencias de China, dijo en el seminario: "Los grandes modelos de inteligencia artificial son representantes de una nueva productividad. El desarrollo integrado de grandes modelos y la supercomputación es muy importante. Nuestro país necesita diseñarlo y considerarlo seriamente. ". El investigador del Instituto de Tecnología Informática de la Academia de Ciencias de China, Zhang Yunquan, mencionó que el rápido desarrollo de modelos grandes demuestra las características de una nueva productividad, pero actualmente también encuentra un cuello de botella en la potencia informática. Dada la profunda acumulación tecnológica de China en el campo de la supercomputación, se espera que la fusión superinteligente (la fusión de la supercomputación y la computación inteligente representada por grandes modelos) pueda resolver eficazmente este desafío. Shan Zhiguang, director del Departamento de Información y Desarrollo Industrial del Centro Nacional de Información, explicó: “La fusión superinteligente nació con el actual desarrollo diversificado de la potencia informática básica, la potencia informática inteligente, la superpotencia informática, etc., es decir, si puede Utilice recursos informáticos híbridos o sistemas informáticos integrados para satisfacer las necesidades de aplicaciones de múltiples recursos informáticos diferentes al mismo tiempo ".

Al predecir el futuro proceso de integración de la superinteligencia, Qian Depei, académico de la Academia de Ciencias de China, cree que evolucionará claramente a lo largo de las tres etapas de la IA, por la IA y siendo IA, evolucionando de forma integral. desde hardware hasta software para adaptarse y promover el desarrollo de la tecnología. En la primera fase para la IA, se centrará en la transformación y actualización de los sistemas informáticos existentes y el desarrollo de hardware dedicado para garantizar que las tareas de IA puedan soportarse y ejecutarse de manera eficiente, y proporcionar una infraestructura sólida para la investigación de la inteligencia artificial. En la segunda etapa de la IA, la IA se utilizará para transformar la informática tradicional. Por un lado, los métodos de IA se utilizarán para resolver problemas de supercomputación tradicionales. Por otro lado, la IA también afectará la estructura de las computadoras tradicionales. convertirse claro. En la etapa final de ser IA, el sistema informático exhibirá características inteligentes inherentes. La inteligencia artificial ya no es una capacidad externa, sino que se ha convertido en el atributo central y el componente básico de la computadora. La inteligencia será muy diferente. Superará la supercomputación o la computación inteligente que tenemos hoy.

Chen Runsheng notó que la comunidad científica y la industria han estado tratando de resolver el problema de la integración de la supercomputación y la computación inteligente. Por ejemplo, la última arquitectura GB200 de Nvidia es en realidad dos GPU más una CPU. En cierto sentido, se puede considerar que aprovecha tanto la computación inteligente como la supercomputación. En el diseño de dos GPU que realizan aprendizaje automático, la CPU proporciona alta velocidad. transmisión de datos. Pero cree que esta arquitectura no resuelve fundamentalmente el problema de la eficiencia. "La combinación de supercomputación y computación inteligente es inevitable y se integrará orgánicamente en lugar de simplemente unirse".

Zheng Weimin, académico de la Academia China de Ingeniería, también dijo que todos los aspectos del desarrollo, entrenamiento, ajuste e inferencia de modelos grandes son inseparables de la potencia informática, y el costo de la potencia informática representa la mayor parte del costo total. el gasto, especialmente en la etapa de formación, que representa hasta el 70%. En la etapa de razonamiento, llega al 95%. En vista de esto, la potencia informática se ha convertido en un factor clave que apoya el desarrollo de modelos grandes.

La informática inteligente debería referirse a la "inteligencia humana"

Académicos y expertos chinos han expuesto sus propios puntos de vista sobre la actual moda de modelos a gran escala de China y el camino tecnológico a seguir la "escala de reactor" de Estados Unidos. Qian Depei dijo que China ahora tiene más modelos grandes en número y tipos que Estados Unidos, y también se dedican a la inteligencia artificial en general. Sin embargo, Estados Unidos no solo nos restringe estrictamente en términos de hardware, sino también de calidad. de los datos utilizados para el entrenamiento de modelos grandes. Tanto el modelo como la cantidad son relativamente pequeños: "¿Puede el modelo grande producido de esta manera ser mejor que el de Estados Unidos? Creo que todavía tenemos que ajustarnos a las condiciones nacionales de China y no podemos hacerlo por completo". seguir a los americanos."

Chen Runsheng también cree que los grandes modelos que surgen actualmente en China son básicamente mejoras de los grandes modelos y algoritmos propuestos por los Estados Unidos, pero se tiene poca consideración de la teoría básica de todo el gran modelo. En el seminario destacó que, en comparación con el modelo de memoria local utilizado por las supercomputadoras tradicionales, la computación inteligente muestra una diferencia fundamental: el almacenamiento distribuido de información.Este método de almacenamiento imita el cerebro humano.Redes neuronales La compleja estructura transporta modelos cada vez más grandes a través de redes de chips de gran escala y densamente interconectadas. Sin embargo, aún no se han explorado completamente cómo incorporar eficazmente el conocimiento humano en estos sistemas complejos y cómo se distribuye y almacena la información en el sistema, ni los algoritmos y las teorías técnicas detrás de esto. "Con la expansión incontrolada de la escala de los modelos, un problema insuperable es el consumo de energía. Por lo tanto, no es del todo aconsejable agregar chips a ciegas y confiar en la creciente complejidad del sistema para resolver el problema de almacenamiento de los modelos grandes".

Por lo tanto, Chen Runsheng cree que la informática inteligente del futuro debería seguir refiriéndose a la "inteligencia humana", que consiste en simular el mecanismo operativo del cerebro humano. El cerebro humano es muy pequeño y consume sólo decenas de vatios de energía, pero la inteligencia que produce supera a la actual IA de última generación, que consume tanta energía como una ciudad entera. "El desarrollo de modelos grandes y computación inteligente requiere no solo mejoras en los modelos y algoritmos a nivel de aplicación, sino también avances desde la perspectiva de la teoría básica. Actualmente, los modelos grandes solo han desarrollado el primer 10% y el 90% del No se ha trabajado mucho. También creo que los modelos grandes definitivamente no se logran apilando más y más chips. Deben aprender como el cerebro humano, comprimiendo la complejidad del espacio y del tiempo para que sean más pequeños y reduciendo el consumo de energía. "Creo que es el más básico. El problema es estudiar la complejidad espacial actual para completar la teoría básica de la computación inteligente. Si podemos avanzar en la teoría básica, podemos lograr una innovación fundamental y original".

Yuan Guoxing, investigador del Instituto de Física Aplicada y Matemática Computacional de Beijing, cree que es imposible esperar que un modelo general grande pueda resolver problemas en todos los ámbitos de la vida. Desde la situación real, diferentes aplicaciones tienen diferentes tecnologías, requieren diferentes algoritmos y diferentes requisitos de potencia informática. Por ejemplo, en la informática científica, los requisitos de precisión de los cálculos son cada vez mayores a medida que se expande la escala de las computadoras, hay cada vez más datos y la credibilidad disminuye constantemente. NASA (NASA ) también presentaron un punto de vista similar y plantearon requisitos muy altos para la precisión de los cálculos. Por lo tanto, diferentes aplicaciones en el futuro tendrán diferentes modelos grandes y diferentes cálculos para resolver diferentes problemas. Los grandes modelos actuales tienen requisitos completamente diferentes en cuanto a precisión de cálculo y algoritmos.

Academia China de Tecnología de la Información y las Comunicacionescomputación en la nubeHe Baohong, director del Instituto de Investigación de Big Data, añadió: "La informática y la formación tienen requisitos diferentes para la infraestructura subyacente, y también es necesario determinar en qué escenarios se deben proteger las diferencias y en qué escenarios se deben reflejar las diferencias. "

Necesidad de desarrollar grandes modelos a nivel soberano

Zhang Yunquan dijo que Estados Unidos ha tratado recientemente de "atascar" a mi país en el desarrollo de la inteligencia artificial mediante una serie de acciones, incluida la prohibición de la venta de GPU de alta gama, la interrupción del intercambio de código fuente para modelos grandes y la interrupción de cooperación ecológica. Al mismo tiempo, cuando la escala informática de los modelos grandes alcanza ahora las 10.000 GPU, o incluso las 100.000 GPU, es necesario desarrollar supercomputadoras especiales para modelos grandes para superar cuellos de botella técnicos como los muros de consumo de energía, los muros de confiabilidad y los muros paralelos. En este contexto, si China quiere superar el cuello de botella de la potencia informática de los modelos grandes en el corto plazo, tiene un camino por recorrer: utilizar la tecnología de supercomputación avanzada acumulada durante las últimas dos décadas para desarrollar supercomputadoras especiales para modelos grandes que superen el problema. El cuello de botella de la potencia informática de los grandes modelos, para que nuestro país pueda captar firmemente el nivel más avanzado de los grandes modelos globales y no quedarse atrás.

Al presentar el plan "Gran Modelo Soberano" bajo el sistema de fusión superinteligente, Zhang Yunquan dijo que nuestro país tiene una profunda acumulación tecnológica en el campo de la supercomputación y en los últimos años ha invertido enormes cantidades de dinero en el desarrollo de la informática inteligente. potencia, centrándose en el establecimiento de un sistema de potencia informática de fusión superinteligente como centro. La ingeniería del sistema responde a las necesidades de potencia informática de modelos grandes, con la esperanza de maximizar el uso de las ventajas de la tecnología de supercomputación para resolver los desafíos de la potencia informática.Según el despliegue del plan "Modelo grande de nivel soberano", el consorcio de innovación del "Modelo grande de nivel soberano" se basará en la supercomputadora nacional, equipos de profesores de renombre de la Academia de Ciencias de China y universidades nacionales clave, empresas de chips inteligentes, grandes empresas de soluciones modelo, etc. para crear conjuntamente modelos similaresIA abierta Una organización abierta, el "modelo grande a nivel soberano" es desarrollado por la organización del sector sin fines de lucro, y el "modelo grande a nivel soberano" es implementado por la organización del sector con fines de lucro. Sugirió que la supercomputadora es "el arma más importante del país" y debe usarse para superar los desafíos más grandes y difíciles. El modelo grande a nivel soberano es un modelo raíz que puede apoyar el desarrollo nacional, no un modelo grande ordinario. Supermodelos similares a nivel nacional también han recibido gran atención de otros países. Por ejemplo, Microsoft en los Estados Unidos y OpenAI han anunciado planes para invertir 100 mil millones de dólares en una nueva supercomputadora de inteligencia artificial. Japón también anunció recientemente que invertirá mucho. en el desarrollo de modelos a nivel nacional.

Chen Runsheng cree que, dadas las condiciones básicas actuales de China y la inevitable tendencia de desarrollo de modelos grandes, no es realista para nosotros seguir completamente el enfoque occidental y será difícil ponernos al día en el corto plazo. Por lo tanto, es aún más importante encontrar una manera de desarrollar modelos a gran escala a nivel soberano.

noticias

Varios académicos y expertos hablan de inteligencia artificial: China no puede desarrollar IA "apilando chips"

Introducción

Mi información de contacto