¿Quién está planeando el chip del centro de computación inteligente?

2024-08-05

Texto: Perspectiva de la industria de semiconductores

Las industrias relacionadas con el "poder informático" han continuado en auge recientemente, y la construcción de centros informáticos inteligentes también está floreciendo en todas partes.

A partir de 2024, el Centro de Computación Inteligente de Wuchang, el Centro de Computación Inteligente Móvil de China (Qingdao), el Centro de Computación Inteligente del Valle de Datos del Sur de China, el Centro de Computación de Inteligencia Artificial de Zhengzhou, el Centro de Computación Inteligente Qianhai de Broad Data Shenzhen, etc., han comenzado su construcción o se han puesto en producción.

Según estadísticas incompletas, actualmente hay más de 30 ciudades en todo el país que están construyendo o proponen construir centros de computación inteligentes, con una escala de inversión superior a los 10 mil millones de yuanes.

¿Qué es exactamente un centro de computación inteligente? ¿Para qué se utiliza principalmente el centro de computación inteligente? ¿Cuáles son las características de los centros de computación inteligentes?

¿Qué es un centro de computación inteligente?

Según la definición del "Plan de acción para el desarrollo de infraestructura informática de alta calidad", los centros informáticos inteligentes se refieren al uso de recursos informáticos heterogéneos a gran escala, incluida la potencia informática general (CPU) y la potencia informática inteligente (GPU, FPGA, ASIC, etc.), principalmente instalaciones que proporcionan la potencia informática, los datos y los algoritmos necesarios para aplicaciones de inteligencia artificial (como el desarrollo de modelos de aprendizaje profundo de inteligencia artificial, el entrenamiento de modelos, la inferencia de modelos y otros escenarios).

También se puede decir que un centro de computación inteligente es un centro de datos que se enfoca en tareas informáticas de inteligencia artificial.

Los centros de datos suelen incluir tres categorías, además de los centros de computación inteligentes, las otras dos son centros de computación generales que se centran en tareas informáticas generales y centros de supercomputación que se centran en tareas de supercomputación.

2023 es un año decisivo para el desarrollo de la inteligencia artificial. La tecnología AIGC ha logrado avances revolucionarios y están surgiendo rápidamente nuevos negocios como el entrenamiento de modelos a gran escala y la aplicación de modelos a gran escala. Como portadores de potencia informática inteligente, los centros de datos también han evolucionado a partir de los datos. salas de computación hasta centros de computación general, desarrollados hasta la etapa actual de centro de supercomputación y centro de computación inteligente.

¿Cuál es la diferencia entre un centro de computación inteligente y un centro de datos general?

Los centros de computación inteligentes, generalmente estrechamente relacionados con la computación en la nube, enfatizan la flexibilidad del control de recursos y la gestión de infraestructura. En un entorno de nube, el proveedor del centro de datos es responsable del mantenimiento del hardware y de determinadas herramientas de software, mientras que el cliente es propietario de los datos. Por el contrario, los centros de datos locales tradicionales requieren que las empresas gestionen y mantengan todos los recursos de datos por sí mismas.

Las diferencias esenciales conducen a grandes diferencias entre los dos modelos en términos de inversión de capital, despliegue de recursos y seguridad.

En términos de inversión de capital, los clientes de los centros de computación inteligentes pueden elegir el modelo de servicio que más les convenga, como la nube pública, la nube privada o la nube híbrida, sin grandes costos de hardware y software, mientras que los clientes de los centros de datos tradicionales necesitan invertir mucho dinero; para comprar y mantener los servidores, la red y el equipo de almacenamiento que necesita.

En términos de implementación de recursos y seguridad, los clientes del centro de computación inteligente pueden acceder y administrar de forma remota sus datos y aplicaciones a través de Internet en cualquier momento y en cualquier lugar. Al mismo tiempo, también pueden disfrutar de garantías de seguridad profesionales proporcionadas por proveedores de centros de datos, como. firewalls, cifrado, respaldo y recuperación, etc., mientras que los clientes de centros de datos tradicionales están restringidos por oficinas/ubicaciones designadas y necesitan proteger y administrar los datos ellos mismos.

Un centro de computación inteligente es simplemente un centro de computación de datos que sirve específicamente a la inteligencia artificial y puede proporcionar la potencia informática dedicada necesaria para los cálculos de la inteligencia artificial. En comparación con los centros de datos tradicionales, los centros de computación inteligentes pueden satisfacer necesidades más específicas, tener mayores volúmenes de computación y velocidades de computación más rápidas, y proporcionar computación de IA para diversos escenarios de la industria vertical, como la inferencia de entrenamiento de modelos grandes, la conducción autónoma y la fuerza AIGC.

¿Qué tipo de chips se necesitan para la computación inteligente con IA?

En términos de selección de hardware, la arquitectura de hardware de los centros informáticos inteligentes también es diferente de la de los centros de datos tradicionales.

¿Qué tipo de chips informáticos se necesitan para la informática inteligente con IA?

La arquitectura de hardware de los centros de datos tradicionales es relativamente simple e incluye principalmente servidores, dispositivos de almacenamiento y dispositivos de red. En comparación con esta arquitectura de hardware, el centro informático inteligente será más flexible y se seleccionarán diferentes nodos informáticos para diferentes escenarios de aplicación.

El servidor informático inteligente es el hardware informático principal del centro informático inteligente. Por lo general, adopta la arquitectura informática heterogénea de "CPU+GPU", "CPU+NPU" o "CPU+TPU" para aprovechar al máximo el rendimiento, el costo y la productividad. Rendimiento de diferentes chips informáticos. Ventajas en el consumo de energía.

GPU, NPU y TPU tienen una gran cantidad de núcleos y son buenos en computación paralela. Los algoritmos de IA implican una gran cantidad de tareas de operación matricial simples y requieren poderosas capacidades de computación paralela.

Los servidores tradicionales de uso general utilizan la CPU como chip principal para admitir la informática básica de propósito general, como la computación en la nube y la computación de borde.

¿Qué tipo de chips de memoria se necesitan para la computación inteligente con IA?

Los chips de potencia informática no solo son diferentes, sino que la computación inteligente con IA también tiene requisitos más altos para los chips de memoria.

El primero es la dosis. La capacidad DRAM de los servidores informáticos inteligentes suele ser 8 veces mayor que la de los servidores normales, y la capacidad NAND es 3 veces mayor que la de los servidores normales. Incluso su placa de circuito PCB tiene muchas más capas que un servidor tradicional.

Esto también significa que los servidores informáticos inteligentes necesitan implementar más chips de memoria para lograr el rendimiento requerido.

A medida que aumenta la demanda, también surgen una serie de problemas de cuellos de botella.

Por un lado, la arquitectura tradicional de von Neumann requiere que los datos se carguen en la memoria, lo que resulta en una baja eficiencia de procesamiento de datos, alta latencia y alto consumo de energía; por otro lado, el problema de la pared de memoria hace que el rendimiento del procesador crezca mucho más rápido; que la velocidad de la memoria, como resultado, es necesario transferir una gran cantidad de datos entre el SSD y la memoria. Además, las limitaciones de capacidad y ancho de banda del SSD montado en la CPU también se han convertido en cuellos de botella en el rendimiento.

Al enfrentarse a problemas como el "muro de almacenamiento" y el "muro de consumo de energía", la arquitectura de almacenamiento informático en la arquitectura informática tradicional debe actualizarse con urgencia. Sólo integrando orgánicamente el almacenamiento y la informática podrá igualar la enorme cantidad de datos en la era de la informática inteligente. con su enorme potencial de mejora de la eficiencia energética.

En respuesta a esta serie de problemas, los chips de cálculo y almacenamiento integrados pueden ser una buena respuesta.

Además de los diferentes chips, para aprovechar al máximo el rendimiento y garantizar un funcionamiento estable, el servidor de IA también se ha diseñado con arquitectura, disipación de calor, topología y otros aspectos mejorados.

¿Quién está poniendo estas fichas?

El diseño de los chips de potencia informática.

En el lado de la GPU, las GPU son buenas para la computación masivamente paralela. Huawei, Tianshu Zhixin, Moore Thread, Sugon, Suiyuan Technology, Nvidia, Intel, AMD, etc. han lanzado chips relacionados. Por ejemplo, Huawei ha lanzado la serie Ascend de chips de IA, Ascend 910 y Ascend 310. Estos chips están especialmente diseñados para el entrenamiento y el razonamiento de la IA y presentan un alto rendimiento y un bajo consumo de energía. La serie Ascend se ha utilizado ampliamente en centros de datos, servicios en la nube, informática de punta y otros campos, proporcionando un potente soporte de potencia informática para centros informáticos inteligentes.

NVIDIA ha lanzado una serie de productos GPU para entrenamiento e inferencia de IA, como A100, H100, etc. Intel también ha lanzado una serie de productos de chips de IA, como la serie de chips Gaudí de Habana Labs, con el objetivo de competir con Nvidia. AMD también ha hecho planes en el campo de los chips de IA y lanzó productos GPU y APU de la serie MI.

En términos de FPGA, CPU+FPGA combina flexibilidad y alto rendimiento para adaptarse a cambios rápidos en los algoritmos. Xilinx e Intel son los principales actores del mercado. Los productos relacionados incluyen: las series de productos VIRTEX, KINTEX, ARTIX, SPARTAN de Xilinx y la serie de productos Agilex de Intel, incluidos Fudan Microelectronics, Unisoc Microelectronics y Anlu Technology.

En términos de ASIC, CPU+ASIC proporciona computación personalizada de alto rendimiento para satisfacer necesidades específicas. Gigantes extranjeros como Google, Intel y NVIDIA han lanzado sucesivamente chips ASIC. Fabricantes nacionales como Cambrian, Huawei HiSilicon y Horizon también han lanzado chips ASIC acelerados por redes neuronales profundas.

En términos de NPU, NPU es un procesador especialmente diseñado para escenarios de inteligencia artificial y aprendizaje automático. A diferencia de la CPU y la GPU, la NPU se ha optimizado específicamente en la estructura del hardware y se centra en realizar tareas informáticas relacionadas con la IA, como la inferencia de redes neuronales. La combinación de la versatilidad de la CPU y la especificidad de la NPU permite que todo el sistema responda de manera flexible a diversos escenarios de aplicaciones de IA y se adapte rápidamente a los cambios en algoritmos y modelos.

Actualmente hay en el mercado muchas NPU o chips producidos en masa equipados con módulos NPU. Los más conocidos incluyen Qualcomm Hexagon NPU y la serie Ascend de Huawei. Vale la pena señalar que todos los principales fabricantes tienen diseños únicos en el diseño de núcleos informáticos de chips. . Estrategia.

En términos de TPU, TPU es un chip desarrollado por Google específicamente para acelerar la potencia informática de las redes neuronales profundas. Está más centrado en procesar tareas de aprendizaje profundo a gran escala y tiene mayor potencia informática y menor latencia. TPU también es un chip ASIC.

En términos de DPU, la DPU está especialmente diseñada para tareas de procesamiento de datos y tiene una estructura de hardware altamente optimizada adecuada para las necesidades informáticas en campos específicos. A diferencia de la CPU que se utiliza para la informática general y la GPU que se utiliza para la informática acelerada, la DPU es el tercer chip principal del centro de datos. Los productos DPU de los tres gigantes internacionales NVIDIA, Broadcom e Intel ocupan la mayor parte del mercado nacional. Muchos fabricantes como Xilinx, Marvell, Pensando, Fungible, Amazon y Microsoft también han producido DPU o productos de arquitectura similar en el pasado. 5 años. . Los fabricantes nacionales incluyen Zhongke Yushu, Xinqiyuan, Yunbao Intelligence, Dayu Zhixin, Alibaba Cloud, etc.

¿A dónde se han ido los chips informáticos domésticos?

En la Conferencia de Redes de Computación Móvil de Beijing de 2024, se puso oficialmente en uso el nodo de Beijing del Centro de Computación Móvil de China, lo que marcó una nueva etapa en la construcción del centro de computación inteligente de mi país. Como el primer centro de computación inteligente integrado de capacitación y promoción a gran escala de Beijing, el proyecto cubre un área de aproximadamente 57.000 metros cuadrados, implementa casi 4.000 tarjetas aceleradoras de IA, tiene una tasa de localización del 33% de los chips de IA y tiene una informática inteligente. Escala de potencia de más de 1.000P.

Zhen Yanan, director de tecnología de Beijing Beilong Super Cloud Computing Co., Ltd., la entidad operativa del Beijing Super Cloud Computing Center, dijo recientemente que actualmente está "injertando" modelos nacionales grandes con chips nacionales, y que solo lleva unos 15 días. para correr. Él cree que compartir la potencia informática será una tendencia importante en la industria y que los recursos informáticos GPU de alta gama requieren el esfuerzo de todas las partes.

En los últimos años, la estructura del mercado de chips de potencia informática de inteligencia artificial de China ha estado dominada principalmente por NVIDIA, que representa más del 80% de la cuota de mercado.

Zhen Yanan dijo: "También estamos muy preocupados por el desarrollo de chips nacionales. Se entiende que los grandes modelos nacionales de desarrollo propio e incluso algunos modelos grandes de código abierto se trasplantan constantemente a chips nacionales. Ahora bien, desde la perspectiva del uso de chips, algunos Los modelos tienen Se puede ejecutar, y lo que hay que alcanzar es principalmente un alto rendimiento, como la GPU ".

"Toda la localización es jerárquica. Los chips pertenecen a la capa de hardware. Además, está el ecosistema de software. Para los chips nacionales, tanto el marco como el ecosistema requieren un cierto ciclo de cultivo". suficiente confianza en los chips nacionales.

Diseño del chip de memoria

Los centros de computación inteligentes deben tener alta capacidad, alta confiabilidad, alta disponibilidad y otras características en términos de almacenamiento. Los dispositivos de almacenamiento suelen utilizar discos duros o unidades de estado sólido de alto rendimiento y están equipados con una arquitectura de almacenamiento redundante para garantizar la seguridad y accesibilidad de los datos. Samsung, Micron, SK Hynix, etc. tienen chips relacionados que se utilizan ampliamente en centros de datos, computación en la nube y otros campos para proporcionar soluciones de almacenamiento de alto rendimiento para centros informáticos inteligentes.

Los fabricantes nacionales también han logrado un rápido desarrollo para ponerse al día con las tecnologías DRAM y NAND en los últimos años.

Además de los chips de memoria tradicionales, los centros informáticos inteligentes también necesitan que los nuevos chips integrados de almacenamiento-almacenamiento-computación mencionados anteriormente desempeñen un papel más importante.

A juzgar por la historia del desarrollo del almacenamiento y la informática integrados, desde 2017, los principales fabricantes como NVIDIA, Microsoft y Samsung han propuesto prototipos de almacenamiento e informática integrados. En el mismo año, comenzaron a surgir empresas nacionales de chips informáticos y de almacenamiento integrado.

La demanda de los principales fabricantes de una arquitectura informática y de almacenamiento integrada es práctica y rápida de implementar. Como la tecnología más cercana a la implementación de ingeniería, la informática cercana a la memoria se ha convertido en la primera opción de los principales fabricantes. Los principales fabricantes con ecosistemas ricos, como Tesla y Samsung, así como los fabricantes de chips tradicionales, como Intel e IBM, están implementando computación casi en memoria.

Las nuevas empresas nacionales se están centrando en la informática en memoria que no requiere tecnología de proceso avanzada. Entre ellas, empresas emergentes como Zhicun Technology, Yizhu Technology y Jiutian Ruixin están apostando por PIM, CIM y otras rutas tecnológicas que integran más estrechamente el almacenamiento y la informática con el "almacenamiento" y la "informática". La tecnología Yizhu, la tecnología Qianxin, etc. se centran en escenarios de gran potencia informática de IA, como cálculos de modelos grandes y conducción autónoma. Shanyi, tecnología Xinyi, tecnología Pingxin, tecnología Zhicun, etc., se centran en el Internet de las cosas, los dispositivos portátiles y los hogares inteligentes; Escenarios como potencia informática marginal.

Yizhu Technology se compromete a diseñar chips de IA de alta potencia utilizando una arquitectura informática y de almacenamiento integrada. Por primera vez, combina memristor ReRAM con una arquitectura informática y de almacenamiento integrada. A través de una idea de diseño de chip totalmente digital, proporciona una mejor solución. En la estructura industrial actual, los chips de IA de gran potencia informática con rentabilidad, mayor índice de eficiencia energética y mayor espacio para el desarrollo de la potencia informática han tomado un nuevo camino en el desarrollo.

Qianxin Technology se centra en la investigación y el desarrollo de grandes chips informáticos integrados de almacenamiento de potencia informática y soluciones informáticas para los campos de la inteligencia artificial y la informática científica. En 2019, fue el primero en proponer una arquitectura de producto de tecnología integrada de informática y almacenamiento reconfigurable. En comparación con otras empresas en términos de rendimiento informático, los chips de IA tradicionales pueden mejorar el rendimiento entre 10 y 40 veces. En la actualidad, el chip (prototipo) integrado de computación y almacenamiento reconfigurable de Qianxin Technology también se ha probado o implementado en la computación en la nube, la percepción de conducción autónoma, la clasificación de imágenes, el reconocimiento de matrículas y otros campos; Fue el primero en China en pasar las pruebas internas de las principales empresas de Internet.

El plan de Zhicun Technology es rediseñar la memoria, utilizar las características físicas de las celdas de almacenamiento de memoria Flash, transformar la matriz de almacenamiento y rediseñar los circuitos periféricos para que pueda acomodar más datos y, al mismo tiempo, almacenar operadores en la memoria, de modo que cada Cada unidad puede realizar operaciones de simulación y generar directamente los resultados de la operación para lograr el propósito de integrar almacenamiento y cálculo.

La computación inteligente representa más del 30% de la escala y la construcción de potencia informática está en pleno apogeo.

A principios de julio, el Centro de Computación del Suroeste de Inteligencia de Tianfu se puso oficialmente en funcionamiento en Chengdu, Sichuan. Según los informes, el centro utilizará la potencia informática para respaldar la creación en Chengdu de una industria central de inteligencia artificial de 100 mil millones de dólares y potenciará la innovación en inteligencia artificial en campos como la fabricación industrial, las ciencias naturales, la biomedicina y los experimentos de simulación de investigación científica.

Este no es un caso aislado. El mes pasado, el proyecto Yinchuan Green Intelligent Computing Center comenzó intensamente. Beijing Mobile construyó el primer centro de computación inteligente integrado de capacitación y promoción a gran escala en Beijing para respaldar decenas de miles de millones y cientos de miles de millones de entrenamiento y razonamiento de modelos grandes; alta complejidad y altos requisitos informáticos Zhengzhou El centro de computación de inteligencia artificial ha comenzado a construirse, con una inversión total de más de 1.600 millones de yuanes... La nueva infraestructura digital representada por el centro de computación inteligente está acelerando su construcción e implementación.

Los datos publicados por la Oficina Nacional de Estadísticas el 15 de julio mostraron que, hasta finales de mayo, se habían construido 460.000 estaciones base 5G en todo el país y se habían planificado más de 10 centros de computación inteligentes con grupos de computadoras de alto rendimiento y potencia de computación inteligente; representó más del 30% de la potencia informática total.

Según estadísticas incompletas del Círculo IDC de China, al 23 de mayo de 2024, hay 283 centros de computación inteligente en China continental, que cubren todas las provincias, regiones autónomas y municipios de China continental. Entre ellos, hay 140 proyectos de centros de computación inteligentes con estadísticas de inversión, con una inversión total de 436.434 millones de yuanes. Hay 177 proyectos de centros de computación inteligentes con estadísticas de escala de potencia de computación planificadas, y la escala de potencia de computación total alcanza 369,300 PFlops.

Estos "centros de computación inteligentes" tienen diferentes estándares y escalas. La escala de potencia de computación es generalmente 50P, 100P, 500P, 1000P y algunos incluso superan los 12000P. Aunque la ola de IA ha traído amplias perspectivas de desarrollo a los centros de computación inteligentes. la oferta y la demanda El desajuste, los altos precios y la duplicación de la construcción siguen siendo problemas que enfrenta la construcción de potencia informática de mi país.

Al mismo tiempo, muchos lugares también han introducido planes especiales para aclarar los objetivos de construcción en los próximos años y mejorar las medidas de apoyo en términos de tecnología, aplicación y financiación. Por ejemplo, Jiangsu publicó un plan especial para el desarrollo de la infraestructura de potencia informática provincial, proponiendo que para 2030, la potencia informática total en uso en la provincia superará los 50EFLOPS (EFLOPS se refiere a 10 mil millones de operaciones de punto flotante por segundo), y la inteligencia la potencia informática representará más del 45%; Gansu propone brindar apoyo político para la nueva infraestructura de redes informáticas en términos de uso del suelo, construcción de instalaciones de apoyo municipales, introducción de talentos y financiación.

"El desarrollo explosivo de aplicaciones como los grandes modelos de inteligencia artificial ha provocado un aumento en la demanda de potencia informática inteligente", dijo Shan Zhiguang, director del Departamento de Informatización y Desarrollo Industrial del Centro Nacional de Información, que la informática inteligente se ha desarrollado rápidamente. y se ha convertido en el de más rápido crecimiento en la estructura de potencia informática de mi país. Entre ellos, los modelos grandes son los mayores demandantes de potencia informática inteligente y representan casi el 60% de la demanda. Se espera que para 2027, la tasa de crecimiento anual compuesta de la potencia informática inteligente de China alcance el 33,9%.

noticias

¿Quién está planeando el chip del centro de computación inteligente?

Introducción

Mi informacion de contacto