noticias

¡Los gigantes de la nube están huyendo y se han lanzado 2 millones de CPU de desarrollo propio!Ha comenzado una nueva ronda de reorganización de fichas

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


cosas inteligentes
AutorZeR0
Editor Mo Ying

La semana pasada, el procesador Graviton4 desarrollado independientemente por Amazon Cloud Technology, el gigante de la computación en la nube más grande del mundo, se lanzó por completo e inicialmente brindó soporte para la nueva instancia Amazon EC2 R8g.

Este incidente es bastante emotivo y se siente como si la CPU del servidor Arm hubiera pasado por mil velas y todas las dificultades hubieran sido recompensadas.

El campo de la CPU del servidor ha pasado por una serie de cambios. Al principio, estaba dominado por un grupo de predecesores de conjuntos de instrucciones simplificados, pero luego fue contraatacado y erosionado por la compleja arquitectura del conjunto de instrucciones x86. Cuando Arm, el sucesor del conjunto de instrucciones simplificado, quiere ingresar al campo de los centros de datos, x86 ya ha dominado completamente el mercado.

De hecho, Arm estaba ansioso por probar este mercado emergente ya en 2008. Como resultado, diez años después, después de probar el agua varias veces, no logró provocar salpicaduras esporádicas.

El primer boleto para ingresar al mercado de los centros de datos lo envió Amazon Cloud Technology, el hermano mayor de la industria de la computación en la nube.

En ese momento, Amazon Cloud Technology lanzó "tres ataques consecutivos":

1. En enero de 2015, adquirió inesperadamente Annapurna Labs, una empresa israelí de diseño de chips, que atrajo mucha atención de la industria;

2. En 2017, se lanzó Amazon Nitro, el primer chip de red de desarrollo propio, que llevó el primer chip DPU comercial del mundo al escenario de la historia;

3. En 2018, se lanzó el primer procesador Amazon Graviton, lo que le dio a la CPU del servidor Arm una coordenada clara en la historia de los centros de datos.

Posteriormente, Amazon Cloud Technology llevó a cabo intensivamente una investigación de chips personalizados de múltiples líneas similar a un libro de texto, y otros importantes fabricantes chinos y estadounidenses también siguieron la tendencia de los procesadores de desarrollo propio. El largo tira y afloja de la CPU del servidor finalmente ha pasado de un aplastamiento unilateral de x86 a un impulso creciente en el campo Arm.

Graviton se ha convertido gradualmente en la CPU de servidor Arm más utilizada en el mundo, y Amazon Cloud Technology se considera la "esperanza de toda la aldea" que lidera el ecosistema Arm para expandir su territorio en los centros de datos. Un informe de Bernstein del año pasado mostró que Amazon Cloud Technology representa más de la mitad del mercado mundial de CPU de servidores Arm.


▲ Amazon Cloud Technology ha lanzado cinco procesadores Graviton en cinco años (Fuente: Zhidongxi)

Hoy en día, es habitual que los grandes fabricantes desarrollen chips de desarrollo propio, pero sólo unos pocos lo consiguen. Vale la pena leer una y otra vez este libro de texto de referencia sobre CPU de servidor de desarrollo propio escrito por Amazon Cloud Technology en cinco años.

1. Seis años de autoinvestigación e innovación en CPU, allanando el camino para los chips de servidor Arm

La primera generación abrió los caminos de montaña, la segunda generación estableció los ríos y lagos.

Este es un retrato fiel de la fortuna de los chips de servidor de desarrollo propio de Amazon Cloud Technology: el procesador Graviton lanzado en noviembre de 2018 fue la primera versión de CPU de desarrollo propio de las principales empresas de computación en la nube, un año después apareció el sucesor Graviton2, marcando la A; La CPU del servidor Arm ingresa oficialmente a la competencia del mercado de centros de datos y compite con x86.

Graviton2 integra 30 mil millones de transistores, tiene un número de núcleos cuatro veces mayor que la generación anterior y ha duplicado la caché L1/L2. El ancho de banda del bus alcanza los 2 TB/s, logrando una mejora de rendimiento 7 veces respecto a la generación anterior. En comparación con instancias similares basadas en x86, el rendimiento de las instancias basadas en Graviton2 mejora en un 40 % y el costo por instancia se reduce en un 20 %.

El excelente rendimiento con bajo consumo de energía ha llevado a Amazon Cloud Technology a trasladar cargas de trabajo generales a Graviton2 para ahorrar energía y costos. Desde entonces, la tasa de adopción de la serie Graviton se ha disparado y las cargas de trabajo cubiertas se han expandido desde el caché y la web iniciales hasta el análisis de datos, el aprendizaje automático, la informática de alto rendimiento, etc.

El éxito inicial de Graviton en el mercado puede considerarse un nodo que cambia el destino de Arm.

Detrás de esto, Amazon Cloud Technology ha pensado mucho en la innovación subyacente: por primera vez, ya no utiliza tecnología síncrona de subprocesos múltiples, sino que implementa el uso exclusivo de recursos de un solo subproceso del núcleo físico, lo que permite que cada vCPU ocupar exclusivamente 1 núcleo físico, lo que hace que las vCPU estén más aisladas, lo que no provocará fluctuaciones en el rendimiento debido a la contención de recursos.


De la primera a la segunda generación, Graviton ha logrado mejoras considerables en el rendimiento al aumentar el número de núcleos, pero para la tercera generación, Amazon Cloud Technology necesita incorporar más innovaciones de diseño.

Aumentar el número de núcleos y aumentar la frecuencia principal son dos métodos comunes para mejorar el rendimiento. La tercera generación del Graviton 3 lanzada en 2021 no adopta estas ideas. El número de núcleos se mantiene sin cambios y la frecuencia principal solo aumenta ligeramente. Debido a que aumentar la frecuencia es riesgoso para los centros de datos a gran escala, puede causar un gran consumo de energía y requiere configuraciones mejoradas de energía y enfriamiento, lo que en última instancia conduce a un aumento en los costos de uso de los clientes.

Graviton3 ha realizado varias innovaciones que se diferencian de su predecesor:

1. Utilizando el diseño Chiplet, se empaquetan 7 matrices de silicona juntas;

2. Se adopta el método paralelo a nivel de instrucción para aumentar la cantidad de instrucciones que se pueden ejecutar en un solo ciclo central, permitiendo que el núcleo complete más tareas;

3. Para el ancho de banda de la memoria y las cargas de trabajo sensibles a retrasos, el espacio de la memoria aumenta en un 40% y se utiliza DDR5 para aumentar el ancho de banda del canal de memoria en un 50%.

Como resultado, en comparación con la generación anterior, Graviton3 puede aumentar el rendimiento de las cargas de trabajo de aplicaciones en un 25 % sin ninguna diferencia y reducir el consumo de energía hasta en un 60 % en comparación con las instancias x86. Con una unidad de aceleración de hardware de aprendizaje automático incorporada, este procesador también logra una mejora 3 veces mayor en el rendimiento del aprendizaje automático y es utilizado por investigadores y empresas de IA para MLOps en la nube.


Graviton3E, lanzado en 2022, está especialmente optimizado para operaciones de instrucción vectorial y de punto flotante. El rendimiento de la computación vectorial es el doble que el de Graviton3. Es especialmente adecuado para escenarios de aplicaciones como inteligencia artificial/aprendizaje automático y computación de alto rendimiento.

La última generación de Graviton4 utiliza un mejor núcleo Neoverse-V2 y aumenta el número de núcleos a 96 núcleos. La caché L2 de cada núcleo se duplica a 2 MB y el ancho de banda de la memoria aumenta en un 75%.


Cada generación de Graviton tendrá mejoras de rendimiento de dos dígitos en comparación con la generación anterior y el consumo de energía por unidad de potencia informática seguirá disminuyendo. La conservación de energía y la reducción de emisiones son extremadamente importantes para el desarrollo sostenible de los centros de datos. Clientes de la nube conocidos como Twitter, Databricks, Formula 1 y Snap han utilizado servicios basados ​​en Graviton y elogiaron sus ventajas en la reducción de costos y la mejora de la eficiencia.

Según informes de medios extranjeros, a mediados de 2022, Graviton representará aproximadamente el 20% de las instancias de CPU de Amazon Cloud Technology, la mayoría de las cuales son Graviton2. Aproximadamente el 50% de las nuevas instancias de máquinas virtuales de Amazon Cloud Technology serán de la serie Graviton.

Algunos clientes de la nube han respaldado públicamente que han ahorrado entre un 10% y un 40% de los costos informáticos al alquilar los servicios de Graviton.

Como uno de los primeros usuarios de Graviton, Daewoo Unlimited ha utilizado Graviton2 para reducir el costo de las operaciones de big data en un 20 %. Tuya, que utiliza ampliamente instancias de Graviton2, también ha actualizado a instancias de nueva generación, mejorando el rendimiento de cifrado y descifrado de la plataforma IoT; en un 50%.

Según datos de la firma de investigación de mercado IDC, la participación de mercado de los envíos de servidores Arm en el primer trimestre de 2023 es de aproximadamente el 10%. En este momento, los problemas ecológicos de Arm en el mercado de servidores se han resuelto inicialmente.

Hasta la fecha, Amazon Cloud Technology ha implementado más de 2 millones de procesadores Graviton en 33 regiones y más de 100 zonas de disponibilidad en seis continentes alrededor del mundo. Estos procesadores controlan más de 150 instancias informáticas y son utilizados por más de 50.000 empresas y desarrolladores en todo el mundo.


2. El único fabricante de nube que implementa el uso a gran escala de la arquitectura Arm.

En el proceso de atender a los clientes de la nube, el equipo de Amazon Cloud Technology descubrió que si espera revolucionar el precio/rendimiento de la informática para todas las cargas de trabajo posibles, necesita repensar completamente las instancias y profundizar en la tecnología subyacente, incluidos los chips personalizados.

¿Por qué el chip está diseñado en base a la arquitectura Arm?

Para Amazon Cloud Technology, esto es tanto una situación como un plan de futuro.

En primer lugar, la licencia de Arm es relativamente fácil de obtener y tiene un alto grado de libertad de diseño, lo que facilita a Amazon Cloud Technology diseñar procesadores que satisfagan mejor las necesidades del negocio en la nube.

En segundo lugar, el ahorro de energía ha sido durante mucho tiempo un problema importante para los centros de datos. Teniendo en cuenta las economías de escala, unos pocos vatios ahorrados por chip son importantes. Arm ha sido probado en el mercado de procesadores móviles por sus ventajas como alta eficiencia energética, alta densidad de potencia informática y bajo costo.

Además, como mencionamos anteriormente, Graviton es muy cauteloso al aumentar la frecuencia y complementa el rendimiento mediante un mayor paralelismo en el nivel de instrucción, lo que lo hace más competitivo en términos de costo-rendimiento. Con una alta utilización de la CPU, cada vCPU en Graviton ocupa un núcleo físico y no hay problema de contención. Puede mantener una velocidad aún rápida y su ventaja de precio será obvia.

Según Amazon Cloud Technology, en comparación con la instancia R7g de séptima generación que utiliza Graviton3, el rendimiento de la instancia Amazon EC2 R8g basada en el procesador Graviton4 de nueva generación ha mejorado en un 30%, el tamaño de la instancia es mayor, la vCPU y la memoria aumentan. por 3 veces y puede proporcionar Proporciona una mejor relación precio/rendimiento para cargas de trabajo con uso intensivo de memoria, como bases de datos, almacenamiento en caché en memoria y análisis de big data en tiempo real.

En comparación con las instancias R7g, las instancias R8g pueden acelerar las aplicaciones web hasta un 30 %, las bases de datos hasta un 40 % y las aplicaciones Java grandes hasta un 45 %.

Su rendimiento y ventajas rentables han sido verificados mediante algunas pruebas reales.


Según algunos resultados de pruebas comparativas publicados por Phoronix, con la misma cantidad de vCPU, el nuevo núcleo Graviton4 es aproximadamente equivalente a Intel Sapphire Rapids en rendimiento y es comparable al EPYC de cuarta generación de AMD en ejecución de computación, cifrado y código de alto rendimiento. Compilación, trazado de rayos y bases de datos, modelado 3D y otras cargas de trabajo, el progreso intergeneracional es en general muy bueno.


▲ Después de las pruebas, la instancia R8g basada en Graviton4 es más rentable que la instancia en la nube de Amazon Cloud Technology basada en Intel Xeon y AMD EPYC (Fuente: Phoronix.com)

Como uno de los primeros clientes de instancias R8g, Honeycomb compartió que la mejora del rendimiento de Graviton4 es muy obvia en comparación con cuando Graviton se utilizó por primera vez hace cuatro años, el rendimiento por vCPU se ha más que duplicado. Planean migrar toda la carga de trabajo a Graviton4 tan pronto como se lance oficialmente la serie de instancias R8g.

Epic Games, la productora del exitoso juego "Fortnite", comentó que la instancia EC2 R8g basada en el último Graviton4 es la instancia EC2 más rápida que han probado y se encuentra entre sus cargas de trabajo "más competitivas y sensibles a la latencia". puede mejorar completamente el rendimiento de los servidores de juegos.

Los resultados de las pruebas preliminares en SAP HANA Cloud utilizando instancias R8g muestran que, en comparación con las instancias basadas en Graviton3, las instancias R8g pueden mejorar el rendimiento analítico hasta en un 25 % y el rendimiento de la carga de trabajo transaccional hasta en un 40 %.


▲ Comparación de diferentes especificaciones de instancias R8g

Hasta ahora, solo Amazon Cloud Technology realmente se ha dado cuenta del uso a gran escala de la arquitectura Arm.

¿Por qué la tecnología de nube de Amazon? Como dijo Dai Wen, director general de arquitectura de soluciones de Amazon Cloud Technology Greater China, en la Cumbre de China de este año: "Sólo en un entorno de computación en la nube podemos tener la oportunidad de realizar una innovación completa, desde aplicaciones hasta CPU".

Los chips de desarrollo propio no son innovaciones sobre el papel. Requieren la acumulación de experiencia en ingeniería. No sólo deben perseguir un alto rendimiento, sino también ser suficientemente estables, fiables y altamente seguros.

Usar la misma microarquitectura Arm no significa que se pueda fabricar una CPU con el mismo rendimiento, y diseñar un chip no significa que se pueda lograr una producción en masa y un éxito comercial. Solo los problemas de linealidad y retraso de comunicación causados ​​por la interconexión de cientos de núcleos de CPU pueden dejar perplejos a muchos equipos de chips, sin mencionar las dificultades ecológicas de diseñar chips de servidor Arm.

Las ideas de investigación y desarrollo de Amazon Cloud Technology se basan en una comprensión profunda de las cargas de trabajo de los clientes en la nube y la penetración inversa en el diseño de chips. Este enfoque centrado en el cliente permite a Amazon Cloud Technologies ajustarse en el corto plazo para adaptarse rápidamente a la dinámica del mercado.

Tomando Graviton4 como ejemplo, Amazon Cloud Technology ha diseñado por primera vez una arquitectura de CPU para aplicaciones prácticas. La ingeniería de diseño de este procesador ha pasado del sistema de evaluación de referencia tradicional MicroBenchmark a un método de evaluación basado en cargas de trabajo reales. Por ejemplo, optimizar la base de datos de Cassandra, la aplicación Groovy y el servidor nginx requiere diferentes parámetros de CPU de front-end y back-end.

La enorme escala de clientes ha creado grandes barreras para Amazon Cloud Technology. Sus extensos grupos de centros de datos en todo el mundo pueden albergar la implementación de procesadores de la serie Graviton. El efecto de escala formado por el negocio de computación en la nube más grande del mundo puede diluir efectivamente el costo de Amazon Cloud Technology.

Los servicios en la nube continuamente innovadores permiten a Amazon Cloud Technology comprender las aplicaciones más utilizadas y sus patrones de consumo de recursos, para seleccionar los puntos técnicos con los mayores beneficios para los usuarios, llevar a cabo una optimización específica y mejorar rápidamente las pilas de software y hardware e incluso el diseño de la CPU. , desarrolle vCPU y núcleo de hardware coincidentes.

Al mismo tiempo, las diversas líneas de productos de servicios de alojamiento de Amazon utilizan una infraestructura unificada, por lo que las innovaciones de Graviton se pueden aplicar a todos los servicios de alojamiento de manera oportuna. Los usuarios pueden disfrutar fácilmente de la mejora rentable que ofrece Graviton cambiando las opciones informáticas.

Los usuarios sólo deben preocuparse por qué instancia puede satisfacer mejor sus necesidades, y Amazon Cloud Technology es responsable de reducir el costo de la migración y el aprendizaje del software. Al integrar profundamente más servicios de administración con Graviton, la migración fluida de x86 a Arm se vuelve simple y rápida.

3. ¿Cómo afectan los chips de desarrollo propio a la computación en la nube?

Hoy en día, los chips de desarrollo propio se han convertido en una medida estándar para las principales empresas de tecnología, ya sea para reducir costos y aumentar la eficiencia, crear ventajas competitivas, mejorar la controlabilidad y reducir la dependencia de empresas de chips de terceros, es una buena historia que se puede fácilmente. convencer a los clientes e inversores intermedios.

Pero hace nueve años, cuando Amazon Cloud Technology tomó la iniciativa en el desarrollo de sus propios chips, esto todavía era una exploración avanzada.

Mirando hacia atrás en la historia del desarrollo de la computación en la nube, el lanzamiento de la primera definición de instancia EC2 (Elastic Cloud Computing) por parte de Amazon Cloud Technology en 2006 se considera un momento histórico. Posteriormente, cada vez más empresas aceptaron gradualmente el concepto de computación en la nube y comenzaron a migrar sus aplicaciones a la nube.

Ahora Amazon Cloud Technology puede ejecutar con éxito clústeres informáticos de alto rendimiento con decenas de miles de nodos en la nube para entrenar modelos grandes y puede manejar aplicaciones de transmisión en tiempo real de alta concurrencia en la nube. Debes saber que la primera instancia EC2 de Amazon Cloud Technology tiene una frecuencia principal de solo 1,7 GHz, un ancho de banda de red de 250 Mbps, una memoria de menos de 2 GB y un disco mecánico de solo 160 GB.

En los primeros años del negocio de la computación en la nube, Amazon Cloud Technology tuvo que resolver muchos problemas espinosos. Lo que preocupaba particularmente al equipo era que si se usaba una versión personalizada de Xen como hipervisor de virtualización, no importaba cuánto tiempo se dedicara a optimizar el código. , la capa de virtualización siempre ocuparía recursos del host y las CPU x86 no son buenas para manejar el tráfico de red.

Hasta 2013, Annapurna Labs, una empresa de chips israelí, entró en la mira de Amazon Cloud Technology. A través de la cooperación, Amazon Cloud Technology ha escrito el procesamiento de red en hardware por primera vez. El sorprendente rendimiento de la implementación hizo que Amazon Cloud Technology se fijara en este destacado socio: en enero de 2015, Amazon Cloud Technology anunció la adquisición de Annapurna Labs y desde entonces se ha embarcado en el viaje de los chips de desarrollo propio.

Mirando hacia atrás, esta fue definitivamente una inversión inteligente en la historia de la tecnología en la nube de Amazon.

Apenas dos años después de esta transacción, Amazon Cloud Technology anunció la plataforma de virtualización Nitro, que descarga toda la seguridad, administración y monitoreo al hardware, proporcionando casi el 100 % de la potencia informática del host a los clientes.

Desde entonces, la computación en la nube se ha embarcado en un camino de completo aislamiento físico de las empresas y la infraestructura, y la innovación de la tecnología de virtualización subyacente y el desarrollo de tipos de servidores de nivel superior pueden llevarse a cabo en paralelo.

Esto dio lugar a un punto de inflexión clave para las instancias EC2: de 2006 a 2017, Amazon Cloud Technology pasó de 1 tipo de instancia EC2 a 70 tipos en 11 años y de 2017 a 2023, las instancias EC2 crecieron repentinamente de manera explosiva, pasando de 1 a 2023; Se han desarrollado 70 tipos en 6 años, de 70 tipos a 750 tipos, que pueden proporcionar instancias informáticas adecuadas para diversas cargas.

Como piedra angular del éxito de Nitro, Amazon Cloud Technology ha desarrollado tres líneas de productos: chips de red, CPU de servidor y chips de inferencia y entrenamiento de IA: los chips de red Nitro se han desarrollado hasta la quinta generación y continúan optimizando el rendimiento de la red, el rendimiento del almacenamiento y la seguridad. refuerzo Graviton Se han lanzado cuatro generaciones y cinco modelos; el chip de inferencia de IA Inferentia y el chip de entrenamiento de IA Trainium, que brindan a los usuarios opciones de aceleración de IA distintas de las GPU al proporcionar ejemplos de inferencia y entrenamiento más rentables.

Esto permite a Amazon Cloud Technology mantener la flexibilidad de la innovación interna de pila completa: desde placas y servidores personalizados hasta chips personalizados en profundidad en la parte inferior y luego hasta la expansión horizontal del territorio de chips de desarrollo propio, Amazon Cloud Technology irá gradualmente pasar de chips, hardware a software La integración y la colaboración no solo pueden aportar una mayor rentabilidad y confiabilidad al negocio, sino que también forman su propia competitividad central.

Los chips de desarrollo propio están vinculados con los servidores de almacenamiento y los sistemas de red de alta velocidad de desarrollo propio de Amazon Cloud Technology, lo que permite interconectar más chips de manera eficiente, acortando así de manera realmente significativa el tiempo de computación. Basándose en estas innovaciones, Amazon Cloud Technology puede respaldar una de las tareas más desafiantes en la computación en la nube: la inteligencia artificial y el aprendizaje automático.

En la reciente Cumbre de Tecnología de Nube de Amazon en Nueva York, Amazon Cloud Technology anunció que el 96% de los unicornios de AI/ML han administrado sus negocios con Amazon Cloud Technology, y el 90% de las empresas en la lista Forbes AI 50 de 2024 eligen Amazon Cloud Technology. Desde 2023 hasta ahora, Amazon Cloud Technology ha lanzado oficialmente 326 funciones de IA generativa. Durante el mismo período, la cantidad de servicios de IA generativa y aprendizaje automático disponibles oficialmente ha superado el doble que la de otros proveedores.

Los casos de uso extensos y la profunda acumulación técnica siempre están estrechamente relacionados. Esta asombrosa cantidad de casos de uso de IA le brindan a Amazon suficientes casos prácticos para brindar a los clientes opciones que pueden lograr los mejores beneficios, y los comentarios extensos de los clientes pueden convertirse en la mejor fuerza impulsora para el diseño de su chip. La iteración continua de la tecnología de chips respaldará servicios en la nube cada vez más rentables y promoverá el desarrollo inclusivo de la IA generativa.

Conclusión: ningún chip es la única solución para la computación en la nube

Hay muchas opciones de silicio en el mercado, y los proveedores de infraestructura en la nube pueden desempeñar un papel en cómo reunirlas todas para permitir mejor innovaciones que van desde la infraestructura hasta los servicios en la nube.

A diferencia de las empresas de chips independientes, el propósito de los chips de desarrollo propio de Amazon Cloud Technology no es participar en la competencia del mercado, sino proporcionar a sus clientes una "tienda universal" que no solo proporcione chips de desarrollo propio, sino también productos convencionales como como CPU Intel y GPU NVIDIA. La elección depende del cliente para seleccionar la combinación de productos que mejor satisfaga sus necesidades de carga de trabajo en función de los perfiles de estas instancias de chip.

La evolución de seis años de Graviton ha contado la historia de la implementación de las CPU del servidor Arm. Arm proporciona a Amazon Cloud Technology la base para una personalización flexible de las CPU, mientras que Amazon Cloud Technology promueve cambios en el mercado de chips de servidor y se convierte en el mejor respaldo de las ventajas de costo y relación rendimiento-precio de Arm en el mercado de centros de datos.

Mientras Graviton todavía tenga espacio para reducir costos y aumentar la eficiencia, Amazon Cloud Technology puede continuar reduciendo precios y compartiendo ganancias, y devolver los dividendos de escala y tecnología a los clientes de la nube.