noticias

Los llamados "chips calientes" de NVIDIA son en realidad "plataformas calientes"

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nvidia recibió una rara mala noticia a principios de este mes cuando surgieron informes de que el muy esperado acelerador de GPU "Blackwell" de la compañía podría retrasarse hasta tres meses debido a fallas de diseño. Sin embargo, un portavoz de Nvidia dijo que todo va según lo planeado, y algunos proveedores dijeron que nada ha cambiado, mientras que otros dijeron que hubo algunos retrasos normales.

Los expertos de la industria esperan que los usuarios sepan más sobre la situación de Blackwell cuando Nvidia anuncie sus resultados financieros del segundo trimestre del año fiscal 2025 el próximo miércoles.

Se informa que los chips Blackwell (B100, B200 y GB200) serán el tema central de la conferencia Hot Chips de este año en la Universidad de Stanford en California la próxima semana, donde Nvidia presentará su arquitectura, detallará algunas innovaciones nuevas y describirá los métodos utilizados en el diseño. el caso de los chips de la IA y analiza la investigación sobre la refrigeración líquida en los centros de datos para ejecutar estas crecientes cargas de trabajo de IA. Según Dave Salvador, director de productos de computación acelerada de Nvidia, la compañía también mostrará los chips Blackwell que ya están funcionando en uno de sus centros de datos.

La mayor parte de lo que Nvidia está hablando sobre Blackwell ya se sabe, como la GPU Blackwell Ultra que llegará el próximo año y la próxima generación de GPU Rubin y CPU Vera que comenzarán a implementarse en 2026. Sin embargo, subraya Salvator,Cuando se habla de Blackwell, es importante pensar en él como una plataforma, no como un chip individual.Salvator dijo a periodistas y analistas en una sesión informativa esta semana en preparación para Hot Chips.

“Cuando piensas en Nvidia y las plataformas que construimos, las GPU, las redes e incluso nuestras CPU son solo el comienzo”, dijo. “Estamos haciendo ingeniería a nivel de sistema y de centro de datos para construir estas cosas que realmente pueden funcionar. y resolver esos problemas reales Sistemas y plataformas para desafíos difíciles de IA generativa Hemos visto crecer el tamaño de los modelos con el tiempo, y la mayoría de las aplicaciones de IA generativa deben ejecutarse en tiempo real, y los requisitos de inferencia han aumentado dramáticamente en los últimos años. años. La inferencia de modelos de lenguaje grande en tiempo real requiere múltiples GPU y, en un futuro cercano, múltiples nodos de servidor ".

Esto incluye no solo las GPU Blackwell y las CPU Grace, sino también los chips NVLink Switch, las DPU Bluefield-3, las NIC ConnextX-7 y ConnectX-8, los conmutadores Ethernet Spectrum-4 y los conmutadores Quantum-3 InfiniBand. Salvator también mostró información diferente para NVLink Switch (abajo), Compute, Spectrum-X800 y Quantum-X800.

Nvidia lanzó la muy esperada arquitectura Blackwell en la conferencia GTC 2024 en marzo de este año, y los fabricantes de hiperescala y de equipos originales rápidamente se unieron a ella. La compañía tiene la mira puesta en el campo en rápida expansión de la IA generativa, donde los grandes modelos de lenguaje (LLM) se harán aún más grandes, como lo demuestra Meta's Llama 3.1, que se lanzó en junio con un modelo 4050 A con miles de millones de parámetros. Salvator dijo,A medida que los LLM crezcan y persista la necesidad de inferencia en tiempo real, requerirán más computación y menor latencia, lo que requiere un enfoque de plataforma.

Dijo: "Como la mayoría de los otros LLMS, se espera que los servicios que funcionarán con este modelo se ejecuten en tiempo real. Para hacer eso, se necesitan varias GPU. El desafío es cómo combinar el alto rendimiento de la GPU con la alta rendimiento de la GPU. Existe un gran equilibrio entre la utilización y la entrega de una excelente experiencia de usuario a los usuarios finales que utilizan estos servicios impulsados ​​por IA”.

01 La necesidad de velocidad

Con Blackwell, Nvidia duplicó el ancho de banda por switch de 900 GB/s a 1,8 TB/s. La tecnología Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) de la empresa incorpora al sistema más computación que la que realmente reside en el conmutador. Nos permite realizar algunas descargas desde la GPU para ayudar a acelerar el rendimiento y también ayuda a suavizar el tráfico de red en la estructura NVLink. Estas son innovaciones que continuamos impulsando a nivel de plataforma.

El GB200 NVL72 de múltiples nodos es un chasis refrigerado por líquido que conecta 72 GPU Blackwell y 36 CPU Grace en un diseño a escala de rack que, según Nvidia, sirve como una GPU única para LLM de billones de parámetros como GPT-MoE-1.8T. rendimiento de inferencia. Su rendimiento es 30 veces mayor que el del sistema HGX H100 y su velocidad de entrenamiento es 4 veces mayor que la del H100.

Nvidia también ha agregado soporte nativo para FP4, utilizando el sistema de cuantificación Quasar de la compañía, que puede proporcionar la misma precisión que FP16 y al mismo tiempo reducir el uso de ancho de banda en un 75%. El sistema de cuantificación Quasar es un software que aprovecha el motor Transformer de Blackwell para garantizar la precisión, y Salvator lo demostró comparando imágenes generativas de IA creadas con FP4 y FP16, que apenas mostraron diferencias notables.

Usando FP4, el modelo puede usar menos memoria y funcionar incluso mejor que FP8 en Hopper GPU.

02 Sistema de refrigeración líquida

En términos de refrigeración líquida, Nvidia introducirá un método directo de chip a chip con agua caliente que puede reducir el uso de energía del centro de datos en un 28%.

"Lo interesante de este enfoque son algunos de sus beneficios, que incluyen una mayor eficiencia de enfriamiento, menores costos operativos, una mayor vida útil del servidor y la posibilidad de reutilizar el calor capturado para otros usos", dijo Salvator. "Sin duda ayudaría a mejorar la eficiencia de enfriamiento". Una forma es que, como sugiere el nombre, este sistema en realidad no usa un refrigerador. Si piensas en cómo funciona un refrigerador, funciona muy bien con la solución de agua tibia, no tenemos que usar un refrigerador. , lo que nos ahorra algo de energía y reduce los costos operativos”.

Otro tema es cómo Nvidia está aprovechando la inteligencia artificial, diseñando sus chips de inteligencia artificial utilizando Verilog, un lenguaje de descripción de hardware que describe circuitos en código que se ha utilizado durante cuatro décadas. NVIDIA está ayudando con un agente Verilog autónomo llamado VerilogCoder.

"Nuestros investigadores han desarrollado un modelo de lenguaje grande que puede usarse para acelerar la creación del código Verilog que describe nuestros sistemas", dijo. "Lo usaremos en futuras generaciones de productos para ayudar a construir esos códigos. Puede hacerlo". "Puede ayudar a acelerar el proceso de diseño y verificación, acelera los aspectos manuales del diseño y esencialmente automatiza muchas tareas".