noticias

NVIDIA Blackwell está operativo en el centro de datos: NVLINK actualizado a 1,4 TB/s, primera imagen FP4 GenAI lanzada

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House informó el 24 de agosto que Nvidia invitó a algunos medios a realizar una sesión informativa y demostró la plataforma Blackwell a los periodistas de tecnología por primera vez. NVIDIA asistirá al evento Hot Chips 2024 que se celebrará del 25 al 27 de agosto para demostrar el uso de la plataforma Blackwell en los centros de datos.

Niega noticias de que Blackwell haya retrasado su cotización

En esta sesión informativa, Nvidia refutó la noticia del retraso en la cotización de Blackwell y compartió más información sobre su centro de datos Goliath.

Nvidia demostró Blackwell ejecutándose en uno de sus centros de datos durante la sesión informativa y enfatizó que Blackwell está progresando según lo planeado y se enviará a los clientes a finales de este año.

Hay rumores de que Blackwell tiene algún tipo de defecto o problema que impide su salida al mercado este año. Esta sugerencia es insostenible.

Introducción a Blackwell

NVIDIA dice que Blackwell es más que un simple chip, es una plataforma. Al igual que Hopper, Blackwell incluye una gran cantidad de diseños para clientes de centros de datos, computación en la nube e inteligencia artificial, y cada producto de Blackwell se compone de diferentes chips.

Los chips que incluye IT Home son los siguientes:

GPU Blackwell

CPU de gracia

Chip de conmutación NVLINK

Campo azul-3

Conectar X-7

ConectarX-8

Espectro-4

Cuántico-3

Puente Blackwell

Nvidia también compartió nuevas imágenes de varios puentes de la familia de productos Blackwell. Estas son las primeras imágenes de las bandejas de cables de Blackwell que se comparten y que ilustran la amplia experiencia en ingeniería necesaria para diseñar plataformas de centros de datos de próxima generación.

Modelo de IA de billones de parámetros objetivo

Blackwell está diseñado para satisfacer las necesidades de la inteligencia artificial moderna y ofrecer un rendimiento excepcional para modelos de lenguajes grandes como el 405B Llama-3.1 de Meta. A medida que los LLM crezcan y tengan más parámetros, los centros de datos requerirán más computación y menor latencia.

Métodos de inferencia multi-GPU

El enfoque de inferencia multi-GPU consiste en realizar cálculos en múltiples GPU para lograr una baja latencia y un alto rendimiento, pero optar por la ruta multi-GPU tiene sus complicaciones. Cada GPU en un entorno de múltiples GPU debe enviar los resultados de los cálculos a otras GPU en cada capa, lo que requiere una comunicación de GPU a GPU de gran ancho de banda.

El enfoque de inferencia multi-GPU consiste en realizar cálculos en múltiples GPU para lograr una baja latencia y un alto rendimiento, pero optar por la ruta multi-GPU tiene sus complicaciones. Cada GPU en un entorno de múltiples GPU debe enviar los resultados de los cálculos a otras GPU en cada capa, lo que requiere una comunicación de GPU a GPU de gran ancho de banda.

Conmutadores NVLINK más rápidos

Con Blackwell, NVIDIA introdujo conmutadores NVLINK más rápidos que duplicaron el ancho de banda de la estructura a 1,8 TB/s. El conmutador NVLINK en sí se basa en el chip de 800 mm2 de nodo 4NP de TSMC, que puede escalar NVLINK a 72 GPU en el bastidor GB200 NVL72.

El chip proporciona 7,2 TB/s de ancho de banda bidireccional total a través de 72 puertos y tiene una potencia informática en red de 3,6 TFLOP. La bandeja del conmutador NVLINK cuenta con dos de estos conmutadores, lo que proporciona un ancho de banda total de hasta 14,4 TB/s.

Refrigeración por agua

NVIDIA utiliza refrigeración por agua para mejorar el rendimiento y la eficiencia. Los sistemas GB200, Grace Blackwell GB200 y B200 contarán con estas nuevas soluciones de refrigeración líquida, que pueden reducir los costos de energía para las instalaciones del centro de datos hasta en un 28%.

La primera imagen de inteligencia artificial generada mediante cálculos del 4PM

NVIDIA también compartió la primera imagen de inteligencia artificial del mundo generada mediante la informática FP4. La figura muestra que el modelo de cuantificación FP4 produce imágenes de conejo de 4 bits que son muy similares al modelo FP16, pero más rápidas.

Esta imagen fue producida por MLPerf utilizando Blackwell en difusión estable. Ahora, el desafío de reducir la precisión (del FP16 al FP4) es que se pierde algo de precisión.