Musk adquiere 100.000 H100 para construir la supercomputadora de inteligencia artificial más poderosa del mundo y comienza el entrenamiento de modelos de próxima generación

Musk adquiere 100.000 H100 para construir la supercomputadora de inteligencia artificial más poderosa del mundo y comienza el entrenamiento del modelo de próxima generación

2024-07-23

Mingmin viene del templo de Aofei.
Qubits | Cuenta pública QbitAI

¡Musk construyó el grupo de IA más poderoso del mundo!

La explosiva noticia fue anunciada oficialmente por el propio Lao Ma en Twitter.

A las 4:20 a.m. hora local, el supercúmulo de Memphis construido conjuntamente por xAI, X y NVIDIA comenzó a entrenarse.
consiste enCompuesto por 100.000 piezas de H100¡Es actualmente el grupo de formación más fuerte del mundo!

Esta escala ha superado con creces a Frontier, la supercomputadora más poderosa del mundo.

Los miembros fundadores de xAI continuaron diciendo:

Cuando fundamos esta empresa hace un año, nuestro objetivo era lograr tres ventajas: ventaja de datos, ventaja de talento y ventaja informática.
¡A partir de hoy, tenemos los tres!

Por la publicación de Musk, Supermicro, que tiene estrechos vínculos con Nvidia y se especializa en tecnología de refrigeración líquida, también envió felicitaciones. Su fundador, Charles Liang, dijo:

Es genial que estemos haciendo historia con Musk.

Al mismo tiempo, Musk añadió que la finalización del cluster proporcionará ventajas significativas para entrenar el modelo más potente del mundo durante este año.

Según declaraciones anteriores, se necesitan 100.000 H100 para entrenar a Grok-3.

△ Toma aérea de grupo

Más aún, en junio de este año mencionó que no valía la pena invertir 1 GW de energía para el H100. El próximo verano se podrá poner en funcionamiento un grupo compuesto por 300.000 B200.

Los clústeres autoconstruidos tienen más confianza

En mayo de este año, The Information informó que Musk construiría un clúster de supercomputación compuesto por 100.000 H100 para el otoño de 2025 y cooperaría con Oracle.

Se informa que xAI invertirá 10 mil millones de dólares para alquilar servidores Oracle.

En ese momento, algunas personas todavía se preguntaban por qué se construiría el próximo año pero aún se utilizaría la tecnología de la generación anterior.

NVIDIA ha lanzado B100 y B200 basados en la nueva arquitectura Blackwell, que puede entrenar modelos grandes de manera mucho más eficiente que el H100.

Mirándolo ahora, ¿tal vez la hora en las noticias no sea la correcta? Sería mucho más razonable si se completara este año.

Recientemente, Musk respondió a la noticia de poner fin a la cooperación con Oracle para construir clústeres de supercomputación.

Dijo que xAI recibió 24.000 recursos H100 de Oracle para entrenar Grok-2. Noticias relevantes demuestran que la cooperación en alquiler de servidores entre xAI y Oracle continúa.

Sin embargo, en la construcción del clúster H100 de 100.000 tarjetas, elegimos el modelo de fabricación propia y lo promocionamos lo más rápido posible. Se dice que solo tomó 19 días instalar 100.000 tarjetas.

Tenemos que tomar el volante nosotros mismos.

Noticias posteriores mostraron que Dell y Super Micro se convirtieron en los nuevos socios de Musk.

El CEO de Dell y el CEO de Supermicro tuitearon recientemente que la cooperación está en marcha e incluyeron fotografías del centro de datos.

Durante el proceso de construcción del clúster, Musk visitó personalmente el sitio.

Al mismo tiempo, también se reveló en Twitter que Grok está entrenando en Memphis y que Grok-2 se lanzará en agosto.

Vale la pena mencionar que Oracle había expresado previamente su preocupación sobre el suministro de energía en el lugar donde se estableció el clúster.

Según las estimaciones, 100.000 unidades H100 requieren 150 megavatios de energía asignada desde la red, pero Musk parece haber resuelto este problema.

Las últimas noticias muestran que el cluster actual ha obtenido temporalmente 8 megavatios. Tras la firma del acuerdo el 1 de agosto se obtendrán 50 MW. Ahora hay 32.000 tarjetas en línea y estarán 100% en línea en el cuarto trimestre, suficiente para respaldar las operaciones de capacitación del modelo a escala GPT-5.

En resumen, lo que es seguro es que todos los gigantes de la IA creen que es más confiable tener la potencia informática en sus propias manos, y vale la pena gastar mucho dinero en ello.

Según las estimaciones de costes, el precio de cada H100 ronda los 30.000-40.000 dólares estadounidenses. El grupo de supercomputación de Musk tendrá un valor de 4 mil millones de dólares (equivalente a más de 29 mil millones de RMB).

Las noticias anteriores decían que Microsoft y OpenAI están desarrollando un proyecto de centro de datos de 100 mil millones de dólares llamado "Stargate".

Según personas familiarizadas con el asunto, se está llegando a un acuerdo entre Oracle y Microsoft por 100.000 B200. El grupo podría estar listo el próximo verano.

Además, Meta también ha estado expuesta a tener clústeres de supercomputación de lujo, y los proveedores de nube como AWS también han invertido más en centros de datos.

Referencias:
[1]https://x.com/elonmusk/status/1810727394631950752
[2]https://x.com/elonmusk/status/1815325410667749760
[3]https://x.com/dylan522p/status/1815494840152662170
[4]https://x.com/MichaelDell/status/1803385185984974941

noticias

Musk adquiere 100.000 H100 para construir la supercomputadora de inteligencia artificial más poderosa del mundo y comienza el entrenamiento del modelo de próxima generación

Introducción

Mi informacion de contacto