¡Comienza la batalla de la IA por la hegemonía! OpenAI construye urgentemente una supercomputadora de 100.000 GB200, las 100.000 H100 de Musk comenzarán a entrenarse a finales de mes

2024-07-16

Nuevo informe de sabiduría

Editor: Taozi

[Introducción a la Nueva Sabiduría] Musk anunció oficialmente que el clúster de supercomputación más grande del mundo construido por xAI está construido con 100.000 H100 y se espera que comience a entrenarse a finales de este mes. Por otro lado, OpenAI vuelve a aumentar su inversión y construirá una supercomputadora compuesta por 100.000 GB200 para aplastar por completo a xAI.

Para alcanzar AGI, empresas de todo el mundo se están preparando para quemar todas las GPU.

La información informó exclusivamente que el próximo clúster de supercomputación de OpenAI constará de 100.000 bloques GB200.

Utiliza el chip de inteligencia artificial más potente de Nvidia hasta la fecha.

Por otro lado, xAI también está construyendo lo que se conoce como "el clúster de supercomputación más grande del mundo", compuesto por 100k H100, y se pondrá en entrenamiento a finales de este mes.

En la última publicación de Musk, respondió de inmediato a los informes de que xAI y Oracle habían terminado las negociaciones sobre el acuerdo de servidores.

Dijo que xAI compró 24.000 H100 de Oracle y entrenó a Grok 2 en estos chips.

Grok 2 se encuentra actualmente en proceso de ajuste y corrección de errores, y se espera que esté listo para su lanzamiento el próximo mes. Al mismo tiempo, xAI también está construyendo un grupo de 100.000 H100 por su cuenta. El objetivo es lograr el tiempo de finalización de la capacitación más rápido y planea comenzar a entrenar modelos a finales de este mes. Este se convertirá en el grupo de formación más fuerte del mundo y sus ventajas son evidentes. La razón por la que decidimos construir nosotros mismos 100.000 sistemas de chips H100, así como la próxima generación de sistemas importantes, es que nuestra principal competitividad depende de ser más rápidos que otras empresas de IA. Ésta es la única manera de ponerse al día con sus competidores. Oracle es una excelente empresa, y hay otra empresa (en alusión a Microsoft) que también muestra un gran potencial al participar en el proyecto de clúster GB200 de OpenAI. Pero cuando nuestro destino depende de ser la empresa más rápida, tenemos que hacernos cargo, no ser simplemente un espectador.

En resumen, en esta era en constante cambio, si quieres superar a tus competidores, debes asegurarte una ventaja absoluta en velocidad.

xAI Oracle colapsa, decenas de miles de millones de dólares desperdiciados

En mayo de este año, Information informó que xAI había estado discutiendo un acuerdo de varios años para alquilar chips Nvidia AI de Oracle.

Se esperaba que el acuerdo valiera hasta 10 mil millones de dólares, pero se estancó debido a algunos problemas.

Entre ellos, Musk exige que la velocidad de construcción de supercomputadoras supere por completo la imaginación de Oracle. A Oracle también le preocupa que la ubicación preferida de xAI no tenga suficiente energía.

Para cambiar esta situación, sólo podemos confiar en la autosuficiencia.

Ahora, xAI está construyendo su propio centro de datos de IA en Memphis, Tennessee, que utiliza chips Nvidia enviados por Dell y Supermicro.

Oracle no participa en el proyecto, según personas involucradas en las negociaciones.

De hecho, antes de esto, xAI había alquilado muchos chips Nvidia de Oracle y se convirtió en uno de los mayores clientes de este proveedor de GPU de computación en la nube.

El acuerdo seguirá adelante por ahora a pesar del fracaso de negociaciones más amplias.

De la última respuesta de Musk se desprende que el número de chips de Oracle ha aumentado de 16.000 en mayo a 24.000.

100.000 piezas de conexión serie H100

Sin embargo, Musk todavía espera construir una supercomputadora equipada con 100.000 GPU Nvidia, llamándola la "Gigafábrica de Computación".

Dijo que xAI necesita más chips para entrenar el modelo de IA de próxima generación: Grok 3.0.

Lao Ma dijo a los inversores en mayo que espera tener la supercomputadora operativa para el otoño de 2025 y que será personalmente responsable de entregarla a tiempo porque es crucial para el desarrollo de LLM.

Ha declarado públicamente muchas veces que un grupo de entrenamiento refrigerado por líquido compuesto por 100.000 H100 estará en funcionamiento en unos meses.

La razón por la que la iteración del modelo Grok es importante es porque es parte del paquete de suscripción de la aplicación X Social, que comienza en $8 por mes e incluye una variedad de funciones.

La semana pasada, xAI también publicó una foto de Musk y otros empleados en el centro de datos. Al fondo, detrás de la foto, hay servidores.

Aunque en el post no se especificaba la ubicación. Pero en junio, el presidente de la Cámara del Gran Memphis dijo que xAI estaba construyendo una supercomputadora en la fábrica de Electrolux en Memphis.

Diseño de servicios públicos de las nuevas instalaciones de xAI en Memphis, Tennessee

El director ejecutivo de Dell, Micael Dell, dijo que Dell está ayudando a xAI a construir un centro de datos.

Además, el director ejecutivo de Supermicro, Charles Liang, también publicó una foto de él y Musk en el centro de datos, que también confirmó la asociación de la compañía con xAI.

Vale la pena mencionar que el mes pasado Musk anunció que xAI había completado la asombrosa cifra de 6 mil millones de dólares en financiamiento Serie B, con una valoración de la compañía que alcanzó los 24 mil millones de dólares.

Los inversores en financiación Serie B incluyen 8 inversores, incluidos Andreessen Horowitz, Sequoia Capital, Valor Equity Partners, Vy Capital y Fidelity Management & Research.

Personalmente dijo que en la última ronda de financiación, la mayor parte de los fondos se invertirán en la construcción de energía informática.

Obviamente, el proyecto de supercomputación construido por xAI es parte de sus esfuerzos por alcanzar a OpenAI.

Supercomputadora de 100.000 GB200, alquilada por 5.000 millones de dólares durante dos años

De hecho, por otro lado, OpenAI también está acelerando sin parar su velocidad de investigación y desarrollo, sin atreverse a aflojar.

Dos personas familiarizadas con el asunto revelaron que el acuerdo de Oracle con Microsoft involucra un grupo de 100.000 chips GB200 de Nvidia.

Cuando se construya esta supercomputadora, los 100.000 H100 de Musk no serán nada.

Algunos internautas exclamaron que la cantidad de chips Nvidia GB200 en el clúster es aproximadamente equivalente a la cantidad de transistores en el procesador Intel 80286. Me sorprende ver esta escena en mi vida.

Alguien más analizó esto y dijo: "El rendimiento del entrenamiento del GB200 será 4 veces mayor que el del H100".

GPT-4 fue entrenado utilizando 25.000 A100 (el predecesor del H100) en 90 días. Entonces, en teoría, podrías entrenar GPT-4 en menos de 2 días con 100.000 GB200, aunque esto es en condiciones ideales y puede que no sea del todo realista. Pero sí hace que la gente se imagine qué tipo de modelos de IA pueden entrenar en 90 días utilizando este grupo de supercomputadoras, que se espera que entre en funcionamiento en el segundo trimestre de 2025.

En la conferencia GTC 2024, Lao Huang presentó una vez que el H100 es 4 veces más rápido que el A100 y el B200 es 3 veces más rápido que el H100.

Suponiendo que las dos empresas firmen un acuerdo de varios años, el coste de alquilar un clúster de este tipo podría alcanzar unos 5.000 millones de dólares en dos años, según personas familiarizadas con los precios de la nube de GPU.

Se espera que este clúster esté listo en el segundo trimestre de 2025.

Oracle comprará chips de Nvidia y los arrendará a Microsoft, que luego los proporcionará a OpenAI. Después de todo, esto se ha convertido en una práctica constante de beneficio mutuo entre Microsoft y OpenAI.

Microsoft invierte dinero en OpenAI y, a cambio, obtiene acceso a nuevos modelos de OpenAI.

Oracle planea colocar los chips en un centro de datos en Abilene, Texas, según personas involucradas en la planificación.

El acuerdo también muestra que Microsoft no puede conseguir suficientes chips Nvidia.

Además, no es común que los proveedores de computación en la nube se alquilen servidores entre sí, pero la fuerte demanda de chips Nvidia llevó a esta transacción inusual.

El año pasado, Microsoft llegó a un acuerdo similar de arrendamiento de servidores con CoreWeave para aumentar la capacidad de los servidores Nvidia.

Referencias:

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623

noticias

¡Comienza la batalla de la IA por la hegemonía! OpenAI construye urgentemente una supercomputadora de 100.000 GB200, las 100.000 H100 de Musk comenzarán a entrenarse a finales de mes

Introducción

Mi informacion de contacto