¡Musk construyó el grupo de inteligencia artificial más poderoso del mundo en 19 días! El "monstruo refrigerado por líquido" H100 de 100.000 yuanes está a punto de despertar

2024-07-23

Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría]Comenzó oficialmente la construcción del H100 refrigerado por líquido, de 100.000 piezas, y Musk construyó el grupo de entrenamiento de IA más potente del mundo en 19 días.

A las 4:20 de la mañana, el grupo de entrenamiento de supercomputación más grande del otro lado del océano comenzó a rugir.

"420" es también el meme favorito de Musk y simboliza la libertad, la libertad y la antitradición.

Musk utiliza con frecuencia "420" en los precios de sus productos, horarios de reuniones de la empresa y horarios de lanzamiento de naves espaciales, etc.

Los internautas también bromearon en el área de comentarios diciendo que Musk tiene un gran sentido de la ceremonia y no empieza a trabajar antes de las 4:20.

En la última entrevista, Musk reveló más sobre el progreso de las nuevas supercomputadoras y modelos xAI:

- Grok 2 completó el entrenamiento el mes pasado, usando aproximadamente 15K H100

- Grok 2 se lanzará el próximo mes, equivalente a GPT-4 - Grok 3 está construyendo 100.000 supercomputadoras H100 refrigeradas por líquido y comenzando a entrenar - Se espera que Grok 3 se lance en diciembre, "Se convertirá en el más poderoso del mundo en luego "Gran Inteligencia Artificial"

100.000 piezas de H100 refrigerado por líquido, terminadas en 19 días

Vale la pena señalar que el grupo de supercomputación más grande del mundo tiene 100.000 H100, refrigerados por líquido.

¿Cuál es el concepto de H100 que vale 100.000 yuanes?

En términos de precio, la GPU H100 es un componente clave de la IA y un producto de moda en Silicon Valley. Se estima que cada unidad cuesta entre 30.000 y 40.000 dólares estadounidenses. 100.000 unidades de H100 es un gran pedido de 4.000 millones.

Un doctorado en aprendizaje automático de una de las 5 mejores universidades de los Estados Unidos publicó una vez que la cantidad de H100 en el laboratorio es 0 y que las GPU deben usarse rápidamente.

Li Feifei también dijo en la entrevista que el equipo de procesamiento de lenguaje natural de Stanford solo tiene 64 GPU A100.

El precio de compra inicial de Musk fue de 100.000 yuanes, una cifra que hizo salivar a la sección de comentarios.

En términos de potencia informática, la potencia informática es aproximadamente 20 veces mayor que la de los 25.000 bloques A100 utilizados por OpenAI para entrenar GPT4.

En términos de consumo de energía, sólo para mantener el funcionamiento de este centro de supercomputación, la potencia total necesaria alcanza los 70 MW, lo que equivale a la capacidad instalada de una central eléctrica ordinaria y puede satisfacer las necesidades energéticas de 200.000 personas.

En mayo de este año, Musk declaró que esperaba construir una "fábrica de supercomputadoras" para el otoño de 2025.

Ahora parece que para acelerar la construcción del súper clúster, optó por comprar la GPU H100 de generación actual en lugar de esperar a la nueva generación H200 u otras GPU B100 y B200 basadas en Blackwell.

Aunque el mercado espera que la nueva GPU para centros de datos Blackwell de Nvidia esté disponible antes de finales de 2024, Musk claramente no tiene paciencia para esperar.

La actual carrera armamentista de la IA se está volviendo cada vez más feroz, y lo único que importa es la velocidad. Quien pueda lanzar un producto más rápido ocupará rápidamente el mercado.

Como empresa de nueva creación, xAI necesita tomar la delantera en la batalla con otros gigantes.

Anteriormente, las decenas de miles de millones de pedidos de Musk y Oracle se desmoronaron. A Musk no le gustaba la lentitud de Oracle y creía que la otra parte no construía grupos informáticos a una velocidad factible.

Oracle, por otro lado, consideró que la selección del sitio de supercomputación de xAI no podía soportar la demanda de energía. Cuando fracasaron las negociaciones por decenas de miles de millones de pedidos, xAI y Oracle dejaron de discutir la posibilidad de ampliar la cooperación existente.

xAI no tuvo más remedio que construir su propio centro de datos de inteligencia artificial en Memphis, Tennessee. La ruptura de la cooperación con Oracle significó que xAI tuvo que hacerlo solo y construir un centro de datos independiente con 100.000 H100 para deshacerse de las limitaciones del. capacidades de proveedores de nube como Oracle.

El propio Musk dijo que xAI tiene el grupo de entrenamiento de IA más fuerte del mundo, que está muy por delante.

El Grok-3 más fuerte del mundo comienza a entrenarse y será lanzado a finales de año.

En la última entrevista de Musk, reveló algunos detalles sobre la construcción de una supercomputadora.

Según Ted Townsend, presidente de la Cámara del Gran Memphis, a Musk solo le tomó aproximadamente una semana decidir construir la nueva supercomputadora de xAI en Memphis.

Después de varios días de negociaciones vertiginosas en marzo, Musk y su equipo eligieron la ciudad de Tennessee debido a su abundante poder y capacidad para construir rápidamente, dijo Townsend.

Además, solo tomó 19 días construir el centro de supercomputación. Musk también elogió el excelente trabajo del equipo en un tweet.

Supermicro también proporciona la mayor parte del soporte de hardware para xAI, y su director ejecutivo, Charles Liang, también comentó el tweet de Musk y elogió las capacidades de ejecución del equipo.

El propósito de un grupo de entrenamiento tan grande es entrenar a Grok 3.

A principios de este mes, Musk anunció el lanzamiento de Grok 2 a finales de agosto. Si bien Grok-2 aún no se ha lanzado, Musk también reveló algunos detalles de Grok-3 para generar impulso para el modelo más poderoso, Grok 3. .

En una entrevista con Nicolai Tangen, director del Fondo Soberano de Noruega, Musk dijo en abril de este año que Grok 2 requeriría aproximadamente 20.000 H100 para su entrenamiento.

Grok 3 se lanzará a finales de año. Es previsible que el rendimiento de Grok 3 basado en un entrenamiento de 100.000 GPU sea superior al de Grok 2.

Un centro de supercomputación tan grande, naturalmente, requiere el apoyo de una gran cantidad de talentos y tecnología. Musk también continúa reclutando personas en Twitter para expandir al extremo las ventajas de los datos, el talento y la potencia informática.

Referencias:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993

noticias

¡Musk construyó el grupo de inteligencia artificial más poderoso del mundo en 19 días! El "monstruo refrigerado por líquido" H100 de 100.000 yuanes está a punto de despertar

Introducción

Mi información de contacto