¡Dojo de monstruos de IA! Los desafíos de la supercomputación de desarrollo propio NVIDIA

¡Dojo de monstruos de IA!La supercomputación de desarrollo propio desafía a NVIDIA

2024-08-05

El artículo se reimprime en Xinzhiyuan.

Para entrenar al Grok 3 más potente, xAI pasó 19 días construyendo el clúster de supercomputación más grande del mundo compuesto por 100.000 H100.

En términos de capacitación de robots FSD y Optimus Prime, Musk tampoco escatimó en gastos e invirtió muchos recursos informáticos.

Supercomputing Dojo es la piedra angular de la IA de Tesla y está especialmente diseñado para entrenar redes neuronales FSD.

Precisamente hoy visitó el grupo de supercomputadoras de Tesla en la Superfábrica de Texas (Cortex).

Musk dijo: "Este será un sistema con alrededor de 100.000 GPU H100/H200 y equipado con almacenamiento a gran escala para entrenamiento por vídeo de conducción totalmente autónoma (FSD) y robots Optimus".

No solo eso, además de las GPU NVIDIA, este clúster de supercomputación también está equipado con sistemas Tesla HW4, AI5 y Dojo.

Serán alimentados y refrigerados por un gran sistema de hasta 500 megavatios.

En el Tesla AI Day de 2021, Musk anunció Dojo por primera vez.

Ahora que han pasado tres años, ¿cómo va la construcción del Dojo?

Potencia informática equivalente a 8000 H100, duplica tu apuesta

Hace medio mes, los internautas afirmaron que Tesla tendría potencia informática de entrenamiento de IA para finales de 2024, equivalente al rendimiento de un H100 valorado en 90.000 yuanes.

Musk añadió algo a esto:

No solo utilizamos las GPU de NVIDIA, sino también nuestra propia computadora con IA: Tesla HW4 AI (rebautizada como AI4) en el sistema de entrenamiento de IA, con una proporción de aproximadamente 1:2. Esto significa que hay aproximadamente 90.000 H100, además de aproximadamente 40.000 ordenadores AI4.

También mencionó que para finales de este año, Dojo 1 tendrá una potencia informática H100 equivalente a aproximadamente 8.000. Esta escala no es enorme, pero tampoco pequeña.

Clúster de supercomputación Dojo D1

De hecho, en junio del año pasado, Musk reveló que Dojo había estado en línea y ejecutando tareas útiles durante varios meses.

Esto ya implica que Dojo ha estado involucrado en entrenamiento para algunas tareas.

Recientemente, en la conferencia de resultados de Tesla, Musk dijo que Tesla se está preparando para lanzar taxis autónomos en octubre y que el equipo de IA "duplicará la inversión" en Dojo.

Se espera que la potencia informática total de Dojo alcance los 100 exaflops en octubre de 2024.

Suponiendo que un chip D1 pueda alcanzar 362 teraflops, para alcanzar 100 exaflops, Tesla necesitaría más de 276.000 chips D1, o más de 320.000 GPU Nvidia A100.

50 mil millones de transistores, se ha puesto en producción el D1

En el Tesla AI Day de 2021, se presentó por primera vez el chip D1. Tiene 50 mil millones de transistores y tiene solo el tamaño de la palma de la mano.

Tiene un rendimiento potente y eficiente y puede manejar diversas tareas complejas rápidamente.

En mayo de este año, el chip D1 comenzó a producirse, utilizando el nodo de proceso de 7 nm de TSMC.

Ganesh Venkataramanan, ex director senior de hardware de Autopilot, dijo una vez: "D1 puede realizar cálculos y transmisión de datos al mismo tiempo, adopta una arquitectura de conjunto de instrucciones ISA personalizada y está totalmente optimizado para cargas de trabajo de aprendizaje automático".

Este es un chip de aprendizaje automático puro.

A pesar de esto, la D1 todavía no es tan poderosa como la Nvidia A100, que también se fabrica utilizando el proceso de 7 nm de TSMC.

D1 coloca 50 mil millones de transistores en un chip de 645 milímetros cuadrados, mientras que el A100 contiene 54 mil millones de transistores, tiene un tamaño de chip de 826 milímetros cuadrados y está por delante del D1 en rendimiento.

Para obtener mayor ancho de banda y potencia informática, el equipo de IA de Tesla integró 25 chips D1 en un mosaico y lo operó como un sistema informático unificado.

Cada mosaico tiene 9 petaflops de potencia informática, 36 terabytes por segundo de ancho de banda e incluye hardware de alimentación, refrigeración y transferencia de datos.

Podemos pensar en un solo mosaico como una computadora autosuficiente compuesta por 25 minicomputadoras.

Al utilizar la tecnología de interconexión a nivel de oblea InFO_SoW (Integrated Fan-Out, System-on-Wafer), 25 chips D1 en la misma oblea pueden lograr conexiones de alto rendimiento y funcionar como un solo procesador.

Seis de estos mosaicos forman un estante y dos estantes forman un gabinete.

Diez gabinetes constituyen un ExaPOD.

En el AI Day 2022, Tesla dijo que Dojo escalará implementando múltiples ExaPOD. Todo esto combinado forma una supercomputadora.

Los procesadores a escala de oblea, como el Dojo de Tesla y el Wafer-Scale Engine WSE de Cerebras, son mucho más eficientes en cuanto a rendimiento que los multiprocesadores.

Las ventajas clave del primero incluyen comunicación de gran ancho de banda y baja latencia entre núcleos, menor impedancia de la red y mayor eficiencia energética.

Actualmente, sólo Tesla y Cerebras tienen diseños de sistema en oblea.

Sin embargo, juntar 25 chips plantea desafíos de voltaje y sistemas de refrigeración.

Los internautas fotografiaron a Tesla construyendo un sistema de refrigeración gigante en Texas

Un desafío inherente a los chips de nivel de oblea es que deben utilizar memoria en el chip, que no es lo suficientemente flexible y puede no ser adecuada para todo tipo de aplicaciones.

Tom's Hardware predice que la tecnología de próxima generación puede ser CoW_SoW (Chip-on-Wafer), que realiza apilamiento 3D en mosaicos e integra memoria HBM4.

Además, Tesla también está desarrollando el chip D2 de próxima generación para resolver el problema del flujo de información.

En lugar de conectar chips individuales, D2 coloca todo el mosaico del Dojo en una única oblea de silicio.

Para 2027, se espera que TSMC proporcione sistemas a nivel de oblea más complejos y se espera que la potencia informática aumente más de 40 veces.

Desde el lanzamiento de D1, Tesla no ha revelado el estado de los pedidos de los chips D1 que ha pedido o espera recibir, ni el calendario de implementación específico de la supercomputadora Dojo.

Sin embargo, en junio de este año, Musk dijo que en los próximos 18 meses, la mitad del hardware de IA de Tesla se implementará y la otra mitad será Nvidia/otro hardware.

Otro hardware, posiblemente AMD.

Por qué se necesita Dojo

La conducción autónoma consume potencia informática

En nuestra impresión, el negocio principal de Tesla se limita a la producción de vehículos eléctricos, con algunos paneles solares y sistemas de almacenamiento de energía adicionales.

Pero Musk espera mucho más de Tesla.

La mayoría de los sistemas de conducción autónoma, como Waymo, una filial de la empresa matriz de Google, Alphabet, todavía dependen de sensores tradicionales como entrada, como radar, lidar y cámaras.

Pero Tesla toma un camino de "visión completa". Sólo dependen de cámaras para capturar datos visuales, los complementan con mapas de alta definición para el posicionamiento y luego usan redes neuronales para procesar los datos y tomar decisiones rápidas sobre la conducción autónoma.

Intuitivamente, es obvio que el primero es un camino más sencillo y rápido, y así es.

Waymo ha comercializado la conducción autónoma L4, que es un sistema que puede conducirse solo sin intervención humana bajo ciertas condiciones definidas por SAE. Pero la red neuronal FSD (Full Self-Driving) de Tesla todavía no puede separarse de la operación humana.

Andrej Karpathy, quien alguna vez fue jefe de IA en Tesla, dijo que implementar FSD es básicamente "construir un animal artificial desde cero".

Podemos considerarlo como una réplica digital de la corteza visual y las funciones cerebrales humanas. FSD no sólo necesita recopilar y procesar continuamente datos visuales, identificar y clasificar objetos alrededor del vehículo, sino que también debe tener una velocidad de toma de decisiones comparable a la de los humanos.

Se puede ver que Musk quiere algo más que un sistema de conducción autónomo rentable. Su objetivo es crear una nueva inteligencia.

Pero, afortunadamente, no tiene que preocuparse por la falta de datos. Alrededor de 1,8 millones de personas pagan actualmente la tarifa de suscripción de 8.000 dólares a FSD (antes podía ser de 15.000 dólares), lo que significa que Tesla puede recopilar millones de kilómetros de vídeos de conducción para entrenamiento.

En términos de potencia informática, la supercomputadora Dojo es el campo de entrenamiento para FSD. Su nombre chino puede traducirse como "dojo", un guiño al espacio de práctica de artes marciales.

NVIDIA no es lo suficientemente buena

¿Qué tan populares son las GPU NVIDIA? Basta ver cuánto quieren los directores ejecutivos de los principales gigantes tecnológicos acercarse a los viejos gánsteres.

Incluso tan rico como Musk, admitió durante la conferencia telefónica sobre resultados de julio que estaba "muy preocupado" de que Tesla no pudiera usar suficientes GPU de Nvidia.

"Lo que estamos viendo es que la demanda de hardware de Nvidia es tan alta que a menudo es difícil conseguir GPU".

En la actualidad, Tesla parece seguir utilizando el hardware de Nvidia para proporcionar potencia informática a Dojo, pero Musk parece no querer poner todos sus huevos en una sola canasta.

Especialmente teniendo en cuenta que la prima de los chips Nvidia es tan alta y el rendimiento no es del todo satisfactorio para Musk.

En términos de sinergia de hardware y software, Tesla y Apple tienen puntos de vista similares, es decir, se debe lograr un alto grado de sinergia entre los dos, especialmente para un sistema altamente especializado como FSD, que debería deshacerse de GPU altamente estandarizadas y usar Hardware personalizado.

El núcleo de esta visión es el chip D1 patentado por Tesla, que se lanzará en 2021 y será producido por TSMC en mayo de este año.

Además, Tesla también está desarrollando el chip D2 de próxima generación, con la esperanza de colocar todo el bloque Dojo en un solo chip de silicio para resolver el cuello de botella en el flujo de información.

En el informe de resultados del segundo trimestre, Musk señaló que veía "otra forma de competir con Nvidia a través de Dojo".

¿Podrá Dojo tener éxito?

Incluso si tiene tanta confianza como Musk, cuando habla de Dojo, dudará en decir que es posible que Tesla no tenga éxito.

A largo plazo, desarrollar su propio hardware de supercomputación podría abrir nuevos modelos de negocio para el sector de la IA.

Musk ha dicho que la primera versión de Dojo se adaptará a la anotación y el entrenamiento de datos visuales de Tesla, lo que será muy útil para FSD y el entrenamiento del robot humanoide Optimus de Tesla.

Las versiones futuras serán más adecuadas para el entrenamiento general de IA, pero esto inevitablemente implicará el foso de Nvidia: el software.

Casi todo el software de IA está diseñado para funcionar con las GPU de NVIDIA y usar Dojo significa reescribir todo el ecosistema de IA, incluidos CUDA y PyTorch.

Esto significa que Dojo tiene casi una sola salida: alquilar potencia informática y construir una plataforma de computación en la nube similar a AWS y Azure.

Morgan Stanley predijo en un informe del pasado mes de septiembre que Dojo podría desbloquear nuevas fuentes de ingresos en forma de robotaxi y servicios de software, añadiendo 500.000 millones de dólares al valor de mercado de Tesla.

En resumen, a juzgar por la cuidadosa asignación actual de hardware por parte de Musk, Dojo no es un "movimiento desesperado", sino más bien un doble seguro. Pero una vez que se logra el éxito, también se pueden generar enormes dividendos.

Referencias:

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-production-a-serious-processor-for-serious-ai-workloads

Haz clic en "" y vámonos.

noticias

¡Dojo de monstruos de IA!La supercomputación de desarrollo propio desafía a NVIDIA

Introducción

Mi informacion de contacto