Monstro de IA Dojo! Desafios da supercomputação autodesenvolvida NVIDIA

Monstro de IA Dojo!Supercomputação autodesenvolvida desafia a NVIDIA

2024-08-05

O artigo foi reimpresso em Xinzhiyuan

Para treinar o Grok 3 mais forte, a xAI passou 19 dias construindo o maior cluster de supercomputação do mundo composto por 100.000 H100s.

Em termos de treinamento de robôs FSD e Optimus Prime, Musk também não poupou despesas e investiu muitos recursos computacionais.

Supercomputing Dojo é a base da Tesla AI e foi especialmente construído para treinar redes neurais FSD.

Ainda hoje, ele visitou o cluster de supercomputadores de Tesla na Texas Super Factory (Cortex).

Musk disse: “Este será um sistema com cerca de 100.000 GPUs H100/H200 e equipado com armazenamento em grande escala para treinamento em vídeo de direção totalmente autônoma (FSD) e robôs Optimus”.

Além disso, além das GPUs NVIDIA, este cluster de supercomputação também está equipado com sistemas Tesla HW4, AI5 e Dojo.

Eles serão alimentados e resfriados por um grande sistema de até 500 megawatts.

No Tesla AI Day em 2021, Musk anunciou o Dojo pela primeira vez.

Agora que se passaram três anos, como está indo a construção do Dojo?

Potência de computação equivalente a 8.000 H100, duplique sua aposta

Há meio mês, internautas afirmaram que Tesla teria poder de computação para treinamento de IA até o final de 2024, equivalente ao desempenho de um H100 no valor de 90.000 yuans.

Musk acrescentou algo a isso:

Não usamos apenas GPUs NVIDIA, mas também nosso próprio computador de IA - Tesla HW4 AI (renomeado AI4) no sistema de treinamento de IA, com uma proporção de aproximadamente 1:2. Isso significa que existem aproximadamente 90.000 H100s, além de aproximadamente 40.000 computadores AI4.

Ele também mencionou que até o final deste ano, o Dojo 1 terá cerca de 8.000 equivalentes de capacidade de computação H100. Esta escala não é enorme, mas também não é pequena.

Cluster de supercomputação Dojo D1

Na verdade, em junho do ano passado, Musk revelou que Dojo estava online e executando tarefas úteis há vários meses.

Isto já implica que o Dojo esteve envolvido no treinamento para algumas tarefas.

Recentemente, na conferência de resultados da Tesla, Musk disse que a Tesla está se preparando para lançar táxis autônomos em outubro, e a equipe de IA irá "dobrar o investimento" no Dojo.

Espera-se que o poder computacional total do Dojo atinja 100 exaflops em outubro de 2024.

Supondo que um chip D1 possa atingir 362 teraflops, para atingir 100 exaflops, a Tesla precisaria de mais de 276.000 chips D1, ou mais de 320.000 GPUs Nvidia A100.

50 bilhões de transistores, D1 foi colocado em produção

No Tesla AI Day de 2021, o chip D1 foi apresentado pela primeira vez. Ele tem 50 bilhões de transistores e tem apenas o tamanho de uma palma.

Possui desempenho poderoso e eficiente e pode lidar rapidamente com várias tarefas complexas.

Em maio deste ano, o chip D1 iniciou a produção, utilizando o nó de processo de 7nm da TSMC.

Ganesh Venkataramanan, ex-diretor sênior de hardware da Autopilot, disse certa vez: “D1 pode realizar cálculos e transmissão de dados ao mesmo tempo, adota uma arquitetura de conjunto de instruções ISA personalizada e é totalmente otimizado para cargas de trabalho de aprendizado de máquina”.

Este é um chip puro de aprendizado de máquina.

Apesar disso, o D1 ainda não é tão poderoso quanto o Nvidia A100, que também é fabricado no processo de 7nm da TSMC.

O D1 coloca 50 bilhões de transistores em um chip de 645 milímetros quadrados, enquanto o A100 contém 54 bilhões de transistores, tem um tamanho de chip de 826 milímetros quadrados e está à frente do D1 em desempenho.

Para obter maior largura de banda e poder de computação, a equipe Tesla AI integrou 25 chips D1 em um bloco e operou-o como um sistema de computador unificado.

Cada bloco tem 9 petaflops de poder de computação, 36 terabytes por segundo de largura de banda e inclui energia, refrigeração e hardware de transferência de dados.

Podemos pensar em um único bloco como um computador autossuficiente composto por 25 minicomputadores.

Ao usar a tecnologia de interconexão em nível de wafer InFO_SoW (Integrated Fan-Out, System-on-Wafer), 25 chips D1 no mesmo wafer podem obter conexões de alto desempenho e funcionar como um único processador.

Seis desses ladrilhos formam um rack e dois racks formam um gabinete.

Dez gabinetes constituem um ExaPOD.

No AI Day 2022, Tesla disse que o Dojo será dimensionado com a implantação de vários ExaPODs. Tudo isso combinado forma um supercomputador.

Processadores em escala wafer, como o Dojo da Tesla e o Wafer-Scale Engine WSE da Cerebras, são muito mais eficientes em termos de desempenho do que multiprocessadores.

As principais vantagens do primeiro incluem comunicação de alta largura de banda e baixa latência entre núcleos, menor impedância de rede e maior eficiência energética.

Atualmente, apenas Tesla e Cerebras possuem projetos de sistema em wafer.

No entanto, juntar 25 chips apresenta desafios de tensão e sistemas de refrigeração.

Internautas fotografaram Tesla construindo um sistema de refrigeração gigante no Texas

Um desafio inerente aos chips de nível wafer é que eles devem usar memória no chip, que não é flexível o suficiente e pode não ser adequada para todos os tipos de aplicações.

Tom's Hardware prevê que a tecnologia da próxima geração pode ser CoW_SoW (Chip-on-Wafer), que realiza empilhamento 3D em blocos e integra memória HBM4.

Além disso, a Tesla também está desenvolvendo o chip D2 de próxima geração para resolver o problema do fluxo de informações.

Em vez de conectar chips individuais, o D2 coloca todo o bloco Dojo em um único wafer de silício.

Até 2027, espera-se que a TSMC forneça sistemas de nível de wafer mais complexos e que o poder de computação aumente mais de 40 vezes.

Desde o lançamento do D1, a Tesla não divulgou o status do pedido dos chips D1 que encomendou ou esperava receber, nem o cronograma específico de implantação do supercomputador Dojo.

No entanto, em junho deste ano, Musk disse que nos próximos 18 meses, metade do hardware Tesla AI será implantado e a outra metade será Nvidia/outro hardware.

Outro hardware, possivelmente AMD.

Por que o Dojo é necessário

A direção autônoma consome poder de computação

Na nossa impressão, o principal negócio da Tesla limita-se à produção de veículos eléctricos, com alguns painéis solares adicionais e sistemas de armazenamento de energia.

Mas Musk espera muito mais da Tesla.

A maioria dos sistemas autônomos, como o Waymo, uma subsidiária da Alphabet, controladora do Google, ainda depende de sensores tradicionais como entrada, como radar, lidar e câmeras.

Mas a Tesla segue o caminho da “visão completa”. Eles dependem apenas de câmeras para capturar dados visuais, complementá-los com mapas de alta definição para posicionamento e, em seguida, usar redes neurais para processar os dados e tomar decisões rápidas sobre direção autônoma.

Intuitivamente, é óbvio que o primeiro é um caminho mais simples e rápido, e este é realmente o caso.

A Waymo comercializou a direção autônoma L4, que é um sistema que pode dirigir sozinho sem intervenção humana sob certas condições definidas pela SAE. Mas a rede neural FSD (Full Self-Driving) da Tesla ainda não pode ser separada da operação humana.

Andrej Karpathy, que já atuou como chefe de IA na Tesla, disse que implementar o FSD é basicamente “construir um animal artificial do zero”.

Podemos pensar nisso como uma réplica digital do córtex visual humano e das funções cerebrais. O FSD não só precisa coletar e processar continuamente dados visuais, identificar e classificar objetos ao redor do veículo, mas também precisa ter uma velocidade de tomada de decisão comparável à dos humanos.

Pode-se perceber que Musk quer mais do que apenas um sistema de direção autônomo lucrativo. Seu objetivo é criar uma nova inteligência.

Mas, felizmente, ele não precisa se preocupar com dados insuficientes. Cerca de 1,8 milhão de pessoas pagam atualmente a taxa de assinatura de US$ 8.000 do FSD (anteriormente poderia ser de US$ 15.000), o que significa que a Tesla pode coletar milhões de quilômetros de vídeos de direção para treinamento.

Em termos de poder computacional, o supercomputador Dojo é o campo de treinamento do FSD. Seu nome chinês pode ser traduzido como “dojo”, uma homenagem ao espaço de prática das artes marciais.

NVIDIA não é boa o suficiente

Quão populares são as GPUs NVIDIA? Basta ver o quanto os CEOs das grandes gigantes da tecnologia querem se aproximar dos velhos gangsters.

Mesmo tão rico quanto Musk, ele admitiu durante a teleconferência de resultados de julho que estava “muito preocupado” com a possibilidade de a Tesla não ser capaz de usar GPUs Nvidia suficientes.

“O que estamos vendo é que a demanda por hardware Nvidia é tão alta que muitas vezes é difícil conseguir GPUs”.

Atualmente, Tesla parece ainda usar hardware da Nvidia para fornecer poder de computação para Dojo, mas Musk parece não querer colocar todos os ovos na mesma cesta.

Principalmente considerando que o prêmio dos chips Nvidia é tão alto e o desempenho não é totalmente satisfatório para Musk.

Em termos de sinergia de hardware e software, Tesla e Apple têm visões semelhantes, ou seja, um alto grau de sinergia entre os dois deve ser alcançado, especialmente para um sistema altamente especializado como o FSD, que deve se livrar de GPUs altamente padronizadas e usar hardware personalizado.

O núcleo desta visão é o chip D1 proprietário da Tesla, que será lançado em 2021 e produzido pela TSMC em maio deste ano.

Além disso, a Tesla também está desenvolvendo o chip D2 de próxima geração, na esperança de colocar todo o bloco Dojo em um único chip de silício para resolver o gargalo do fluxo de informações.

No relatório de lucros do segundo trimestre, Musk observou que viu “outra maneira de competir com a Nvidia por meio do Dojo”.

O Dojo pode ter sucesso?

Mesmo que esteja tão confiante quanto Musk, ao falar sobre Dojo, ele hesitará em dizer que Tesla pode não ter sucesso.

No longo prazo, o desenvolvimento de seu próprio hardware de supercomputação poderá abrir novos modelos de negócios para o setor de IA.

Musk disse que a primeira versão do Dojo será adaptada para anotação e treinamento de dados visuais de Tesla, o que será muito útil para FSD e treinamento do robô humanóide Optimus de Tesla.

Versões futuras serão mais adequadas para treinamento geral de IA, mas isso envolverá inevitavelmente o software fosso da Nvidia.

Quase todos os softwares de IA são projetados para funcionar com GPUs NVIDIA, e usar Dojo significa reescrever todo o ecossistema de IA, incluindo CUDA e PyTorch.

Isso significa que o Dojo tem quase apenas uma saída: alugar poder de computação e construir uma plataforma de computação em nuvem semelhante ao AWS e Azure.

O Morgan Stanley previu em um relatório de setembro passado que a Dojo poderia desbloquear novos fluxos de receita na forma de robotáxis e serviços de software, acrescentando US$ 500 bilhões ao valor de mercado da Tesla.

Em suma, a julgar pela atual alocação cuidadosa de hardware de Musk, o Dojo não é uma “jogada desesperada”, mas mais como um seguro duplo. Mas, uma vez bem sucedido, enormes dividendos também podem ser libertados.

Referências:

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-production-a-serious-processor-for-serious-ai-workloads

Clique em "" e vamos lá

notícias

Monstro de IA Dojo!Supercomputação autodesenvolvida desafia a NVIDIA

Introdução

minhas informações de contato