AI 몬스터 도장! 자체 개발 슈퍼컴퓨팅 과제 NVIDIA

AI 몬스터 도장!자체 개발 슈퍼컴퓨팅 과제 NVIDIA

2024-08-05

이 기사는 Xinzhiyuan에 재인쇄되었습니다.

가장 강력한 Grok 3를 교육하기 위해 xAI는 100,000개의 H100으로 구성된 세계 최대 슈퍼컴퓨팅 클러스터를 구축하는 데 19일을 보냈습니다.

FSD와 옵티머스 프라임 로봇 훈련 측면에서도 머스크는 비용을 아끼지 않고 컴퓨팅 자원도 많이 투자했다.

슈퍼컴퓨팅 Dojo는 Tesla AI의 초석이며 FSD 신경망 훈련을 위해 특별히 제작되었습니다.

바로 오늘 그는 텍사스 슈퍼 팩토리(Cortex)에 있는 Tesla의 슈퍼컴퓨터 클러스터를 방문했습니다.

머스크는 "이것은 약 10만 개의 H100/H200 GPU를 탑재하고 완전자율주행(FSD)과 옵티머스 로봇의 영상훈련을 위한 대용량 스토리지를 갖춘 시스템이 될 것"이라고 말했다.

뿐만 아니라, 이 슈퍼컴퓨팅 클러스터에는 NVIDIA GPU 외에도 Tesla HW4, AI5 및 Dojo 시스템도 탑재되어 있습니다.

최대 500메가와트에 달하는 대규모 시스템으로 전력을 공급받고 냉각됩니다.

머스크는 2021년 Tesla AI Day에서 처음으로 Dojo를 발표했습니다.

이제 3년이 지났는데, 도장 공사는 어떻게 진행되고 있나요?

8,000 H100과 동등한 컴퓨팅 성능, 베팅의 두 배

보름 전 네티즌들은 테슬라가 2024년 말까지 AI 훈련 컴퓨팅 능력을 갖추게 될 것이라고 주장했는데, 이는 9만 위안 상당의 H100 성능에 맞먹는 수준이다.

머스크는 이에 대해 다음과 같이 덧붙였습니다.

우리는 AI 훈련 시스템에 NVIDIA GPU뿐만 아니라 자체 AI 컴퓨터인 Tesla HW4 AI(AI4로 이름 변경)도 약 1:2의 비율로 사용합니다. 이는 약 90,000대의 H100과 약 40,000대의 AI4 컴퓨터가 있음을 의미합니다.

그는 또한 올해 말까지 Dojo 1이 약 8,000에 해당하는 H100 컴퓨팅 성능을 갖게 될 것이라고 언급했습니다. 이 규모는 크지도 작지도 않습니다.

Dojo D1 슈퍼컴퓨팅 클러스터

실제로 지난해 6월 머스크는 Dojo가 몇 달 동안 온라인에 있었고 유용한 작업을 실행했다고 밝혔습니다.

이는 이미 Dojo가 일부 작업에 대한 교육에 참여했음을 의미합니다.

최근 테슬라 수익 컨퍼런스에서 머스크는 테슬라가 10월 자율주행 택시 출시를 준비하고 있으며 AI팀이 도장에 '두 배 투자'할 것이라고 밝혔다.

Dojo의 총 컴퓨팅 성능은 2024년 10월에 100엑사플롭에 도달할 것으로 예상됩니다.

D1 칩이 362테라플롭스, 100엑사플롭스에 도달할 수 있다고 가정하면 Tesla는 276,000개 이상의 D1 칩 또는 320,000개 이상의 Nvidia A100 GPU가 필요할 것입니다.

500억 개의 트랜지스터, D1이 생산에 들어갔습니다.

2021년 Tesla AI Day에서 D1 칩이 처음으로 공개되었습니다. D1 칩은 500억 개의 트랜지스터를 탑재하고 손바닥 크기에 불과합니다.

강력하고 효율적인 성능을 갖추고 있으며 다양하고 복잡한 작업을 신속하게 처리할 수 있습니다.

올해 5월, D1 칩은 TSMC의 7nm 공정 노드를 사용하여 생산을 시작했습니다.

Autopilot의 전 하드웨어 수석 이사인 Ganesh Venkataramanan은 "D1은 계산과 데이터 전송을 동시에 수행할 수 있고 맞춤형 ISA 명령어 세트 아키텍처를 채택하며 기계 학습 워크로드에 완전히 최적화되어 있습니다"라고 말했습니다.

이것은 순수한 기계 학습 칩입니다.

그럼에도 불구하고 D1은 여전히 TSMC의 7nm 공정을 사용하여 제조되는 Nvidia A100만큼 강력하지 않습니다.

D1은 645제곱밀리미터 칩에 500억 개의 트랜지스터를 배치한 반면, A100은 540억 개의 트랜지스터를 포함하고 826제곱밀리미터의 칩 크기를 가지며 성능면에서 D1보다 앞서 있습니다.

더 높은 대역폭과 컴퓨팅 성능을 얻기 위해 Tesla AI 팀은 25개의 D1 칩을 하나의 타일에 통합하여 통합 컴퓨터 시스템으로 운영했습니다.

각 타일은 9페타플롭스의 컴퓨팅 성능, 초당 36테라바이트의 대역폭을 갖추고 있으며 전원, 냉각 및 데이터 전송 하드웨어를 포함합니다.

단일 타일은 25개의 미니컴퓨터로 구성된 자급자족 컴퓨터로 생각할 수 있습니다.

웨이퍼 수준 상호 연결 기술 InFO_SoW(Integrated Fan-Out, System-on-Wafer)를 사용하면 동일한 웨이퍼에 있는 25개의 D1 칩이 고성능 연결을 달성하고 단일 프로세서처럼 작동할 수 있습니다.

이러한 타일 6개는 랙을 형성하고, 랙 2개는 캐비닛을 형성합니다.

10개의 캐비닛이 ExaPOD를 구성합니다.

Tesla는 AI Day 2022에서 Dojo가 여러 ExaPOD를 배포하여 확장할 것이라고 밝혔습니다. 이 모든 것이 결합되어 슈퍼컴퓨터를 구성합니다.

Tesla의 Dojo 및 Cerebras의 Wafer-Scale Engine WSE와 같은 웨이퍼 규모 프로세서는 멀티 프로세서보다 성능 효율성이 훨씬 높습니다.

전자의 주요 장점은 코어 간 고대역폭 및 저지연 통신, 낮은 그리드 임피던스, 더 높은 에너지 효율성을 포함합니다.

현재 Tesla와 Cerebras만이 시스템 온 웨이퍼 설계를 보유하고 있습니다.

그러나 25개의 칩을 합치면 전압 문제와 냉각 시스템이 발생합니다.

네티즌들은 Tesla가 텍사스에서 거대한 냉각 시스템을 구축하는 모습을 촬영했습니다.

웨이퍼 레벨 칩의 본질적인 과제는 온칩 메모리를 사용해야 한다는 것인데, 이는 충분히 유연하지 않고 모든 유형의 애플리케이션에 적합하지 않을 수 있습니다.

톰스하드웨어는 차세대 기술이 타일 위에 3차원 적층을 하고 HBM4 메모리를 통합한 CoW_SoW(Chip-on-Wafer)가 될 것으로 내다봤다.

또한 Tesla는 정보 흐름 문제를 해결하기 위해 차세대 D2 칩도 개발하고 있습니다.

D2는 개별 칩을 연결하는 대신 전체 Dojo 타일을 단일 실리콘 웨이퍼에 배치합니다.

2027년까지 TSMC는 더욱 복잡한 웨이퍼 수준의 시스템을 제공할 것으로 예상되며, 컴퓨팅 성능도 40배 이상 향상될 것으로 예상된다.

D1 출시 이후 Tesla는 주문했거나 받을 것으로 예상되는 D1 칩의 주문 상태나 Dojo 슈퍼컴퓨터의 구체적인 배포 일정을 공개하지 않았습니다.

그러나 올해 6월 머스크는 향후 18개월 동안 Tesla AI 하드웨어의 절반이 배포되고 나머지 절반은 Nvidia/기타 하드웨어가 될 것이라고 말했습니다.

기타 하드웨어(아마도 AMD)

Dojo가 필요한 이유

자율주행은 컴퓨팅 파워를 소모한다

우리가 보기에 Tesla의 주요 사업은 추가 태양광 패널과 에너지 저장 시스템을 갖춘 전기 자동차 생산으로 제한됩니다.

그러나 머스크는 테슬라에게 더 많은 것을 기대한다.

Google 모회사인 Alphabet의 자회사인 Waymo와 같은 대부분의 자율주행 시스템은 여전히 레이더, LiDAR, 카메라와 같은 기존 센서를 입력으로 사용합니다.

그러나 Tesla는 "풀 비전" 경로를 택합니다. 그들은 시각적 데이터를 캡처하고 이를 고화질 지도로 보완한 다음 신경망을 사용하여 데이터를 처리하여 자율 주행에 대한 빠른 결정을 내립니다.

직관적으로 전자가 더 간단하고 빠른 경로임이 분명하며 실제로도 그렇습니다.

Waymo는 SAE가 정의한 특정 조건에서 사람의 개입 없이 스스로 운전할 수 있는 시스템인 L4 자율주행을 상용화했습니다. 그러나 Tesla의 FSD(Full Self-Driving) 신경망은 여전히 인간의 작동과 분리될 수 없습니다.

한때 Tesla의 AI 책임자였던 Andrej Karpathy는 FSD를 구현하는 것은 기본적으로 "인공 동물을 처음부터 만드는 것"이라고 말했습니다.

우리는 이것을 인간의 시각 피질과 뇌 기능의 디지털 복제품이라고 생각할 수 있습니다. FSD는 시각적 데이터를 지속적으로 수집 및 처리하고, 차량 주변의 사물을 식별 및 분류해야 할 뿐만 아니라 인간에 필적하는 의사결정 속도도 필요합니다.

머스크는 수익성 있는 자율주행 시스템 그 이상을 원한다는 것을 알 수 있습니다. 그의 목표는 새로운 지능을 창조하는 것입니다.

그러나 다행스럽게도 그는 데이터 부족에 대해 걱정할 필요가 거의 없습니다. 현재 약 180만명의 사람들이 FSD 가입비 8,000달러를 지불하고 있습니다(이전에는 15,000달러일 수 있음). 이는 Tesla가 훈련을 위해 수백만 마일의 운전 비디오를 수집할 수 있음을 의미합니다.

컴퓨팅 성능 측면에서 Dojo 슈퍼컴퓨터는 FSD의 훈련장입니다. 중국 이름은 무술 연습 공간을 가리키는 "도장"으로 번역될 수 있습니다.

엔비디아는 별로네요

NVIDIA GPU는 얼마나 인기가 있나요? 주요 기술 대기업의 CEO들이 얼마나 오래된 갱스터들과 가까워지기를 원하는지 살펴보십시오.

머스크만큼 부유하더라도 그는 7월 실적 보고에서 Tesla가 충분한 Nvidia GPU를 사용하지 못할 수도 있다는 점을 "매우 걱정"한다고 인정했습니다.

"우리가 보고 있는 것은 Nvidia 하드웨어에 대한 수요가 너무 높아 GPU를 구입하기가 어렵다는 것입니다."

현재 Tesla는 Dojo에 컴퓨팅 성능을 제공하기 위해 여전히 Nvidia의 하드웨어를 사용하는 것으로 보이지만 Musk는 모든 계란을 한 바구니에 담는 것을 원하지 않는 것 같습니다.

특히 Nvidia 칩의 프리미엄이 너무 높고 성능이 Musk에게 완전히 만족스럽지 않다는 점을 고려하면 더욱 그렇습니다.

하드웨어와 소프트웨어 시너지 측면에서 Tesla와 Apple은 유사한 견해를 가지고 있습니다. 즉, 특히 FSD와 같은 고도로 전문화된 시스템의 경우 고도로 표준화된 GPU를 제거하고 맞춤형 하드웨어.

이 비전의 핵심은 2021년 출시되고 올해 5월 TSMC에서 생산될 테슬라의 독자적인 D1 칩이다.

또한 Tesla는 정보 흐름 병목 현상을 해결하기 위해 전체 Dojo 블록을 단일 실리콘 칩에 탑재하기를 희망하면서 차세대 D2 칩도 개발하고 있습니다.

머스크는 2분기 실적 보고서에서 "도조를 통해 엔비디아와 경쟁할 수 있는 또 다른 방법"을 보았다고 언급했다.

도조는 성공할 수 있을까?

머스크만큼 자신감이 있다고 해도 도장 얘기를 할 때면 테슬라가 성공하지 못할 수도 있다는 말을 주저할 것이다.

장기적으로 자체 슈퍼컴퓨팅 하드웨어를 개발하면 AI 분야에 새로운 비즈니스 모델이 열릴 수 있습니다.

Musk는 Dojo의 첫 번째 버전이 Tesla의 시각적 데이터 주석 및 교육에 맞게 조정될 것이며 이는 FSD 및 Tesla의 휴머노이드 로봇 Optimus 교육에 매우 유용할 것이라고 말했습니다.

향후 버전은 일반적인 AI 훈련에 더 적합하겠지만, 여기에는 필연적으로 Nvidia의 해자, 즉 소프트웨어가 포함될 것입니다.

거의 모든 AI 소프트웨어는 NVIDIA GPU와 함께 작동하도록 설계되었으며 Dojo를 사용한다는 것은 CUDA 및 PyTorch를 포함한 전체 AI 생태계를 다시 작성하는 것을 의미합니다.

이는 Dojo가 컴퓨팅 성능을 임대하고 AWS 및 Azure와 유사한 클라우드 컴퓨팅 플랫폼을 구축하는 한 가지 방법밖에 없다는 것을 의미합니다.

Morgan Stanley는 지난 9월 보고서에서 Dojo가 로봇택시와 소프트웨어 서비스 형태로 새로운 수익원을 창출하여 Tesla의 시장 가치에 5,000억 달러를 추가할 수 있다고 예측했습니다.

간단히 말해서, 머스크가 현재 신중하게 하드웨어를 할당하고 있는 것으로 볼 때, Dojo는 "절박한 움직임"이 아니라 이중 보험에 가깝습니다. 그러나 일단 성공하면 막대한 배당금도 풀릴 수 있습니다.

참고자료:

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-production-a-serious-processor-for-serious-ai-workloads

""를 클릭하고 이동하세요.

소식

AI 몬스터 도장!자체 개발 슈퍼컴퓨팅 과제 NVIDIA

소개

내 연락처 정보