소식

NVIDIA의 가장 강력한 AI 칩이 주요 설계 결함을 드러내고, 중국의 특별 버전이 실수로 노출되었습니다!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 너무 졸린 Taozi

[새로운 지혜 소개] 설계 결함으로 인해 Nvidia의 가장 강력한 AI 칩인 Blackwell의 출시가 실제로 지연될 예정입니다. 기증자 아버지들은 애도의 뜻을 표했고, 예정됐던 모든 계획은 최소 3개월 이상 연기될 것으로 예상됐다.

NVIDIA GPU는 항상 OpenAI와 같은 대형 모델 회사의 AI 연구 및 개발의 원동력이었습니다.

이제 Blackwell GPU의 설계 결함으로 인해 Nvidia의 출시가 3개월 이상 지연되어야 합니다.

TSMC 엔지니어들이 최근 몇 주 동안 대량 생산을 위해 Blackwell 칩을 준비하면서 결함을 발견했다는 정보가 독점적으로 보고되었습니다.


지난주 Lao Huang은 SIGGRAPH에서 NVIDIA가 전 세계 고객에게 Blackwell 엔지니어링 샘플을 제출했다고 말했습니다.

그의 얼굴에 나타난 안도감은 예상치 못한 지연이 있을 것이라는 암시를 전혀 주지 않았습니다.

그렇다면 칩 설계의 결함은 어디에 있습니까?

GB200에는 Blackwell GPU 2개와 Grace CPU 1개가 포함되어 있습니다. 문제는 두 개의 Blackwell GPU를 연결하는 핵심 회로에 있습니다.

TSMC의 GB200 수율이 하락한 것이 바로 이 문제이다.


최신 칩의 출하가 지연된다는 것은 메타, 구글, 마이크로소프트 등 주요 기술 기업의 AI 훈련 과정이 영향을 받는다는 것을 의미한다.

게다가 데이터센터 구축도 불가피하게 지연될 전망이다.

블랙웰 칩은 내년 1분기까지 대량 출하될 것으로 전해진다.

SemiAnalytic의 최신 보고서에서는 NVIDIA가 직면한 기술적 과제, 배송 지연 후 일정, 새로운 시스템 MGX GB200A Ultra NVL36에 대해서도 자세히 설명합니다.


블랙웰, 항의 속에 3월 연기

나는 GTC 2024 컨퍼런스에서 Lao Huang이 가장 강력한 Blackwell 아키텍처 GPU를 보유하고 가장 강력한 성능의 짐승을 세계에 발표했던 것을 아직도 기억합니다.

지난 5월 그는 "올해 말에 블랙웰 아키텍처 칩을 대량 출시할 계획"이라고 공개적으로 밝혔습니다.

그는 재무보고회에서도 "올해 블랙웰에서 많은 매출을 올릴 것"이라고 자신 있게 말했다.

NVIDIA 주주들은 Blackwell GPU에 대한 높은 기대를 갖고 있습니다.


Keybanc Capital Markets의 분석가들은 Blackwell 칩이 Nvidia 데이터 센터 매출을 2024년 475억 달러에서 2025년 2,000억 달러 이상으로 끌어올릴 것으로 추정합니다.

즉, 블랙웰 GPU 시리즈가 엔비디아의 향후 매출과 수익에 결정적인 역할을 하게 될 것이라는 뜻이다.

예상외로 설계 결함은 엔비디아의 올해 하반기와 내년 상반기 생산 목표에 직접적인 영향을 미쳤다.

Blackwell 칩 설계에 참여한 내부자는 Nvidia가 TSMC와 협력하여 가능한 한 빨리 문제를 해결하기 위해 칩 생산 및 작동을 테스트하고 있다고 밝혔습니다.

그러나 Nvidia의 현재 개선 조치는 올해 하반기 계획대로 Hopper 시리즈 칩의 출하량을 계속 확대하고 Blackwell GPU 생산을 가속화하는 것입니다.

수백억 달러 들여 AI 훈련 늦어져

뿐만 아니라, 이러한 연쇄 효과는 대규모 모델 개발자와 데이터 센터 클라우드 서비스 제공자에게 치명적인 타격을 줄 것입니다.

AI를 훈련시키기 위해 메타, 마이크로소프트, 구글 등 금융 후원자들은 수백억 달러를 지출하고 블랙웰 칩을 대거 주문했다.

Google은 400,000개 이상의 GB200과 서버 하드웨어를 주문했는데, Google의 주문 비용은 미화 100억 달러가 훨씬 넘습니다.

올해 이 거대 기업은 이미 칩 및 기타 장비 자산에 약 500억 달러를 지출하고 있으며 이는 작년보다 50% 이상 증가한 수치입니다.

또한 Meta는 최소 100억 달러의 주문을 내렸으며 Microsoft의 주문 규모는 최근 몇 주 동안 20% 증가했습니다.

다만 아직 두 회사의 구체적인 수주 규모는 정해지지 않았다.

이 문제에 정통한 소식통에 따르면 마이크로소프트는 2025년 1분기까지 OpenAI용 GB200 칩 55,000~65,000개를 준비할 계획입니다.

또한 Microsoft 경영진은 원래 2025년 1월에 OpenAI에 Blackwell 기반 서버를 제공할 계획이었습니다.


이제 원래 계획은 3월이나 이듬해 봄으로 연기되어야 할 것으로 보입니다.

원래 예정된 시간에 따르면 2025년 1분기에 새로운 슈퍼컴퓨팅 클러스터 실행을 시작할 예정입니다.

OpenAI를 포함한 AI 회사들은 차세대 LLM을 개발하기 위해 새로운 칩을 사용하기를 기다리고 있습니다.

대규모 모델을 훈련하려면 몇 배 더 많은 컴퓨팅 성능이 필요하기 때문에 복잡한 질문에 더 효과적으로 답하고, 다단계 작업을 자동화하고, 보다 사실적인 비디오를 생성할 수 있습니다.

차세대 초강력 AI는 엔비디아의 최신 AI 칩에 달려 있다고 할 수 있다.

역사상 드문 지연

그러나 이러한 대규모 칩 주문 지연은 모두에게 예상치 못한 일일 뿐만 아니라 드문 일이기도 합니다.

TSMC는 당초 3분기부터 블랙웰 칩 양산을 시작하고 4분기부터 엔비디아 고객들에게 대규모 출하를 시작할 계획이었다.

내부자에 따르면 Blackwell 칩은 이제 4분기에 대량 생산에 들어갈 것으로 예상되며, 추가 문제가 없으면 다음 분기에 서버가 대량으로 배송될 것이라고 밝혔습니다.


실제로 이르면 2020년 초 엔비디아의 주력 GPU 초기 버전이 몇 가지 문제로 인해 연기될 수밖에 없었다.

그러나 당시 Nvidia가 직면한 위험은 낮았고 고객은 주문을 서두르지 않았으며 데이터 센터에서 얻을 수 있는 이익은 상대적으로 적었습니다.

이번에는 대량 생산 전에 주요 설계 결함이 발견되는 경우가 매우 드뭅니다.

칩 설계자는 일반적으로 TSMC 팹과 협력하여 고객의 대량 주문을 수락하기 전에 제품 타당성과 원활한 제조 프로세스를 보장하기 위해 여러 생산 테스트 및 시뮬레이션을 수행합니다.

TSMC가 양산을 앞둔 제품을 생산라인을 중단하고 재설계하는 것은 이례적이다.

전용 기계 용량 할당을 포함하여 GB200 대량 생산을 위한 만반의 준비를 마쳤습니다.

이제 로봇은 문제가 해결될 때까지 가만히 앉아 있어야 합니다.

서버를 담당하는 회사는 서버 랙 설계를 마무리하기 전에 새로운 칩 샘플을 기다려야 하기 때문에 설계 결함은 Nvidia의 NVLink 서버 랙의 생산 및 배송에도 영향을 미칠 것입니다.

강제로 리메이크 출시

기술적인 문제로 인해 NVIDIA는 MGX GB200A Ultra NVL36과 같은 새로운 시스템 및 구성 요소 아키텍처를 긴급하게 개발해야 했습니다.

이 새로운 디자인은 수십 개의 업스트림 및 다운스트림 공급업체에도 상당한 영향을 미칠 것입니다.


Blackwell 시리즈 중 가장 기술적으로 진보된 칩인 NVIDIA는 시스템 수준에서 GB200에 대해 과감한 기술 선택을 했습니다.

이 72-GPU 랙은 랙당 125kW라는 전례 없는 전력 밀도를 제공합니다. 이에 비해 대부분의 데이터 센터 랙은 12kW~20kW에 불과합니다.

이러한 복잡한 시스템은 또한 전력 공급 문제, 과열, 수냉식 공급망 성장, 빠른 연결 해제 수냉식 시스템 누출, 다양한 회로 기판 복잡성 문제와 관련된 수많은 문제를 야기했으며 일부 공급업체와 설계자를 당황하게 만들었습니다.

하지만 이것이 Nvidia가 생산량을 줄이거나 주요 로드맵을 조정하는 원인은 아닙니다.

출하량에 실제로 영향을 미치는 핵심 문제는 NVIDIA의 Blackwell 아키텍처 자체의 설계입니다.


Blackwell 패키지는 TSMC의 CoWoS-L 기술을 사용하여 대량 생산을 위해 설계된 최초의 패키지입니다.

CoWoS-L은 패키지 내의 다양한 컴퓨팅과 스토리지 간의 통신을 연결하기 위해 LSI(로컬 실리콘 상호 연결) ​​및 내장형 브리지 칩이 포함된 RDL 인터포저를 사용해야 합니다.


CoWoS-L은 현재 CoWoS-S 기술보다 훨씬 더 복잡하지만 미래입니다.

Nvidia와 TSMC는 분기당 칩 100만 개라는 목표를 초과하는 매우 공격적인 성장 계획을 가지고 있습니다.

그러나 그로 인해 다양한 문제가 발생하였다.

한 가지 문제는 여러 개의 미세 피치 범프 브리지를 유기 인터포저와 실리콘 인터포저에 내장하면 실리콘 다이, 브리지, 유기 인터포저 및 기판 사이에 열팽창 계수(CTE) 불일치가 발생하여 뒤틀림이 발생할 수 있다는 것입니다.


브리지 칩의 레이아웃은 특히 2개의 주요 컴퓨팅 칩 사이의 브리지에 있어서 매우 높은 정밀도를 요구합니다. 이러한 브리지는 10TB/s의 칩 간 상호 연결을 지원하는 데 중요하기 때문입니다.

주요 설계 문제는 브리지 칩과 관련이 있다는 소문이 돌고 있습니다. 동시에, 상위 몇 개의 전역 배선 금속층과 칩의 범프도 재설계해야 합니다. 이것이 몇 달간 지연되는 주요 이유 중 하나입니다.

또 다른 문제는 TSMC의 CoWoS-L 생산 능력이 충분하지 않다는 점이다.

지난 몇 년 동안 TSMC는 대량의 CoWoS-S 용량을 구축했으며 Nvidia가 대부분의 점유율을 차지했습니다.

이제 Nvidia가 수요를 CoWoS-L로 빠르게 전환함에 따라 TSMC는 CoWoS-L을 위한 새로운 팹 AP6을 구축하고 AP3에서 기존 CoWoS-S 용량을 개조하고 있습니다.

이를 위해 TSMC는 기존 CoWoS-S 생산 능력을 전환해야 합니다. 그렇지 않으면 이러한 용량은 유휴 상태가 되고 CoWoS-L은 더 느리게 성장할 것입니다. 그리고 이러한 변화 과정은 성장을 매우 불균등하게 만들 것입니다.

이 두 가지 문제를 결합하면 TSMC는 분명히 Nvidia의 요구에 따라 충분한 Blackwell 칩을 공급할 수 없습니다.

결과적으로 Nvidia는 거의 모든 생산 능력을 GB200 NVL 36x2 및 NVL72 랙 규모 시스템에 집중하고 있습니다. 그리고 B100과 B200을 탑재한 HGX 컴퓨팅 모듈도 취소됐다.


대안으로 엔비디아는 중저가 AI 시스템 요구 사항을 충족하기 위해 B102 칩을 기반으로 하고 4레이어 HBM 메모리를 탑재한 블랙웰 GPU-B200A를 출시할 예정입니다.

흥미롭게도 이 B102 칩은 중국의 "스페셜 에디션" B20에도 사용될 예정입니다.

B102는 모놀리식 컴퓨팅 칩이기 때문에 Nvidia는 이를 CoWoS-S에 패키징할 수 있을 뿐만 아니라 TSMC 외에 Amkor, ASE SPIL 및 Samsung과 같은 다른 공급업체가 2.5D 패키징을 수행하도록 할 수도 있습니다.

B200A는 700W 및 1000W HGX 형태로 출시되며 최대 144GB의 HBM3E 비디오 메모리와 최대 4TB/s의 대역폭을 갖추고 있습니다. 이는 H200의 메모리 대역폭보다 적다는 점은 주목할 가치가 있습니다.

다음은 미드레인지 강화 버전인 Blackwell Ultra입니다.

표준 CoWoS-L Blackwell Ultra, 즉 B210 또는 B200 Ultra는 메모리 새로 고침 측면에서 최대 288GB의 12단 HBM3E에 도달할 뿐만 아니라 FLOPS 성능을 최대 50%까지 향상시킵니다.

B200A Ultra는 FLOPS가 더 높지만 비디오 메모리는 업그레이드되지 않습니다.

B200A Ultra는 원래 B200A와 동일한 HGX 구성을 갖는 것 외에도 새로운 MGX NVL 36 형태를 도입합니다.


HGX Blackwell의 성능/TCO는 GPU가 5,000개 미만인 워크로드를 교육할 때 탁월합니다.

그럼에도 불구하고 MGX NVL36은 보다 유연한 인프라로 인해 많은 차세대 모델에 이상적인 선택입니다.

Llama 3 405B는 이미 H200 HGX 서버의 한계에 근접했기 때문에 차세대 MoE LLAMA 4는 단일 Blackwell HGX 서버 노드에 확실히 맞지 않을 것입니다.

SemiAnalytics는 MGX B200A Ultra NVL36의 가격 추정치와 결합하여 HGX B200A가 그다지 잘 팔리지 않을 것이라고 믿고 있습니다.

MGX GB200A Ultra NVL36 아키텍처

MGX GB200A NVL36 SKU는 NVLink를 통해 완전히 상호 연결된 36개의 GPU를 갖춘 공냉식 40kW/랙 서버입니다.

그 중 각 랙에는 컴퓨팅 트레이 9개와 NVSwitch 트레이 9개가 장착됩니다. 각 컴퓨팅 트레이는 2U이며 Grace CPU 1개와 700W B200A Blackwell GPU 4개를 포함합니다. 각 1U NVSwitch 트레이에는 스위치 ASIC이 하나만 있으며 각 스위치 ASIC의 대역폭은 28.8Tbit/s입니다.

이에 비해 GB200 NVL72/36x2에는 Grace CPU 2개와 1200W Blackwell GPU 4개가 포함되어 있습니다.


랙당 40kW에 불과하고 공냉식 기능을 갖춘 기존 데이터 센터 운영자는 인프라를 재설계하지 않고도 쉽게 MGX NVL36을 배포할 수 있습니다.

GB200 NVL72/36x2와 달리 4개의 GPU 대 1개의 CPU 비율은 각 GPU가 C2C 대역폭의 절반만 얻을 수 있음을 의미합니다.

따라서 MGX NVL36은 C2C 상호 연결을 사용할 수 없지만 GPU-CPU 통신을 완료하려면 통합 ConnectX-8 PCIe 스위치가 필요합니다.

또한 기존의 다른 모든 AI 서버(HGX H100/B100/B200, GB200 NVL72/36x2, MI300)와 달리 이제 각 백엔드 NIC가 2개의 GPU를 담당합니다.

즉, ConnectX-8 NIC 설계는 800G의 백엔드 네트워킹을 제공할 수 있지만 각 GPU는 400G의 백엔드 InfiniBand/RoCE 대역폭에만 액세스할 수 있습니다. (GB200 NVL72/36x2 절반에도 해당)


GB200 NVL72/NVL36x2 컴퓨팅 트레이의 핵심은 Blackwell B200 GPU 2개와 Grace CPU 1개가 포함된 Bianca 보드입니다.

각 컴퓨팅 트레이에는 2개의 Bianca 보드가 장착되어 있으므로 총 2개의 Grace CPU와 4개의 1200W Blackwell GPU가 장착됩니다.


대조적으로, MGX GB200A NVL36의 CPU와 GPU는 HGX 서버의 디자인과 유사하게 다른 PCB에 있습니다.

그러나 HGX 서버와 달리 컴퓨팅 트레이당 4개의 GPU는 2개의 2-GPU 보드로 세분화됩니다. 각 2-GPU 보드에는 Bianca 보드와 유사한 Mirror Mezz 커넥터가 장착되어 있습니다.

그런 다음 이러한 Mirror Mezz 커넥터는 ConnectX-8 미드플레인에 연결하고 통합 PCIe 스위치가 있는 ConnectX-8 ASIC을 GPU, 로컬 NVMe 스토리지 및 Grace CPU에 연결하는 데 사용됩니다.

ConnectX-8 ASIC은 GPU와 매우 가깝기 때문에 GPU와 ConnectX-8 NIC 사이에 리타이머가 필요하지 않습니다. HGX H100/B100/B200에는 이 기능이 필요합니다.

또한 Grace CPU와 Blackwell GPU 사이에는 C2C 상호 연결이 없기 때문에 Grace CPU는 CPU 마더보드인 완전히 독립된 PCB에 탑재됩니다. 이 마더보드에는 BMC 커넥터, CMOS 배터리, MCIO 커넥터 등이 포함됩니다.


GPU당 NVLink 대역폭은 각 방향에서 900GB/s이며 이는 GB200 NVL72/36x2와 동일합니다. 이는 FLOP별로 GPU 간 대역폭을 크게 증가시켜 특정 작업 부하에서 MGX NVL36에 이점을 제공합니다.

스위치의 한 레이어만 36개의 GPU를 연결하므로 비차단 네트워킹을 제공하는 데 9개의 NVSwitch ASIC만 필요합니다.

또한, 1U 스위치 트레이 1개당 28.8Tbit/s ASIC이 1개만 탑재되어 있어 공랭이 매우 용이합니다. 예를 들어 Quantum-2 QM9700과 같은 25.6Tbit/s 1U 스위치가 가능합니다.


백엔드 네트워크에는 컴퓨팅 트레이당 800G 포트가 2개만 있으므로 2레일 최적화된 행 끝 네트워크를 사용합니다.

8개의 GB200A NVL36 랙마다 2개의 Quantum-X800 QM3400 스위치가 있습니다.


GPU당 700W의 경우 GB200A NVL36의 각 랙의 전력 소비는 약 40kW, 즉 2U 공간에서 4kW의 열 방출이 될 수 있습니다.

결과적으로 공기 냉각을 위해서는 특별히 설계된 방열판과 고속 팬이 필요합니다.


MGX GB200A NVL 36 배포 시의 과제

GB200A NVL36은 전적으로 공기 냉각에 의존하고 2U 섀시 프런트 엔드의 PCIe NIC 외에도 전용 PCIe 스위치도 있어 열 관리 문제가 크게 증가합니다.

따라서 GB200A NVL36에서 백엔드 NIC를 사용자 정의하는 것은 기본적으로 불가능합니다.

많은 기계 학습 종속성이 x86 CPU용으로 컴파일 및 최적화되고 Grace CPU와 Blackwell GPU가 별도의 PCB에 있으므로 x86+B200A NVL36 버전도 있을 가능성이 높습니다.

그러나 x86 CPU는 더 높은 최고 성능을 제공할 수 있지만 이에 따라 전력 소비도 100W 더 높아지므로 OEM의 열 관리 문제가 크게 증가합니다.

또한 Grace CPU의 판매를 고려하면 NVIDIA가 x86 B200A NVL36 솔루션을 출시하더라도 고객이 GB200A NVL36을 선택하도록 유도할 것입니다.

물론 GB200A NVL36에는 랙당 40kW 공랭 시스템이라는 자체 판매 포인트도 있습니다.

결국 많은 고객은 랙당 약 125kW의 GB200 NVL72(또는 총 전력 소비량이 130kW를 넘는 36x2)에 필요한 액체 냉각 및 전력 인프라를 감당할 수 없습니다.

H100의 TDP는 700W이며 현재 4U 높이의 3DVC를 사용하는 반면, 1000W H200은 6U 높이의 3DVC를 사용합니다.

이에 비해 MGX B200A NVL36의 TDP도 700W이지만 섀시가 2U에 불과해 공간이 상당히 제한적이다. 따라서 핀의 표면적을 늘리려면 수평으로 확장된 발코니형 핀이 필요합니다.


더 큰 방열판이 필요한 것 외에도 팬은 GB200 NVL72/36x2 2U 컴퓨팅 트레이 또는 HGX 8 GPU 설계보다 더 강력한 공기 흐름을 제공해야 합니다.

추정에 따르면 40kW 랙에서 전체 시스템 전력의 15~17%가 내부 섀시 팬에 사용됩니다. 이에 비해 HGX H100의 팬은 전체 시스템 전력의 6~8%만 소비합니다.

MGX GB200A NVL36이 제대로 작동하려면 많은 양의 팬 전력이 필요하기 때문에 이는 매우 비효율적인 설계입니다.

GB200A NVL64를 취소하는 이유

Nvidia는 MGX GB200A NVL36을 완성하기 전에 60kW를 소비하고 NVLink를 통해 완전히 상호 연결된 64개의 GPU를 운반하는 공냉식 NVL64 랙을 설계하려고 했습니다.

그러나 광범위한 엔지니어링 분석을 거친 후 SemiAnalytic은 해당 제품이 실현 가능하지 않으며 상업적으로 이용 가능하지 않을 것이라고 판단했습니다.

제안된 NVL64 SKU에는 컴퓨팅 트레이 16개와 NVSwitch 트레이 4개가 있습니다. 각 컴퓨팅 트레이는 2U이며 MGX GB200A NVL36과 마찬가지로 Grace CPU와 4개의 700W Blackwell GPU를 포함합니다.

주요 수정 사항은 NVSwitch 트레이에 있습니다. GB200의 트레이당 2개의 NVSwitch를 1로 줄이는 대신 Nvidia는 이를 4개의 ASIC 스위치로 늘리려고 합니다.


분명히, 공기만으로 그렇게 높은 전력 소비를 하는 거대 괴물을 냉각시키는 것은 거의 불가능할 것입니다. (NVIDIA 제안 60kW, SemiAnalytic 추정 70kW)

이를 위해서는 일반적으로 후면 도어 열 교환기를 사용해야 하지만 여전히 액체 냉각 공급망에 의존하기 때문에 공냉식 랙 아키텍처의 요점이 무산됩니다. 또한 이 솔루션은 여전히 ​​대부분의 데이터 센터에서 냉각수를 후면 도어 열교환기로 보내는 시설 수준의 수정이 필요합니다.

또 다른 매우 어려운 열 문제는 NVSwitch 트레이가 1U 섀시에 4개의 28.8Tbit/s ASIC 스위치를 포함하며 거의 1500W의 냉각 전력이 필요하다는 것입니다.

개별적으로 보면 1U 섀시에서 1500W를 달성하는 것은 어렵지 않습니다. 그러나 ASIC 스위치에서 백플레인 커넥터까지의 Ultrapass 플라잉 와이어가 많은 공기 흐름을 차단한다는 점을 고려하면 냉각 문제가 중요해집니다.

공냉식 MGX NVL 랙을 매우 빠르게 시장에 출시해야 한다는 점을 고려하여 Nvidia는 설계 시작 후 6개월 이내에 제품을 제공하려고 시도했습니다. 그러나 이미 자원이 부족한 산업에서는 새로운 전환 팔레트와 공급망을 설계하는 것이 매우 어렵습니다.


GB200A NVL64의 또 다른 주요 문제는 랙당 64개의 800G 백엔드 포트가 있지만 각 XDR Quantum-X800 Q3400 스위치는 72개의 800G 다운스트림 포트를 전달한다는 것입니다. 즉, 각 스위치에는 16개의 800G 포트가 비어 있습니다.

고가의 백엔드 스위치에 빈 포트가 있으면 스위치가 비싸기 때문에 네트워크 성능과 총 소유 비용에 큰 영향을 미칠 수 있습니다. 특히 Quantum-X800과 같은 고밀도 포트 밀도 모듈형 스위치는 더욱 그렇습니다.


또한 동일한 NVLink 도메인에서 64개의 GPU를 사용하는 것은 이상적이지 않습니다.

표면적으로 64는 2, 4, 8, 16, 32의 공통 인수를 갖고 있어 다양한 병렬 구성에 적합하므로 좋은 숫자입니다.

예를 들어 텐서 병렬 처리 TP=8, 전문가 병렬 처리 EP=8 또는 TP=4, 완전히 분할된 데이터 병렬 처리 FSDP=16입니다.

불행하게도 하드웨어의 불안정성으로 인해 Nvidia는 유지 관리 중에 GPU를 오프라인으로 전환하고 핫 스페어로 사용할 수 있도록 NVL 랙당 최소 1개의 컴퓨팅 트레이를 예비로 유지할 것을 권장합니다.

랙당 핫 스페어에 컴퓨팅 트레이가 1개 이상 없으면 GPU 오류가 1개라도 전체 랙이 상당 기간 동안 서비스를 중단할 수 있습니다. 이는 8-GPU HGX H100 서버에서 단일 GPU 오류로 인해 H100 8개 모두 서비스가 중단되는 것과 유사합니다.

하나 이상의 컴퓨팅 트레이를 핫 스페어로 유지한다는 것은 랙당 60개의 GPU만 워크로드를 처리할 수 있음을 의미합니다. 이 경우 방금 언급한 이점은 더 이상 존재하지 않습니다.


NVL36×2 또는 NVL72에는 72개의 GPU가 장착되어 있습니다. 즉, 사용자는 2개의 컴퓨팅 트레이를 핫 스페어로 사용할 수 있을 뿐만 아니라 각 랙에서 64개의 GPU를 사용할 수 있습니다.

GB200A NVL36은 핫 스탠바이로 1개의 컴퓨팅 트레이를 가질 수 있으며, 이때 병렬 솔루션의 공통 요소는 2, 4, 8, 16개입니다.

공급망에 미치는 영향

SemiAnalytics의 추측에 따르면 GB200 NVL72/36x2의 출하량이 줄어들거나 지연될 예정이며, B100 및 B200 HGX의 출하량도 크게 줄어들 것으로 예상됩니다.

한편, 호퍼 출하량은 2024년 4분기부터 2025년 1분기까지 늘어난다.

또한, 하반기에는 GPU 주문이 HGX Blackwell 및 GB200 NVL36x2에서 MGX GB200A NVL36으로 이전됩니다.

출하 및 수익 계획이 2024년 3분기부터 2025년 2분기까지 크게 변경되므로 이는 모든 ODM 및 부품 공급업체에 영향을 미칠 것입니다.

참고자료:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianology.com/p/nvidias-blackwell-reworked-shipment