엔비디아의 소위 '핫 칩'은 사실 '핫 플랫폼'이다

NVIDIA의 소위 "핫 칩"은 실제로 "핫 플랫폼"입니다.

2024-08-24

Nvidia는 이달 초 회사의 큰 기대를 모았던 "Blackwell" GPU 가속기가 설계 결함으로 인해 최대 3개월까지 지연될 수 있다는 보도가 나오면서 드물게 나쁜 소식을 접했습니다. 그러나 Nvidia 대변인은 모든 것이 계획대로 진행되고 있으며 일부 공급업체는 아무런 변화가 없다고 말하고 다른 공급업체는 약간의 정상적인 지연이 있다고 말했습니다.

업계 관계자들은 엔비디아가 다음 주 수요일 2025 회계연도 2분기 재무 결과를 발표하면 사용자들이 블랙웰의 상황에 대해 더 많이 알게 될 것으로 기대하고 있습니다.

Blackwell 칩(B100, B200 및 GB200)이 다음 주 캘리포니아 스탠포드 대학교에서 열리는 올해 Hot Chips 컨퍼런스의 초점이 될 것이라고 합니다. 여기서 Nvidia는 아키텍처를 소개하고 몇 가지 새로운 혁신 사항을 자세히 설명하며 설계에 사용된 방법을 간략하게 설명할 예정입니다. 칩의 사례를 살펴보고 증가하는 AI 워크로드를 실행하기 위한 데이터 센터의 액체 냉각에 대한 연구를 논의합니다. Nvidia의 가속 컴퓨팅 제품 담당 이사인 Dave Salvador에 따르면 Nvidia는 이미 데이터 센터 중 하나에서 실행되고 있는 Blackwell 칩도 선보일 예정입니다.

내년에 출시될 Blackwell Ultra GPU, 2026년에 출시되기 시작하는 차세대 Rubin GPU 및 Vera CPU 등 Nvidia가 Blackwell에 대해 이야기하는 대부분은 이미 알려져 있습니다. 그러나 Salvator는 다음과 같이 강조합니다.블랙웰에 대해 이야기할 때, 개별 칩이 아닌 플랫폼으로 생각하는 것이 중요합니다.Salvator는 이번 주 Hot Chips 준비 브리핑에서 기자와 분석가들에게 말했습니다.

“Nvidia와 우리가 구축하는 플랫폼을 생각해보면 GPU, 네트워킹, 심지어 CPU도 시작에 불과합니다. 우리는 실제로 사용할 수 있는 것들을 구축하기 위해 시스템 수준 및 데이터 센터 수준 엔지니어링을 수행하고 있습니다. 어려운 생성적 AI 과제를 위한 시스템 및 플랫폼 시간이 지남에 따라 모델의 크기가 커지고 대부분의 생성적 AI 애플리케이션은 실시간으로 실행되어야 하며 추론에 대한 요구 사항은 지난 몇 년간 급격히 증가했습니다. .실시간 대규모 언어 모델 추론에는 여러 GPU가 필요하며 가까운 미래에는 여러 서버 노드가 필요합니다.”

여기에는 Blackwell GPU 및 Grace CPU뿐만 아니라 NVLink 스위치 칩, Bluefield-3 DPU, ConnextX-7 및 ConnectX-8 NIC, Spectrum-4 이더넷 스위치 및 Quantum-3 InfiniBand 스위치도 포함됩니다. Salvator는 NVLink Switch(아래), Compute, Spectrum-X800 및 Quantum-X800에 대해서도 서로 다른 정보를 보여주었습니다.

Nvidia는 올해 3월 GTC 2024 컨퍼런스에서 큰 기대를 모았던 Blackwell 아키텍처를 출시했으며 하이퍼스케일 제조업체와 OEM 제조업체는 빠르게 이에 동의했습니다. 이 회사는 수십억 개의 매개변수가 포함된 4050 A 모델로 6월 출시된 Meta의 Llama 3.1에서 알 수 있듯이 LLM(대형 언어 모델)이 더욱 커질 것으로 예상되는 빠르게 확장되는 생성 AI 분야를 정면으로 바라보고 있습니다. 구원자가 말했다.LLM이 커지고 실시간 추론에 대한 필요성이 유지됨에 따라 더 많은 계산과 더 짧은 대기 시간이 필요하므로 플랫폼 접근 방식이 필요합니다.

그는 "대부분의 다른 LLMS와 마찬가지로 이 모델로 구동될 서비스는 실시간으로 실행될 것으로 예상됩니다. 이를 위해서는 여러 개의 GPU가 필요합니다. 문제는 GPU의 고성능과 고성능을 결합하는 방법입니다. GPU의 성능과 GPU의 고성능입니다." 이러한 AI 기반 서비스를 사용하는 최종 사용자에게 뛰어난 사용자 경험을 제공하는 것과 활용도 사이에는 큰 균형이 있습니다."

01 속도의 필요성

Blackwell을 통해 Nvidia는 스위치당 대역폭을 900GB/초에서 1.8TB/초로 두 배 늘렸습니다. 회사의 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 기술은 실제로 스위치에 있는 시스템에 더 많은 컴퓨팅을 제공합니다. 이를 통해 GPU에서 일부 오프로드를 수행하여 성능 속도를 높일 수 있으며 NVLink 패브릭에서 네트워크 트래픽을 원활하게 하는 데도 도움이 됩니다. 이는 우리가 플랫폼 수준에서 계속 추진하는 혁신입니다.

다중 노드 GB200 NVL72는 랙 규모 설계에서 Blackwell GPU 72개와 Grace CPU 36개를 연결하는 수냉식 섀시로, Nvidia는 GPT-MoE-1.8T와 같은 1조 매개변수 LLM을 위한 단일 GPU 역할을 한다고 말합니다. 추론 성능. 성능은 HGX H100 시스템의 30배, 훈련 속도는 H100의 4배이다.

Nvidia는 또한 대역폭 사용량을 75% 줄이면서 FP16과 동일한 정확도를 제공할 수 있는 회사의 Quasar Quantization System을 사용하여 FP4에 대한 기본 지원을 추가했습니다. Quasar Quantization System은 정확성을 보장하기 위해 Blackwell의 Transformer Engine을 활용하는 소프트웨어이며 Salvator는 FP4와 FP16을 사용하여 생성된 생성 AI 이미지를 비교하여 이를 시연했는데 거의 눈에 띄는 차이가 나타나지 않았습니다.

FP4를 사용하면 모델은 Hopper GPU에서 FP8보다 더 적은 메모리를 사용하고 더 나은 성능을 발휘할 수 있습니다.

02 액체 냉각 시스템

액체 냉각 측면에서 엔비디아는 데이터센터 전력 사용량을 28%까지 줄일 수 있는 온수 직접 칩투칩 방식을 도입할 예정이다.

Salvator는 "이 접근 방식의 흥미로운 점은 냉각 효율성 향상, 운영 비용 절감, 서버 수명 연장, 수집된 열을 다른 용도로 재활용할 수 있는 가능성 등의 이점입니다."라고 Salvator는 말했습니다. 한 가지 방법은 이름에서 알 수 있듯이 실제로 냉장고를 사용하지 않는다는 것입니다. 냉장고의 작동 방식을 생각하면 온수 솔루션을 사용하면 냉각기를 사용할 필요가 없습니다. , 덕분에 에너지가 절약되고 운영 비용도 절감되었습니다.”

또 다른 주제는 Nvidia가 인공 지능을 활용하여 40년 동안 사용된 코드로 회로를 설명하는 하드웨어 설명 언어인 Verilog를 사용하여 인공 지능 칩을 설계하는 방법입니다. NVIDIA는 VerilogCoder라는 자율 Verilog 에이전트를 지원하고 있습니다.

"우리 연구원들은 우리 시스템을 설명하는 Verilog 코드 생성 속도를 높이는 데 사용할 수 있는 대규모 언어 모델을 개발했습니다."라고 그는 말했습니다. "우리는 이러한 코드를 구축하는 데 도움이 되는 차세대 제품에서 이를 사용할 수 있습니다. 설계 및 검증 프로세스의 속도를 높이는 데 도움이 되며 설계의 수동적 측면을 가속화하고 본질적으로 많은 작업을 자동화합니다.”

소식

NVIDIA의 소위 "핫 칩"은 실제로 "핫 플랫폼"입니다.

소개

내 연락처 정보