소식

NVIDIA Blackwell은 데이터 센터에서 작동합니다. NVLINK가 1.4TB/s로 업그레이드되고 첫 번째 FP4 GenAI 이미지가 출시되었습니다.

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House는 엔비디아가 일부 언론을 초청해 브리핑을 열고 처음으로 기술 기자들에게 블랙웰 플랫폼을 시연했다고 8월 24일 보도했습니다. NVIDIA는 데이터 센터에서 Blackwell 플랫폼의 사용을 시연하기 위해 8월 25일부터 27일까지 개최되는 Hot Chips 2024 이벤트에 참석할 예정입니다.

블랙웰 상장 연기 소식 부인

이번 브리핑에서 엔비디아는 블랙웰의 상장 연기 소식을 반박하고 골리앗 데이터센터에 대한 추가 정보를 공유했다.

Nvidia는 브리핑 중에 Blackwell이 자사 데이터 센터 중 하나에서 실행되는 것을 시연했으며 Blackwell이 계획대로 진행되고 있으며 올해 말에 고객에게 배송될 것이라고 강조했습니다.

블랙웰에 어떤 결함이나 문제가 있어서 올해 시장에 출시할 수 없다는 소문이 있습니다.

블랙웰 소개

NVIDIA는 Blackwell이 단순한 칩이 아니라 플랫폼이라고 말합니다. Hopper와 마찬가지로 Blackwell에는 데이터 센터, 클라우드 컴퓨팅 및 인공 지능 고객을 위한 수많은 설계가 포함되어 있으며 각 Blackwell 제품은 서로 다른 칩으로 구성됩니다.

IT Home에 포함된 칩은 다음과 같습니다.

블랙웰 GPU

그레이스 CPU

NVLINK 스위치 칩

블루필드-3

커넥트엑스-7

커넥트X-8

스펙트럼-4

퀀텀-3

블랙웰 브리지

Nvidia는 또한 Blackwell 제품군의 다양한 브리지에 대한 새로운 이미지를 공유했습니다. 이는 공유될 Blackwell 케이블 트레이의 첫 번째 이미지로, 차세대 데이터 센터 플랫폼을 설계하는 데 필요한 광범위한 엔지니어링 전문 지식을 보여줍니다.

목표 조 매개변수 AI 모델

Blackwell은 현대 인공 지능의 요구 사항을 충족하고 Meta의 405B Llama-3.1과 같은 대규모 언어 모델에 탁월한 성능을 제공하도록 설계되었습니다. LLM이 더 커지고 더 많은 매개변수를 가지게 되면 데이터 센터에는 더 많은 계산이 필요하고 대기 시간이 짧아집니다.

다중 GPU 추론 방법

다중 GPU 추론 접근 방식은 여러 GPU에서 계산을 수행하여 낮은 대기 시간과 높은 처리량을 달성하는 것이지만 다중 GPU 경로를 사용하면 복잡해집니다. 다중 GPU 환경의 각 GPU는 계산 결과를 각 계층의 다른 GPU로 보내야 하며, 이를 위해서는 고대역폭 GPU 간 통신이 필요합니다.

다중 GPU 추론 접근 방식은 여러 GPU에서 계산을 수행하여 낮은 대기 시간과 높은 처리량을 달성하는 것이지만 다중 GPU 경로를 사용하면 복잡해집니다. 다중 GPU 환경의 각 GPU는 계산 결과를 각 계층의 다른 GPU로 보내야 하며, 이를 위해서는 고대역폭 GPU 간 통신이 필요합니다.

더 빠른 NVLINK 스위치

Blackwell을 통해 NVIDIA는 패브릭 대역폭을 1.8TB/s로 두 배로 늘린 더 빠른 NVLINK 스위치를 출시했습니다. NVLINK 스위치 자체는 TSMC의 4NP 노드 800mm2 칩을 기반으로 하며 GB200 NVL72 랙에서 NVLINK를 72 GPU로 확장할 수 있습니다.

이 칩은 72개의 포트를 통해 7.2TB/s의 전체 양방향 대역폭을 제공하며 네트워크 내 컴퓨팅 성능은 3.6TFLOP입니다. NVLINK 스위치 트레이에는 이러한 스위치 2개가 포함되어 최대 14.4TB/s의 총 대역폭을 제공합니다.

수냉식

NVIDIA는 성능과 효율성을 향상시키기 위해 수냉식을 사용합니다. GB200, Grace Blackwell GB200 및 B200 시스템에는 데이터 센터 시설의 전력 비용을 최대 28%까지 절감할 수 있는 새로운 액체 냉각 솔루션이 탑재됩니다.

FP4 계산을 사용해 생성된 최초의 인공지능 이미지

NVIDIA™(NVIDIA®)도 FP4 컴퓨팅을 사용하여 생성된 세계 최초의 인공 지능 이미지를 공유했습니다. 그림은 FP4 양자화 모델이 FP16 모델과 매우 유사하지만 더 빠른 4비트 토끼 이미지를 생성한다는 것을 보여줍니다.

이 이미지는 안정적인 확산에서 Blackwell을 사용하여 MLPerf에서 생성되었습니다. 이제 정확도를 낮추는 것(FP16에서 FP4로)의 과제는 일부 정확도를 잃는다는 것입니다.