В дата-центре введен в эксплуатацию NVIDIA Blackwell: NVLINK повышен до 1,4ТБ/с, выпущен первый образ FP4 GenAI

NVIDIA Blackwell работает в дата-центре: NVLINK повышен до 1,4 ТБ/с, выпущен первый образ GenAI FP4

2024-08-24

24 августа IT House сообщила, что Nvidia пригласила некоторые СМИ провести брифинг и впервые продемонстрировала платформу Blackwell журналистам, занимающимся технологиями. NVIDIA примет участие в мероприятии Hot Chips 2024, которое пройдет с 25 по 27 августа, чтобы продемонстрировать использование платформы Blackwell в центрах обработки данных.

Отрицает новость о задержке листинга Blackwell

На этом брифинге Nvidia опровергла новость о задержке листинга Blackwell и поделилась дополнительной информацией о своем дата-центре Goliath.

Во время брифинга Nvidia продемонстрировала работу Blackwell в одном из своих центров обработки данных и подчеркнула, что Blackwell идет по плану и будет отправлена клиентам позднее в этом году.

Ходят слухи, что у Blackwell есть какой-то дефект или проблема, которая не позволяет выпустить его на рынок в этом году. Это предположение несостоятельно.

Знакомство с Блэквеллом

NVIDIA утверждает, что Blackwell — это больше, чем просто чип, это платформа. Как и Hopper, Blackwell включает в себя большое количество разработок для клиентов центров обработки данных, облачных вычислений и искусственного интеллекта, и каждый продукт Blackwell состоит из разных микросхем.

В состав IT Home входят следующие чипы:

Графический процессор Blackwell

Грейс ЦП

Чип коммутатора NVLINK

Блюфилд-3

ConnectX-7

ConnectX-8

Спектр-4

Квант-3

Блэквеллский мост

Nvidia также поделилась новыми изображениями различных мостов семейства продуктов Blackwell. Это первые опубликованные изображения кабельных лотков Blackwell, иллюстрирующие обширный инженерный опыт, необходимый для проектирования платформ центров обработки данных следующего поколения.

Целевая модель искусственного интеллекта на триллион параметров

Blackwell разработан с учетом потребностей современного искусственного интеллекта и обеспечивает выдающуюся производительность для больших языковых моделей, таких как Meta 405B Llama-3.1. Поскольку LLM становятся больше и имеют больше параметров, центрам обработки данных потребуется больше вычислений и меньшая задержка.

Методы вывода с использованием нескольких графических процессоров

Подход вывода с использованием нескольких графических процессоров заключается в выполнении вычислений на нескольких графических процессорах для достижения низкой задержки и высокой пропускной способности, но использование маршрута с несколькими графическими процессорами имеет свои сложности. Каждый графический процессор в среде с несколькими графическими процессорами должен отправлять результаты вычислений другим графическим процессорам на каждом уровне, что требует высокоскоростной связи между графическими процессорами.

Более быстрые переключатели NVLINK

Благодаря Blackwell компания NVIDIA представила более быстрые коммутаторы NVLINK, которые удвоили пропускную способность коммутационной сети до 1,8 ТБ/с. Сам коммутатор NVLINK основан на чипе узла 4NP TSMC площадью 800 мм2, который позволяет масштабировать NVLINK до 72 графических процессоров в стойке GB200 NVL72.

Чип обеспечивает двунаправленную пропускную способность 7,2 ТБ/с через 72 порта и вычислительную мощность внутри сети 3,6 терафлопс. Лоток коммутатора NVLINK оснащен двумя такими коммутаторами, обеспечивающими общую пропускную способность до 14,4 ТБ/с.

Водяное охлаждение

NVIDIA использует водяное охлаждение для повышения производительности и эффективности. Системы GB200, Grace Blackwell GB200 и B200 будут оснащены этими новыми решениями жидкостного охлаждения, которые могут снизить затраты на электроэнергию для центров обработки данных до 28%.

Первое изображение искусственного интеллекта, созданное с помощью вычислений FP4.

NVIDIA™ (NVIDIA®) также поделилась первым в мире изображением искусственного интеллекта, созданным с помощью вычислений FP4. На рисунке показано, что модель квантования FP4 создает 4-битные изображения кролика, которые очень похожи на модель FP16, но быстрее.

Это изображение было создано MLPerf с использованием Blackwell в стабильной диффузии. Теперь проблема снижения точности (с FP16 до FP4) заключается в том, что вы теряете некоторую точность.

новости

NVIDIA Blackwell работает в дата-центре: NVLINK повышен до 1,4 ТБ/с, выпущен первый образ GenAI FP4

Введение

Моя контактная информация