Так называемые «горячие чипы» Nvidia на самом деле являются «горячими платформами»

Так называемые «горячие чипы» NVIDIA на самом деле являются «горячими платформами».

2024-08-24

Ранее в этом месяце Nvidia получила редкие плохие новости, когда появились сообщения о том, что долгожданный графический ускоритель Blackwell может быть отложен на целых три месяца из-за конструктивных недостатков. Однако представитель Nvidia заявил, что все идет по плану: некоторые поставщики говорят, что ничего не изменилось, в то время как другие говорят, что были некоторые обычные задержки.

Инсайдеры отрасли ожидают, что пользователи узнают больше о ситуации Blackwell, когда Nvidia объявит финансовые результаты за второй квартал 2025 финансового года в следующую среду.

Сообщается, что чипы Blackwell — B100, B200 и GB200 — будут в центре внимания конференции Hot Chips в этом году в Стэнфордском университете в Калифорнии на следующей неделе, где Nvidia представит свою архитектуру, подробно расскажет о некоторых новых инновациях и обрисует методы, используемые при проектировании. чипы в области искусственного интеллекта и обсуждает исследования в области жидкостного охлаждения в центрах обработки данных для выполнения растущих рабочих нагрузок искусственного интеллекта. По словам Дэйва Сальвадора, директора Nvidia по продуктам для ускоренных вычислений, компания также продемонстрирует чипы Blackwell, которые уже работают в одном из ее центров обработки данных.

Большая часть того, о чем Nvidia говорит о Blackwell, уже известна, например, о выпуске графического процессора Blackwell Ultra в следующем году, а также о следующем поколении графических процессоров Rubin и процессоров Vera, которые начнут выпускаться в 2026 году. Однако Сальватор подчеркивает:Говоря о Blackwell, важно думать о нем как о платформе, а не об отдельном чипе.Об этом Сальватор сообщил журналистам и аналитикам на брифинге на этой неделе в рамках подготовки к Hot Chips.

«Когда вы думаете о Nvidia и платформах, которые мы создаем, графические процессоры, сети и даже наши процессоры — это только начало», — сказал он. «Мы занимаемся проектированием на уровне системы и центра обработки данных, чтобы создавать вещи, которые действительно могут выйти на рынок. и решать эти реальные проблемы. Системы и платформы для сложных задач генеративного ИИ. Мы видели, как размер моделей со временем растет, и большинство приложений генеративного ИИ должны работать в реальном времени, а требования к выводам резко возросли за последние несколько лет. лет. Для вывода больших языковых моделей в реальном времени потребуется несколько графических процессоров и, в ближайшем будущем, несколько серверных узлов».

Сюда входят не только графические процессоры Blackwell и процессоры Grace, но также чипы NVLink Switch, DPU Bluefield-3, сетевые карты ConnextX-7 и ConnectX-8, Ethernet-коммутаторы Spectrum-4 и коммутаторы Quantum-3 InfiniBand. Salvator также показал различную информацию для коммутатора NVLink (ниже), Compute, Spectrum-X800 и Quantum-X800.

Nvidia представила долгожданную архитектуру Blackwell на конференции GTC 2024 в марте этого года, и производители гипермасштабируемых устройств и производителей оригинального оборудования быстро подписались на нее. Компания нацелена непосредственно на быстро расширяющуюся область генеративного искусственного интеллекта, где большие языковые модели (LLM) станут еще больше, о чем свидетельствует версия Llama 3.1 от Meta, выпущенная в июне с моделью 4050 A с миллиардами параметров. Сальватор сказал:Поскольку LLM становятся больше, а потребность в выводах в реальном времени сохраняется, они потребуют большего количества вычислений и меньшей задержки, что требует платформенного подхода.

Он сказал: «Как и большинство других LLMS, ожидается, что сервисы, основанные на этой модели, будут работать в режиме реального времени. Для этого вам потребуется несколько графических процессоров. Задача состоит в том, как объединить высокую производительность графического процессора с высокой производительностью. Производительность графического процессора Существует огромный баланс между использованием и обеспечением отличного пользовательского опыта для конечных пользователей, использующих эти сервисы на базе искусственного интеллекта».

01 Жажда скорости

С помощью Blackwell Nvidia удвоила пропускную способность на коммутатор с 900 ГБ/с до 1,8 ТБ/с. Разработанная компанией технология масштабируемого иерархического протокола агрегации и сокращения (SHARP) позволяет увеличить объем вычислений в системе, которая фактически находится в коммутаторе. Это позволяет нам немного разгрузить графический процессор, чтобы повысить производительность, а также помогает сгладить сетевой трафик в структуре NVLink. Это инновации, которые мы продолжаем внедрять на уровне платформы.

Многоузловой GB200 NVL72 представляет собой шасси с жидкостным охлаждением, которое соединяет 72 графических процессора Blackwell и 36 процессоров Grace в стоечной конструкции, которая, по словам Nvidia, служит одним графическим процессором для LLM с триллионом параметров, таких как GPT-MoE-1.8T. Обеспечивает более высокий уровень производительности. производительность вывода. Его производительность в 30 раз выше, чем у системы HGX H100, а скорость обучения в 4 раза выше, чем у H100.

Nvidia также добавила встроенную поддержку FP4, используя систему квантования Quasar компании, которая может обеспечить ту же точность, что и FP16, при этом сокращая использование полосы пропускания на 75%. Система квантования Quasar — это программное обеспечение, которое использует Transformer Engine от Blackwell для обеспечения точности, и Сальватор продемонстрировал это, сравнив изображения генеративного ИИ, созданные с использованием FP4 и FP16, которые показали едва заметные различия.

Используя FP4, модель может использовать меньше памяти и работать даже лучше, чем FP8 на графическом процессоре Hopper.

02 Система жидкостного охлаждения

Что касается жидкостного охлаждения, Nvidia представит метод прямого межчипового соединения с теплой водой, который может снизить энергопотребление центра обработки данных на 28%.

«Что интересно в этом подходе, так это некоторые его преимущества, в том числе повышение эффективности охлаждения, снижение эксплуатационных расходов, увеличение срока службы серверов и возможность повторного использования уловленного тепла для других целей», — сказал Сальватор. «Это, безусловно, поможет повысить эффективность охлаждения. Один из способов заключается в том, что, как следует из названия, в этой системе фактически не используется холодильник. Если задуматься о том, как работает холодильник, то с использованием теплого водного раствора нам не нужно использовать охладитель. , что экономит нам энергию и снижает эксплуатационные расходы».

Другая тема — то, как Nvidia использует искусственный интеллект, разрабатывая свои чипы искусственного интеллекта с использованием Verilog, языка описания аппаратного обеспечения, описывающего схемы в коде, который используется уже четыре десятилетия. NVIDIA помогает с автономным агентом Verilog под названием VerilogCoder.

«Наши исследователи разработали большую языковую модель, которую можно использовать для ускорения создания кода Verilog, описывающего наши системы», — сказал он. «Мы будем использовать ее в будущих поколениях продуктов, чтобы помочь в создании этих кодов. Это вполне возможно. Он может многое. Помогая ускорить процесс проектирования и проверки, он ускоряет ручные аспекты проектирования и, по сути, автоматизирует многие задачи».

новости

Так называемые «горячие чипы» NVIDIA на самом деле являются «горячими платформами».

Введение

Моя контактная информация