новости

минг-чи куо заявил, что nvidia прекратила разработку двухкабинетной версии gb200 (nvl36*2) ai-шкафа.

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

согласно новостям it house от 2 октября, минг-чи куо вчера (1 октября) опубликовал брифинг по рыночным инвестициям. сообщалось, что из-за отсутствия требований к настройке для клиентов nvidia больше не предоставляет версию gb200 с двумя корпусами (2 nvl36). ), и предоставляет только версии с одним шкафом gb200 nvl72, тогда как версия с одним шкафом nvl36 по-прежнему сохраняет первоначальный план разработки и поставки.

it home прикрепляет краткую информацию минг-чи куо следующим образом:

в заключение:

этот вопрос не повлияет на долгосрочную положительную тенденцию ai и nvidia, но в краткосрочной перспективе может заставить некоторых участников рынка усомниться в исполнительных возможностях nvidia и цепочки поставок.

nvidia в последнее время часто пересматривала проект своего продукта для серверов искусственного интеллекта. я думаю, это связано с тем, что nvidia хочет достичь лучшего баланса между выполнением цепочки поставок, конкурентными преимуществами и потребностями клиентов в условиях ограниченных ресурсов (остановка разработки nvl36*2 — лишь один пример). это хорошо и отражает более прагматичный подход nvidia к планированию продуктов, но процесс изменений может привести некоторых участников рынка в замешательство из-за хаоса в цепочке поставок.

из-за текущей низкой видимости состава поставок серверов blackwell в 2025 году (несколько месяцев назад рынок в целом считал, что будут только nvl36, nvl72 и nvl36*2), прогнозы некоторых поставщиков на 2025 год, таких как сборка и охлаждение, это сильно повлияет.

сравнение двух версий 72gpu: причины выбора nvl72 и отказа от nvl36*2

ресурсы развития ограничены.первоначальный план заключался в том, что одновременно разрабатывались три корпуса gb200 (nvl36, nvl72, nvl36*2). ожидается, что разрабатываемая версия (разработка: devdrop), начиная с середины ноября, будет сходиться с nvl72 и nvl36*2 (поскольку nvl36 «теоретически» готова к выходу на стадию массового производства), а окончательная версия этих двух будет завершиться к середине марта 2025 г. обеспечение качества (qa). однако по-прежнему существует неопределенность в разработке nvl36, не говоря уже об одновременной разработке двух версий с 72 графическими процессорами (nvl72 и nvl36*2).

nvl72 экономит место в центре обработки данных.если nvl72 сможет правильно решить проблемы проектирования теплоотвода sidecar, для него потребуется на один шкаф меньше, чем для nvl36*2, что повысит эффективность использования пространства центра обработки данных.

эффективность вывода nvl72 выше.благодаря распараллеливаемому дизайну программного обеспечения разница в результатах обучения ai llm между nvl72 и nvl36*2 невелика. однако в процессе рассуждений, который не является или его нелегко распараллелить (например, в моделях авторегрессии), производительность nvl72 легче превзойти nvl36*2.

основные предпочтения клиентов.например, microsoft предпочитает nvl72, а не nvl36*2.

выполняйте публичные обещания. в центре внимания nvidia всегда была однокорпусная версия nvl72. чтобы выполнить публичное обязательство и при ограниченных ресурсах, приоритет разработки nvl72 выше, чем у nvl36*2.

разработка nvl72 сталкивается с беспрецедентными техническими проблемами, а текущий график массового производства все еще остается на низком уровне.

самая большая проблема при разработке nvl72 в основном связана с требованием tdp (точка теплового проектирования) в 132 квт. это сервер с самым высоким энергопотреблением в истории, и цепочке поставок требуется больше времени для решения беспрецедентных технических проблем.

следует отметить, что tdp относится к среднему энергопотреблению при непрерывной работе. если неправильная конструкция приводит к тому, что мгновенное максимальное энергопотребление (так называемое edp (точка электрического проектирования) в nvidia) превышает tdp, может потребоваться более двух колясок. если это так, то не только увеличивается сложность конструкции отвода тепла и сложность массового производства, но и теряется преимущество nvl72 в экономии места в центре обработки данных.

еще одна задача проектирования sidecar — стабильное управление приближающейся температурой в пределах 5–10°c. если стандарт ослаблен, это может повлиять на стабильность системы.

следует отметить, что упомянутая выше проблема высокого энергопотребления затрагивает не только sidecar, но и все компоненты и конструкцию системы.

мой последний обзор цепочки поставок показывает, что график массового производства nvl72 может начаться не ранее 2п25 (по сравнению с оптимистичным целевым показателем nvidia — 1п25).