Новости

Самый мощный AI-чип NVIDIA выявил серьезные конструктивные недостатки, а специальная китайская версия случайно обнаружилась!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Редактор: Такой сонный, Таози.

[Введение в новую мудрость] Из-за конструктивных недостатков самый мощный AI-чип Nvidia Blackwell действительно будет поставлен с задержкой. Отцы-доноры были в трауре, и ожидалось, что все запланированные планы будут отложены как минимум на три месяца.

Графические процессоры NVIDIA всегда были основой исследований и разработок в области искусственного интеллекта для крупных модельных компаний, таких как OpenAI.

Теперь из-за конструктивных недостатков графических процессоров Blackwell поставки Nvidia приходится откладывать на 3 месяца или даже дольше.

В эксклюзивной информации сообщалось, что инженеры TSMC обнаружили дефект в последние недели, когда готовили чипы Blackwell к массовому производству.


Буквально на прошлой неделе Лао Хуан заявил на SIGGRAPH, что NVIDIA предоставила инженерные образцы Blackwell клиентам по всему миру.

Выражение облегчения на его лице не выдавало никаких намеков на неожиданные задержки.

Итак, где же недостатки в конструкции чипа?

GB200 содержит 2 графических процессора Blackwell и 1 процессор Grace. Проблема заключается в ключевой схеме, соединяющей два графических процессора Blackwell.

Именно эта проблема привела к снижению доходности GB200 компании TSMC.


Задержка поставки новейших чипов означает, что для крупных технологических компаний, таких как Meta, Google и Microsoft, это повлияет на процесс обучения искусственному интеллекту.

Более того, строительство их дата-центров неизбежно будет отложено.

Сообщается, что чипы Blackwell, как ожидается, будут поставляться в больших количествах до первого квартала следующего года.

В последнем отчете SemiAnaанализа также подробно описаны технические проблемы, с которыми столкнулась NVIDIA, график после задержек поставок и новая система MGX GB200A Ultra NVL36.


Блэквелл откладывает март из-за протестов

Я до сих пор помню, как на конференции GTC 2024 Лао Хуан представил самый мощный графический процессор на архитектуре Blackwell и объявил миру о самом мощном звере производительности.

В мае он публично заявил, что «мы планируем поставить большое количество архитектурных чипов Blackwell позднее в этом году».

Он даже уверенно заявил на собрании по финансовому отчету: «В этом году мы увидим большие доходы Blackwell».

Акционеры NVIDIA возлагают большие надежды на графический процессор Blackwell.


По оценкам аналитиков Keybanc Capital Markets, чипы Blackwell принесут доход центрам обработки данных Nvidia с 47,5 млрд долларов США в 2024 году до более чем 200 млрд долларов США в 2025 году.

Другими словами, серия графических процессоров Blackwell сыграет решающую роль в будущих продажах и доходах Nvidia.

Неожиданно, недостатки конструкции напрямую повлияли на производственные планы Nvidia на вторую половину этого года и первую половину следующего года.

Инсайдеры, участвующие в разработке чипов Blackwell, сообщили, что Nvidia работает с TSMC над тестированием производства и работы чипов, чтобы решить проблему как можно скорее.

Тем не менее, текущая мера по исправлению положения Nvidia заключается в продолжении расширения поставок чипов серии Hopper и ускорении производства графических процессоров Blackwell, как запланировано на вторую половину этого года.

Потратив десятки миллиардов долларов, обучение ИИ откладывается

Мало того, этот цепной эффект нанесет фатальный удар по крупным разработчикам моделей и поставщикам облачных услуг центров обработки данных.

Чтобы обучить ИИ, финансовые спонсоры, такие как Meta, Microsoft и Google, потратили десятки миллиардов долларов и заказали большое количество чипов Blackwell.

Google заказал более 400 000 GB200 плюс серверное оборудование, стоимость заказа Google превышает 10 миллиардов долларов США.

В этом году гигант уже тратит около $50 млрд на чипы и другое оборудование, что более чем на 50% больше, чем в прошлом году.

Кроме того, Meta также разместила заказы на сумму не менее 10 миллиардов долларов США, а размер заказов Microsoft за последние недели увеличился на 20%.

Однако конкретный размер заказа этих двух компаний пока не определен.

По словам людей, знакомых с ситуацией, Microsoft планирует подготовить 55 000–65 000 чипов GB200 для OpenAI к первому кварталу 2025 года.

Более того, руководство Microsoft изначально планировало предоставить OpenAI серверы на базе Blackwell в январе 2025 года.


Теперь кажется, что первоначальный план необходимо отложить до марта или следующей весны.

Согласно первоначально запланированному сроку, новый суперкомпьютерный кластер начнет работать в первом квартале 2025 года.

Компании, занимающиеся искусственным интеллектом, в том числе OpenAI, ждут возможности использовать новые чипы для разработки следующего поколения LLM.

Поскольку для обучения больших моделей требуется во много раз больше вычислительной мощности, они позволяют лучше отвечать на сложные вопросы, автоматизировать многоэтапные задачи и создавать более реалистичные видеоролики.

Можно сказать, что следующее поколение сверхмощного ИИ зависит от новейших ИИ-чипов Nvidia.

Редкая задержка в истории

Однако такая масштабная задержка заказа чипов не только неожиданна для всех, но и редка.

Первоначально TSMC планировала начать массовое производство чипов Blackwell в третьем квартале и начать крупномасштабные поставки клиентам Nvidia в четвертом квартале.

Инсайдеры сообщили, что чипы Blackwell, как ожидается, поступят в массовое производство в четвертом квартале, и, если не возникнет дальнейших проблем, серверы будут поставляться в больших количествах в последующих кварталах.


Фактически, еще в 2020 году выпуск ранней версии флагманского графического процессора Nvidia пришлось отложить из-за некоторых проблем.

Но риски, с которыми столкнулась Nvidia, в то время были невелики, клиенты не спешили выполнять свои заказы, а центры обработки данных приносили относительно небольшую прибыль.

На этот раз действительно очень редко серьезные конструктивные недостатки обнаруживаются до начала массового производства.

Разработчики микросхем обычно работают с фабриками TSMC для проведения многочисленных производственных испытаний и моделирования, чтобы гарантировать осуществимость продукта и бесперебойный производственный процесс, прежде чем принимать крупные заказы от клиентов.

TSMC редко останавливает производственную линию и перепроектирует продукт, который готовится к массовому производству.

Они полностью подготовились к массовому производству GB200, включая выделение специальных машинных мощностей.

Теперь роботам придется простаивать, пока проблема не будет решена.

Ошибка конструкции также повлияет на производство и поставку серверных стоек NVLink от Nvidia, поскольку компания, отвечающая за серверы, должна дождаться новых образцов чипов, прежде чем завершить проектирование серверной стойки.

Вынужден запустить ремейк

Технические проблемы также вынудили NVIDIA срочно разработать новую систему и архитектуру компонентов, например MGX GB200A Ultra NVL36.

Этот совершенно новый дизайн также окажет значительное влияние на десятки поставщиков как добывающих, так и перерабатывающих компаний.


NVIDIA сделала смелый технический выбор для GB200, самого технологически продвинутого чипа в серии Blackwell, на системном уровне.

Эта стойка с 72 графическими процессорами обеспечивает беспрецедентную плотность мощности — 125 кВт на стойку. Для сравнения, большинство стоек центров обработки данных имеют мощность всего от 12 до 20 кВт.

Такая сложная система также привела к многочисленным проблемам, связанным с подачей питания, перегревом, ростом цепочки поставок водяного охлаждения, утечками быстроразъемной системы водяного охлаждения и различными проблемами сложности печатных плат, и застала некоторых поставщиков и проектировщиков врасплох.

Однако это не то, что заставляет Nvidia сокращать производство или вносить серьезные коррективы в дорожную карту.

Основной проблемой, которая действительно влияет на поставки, является конструкция самой архитектуры NVIDIA Blackwell.


Упаковка Blackwell — это первая упаковка, предназначенная для крупносерийного производства с использованием технологии CoWoS-L TSMC.

CoWoS-L требует использования промежуточного устройства RDL с локальным полупроводниковым соединением (LSI) и встроенными мостовыми микросхемами для обеспечения связи между различными вычислениями и хранилищами внутри пакета.


CoWoS-L намного сложнее нынешней технологии CoWoS-S, но за ней будущее.

У Nvidia и TSMC очень агрессивный план роста, превышающий цель в один миллион чипов в квартал.

Но в результате возникли различные проблемы.

Одна из проблем заключается в том, что встраивание нескольких перемычек с мелким шагом в органический переходник и кремниевый переходник может привести к несоответствию коэффициента теплового расширения (КТР) между кремниевым кристаллом, перемычками, органическим переходником и подложкой, что приведет к короблению.


Компоновка мостовых микросхем требует очень высокой точности, особенно когда речь идет о мостах между двумя основными вычислительными чипами, поскольку эти мосты имеют решающее значение для поддержки межчиповых соединений со скоростью 10 ТБ/с.

По слухам, основная проблема конструкции связана с чипом моста. В то же время необходимо перепроектировать несколько верхних слоев металла глобальной проводки и выступы чипа. Это одна из основных причин многомесячных задержек.

Другая проблема заключается в том, что у TSMC недостаточно мощностей по производству CoWoS-L.

За последние несколько лет TSMC построила большое количество мощностей CoWoS-S, при этом на долю Nvidia приходится большая часть доли.

Теперь, когда Nvidia быстро переключает спрос на CoWoS-L, TSMC строит новый мощный AP6 для CoWoS-L и модернизирует существующие мощности CoWoS-S в AP3.

Для этого TSMC необходимо трансформировать старые производственные мощности CoWoS-S, иначе эти мощности будут простаивать, а CoWoS-L будет расти медленнее. И этот процесс трансформации сделает рост очень неравномерным.

Объединив эти две проблемы, TSMC явно не в состоянии поставить достаточное количество чипов Blackwell для удовлетворения потребностей Nvidia.

В результате Nvidia концентрирует почти все свои производственные мощности на стоечных системах GB200 NVL 36x2 и NVL72. А вычислительные модули HGX, оснащенные B100 и B200, были отменены.


В качестве альтернативы NVIDIA выпустит Blackwell GPU-B200A на базе чипа B102, оснащенный 4-слойной памятью HBM, чтобы удовлетворить потребности систем искусственного интеллекта среднего и низкого уровня.

Интересно, что этот чип B102 также будет использоваться в китайской «специальной версии» B20.

Поскольку B102 представляет собой монолитный вычислительный чип, Nvidia может не только упаковывать его на CoWoS-S, но и позволить другим поставщикам, помимо TSMC, выполнять упаковку 2.5D, таким как Amkor, ASE SPIL и Samsung.

B200A появится в модификациях HGX мощностью 700 Вт и 1000 Вт, оснащенных до 144 ГБ видеопамяти HBM3E и пропускной способностью до 4 ТБ/с. Стоит отметить, что это меньше, чем пропускная способность памяти H200.

Далее следует расширенная версия среднего класса — Blackwell Ultra.

Стандартный CoWoS-L Blackwell Ultra, а именно B210 или B200 Ultra, не только достигает 288 ГБ 12-слойного HBM3E с точки зрения обновления памяти, но также повышает производительность FLOPS до 50%.

B200A Ultra будет иметь более высокий FLOPS, но видеопамять не будет обновлена.

Помимо той же конфигурации HGX, что и исходный B200A, B200A Ultra также представляет новую форму MGX NVL 36.


Производительность и совокупная стоимость владения HGX Blackwell превосходны при обучении рабочих нагрузок с количеством графических процессоров менее 5000.

Тем не менее, MGX NVL36 является идеальным выбором для многих моделей следующего поколения благодаря более гибкой инфраструктуре.

Поскольку Llama 3 405B уже близок к пределу возможностей сервера H200 HGX, MoE LLAMA 4 следующего поколения точно не впишется в один серверный узел Blackwell HGX.

Учитывая оценку цены MGX B200A Ultra NVL36, SemiAnalysis полагает, что HGX B200A будет продаваться не очень хорошо.

Архитектура MGX GB200A Ultra NVL36

MGX GB200A NVL36 SKU — это сервер с воздушным охлаждением мощностью 40 кВт в стойке и 36 графическими процессорами, полностью соединенными между собой через NVLink.

Среди них каждая стойка будет оснащена 9 вычислительными лотками и 9 лотками NVSwitch. Каждый вычислительный лоток имеет высоту 2U и содержит 1 процессор Grace и 4 графических процессора B200A Blackwell мощностью 700 Вт. В каждом лотке NVSwitch высотой 1U имеется только одна ASIC коммутатора, а пропускная способность каждой ASIC коммутатора составляет 28,8 Тбит/с.

Для сравнения, GB200 NVL72/36x2 оснащен двумя процессорами Grace и четырьмя графическими процессорами Blackwell мощностью 1200 Вт.


Благодаря мощности всего 40 кВт на стойку и возможности воздушного охлаждения операторы существующих центров обработки данных могут легко развернуть MGX NVL36 без перепроектирования своей инфраструктуры.

В отличие от GB200 NVL72/36x2, соотношение 4 графических процессоров к 1 процессору означает, что каждый графический процессор может получить только половину пропускной способности C2C.

Таким образом, MGX NVL36 не может использовать соединение C2C, но требует встроенного коммутатора ConnectX-8 PCIe для завершения связи между графическим процессором и процессором.

Кроме того, в отличие от всех других существующих серверов AI (HGX H100/B100/B200, GB200 NVL72/36x2, MI300), каждый серверный сетевой адаптер теперь будет отвечать за два графических процессора.

Это означает, что, хотя конструкция сетевого адаптера ConnectX-8 может обеспечить 800 ГБ внутренней сети, каждый графический процессор может получить доступ только к 400 ГБ внутренней полосы пропускания InfiniBand/RoCE. (Также на GB200 NVL72/36x2 половина)


Ядром вычислительного лотка GB200 NVL72/NVL36x2 является плата Bianca, которая содержит 2 графических процессора Blackwell B200 и 1 процессор Grace.

Поскольку каждый вычислительный лоток оснащен двумя платами Bianca, в общей сложности будут установлены два процессора Grace и четыре графических процессора Blackwell мощностью 1200 Вт.


Напротив, процессор и графический процессор MGX GB200A NVL36 будут расположены на разных печатных платах, как и в конструкции сервера HGX.

Но в отличие от серверов HGX, 4 графических процессора на каждый вычислительный лоток будут разделены на две платы по 2 графических процессора. Каждая плата с двумя графическими процессорами оснащена разъемом Mirror Mezz, аналогичным плате Bianca.

Эти разъемы Mirror Mezz затем будут использоваться для подключения к межплатной панели ConnectX-8 и подключения ASIC ConnectX-8 со встроенным коммутатором PCIe к графическому процессору, локальному хранилищу NVMe и процессору Grace.

Поскольку ASIC ConnectX-8 очень близок к графическому процессору, нет необходимости в повторном таймере между графическим процессором и сетевой картой ConnectX-8. HGX H100/B100/B200 требует этого.

Кроме того, поскольку между процессором Grace и графическим процессором Blackwell нет соединения C2C, процессор Grace будет размещен на полностью независимой печатной плате, которая является материнской платой процессора. Эта материнская плата будет содержать разъемы BMC, батарею CMOS, разъемы MCIO и т. д.


Пропускная способность NVLink на каждый графический процессор составит 900 ГБ/с в каждом направлении, что соответствует значению GB200 NVL72/36x2. В пересчете на флоп это значительно увеличивает пропускную способность между графическими процессорами, давая MGX NVL36 преимущество при определенных рабочих нагрузках.

Поскольку только один уровень коммутаторов соединяет 36 графических процессоров, для обеспечения неблокируемой сети требуется всего 9 ASIC NVSwitch.

Кроме того, поскольку в каждом лотке коммутатора высотой 1U имеется только одна ASIC 28,8 Тбит/с, воздушное охлаждение становится очень простым. Например, подойдет коммутатор высотой 1U со скоростью 25,6 Тбит/с, такой как Quantum-2 QM9700.


Во внутренней сети, поскольку на каждый вычислительный лоток приходится только 2 порта 800G, будет использоваться оптимизированная двухканальная сеть конца ряда.

На каждые 8 ​​стоек GB200A NVL36 приходится 2 коммутатора Quantum-X800 QM3400.


В случае 700 Вт на графический процессор энергопотребление каждой стойки GB200A NVL36 может составлять около 40 кВт, то есть 4 кВт рассеивания тепла в пространстве высотой 2U.

В результате для воздушного охлаждения потребуются специально разработанные радиаторы и высокоскоростные вентиляторы.


Проблемы при развертывании MGX GB200A NVL 36

Поскольку GB200A NVL36 полностью использует воздушное охлаждение, и в дополнение к сетевой плате PCIe на передней части корпуса 2U имеется также специальный переключатель PCIe, что значительно усложняет задачу управления температурным режимом.

Таким образом, настройка внутреннего сетевого адаптера GB200A NVL36 практически невозможна.

Поскольку многие зависимости машинного обучения скомпилированы и оптимизированы для процессоров x86, а процессор Grace и графический процессор Blackwell находятся на отдельных печатных платах, вполне вероятно, что также будет версия x86+B200A NVL36.

Однако, хотя процессор x86 может обеспечить более высокую пиковую производительность, энергопотребление будет соответственно выше на 100 Вт, что значительно усложнит задачу управления температурным режимом OEM-производителям.

Кроме того, учитывая продажи процессора Grace, даже если NVIDIA выпустит решение x86 B200A NVL36, они подтолкнут клиентов к выбору GB200A NVL36.

Конечно, у GB200A NVL36 есть и свое преимущество — система воздушного охлаждения мощностью 40 кВт на стойку.

В конце концов, многие клиенты не могут позволить себе инфраструктуру жидкостного охлаждения и электропитания, необходимую для GB200 NVL72 мощностью около 125 кВт на стойку (или 36x2 с общим энергопотреблением более 130 кВт).

H100 имеет TDP 700 Вт и в настоящее время использует 3DVC высотой 4U, тогда как H200 мощностью 1000 Вт использует 3DVC высотой 6U.

Для сравнения, TDP MGX B200A NVL36 также составляет 700 Вт, но корпус имеет высоту всего 2U, поэтому пространство весьма ограничено. Поэтому для увеличения площади поверхности плавника потребуется горизонтально вытянутый плавник в виде балкона.


Помимо требования к радиатору большего размера, вентиляторы также должны обеспечивать более сильный воздушный поток, чем вычислительный лоток GB200 NVL72/36x2 2U или конструкция графического процессора HGX 8.

По оценкам, в стойке мощностью 40 кВт от 15% до 17% общей мощности системы будет использоваться внутренними вентиляторами корпуса. Для сравнения, вентилятор HGX H100 потребляет всего от 6% до 8% общей мощности системы.

Из-за большой мощности вентилятора, необходимой для правильной работы MGX GB200A NVL36, это крайне неэффективная конструкция.

Зачем отменять GB200A NVL64

Прежде чем Nvidia завершила работу над MGX GB200A NVL36, они также пытались разработать стойку NVL64 с воздушным охлаждением, которая потребляет 60 кВт и содержит 64 графических процессора, полностью связанных между собой через NVLink.

Однако после обширного инженерного анализа компания SemiAnaанализ определила, что этот продукт невозможен и не будет коммерчески доступен.

В предлагаемом SKU NVL64 имеется 16 вычислительных лотков и 4 лотка NVSwitch. Каждый вычислительный лоток имеет высоту 2U и содержит процессор Grace и четыре графических процессора Blackwell мощностью 700 Вт, как и MGX GB200A NVL36.

Основная модификация касается лотков NVSwitch — вместо сокращения 2 NVSwitch на лоток GB200 до 1, Nvidia пытается увеличить их до 4 ASIC-переключателей.


Очевидно, что было бы практически невозможно охладить чудовище с таким высоким энергопотреблением только с помощью воздуха. (NVIDIA предложила 60 кВт, SemiAnalysis оценила 70 кВт)

Обычно для этого требуется использование теплообменника с задней дверцей, но это противоречит смыслу архитектуры стойки с воздушным охлаждением, поскольку все еще остается зависимость от цепочки поставок жидкостного охлаждения. Кроме того, это решение по-прежнему требует модификаций на уровне объекта в большинстве центров обработки данных для направления охлаждающей воды к теплообменнику задней двери.

Еще одна очень сложная тепловая проблема заключается в том, что лоток NVSwitch будет содержать четыре коммутатора ASIC 28,8 Тбит/с в корпусе высотой 1U, что потребует около 1500 Вт мощности охлаждения.

Если рассматривать индивидуально, то нетрудно добиться мощности 1500 Вт в корпусе высотой 1U. Однако если учесть, что пролетающие провода Ultrapass от коммутатора ASIC к разъему объединительной платы блокируют большую часть воздушного потока, проблема охлаждения становится серьезной.

Учитывая необходимость чрезвычайно быстрого вывода на рынок стойки MGX NVL с воздушным охлаждением, Nvidia попыталась доставить продукт в течение шести месяцев с момента начала проектирования. Однако разработка новых переключаемых поддонов и цепочек поставок очень сложна для отрасли, которая и без того ограничена в ресурсах.


Другая серьезная проблема с GB200A NVL64 заключается в том, что в каждой стойке имеется 64 внутренних порта 800G, но каждый коммутатор XDR Quantum-X800 Q3400 имеет 72 нисходящих порта 800G. Другими словами, на каждом коммутаторе будет 16 свободных портов 800G.

Наличие пустых портов на дорогих серверных коммутаторах может существенно повлиять на производительность сети и общую стоимость владения, поскольку коммутаторы дороги, особенно модульные коммутаторы с высокой плотностью портов, такие как Quantum-X800.


Кроме того, использование 64 графических процессоров в одном домене NVLink не является идеальным решением.

На первый взгляд, 64 — хорошее число, поскольку оно имеет общие делители 2, 4, 8, 16 и 32, что делает его идеальным для различных параллельных конфигураций.

Например, тензорный параллелизм TP=8, экспертный параллелизм EP=8 или TP=4, параллелизм полностью сегментированных данных FSDP=16.

К сожалению, из-за ненадежности оборудования Nvidia рекомендует сохранять как минимум один вычислительный лоток на стойку NVL в качестве запасного, чтобы графический процессор можно было отключить во время обслуживания и использовать в качестве горячего резерва.

Если в каждой стойке не имеется хотя бы одного вычислительного лотка в режиме горячего резерва, даже сбой одного графического процессора может привести к выводу из строя всей стойки на значительный период времени. Это похоже на то, как на сервере HGX H100 с 8 графическими процессорами сбой одного графического процессора приведет к выводу из строя всех 8 H100.

Наличие хотя бы одного вычислительного лотка в качестве горячего резерва означает, что только 60 графических процессоров на стойку смогут справиться с рабочей нагрузкой. В этом случае только что упомянутые преимущества больше не существуют.


NVL36×2 или NVL72 оснащены 72 графическими процессорами, что означает, что пользователи могут не только использовать 2 вычислительных лотка в качестве горячего резерва, но также иметь по 64 графических процессора, доступных для использования в каждой стойке.

GB200A NVL36 может иметь 1 вычислительный лоток в качестве горячего резерва. В настоящее время в качестве общих факторов параллельного решения используются 2, 4, 8 и 16.

Влияние на цепочку поставок

По предположениям SemiAnaанализа, поставки GB200 NVL72/36x2 будут сокращены или задержаны, а поставки B100 и B200 HGX будут существенно сокращены.

Между тем, поставки Hopper увеличатся с четвертого квартала 2024 года по первый квартал 2025 года.

Кроме того, во второй половине года заказы на графические процессоры будут переведены с HGX Blackwell и GB200 NVL36x2 на MGX GB200A NVL36.

Это повлияет на всех ODM-производителей и поставщиков компонентов, поскольку планы поставок и доходов значительно изменятся с третьего квартала 2024 года по второй квартал 2025 года.

Использованная литература:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianasis.com/p/nvidias-blackwell-reworked-shipment