Новости

Выставлена ​​напоказ кастрированная версия B200A от Nvidia!Самую мощную архитектуру чипа трудно изготовить: производственных мощностей недостаточно, и ее можно восполнить навыками ножа.

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Менгчен родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Выпуск самого мощного чипа NVIDIA, B200, пришлось отложить на три месяца, и слухов было много.

Вот и контрмера Лао Хуана: кастрированная версия чипаБ200Аконтакт.

Это оно?«Производственных мощностей недостаточно, поэтому нам нужно использовать навыки владения ножом, чтобы компенсировать это».



Все верно, согласно анализу SemiAnaанализа, основная проблема, с которой столкнулся B200, заключается именно вНедостаточная производственная мощность, более конкретноНовый упаковочный процесс TSMC CoWoS-L имеет недостаточную производственную мощность

Кастрированная версия B200A сначала будет использоваться для удовлетворения потребностей систем искусственного интеллекта среднего и низкого уровня.

Кастрированная версия B200A, уменьшается пропускная способность памяти

Почему B200A называют кастрированной версией?

Показатель в основном отражается на пропускной способности памяти.4ТБ/с, что напрямую сравнимо с 8 ТБ/с, представленными B200 на пресс-конференции в начале года.Уменьшился вдвое



За этим стоит процесс упаковки CoWoS-L.Возвращен CoWoS-SГоворят, что даже B200A совместим с другими технологиями упаковки 2.5D, отличными от TSMC, такими как Samsung.

В целом расширенная упаковка CoWoS в настоящее время имеет три варианта: CoWoS-С、CoWoS-ри CoWoS-Л, основное отличие заключается в промежуточном решении.

промежуточный элементМежду пластиной чипа и печатной платой он осуществляет обмен информацией между чипом и подложкой упаковки, обеспечивая при этом механическую поддержку и возможности рассеивания тепла.

CoWoS-S имеет простейшую структуру, а промежуточный элемент эквивалентен кремниевой пластине.



CoWoS-R используетсятехнология РДЛ(Перераспределяющий слой, перераспределительный слой), промежуточный слой представляет собой тонкий металлический материал с многослойной структурой.



CoWoS-L является самым сложным, добавляяLSI-чип(Local Silicon Interconnect, локальное кремниевое соединение), которое позволяет добиться более высокой плотности проводки, а также может быть изготовлено в больших размерах.



TSMC запустила CoWoS-L, поскольку старая технология столкнулась с трудностями при дальнейшем росте размеров и производительности.

Например, в чипе ускорения искусственного интеллекта AMD MI300 уровень промежуточного слоя CoWoS-S был расширен в 3,5 раза по сравнению с исходным стандартом, но удовлетворить будущие потребности в росте производительности чипа искусственного интеллекта по-прежнему сложно.

Но теперь появились новости о том, что CoWoS-L столкнулся с некоторыми проблемами во время увеличения производственных мощностей, и могут возникнуть проблемы между кремнием, интерпозером и подложкой.Несоответствие коэффициента теплового расширения, приводящее к изгибу, необходимо перепроектировать.

В прошлом TSMC построила большой объем производственных мощностей CoWoS-S, причем наибольшую долю занимала Nvidia. Теперь спрос Nvidia может быстро перейти на CoWoS-L, но TSMC потребуется время, чтобы перевести свои производственные мощности на новый процесс.

Кроме того, есть новости, что ядро ​​B200A (внутренняя модель B102) в будущем будет использовано и для изготовления специальной версии B20. Подробности вдаваться не буду.

Обучение больших моделей B200 также сталкивается с другими проблемами

Основная спецификация, продвигаемая Blackwell, — «новое поколение вычислительных блоков».ГБ200 NVL72, один шкаф имеет 36 процессоров + 72 графических процессора.

Вычислительная мощность очень хорошая. Обучающая вычислительная мощность одного кабинета с точностью FP8 достигает 720 Пфлопс, что близко к мощности суперкомпьютерного кластера DGX SuperPod (1000 Пфлопс) в эпоху H100.

Но энергопотребление также очень хорошее.Удельная мощностьПримерно на шкаф125кВт , беспрецедентный. Это создает проблемы с точки зрения электропитания, рассеивания тепла, проектирования сети, параллелизма, надежности и т. д.

Фактически, индустрия еще не полностью освоила кластер карт H1 млн, который использовался для обучения крупных моделей.

Например, в техническом отчете серии Llama 3.1 указывалось, что во время обучения средний сбой возникал раз в три часа, из которых 58,7% были вызваны графическим процессором.

Из общего числа 419 сбоев 148 были вызваны различными сбоями графического процессора (включая сбои NVLink), а 72 были вызваны именно сбоями памяти HBM3.



Таким образом, в целом, даже если Лао Хуан наконец выпустит B200, ИИ-гиганту все равно потребуется больше времени, чтобы фактически построить кластер B200 и инвестировать в обучение крупных моделей.

GPT-5, Claude 3.5 Opus, Llama 4 и т. д., которые уже начали обучение или близятся к завершению, не могут быть использованы. Мощь Блэквелла не будет засвидетельствована до следующего поколения моделей.

Еще кое-что

В ответ на слухи об отсрочке B200 NVIDIA дала официальный ответ:

Спрос на Hopper высок, и начались широкомасштабные испытания образцов Blackwell.Ожидается увеличение производства во втором полугодии.

Конкретного ответа на вопрос, будет ли он отложен на три месяца, не будет.

Однако Morgan Stanley в своем последнем отчете был более оптимистичен, полагая, что производство будет приостановлено примерно на две недели.

Справочные ссылки:
[1]https://x.com/dylan522p/status/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
[3]https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/news-blackwell-enters-the-scene-a-closer-look-at-tsmcs-cowos-branch/
[5]https://ieeexplore.ieee.org/document/9501649