моя контактная информация
Почта[email protected]
2024-08-05
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Менгчен родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI
Выпуск самого мощного чипа NVIDIA, B200, пришлось отложить на три месяца, и слухов было много.
Вот и контрмера Лао Хуана: кастрированная версия чипаБ200Аконтакт.
Это оно?«Производственных мощностей недостаточно, поэтому нам нужно использовать навыки владения ножом, чтобы компенсировать это».?
Все верно, согласно анализу SemiAnaанализа, основная проблема, с которой столкнулся B200, заключается именно вНедостаточная производственная мощность, более конкретноНовый упаковочный процесс TSMC CoWoS-L имеет недостаточную производственную мощность。
Кастрированная версия B200A сначала будет использоваться для удовлетворения потребностей систем искусственного интеллекта среднего и низкого уровня.
Кастрированная версия B200A, уменьшается пропускная способность памяти
Почему B200A называют кастрированной версией?
Показатель в основном отражается на пропускной способности памяти.4ТБ/с, что напрямую сравнимо с 8 ТБ/с, представленными B200 на пресс-конференции в начале года.Уменьшился вдвое。
За этим стоит процесс упаковки CoWoS-L.Возвращен CoWoS-SГоворят, что даже B200A совместим с другими технологиями упаковки 2.5D, отличными от TSMC, такими как Samsung.
В целом расширенная упаковка CoWoS в настоящее время имеет три варианта: CoWoS-С、CoWoS-ри CoWoS-Л, основное отличие заключается в промежуточном решении.
промежуточный элементМежду пластиной чипа и печатной платой он осуществляет обмен информацией между чипом и подложкой упаковки, обеспечивая при этом механическую поддержку и возможности рассеивания тепла.
CoWoS-S имеет простейшую структуру, а промежуточный элемент эквивалентен кремниевой пластине.
CoWoS-R используетсятехнология РДЛ(Перераспределяющий слой, перераспределительный слой), промежуточный слой представляет собой тонкий металлический материал с многослойной структурой.
CoWoS-L является самым сложным, добавляяLSI-чип(Local Silicon Interconnect, локальное кремниевое соединение), которое позволяет добиться более высокой плотности проводки, а также может быть изготовлено в больших размерах.
TSMC запустила CoWoS-L, поскольку старая технология столкнулась с трудностями при дальнейшем росте размеров и производительности.
Например, в чипе ускорения искусственного интеллекта AMD MI300 уровень промежуточного слоя CoWoS-S был расширен в 3,5 раза по сравнению с исходным стандартом, но удовлетворить будущие потребности в росте производительности чипа искусственного интеллекта по-прежнему сложно.
Но теперь появились новости о том, что CoWoS-L столкнулся с некоторыми проблемами во время увеличения производственных мощностей, и могут возникнуть проблемы между кремнием, интерпозером и подложкой.Несоответствие коэффициента теплового расширения, приводящее к изгибу, необходимо перепроектировать.
В прошлом TSMC построила большой объем производственных мощностей CoWoS-S, причем наибольшую долю занимала Nvidia. Теперь спрос Nvidia может быстро перейти на CoWoS-L, но TSMC потребуется время, чтобы перевести свои производственные мощности на новый процесс.
Кроме того, есть новости, что ядро B200A (внутренняя модель B102) в будущем будет использовано и для изготовления специальной версии B20. Подробности вдаваться не буду.
Обучение больших моделей B200 также сталкивается с другими проблемами
Основная спецификация, продвигаемая Blackwell, — «новое поколение вычислительных блоков».ГБ200 NVL72, один шкаф имеет 36 процессоров + 72 графических процессора.
Вычислительная мощность очень хорошая. Обучающая вычислительная мощность одного кабинета с точностью FP8 достигает 720 Пфлопс, что близко к мощности суперкомпьютерного кластера DGX SuperPod (1000 Пфлопс) в эпоху H100.
Но энергопотребление также очень хорошее.Удельная мощностьПримерно на шкаф125кВт , беспрецедентный. Это создает проблемы с точки зрения электропитания, рассеивания тепла, проектирования сети, параллелизма, надежности и т. д.
Фактически, индустрия еще не полностью освоила кластер карт H1 млн, который использовался для обучения крупных моделей.
Например, в техническом отчете серии Llama 3.1 указывалось, что во время обучения средний сбой возникал раз в три часа, из которых 58,7% были вызваны графическим процессором.
Из общего числа 419 сбоев 148 были вызваны различными сбоями графического процессора (включая сбои NVLink), а 72 были вызваны именно сбоями памяти HBM3.
Таким образом, в целом, даже если Лао Хуан наконец выпустит B200, ИИ-гиганту все равно потребуется больше времени, чтобы фактически построить кластер B200 и инвестировать в обучение крупных моделей.
GPT-5, Claude 3.5 Opus, Llama 4 и т. д., которые уже начали обучение или близятся к завершению, не могут быть использованы. Мощь Блэквелла не будет засвидетельствована до следующего поколения моделей.
Еще кое-что
В ответ на слухи об отсрочке B200 NVIDIA дала официальный ответ:
Спрос на Hopper высок, и начались широкомасштабные испытания образцов Blackwell.Ожидается увеличение производства во втором полугодии.。
Конкретного ответа на вопрос, будет ли он отложен на три месяца, не будет.
Однако Morgan Stanley в своем последнем отчете был более оптимистичен, полагая, что производство будет приостановлено примерно на две недели.
Справочные ссылки:
[1]https://x.com/dylan522p/status/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
[3]https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/news-blackwell-enters-the-scene-a-closer-look-at-tsmcs-cowos-branch/
[5]https://ieeexplore.ieee.org/document/9501649