소식

엔비디아의 거세 버전 B200A 공개!가장 강력한 칩 아키텍처는 생산하기 어렵습니다. 생산 능력이 충분하지 않으며 칼 기술로 보충할 수 있습니다.

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen은 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI

NVIDIA의 가장 강력한 칩인 B200은 3개월간 연기될 수밖에 없었고 소문이 무성했습니다.

Lao Huang의 대책은 다음과 같습니다: 칩의 거세 버전B200A노출.

이게 다야?“생산능력이 부족해서 칼솜씨를 활용해서 보완해야 해요.”



맞습니다. SemiAnalytic 분석에 따르면 B200이 직면한 주요 문제점은 바로 다음과 같습니다.생산능력이 부족하다, 더 구체적으로TSMC의 새로운 패키징 공정인 CoWoS-L은 생산능력이 부족하다

B200A의 거세 버전은 중저가형 AI 시스템의 요구를 충족시키기 위해 먼저 사용될 것입니다.

B200A의 거세 버전, 메모리 대역폭 축소

B200A를 거세버전이라고 하는 이유는 무엇인가요?

표시기는 주로 메모리 대역폭에 반영됩니다.4TB/초, 연초 기자간담회에서 B200이 추진한 8TB/s와 직접적으로 비교됐다.반으로 줄었어요



그 뒤에는 CoWoS-L의 포장 공정이 있습니다.CoWoS-S 반환, 심지어 B200A도 삼성 등 TSMC가 아닌 다른 2.5D 패키징 기술과 호환된다고 합니다.

일반적으로 CoWoS 고급 패키징에는 현재 세 가지 변형이 있습니다.에스、CoWoS-아르 자형그리고 CoWoS-, 주요 차이점은 인터포저 솔루션에 있습니다.

인터포저칩 웨이퍼와 인쇄 회로 기판 사이에서 칩과 패키징 기판 간의 정보 교환을 실현하는 동시에 기계적 지원과 열 방출 기능을 제공합니다.

CoWoS-S는 가장 단순한 구조를 갖고 있으며, 인터포저는 실리콘판과 동일하다.



CoWoS-R 사용RDL 기술(재분배층, 재분배층) 인터포저는 다층 구조의 얇은 금속 소재입니다.



CoWoS-L은 가장 복잡하며LSI 칩(Local Silicon Interconnect, Local Silicon Interconnect) 더 높은 배선 밀도를 달성할 수 있고 더 큰 크기로 만들 수도 있습니다.



TSMC가 CoWoS-L을 출시한 이유는 기존 기술이 크기와 성능 면에서 지속적으로 성장하는 데 어려움을 겪었기 때문입니다.

예를 들어 AMD의 AI 가속 칩 MI300에서는 CoWoS-S 인터포저 레이어가 원래 표준의 3.5배로 확장되었지만 여전히 향후 AI 칩 성능 성장 요구 사항을 충족하기 어렵습니다.

하지만 이제 CoWoS-L이 생산 능력을 늘리는 과정에서 일부 문제에 부딪혔고, 실리콘과 인터포저, 기판 사이에 문제가 발생할 수 있다는 소식이 전해지고 있습니다.열팽창 계수 불일치로 인해 굽힘 발생, 재설계가 필요합니다.

과거 TSMC는 CoWoS-S 생산능력을 대량으로 구축해왔으며 엔비디아가 가장 큰 점유율을 차지했다. 이제 Nvidia의 수요가 CoWoS-L로 빠르게 전환될 수 있지만 TSMC가 생산 능력을 새로운 프로세스로 전환하는 데는 시간이 걸릴 것입니다.

게다가 B200A(내부모델 B102)의 핵심을 활용해 향후 스페셜 에디션 B20도 만든다는 소식도 있는데 자세한 내용은 다들 아시죠.

B200 교육 대형 모델도 다른 과제에 직면해 있습니다.

블랙웰이 추진하는 주요 사양은 '차세대 컴퓨팅 유닛'이다.GB200 NVL72, 하나의 캐비닛에는 36개의 CPU + 72개의 GPU가 있습니다.

컴퓨팅 성능은 매우 우수합니다. FP8 정밀도의 캐비닛 하나의 훈련 컴퓨팅 성능은 720PFlops로 H100 시대의 DGX SuperPod 슈퍼컴퓨터 클러스터(1000PFlops)에 가깝습니다.

그러나 Semianalyse의 추정에 따르면 전력 소비도 매우 좋습니다.출력 밀도대략 캐비닛당125kW , 전례 없는. 전원 공급 장치, 열 방출, 네트워크 설계, 병렬성, 신뢰성 등의 측면에서 문제가 발생합니다.

실제로 업계에서는 아직까지 대규모 모델 훈련에 사용했던 H100만 카드 클러스터를 완전히 길들이지 못했습니다.

예를 들어 Llama 3.1 시리즈의 기술 보고서에서는 훈련 중에 평균 3시간에 한 번씩 실패가 발생했으며, 그 중 58.7%가 GPU에 의해 발생했다고 지적했습니다.

총 419개의 오류 중 148개는 다양한 GPU 오류(NVLink 오류 포함)로 인해 발생했으며 72개는 특히 HBM3 메모리 오류로 인해 발생했습니다.



따라서 일반적으로 Lao Huang이 마침내 B200을 출시하더라도 AI 거대 기업이 실제로 B200 클러스터를 구축하고 대규모 모델 훈련에 투자하는 데는 여전히 더 많은 시간이 걸릴 것입니다.

이미 훈련을 시작했거나 완료를 앞두고 있는 GPT-5, 클로드 3.5 오푸스, 라마 4 등은 차세대 모델이 나올 때까지 블랙웰의 위력을 발휘하지 못할 수도 있다.

하나 더

B200 연기 소문에 대해 NVIDIA는 공식 답변을 제공했습니다.

Hopper에 대한 수요가 강하고 Blackwell의 샘플 시험이 광범위하게 시작되었습니다.하반기 생산량 증가 기대

3개월간 늦어질지 여부에 대해서는 구체적인 답변을 드리지 않습니다.

그러나 모건스탠리는 최근 보고서에서 생산이 약 2주만 중단될 것이라고 믿으며 보다 낙관적이었다.

참조 링크:
[1]https://x.com/dylan522p/상태/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
[3]https://3dfabric.tsmc.com/영어/전용파운드리/기술/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/뉴스-블랙웰-진입-더-신-더-클로저-룩-앳-TSMCS-카우오스-브랜치/
[5]https://ieeexplore.ieee.org/document/9501649