소식

폭격장에 엔비디아가 스스로 '폭발'했다?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

저자는 전 TSMC 공장 건설 전문가 Leslie Wu입니다(공개 계정: Zihao Tanxin)

편집자 양수

자주 시장을 폭격하는 엔비디아는 3조 달러의 시장 가치를 유지하지 못했습니다.

베이징 시간으로 6월 19일 엔비디아의 시가총액은 3조 3350억 달러에 달해 마이크로소프트와 애플을 단숨에 제치고 세계 1위가 됐다. 이 하이라이트 순간을 경험한 후 Nvidia의 시장 가치는 하락하기 시작했습니다. 8월 2일 거래 종료 시점에 Nvidia의 시장 가치는 26% 감소했습니다.

이에 앞서 일부 분석가들은 투자자들에게 "브레이크를 밟아라"고 촉구했다. Daily Economic News는 투자 은행 DA Davidson 분석가 Gil Luria의 말을 인용하여 Nvidia의 기록적인 실적이 GPU 제품에 대한 최고 고객의 지출로 인해 260억 달러에 이르렀다고 말했습니다. 그는 이러한 추세가 미래에 흔들릴 것이라고 믿고 있으며 Nvidia의 주가도 마찬가지입니다. 18개월 이내에 두 자릿수 감소가 발생할 것입니다.

Gil Luria와 같은 분석가에 따르면,최고의 고객들은 다시 생각하게 되었고, Nvidia 자체의 "실수"는 고객에게 마음을 바꿀 수 있는 기회를 제공하고 경쟁업체는 이를 차단할 수 있는 기회를 제공했습니다. 이 모든 것은 낮은 CoWoS 수율을 포함하여 Blackwell 아키텍처 칩에 대한 부정적인 소문에서 시작됩니다. B100 SKU 폐기, B200 배송 지연 및 재테이프 아웃과 같은 주요 문제

TSMC 내부에서 배운 내용으로 판단하면,Nvidia의 Blackwell 칩이 다시 테이프화되고 있다는 소식은 사실이지만 주로 B100 시리즈 기본 칩과 관련이 있습니다.문제는 기본 표준 셀(standard cell)에 있습니다.——특정 기능과 크기를 가지고 미리 설계된 표준 회로 모듈입니다. 칩 설계를 빌딩 블록으로 이해하면 표준 단위는 빌딩 블록의 가장 작은 단위입니다.——고압 환경에서는 비정상적인 작업 조건이 발생할 수 있습니다., 현재까지 문제가 발견되었으므로 마스크를 다시 열어야 합니다.

하지만 전체 웨이퍼 제조 웨이퍼인(Wafer-in)부터 웨이퍼아웃(Wafer-out)까지의 시간은 단축할 수 없다. 다행히 2024년에는 소량만 출하될 예정인데, 이는 올해말 이전에 블랙웰 서버의 생산능력이 확대되는 시기가 아니다. 개인적인 경험으로 볼 때 TSMC가 진행 상황을 복구하는 것은 어렵지 않습니다.

01 배송지연의 원인이 되는 수율

B100의 폐기와 B200의 출하 지연 및 재시리즈는 엔비디아의 복잡한 네이밍과 관련된 블랙웰 칩의 '바운스 사고'에 대한 일방적인 이해이다.

Blackwell 시리즈 칩에는 B100과 B102라는 두 가지 기본 칩이 포함되어 있습니다. B200GB200을 포함한 이러한 SKU는 모두 B100 시리즈 기반 칩렛 솔루션을 사용하며 B200A는 B102를 기반으로 합니다.

이해를 돕기 위해 기본 칩 B102와 B100은 물론 해당 서버 SKU를 비교할 수 있도록 표를 작성했습니다. HGX B200A / HGX와 같은 다양한 애플리케이션에 대한 서버도 결합할 수 있습니다. B200/ NVL36/ 72는 NVL8 또는 GB210A의 공냉식 버전입니다.

블랙웰 칩과 다양한 SKU의 네이밍은 외부인들이 이해하기 헷갈리게 만드는데, 이는 이해할 수 있지만,"CoWoS 수율은 66%에 불과하며 웨이퍼 한 장에서 굿 다이(Good Die)를 10개만 잘라낼 수 있다"는 말은 상식에 어긋난다.

웨이퍼 제조의 전 단계와 후 단계에서 '수율'이라는 개념에 대해 간략하게 이야기할 수 있습니다.

Apple, Qualcomm, AMD와 같은 프런트엔드 GPU 다이의 경우 Nvidia는 이번에 매우 성숙한 N4P 프로세스를 사용하므로 수율에 대해 걱정할 필요가 없습니다.

백엔드 패키징, 특히 CoWoS의 "oS" 부분에는 GPU 다이뿐만 아니라 HBM 메모리도 포함되어 있으며, GPU 다이가 실패하면 전체 패키지가 낭비가 됩니다. 조각.따라서 수율이 80%보다 낮으면 생산 일정을 잡는 것이 불가능하고, 그렇지 않으면 비용이 무한정 늘어나 매출총이익을 보장할 수 없게 된다.

제조 과정에서 비정상적인 수율이 발생할 위험에 대처하는 측면에서 NVIDIA나 Apple 모두 새로운 솔루션에 모든 제품을 걸 수는 없습니다. 새로운 솔루션에 문제가 있으면 전 세대의 제품이 폐기될 수 있습니다. . 이 위험이 너무 크기 때문에 주문할 때 동시에 사용할 수 있는 대안이 있어야 합니다. 즉, CoWoS-L의 수율에 문제가 있어도 블랙웰 칩 출하에는 영향을 미치지 않는다는 것이다.

예를 들어 보겠습니다. Apple이 내년에 A18 칩에 TSMC의 새로운 2nm 공정을 사용하기를 원한다면 당연히 Nvidia가 이를 보장하기 위해 동시에 N3P 공정 솔루션을 개발할 것입니다. 같은.

우리가 얻은 데이터에 따르면 Blackwell은 CoWoS-L 패키징을 사용하며 현재 수율은 약 90%입니다. 그리고 업계에서 가장 철저한 CoWoS 연구를 진행하고 있는 노무라팀과 일치하는 상승세를 보이고 있습니다. 또한 연초 CoWoS-L에 대한 TSMC의 기대치는 95%였는데, CoWoS-S 패키징을 사용한 H200, H100 제품의 99% 수율과 비교하면 90%는 당연히 부진한 실적이지만, 새로운 프로세스, 거의 허용되지 않습니다.

따라서 현재 CoWoS-L의 수율은 기대만큼 좋지는 않지만,프런트엔드 GPU 다이는 표준 유닛 문제로 인해 마스크를 재설계해야 하므로 블랙웰 칩이 원활하게 생산되지 못하고, 이는 간접적으로 백엔드의 CoWoS-L 생산 능력이 중단되는 결과를 가져온다. , CoWoS-L 수율에 큰 이상이 있습니다. 백웰 칩의 출하가 원활하지 않다는 주장은 사실과 업계 상식에 어긋납니다.

실제로 B100 시리즈 기본 칩 재실리콘 문제 이전에도 B102 기본 칩을 사용하는 B200A에서는 CoWoS-L 수율이 95% 미만인 문제로 Nvidia가 이미 조정을 한 적이 있었습니다. S 패키징의 경우 원래 계획은 CoWoS-L의 생산 능력 압박을 공유하고 2025년에 더 많은 Blackwell 칩의 생산량을 보장하는 것이었습니다. 이제 이러한 조정은 Nvidia가 GPU 다이 설계 문제로 인한 일정 지연 문제를 해결하는 데 도움이 될 수 있으며, 또한 2025년에 Blackwell 칩의 전체 출하량을 늘리는 데 도움을 주세요.

02 엔비디아의 '목'을 꼬집는 사람은 누구인가?

과거 엔비디아가 컴퓨팅 파워의 목에 걸렸다는 논의가 많았지만, 엔비디아 자체의 '목'은 HBM 메모리 같은 더 업스트림 기업에 갇혔다.

현재 HBM 및 수냉식 QCD 퀵 커넥터 모듈의 공급이 상대적으로 부족하다고 해야 할까요?공급 부족으로 인해 배송이 지연되지는 않지만 기껏해야 배송 감소로 이어질 것입니다., 현 단계에서 공급이 부족한 이러한 부품의 기술은 여전히 ​​​​보장됩니다. 예를 들어 삼성은 NVIDIA의 HBM 공급 업체 시스템에 합류하기로 결정했습니다.

블랙웰 칩 출하에 실제로 영향을 미치는 것은 다양한 서버의 후속 제품화이다.

업계 체인의 소식에 따르면 현재 칩뿐만 아니라 보드 부품, 스위칭 장비, 랙, 냉각 솔루션 등도 생산 단계에 진입하고 있습니다.

8-카드 캐비닛에서 72-카드 캐비닛으로 확장할 때 네트워크 대역폭 수렴과 전체에서 다양한 병렬 전략(모델 데이터 분할, 분할 계산, 복사 및 재구성)의 최적 작업 조건을 포함하여 많은 문제를 고려해야 합니다. 캐비닛 등.. 또한, 팔레트가 많을수록 밀도가 높아지고 컴팩트해지며, 내부 배선 수, 고속 스위칭, 방열 등의 복잡한 문제로 인해 랙도 다시 설계해야 하고 모두 테스트해야 합니다. 지금.

NVL36/72 서버는 새로운 기술 솔루션이기 때문에 모든 하위 시스템과 통합의 완벽함도 위험 중 하나입니다. 과거에는 외부 세계의 초점이 실제로 높은 성숙도와 안정성에 맞춰져 있었습니다. 전체 시스템의 고려 사항도 이 세대 제품의 품질에 대한 기초입니다.

방열을 위해 수냉식을 사용하는 GB200 시리즈의 경우 액체 누출 문제도 고려해야 하며, 이는 주로 수냉식 플레이트, 분지 파이프, CDU 액체 냉각 분배 장치 및 QCD 퀵 커넥터의 세 가지 구성 요소와 관련됩니다. , 퀵 커넥터는 누수 가능성이 가장 높기 때문에 누수 서버 제조업체에게는 품질이 가장 중요하며 책임 분담과 직접적으로 관련된 문제이기도 합니다. 보통,누출이 있는 경우 Nvidia는 먼저 고객에게 보상금을 지불한 다음 Hon Hai 및 Quanta와 같은 시스템 제조업체에 청구할 것입니다. AI 서버 랙에는 쉽게 수백만 달러의 액체 누출 보상이 중소기업을 파산시킬 수 있습니다.

우리가 받은 소식에 따르면 Nvidia, Hon Hai, Quanta와 같은 시스템 제조업체는 여전히 수냉식 열 방출을 테스트하고 있으며 아직 대량으로 도입하지 않았습니다.

앞서 언급했듯이 칩 공장이든, 시스템 공장이든, 방열 공장이든 수백만 달러의 보상에 직면하면 어떤 제조업체도 이러한 위험을 쉽게 감수할 의향이 없습니다. 기니피그'가 대규모로 구현되기 전에 말이죠.

03 엔비디아는 '전복'할 것인가?

기사 서두에서 엔비디아의 시장 가치가 역사적 최고치인 3조 3천억 달러에서 현재 2조 6천억 달러로 떨어졌다고 언급했는데, 1분기 보고서가 발표되었을 때 엔비디아는 26% 이상 하락했습니다. 2분기 영업실적은 280억 달러로 자신 있게 예상됐고, 오차는 ±2% 이내였다.

이제 GPU 다이 설계 문제로 인해 CoWoS 패키징 수율이 95% 미만으로 예상되며 다양한 서버 기술 솔루션이 아직 확정되지 않아 Blackwell 칩의 원활한 출하에 영향을 미칠 것입니다. 시가총액이 수조 달러에 달하는 목록이요?

단기적으로 큰 문제는 없을 것이라고 할 수 있는데, 관건은, Blackwell 칩은 3분기에 소량 생산이 예정되어 있으며 4분기까지 생산량을 늘리지 않을 것이며 이는 단지 GPU 다이 생산을 완료한 후 다음 단계는 TSMC의 생산 일정 리듬일 뿐입니다. -end CoWoS, 그리고 Bumping 공장 마지막으로 Industrial Fii, Wistron 등의 시스템 공장으로 가서 조립을 했습니다., 서버 배송 및 성능 구현을 완료합니다.

한마디로 TSMC의 칩 출하량이 아니라 서버 출하량이 Nvidia의 매출에 영향을 미치는 것입니다.

현재 리듬에 맞춰즉, Nvidia는 내년 1분기까지 Blackwell 칩에 대한 대규모 비즈니스 증가를 달성하지 못할 것입니다.즉, 이 칩은 내년까지 엔비디아에 큰 수익을 기여하지 못할 것이라는 점 역시 원시장의 합리적인 예상이며 2분기, 심지어 3분기 실적에도 반영되지 않을 것이라는 뜻이다.

Nvidia의 경우 3분기에 설계 문제를 발견하고 솔루션을 제시한 후 TSMC에서 슈퍼 핫런을 실행하는 해당 시기는 아직 4분기 중후반, 아마도 11월에서 12월 사이일 것입니다. 생산능력 자체는 완료될 예정으로, 생산은 기본적으로 3개월 내로 계속 예정돼 있다. 게다가 TSMC는 N4P든 CoWoS-S/L이든 관계없이 지금보다 생산능력이 더 많아 가동률도 100%까지 끌어올렸다. 원래 3분기에 소량 출하 예정이었던 칩의 출하가 지연되는 문제는 기본적으로 큰 문제는 아니었습니다.연간 기준으로 올해 Blackwell의 출하량은 줄어들겠지만 크게 줄어들지는 않을 것입니다.

NVIDIA와 전체 다운스트림 산업 체인의 경우 이제 칩 문제가 노출되었으며 서버의 다양한 하위 시스템도 다양한 실제 환경에서 동시에 테스트해야 합니다. 더욱 낙관적인 점은 현재 생산되는 칩이 특정 고전압 환경에서만 문제가 있을 것이라는 점입니다. 이러한 칩은 다양한 조정 및 테스트를 위해 Hon Hai와 같은 서버 시스템 제조업체에 넘겨질 수 있습니다. 이전과 동일하게 칩을 확보하여 다양한 환경에서 테스트를 시뮬레이션하는 데 반년이 남았으며 최종 대규모 출하 시기는 2025년 2월~3월이 될 것입니다.

현 상황으로 볼 때, 2분기에는 H200의 홍수 출하를 배경으로 실적이 가이던스에 부합하고 기대치를 뛰어 넘을 가능성이 높습니다. 또한, 2023년의 주요 매출은 앞서 언급한 것처럼 H200 시리즈가 될 것입니다. , 올해 Blackwell 칩은 소규모 배치로 출하 규모가 원래 계획에서 약 20,000개의 웨이퍼로 줄어들 것입니다(CoWoS-L은 41K에서 20K 미만으로 감소). 이는 NVIDIA의 미국 전역 예상 성능으로 해석됩니다. 80억~95억 달러인데, H 시리즈는 웨이퍼 수를 늘릴 예정이다. 이번 성능 손실은 50억 달러 정도가 될 것으로 예상되며, B 시리즈 생산 이후 생산 능력을 서두르기 위한 비상 대응 조치도 반영될 수 있다. 4분기 재무 보고서에는 분명히 주가에 영향이 있을 것입니다. 결국 제품 롤오버입니다.

Blackwell 칩 "롤오버" 자체와 비교할 때 더 많은 고려와 관심을 기울여야 할 문제는 Nvidia가 매년 새로운 SKU를 출시한다는 것입니다. 이는 많은 혁신적인 기술이 필요하며, 안정성을 최적화하고 향상시킬 시간이 충분하지 않으면 속도가 매우 빠릅니다. 앞으로 몇 년 안에 특정 제품이 완전히 뒤집어질 가능성이 있다. 이는 우리가 재검토해야 할 엔비디아의 개발 논리이자 경쟁사들이 기다리고 있는 기회이기도 하다.

보다 거시적인 관점에서 볼 때 지난 2년간 NVIDIA의 성장 논리에는 문제가 없었지만 장기적인 개발 위험이 증가하고 있습니다.이러한 위험은 각 세대의 터무니없고 급진적인 기술 변화뿐만 아니라 응용 및 그에 따른 수요 문제에도 반영됩니다. 간단히 말해서 잘 알려진 "AI 버블"이거나 새로운 제품을 갖춘 강력한 경쟁자가 나타날지 여부입니다. 첨단 칩 기술을 보유하거나 대형 모델을 마스터한 업스트림 기업들이 자체 연구를 시작했습니다.

나는 실제로 지난 이틀 동안 중국과 미국의 거대 기업에 관한 많은 보고를 보았습니다. 그들은 모두 자체적으로 연구를 중단했습니다. 다음은 참고할 만한 소식입니다.오픈AI자체 개발한 칩 프로젝트는 TSMC와 거의 협상 중이다.