소식

희귀한!보고서: 설계 결함으로 인해 Nvidia의 최신 AI 칩 출시가 지연됨

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nvidia의 새로운 Blackwell 칩 시리즈 중 가장 발전된 AI 칩은 출시가 지연될 수 있습니다.

The Information에 따르면 이 문제에 정통한 사람들의 말을 인용하면 Nvidia의 곧 출시될 인공 지능 칩이설계 결함으로 인해 3개월 이상 지연됩니다.

이는 수백억 달러 상당의 칩을 주문한 Meta Platforms, Google 및 Microsoft와 같은 고객에게 영향을 미칠 수 있습니다.

Nvidia는 지연 발표에 대해 언급하지 않았지만 고객들이 Blackwell 칩 샘플을 테스트하고 있으며 올해 말에 "생산이 증가할 것으로 예상된다"고 말했습니다.

대량 생산 전에 주요 설계 결함이 발견되는 경우는 흔하지 않습니다.

정보는 Blackwell 칩 생산에 관련된 사람들이 최근 몇 주 동안 Blackwell 설계 문제가 발생했다고 말한 것으로 인용했습니다.TSMC 엔지니어들이 양산을 준비하던 중 결함을 발견했기 때문이다.

GB200 칩에는 연결된 Blackwell GPU 2개와 Grace 중앙 처리 장치가 포함되어 있습니다. 결함은 두 개의 Blackwell GPU에 연결된 프로세서 칩(칩의 회로를 수용하는 데 사용되는 실리콘 조각)과 관련이 있습니다. 장애물로 인해 TSMC가 Nvidia를 위해 생산할 수 있는 칩의 양이 줄어들고 회사가 생산을 중단할 수도 있습니다.

보도에 따르면 엔비디아는 칩 제조업체인 TSMC와 함께 새로운 시험 생산을 진행하고 있습니다.기계를 제한하지 않기 위해,TSMC는 이 문제를 해결하기 위해 대량 생산에 가까워지고 있는 또 다른 유명 제품의 생산을 재개했습니다.이런 상황도 드물다.

분석가들은 대량 생산 이전에 주요 설계 결함이 발견되는 것은 매우 이례적이라고 생각합니다. 제품 타당성과 원활한 제조 프로세스를 보장하려면 초기 단계에서 여러 번의 생산 테스트 실행과 시뮬레이션이 필요하기 때문입니다.

당초 계획에 따르면 TSMC는 3분기부터 블랙웰 칩 양산을 시작하고 4분기부터 엔비디아에 납품을 시작할 예정이다. 황은 지난 5월 회사가 올해 말에 블랙웰을 대량으로 출하할 계획이라고 말했다.

이러한 설계 결함 문제로 인해 Blackwell의 메인 칩(B200 및 GB200)이 3개월 이상 지연될 수 있으며 Blackwell의 양산은 내년 1분기까지 지연될 예정입니다. 클라우드 제공업체가 칩을 받은 후 대규모 클러스터를 가동하는 데는 일반적으로 약 3개월이 소요됩니다.

거인들의 기대는 실망스러웠고, 언제 물품이 들어올지 아직 불투명합니다.

블랙웰은 거대 기업의 높은 희망을 담고 있는 기술 기업의 마음 속에 있는 '하얀 달빛'으로 묘사될 수 있습니다.

B100, B200, GB200 등 곧 출시될 AI 칩이 3개월 이상 지연될 경우 엔비디아 고객들이 실망할 수도 있다.

이러한 고객에는 Microsoft, Meta, OpenAI 등이 포함됩니다. 그들은 Nvidia의 AI 칩에 대한 큰 기대를 가지고 있으며 Nvidia가 개발한 "슈퍼컴퓨터"를 사용하여 차세대 대규모 언어 모델, Meta AI 보조자 및 기타 자동화 기능을 생산할 계획입니다.

해당 정보는 이 문제에 정통한 사람들의 말을 인용해 메타가 최소 100억 달러 상당의 주문을 했고 마이크로소프트는 최근 몇 주 동안 주문 규모를 20% 늘렸다고 말했습니다. Microsoft는 2025년 1분기까지 OpenAI용 GB200 칩 55,000~65,000개를 준비할 계획입니다.

분명히 Microsoft가 이러한 주문을 받은 날짜는 알 수 없습니다.

NVLink 서버 랙이 영향을 받을 수 있음

서버 작업을 하는 회사는 서버 랙 설계를 마무리하기 전에 새로운 칩 샘플을 기다려야 하기 때문에 설계 결함은 Nvidia NVLink 서버 랙의 생산 및 배송에도 영향을 미칠 것입니다.

이전에 Tianfeng International 분석가 Ming-Chi Kuo는 GB200 NVL36의 컴퓨팅 성능 이점에 대해서는 의심의 여지가 없지만 전례 없는 많은 설계 및 생산 문제에 직면해 있다고 지적했습니다. 예정대로 대규모 출하를 보장할 수 있을지 의문입니다. .

GB200 NVL36의 각 캐비닛은 약 80kW의 전력을 소비합니다. 올해 4월 AMAX의 조사에 따르면 전 세계 데이터 센터 중 캐비닛당 50kW 서버를 지원할 수 있는 곳은 5% 미만입니다. 따라서 GB200 NVL36을 구매하기 전, 설치를 위한 충분한 공간이 있는지 확인해야 합니다.
GB200 NVL72의 단일 캐비닛 버전은 캐비닛당 130kW를 소비하며 단기간에 대량 생산할 수 없습니다.