소식

엔비디아 '쇠퇴의 원인' : 최첨단 칩, 성능이 강력할수록 제조는 어려워진다

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

작가 |

에디터 | 하드 ai

엔비디아의 '쇠퇴 원인'을 한 문장으로 요약한다면, 성능이 강할수록 제조가 어려운 최첨단 칩이 될 것이다.

엔비디아는 지난 수요일 강력한 분기별 매출과 이익을 보고하면서 새로운 칩의 제조 어려움으로 인해 이익 마진이 낮아졌으며 회사가 최근 분기에 9억 800만 달러의 준비금을 확보했다고 언급했습니다. 이 영향으로 목요일 주가는 6.4% 하락했다.

이 회사는 성명을 통해 blackwell 아키텍처 gpu에 수율 문제가 있으며 수율을 향상시키기 위해 b200 프로세서 설계의 일부를 재설계해야 함을 인정했습니다. 따라서 차세대 blackwell 아키텍처 gpu의 대량 생산은 2024년 4분기로 연기될 것입니다.

"우리는 생산 수율을 향상시키기 위해 blackwell gpu의 설계를 조정했습니다. blackwell의 생산 계획은 4분기에 시작하여 2026 회계연도까지 계속될 것입니다.

우리는 blackwell 제품이 4분기에 수십억 달러의 수익을 창출할 것으로 기대합니다. "

nvidia는 문제의 구체적인 원인에 대해 자세히 설명하지 않았습니다. 그러나 분석가와 업계 경영진은 엔지니어링 문제가 주로 blackwell 칩 설계로 인한 복잡한 제조 공정 문제에서 비롯된다고 믿습니다.

분석에 따르면 blackwell의 거대한 크기와 복잡한 설계로 인해 전례 없는 제조 복잡성이 발생하여 모든 구성 요소의 결함으로 인해 칩이 폐기되어 수율과 수익에 영향을 미칠 수 있다고 지적되었습니다. 또한 칩의 다양한 부분의 열팽창 계수 차이로 인해 패키지 뒤틀림이 발생하여 성능과 신뢰성에 영향을 미칠 수도 있습니다.

엔비디아는 수율 향상을 위해 블랙웰 디자인을 조정했으며, 계획대로 생산량을 늘릴 계획이다. 그러나 분석가들은 tsmc의 새로운 칩 연결 기술을 채택하는 데 따른 복잡성과 칩 크기로 인한 본질적인 문제가 blackwell의 대량 생산에 주요 장애물로 남아 있을 것이라고 믿습니다.

산업 분석 회사 techinsights의 부사장인 g. dan hutcheson은 다음과 같이 말했습니다.

"문제는 어떻게 칩을 함께 작동시켜 수율을 향상시킬 수 있는가이다. 칩의 각 부분의 수율이 충분히 높지 않으면 모든 것이 빠르게 나빠질 수 있다."

01

blackwell 칩의 복잡성

엔비디아(nvda)는 인공지능 칩 분야에서 선두 자리를 유지하기 위해 '클수록 좋다'는 개념에 의지하고 있다. 그러나 크기가 클수록 성능은 더욱 강력해지지만 제조 난이도도 높아집니다.

nvidia의 최신 ai 칩인 blackwell은 jen-hsun huang에 의해 "매우 큰 gpu"로 묘사됩니다. 물리적인 의미에서 이는 실제로 두 개의 blackwell 다이로 구성되며 tsmc의 4nm 프로세스를 사용합니다. 2080억 개의 트랜지스터를 탑재해 이전 세대의 2.6배에 달한다.

ubs 분석가들은 이달 초 보고서에서 nvidia가 blackwell과 관련하여 직면한 주요 문제는 tsmc의 새로운 cowos-l 패키징 방법을 채택하는 데 따른 복잡성이라고 밝혔습니다.

반도체 업계 전문 매체인 세미애널리시스(semianalytics)는 이 패키징 기술이 로컬 실리콘 인터커넥트(lsi) 브리지를 갖춘 rdl 인터포저를 사용해 코어 입자를 연결하며 전송 속도가 약 10tb/s에 달할 수 있다고 보도했다. 브리지에는 매우 높은 요구 사항이 있습니다. 한 구성 요소에 결함이 있으면 $40,000 상당의 칩 전체가 폐기되어 수율과 이익에 영향을 미칠 수 있습니다.

또한 gpu 다이, lsi 브리지, rdl 인터포저 및 마더보드 기판 간의 열팽창 계수(cte) 불일치로 인해 칩 변형 및 시스템 오류가 발생합니다. 보도에 따르면 엔비디아는 수율을 높이기 위해 gpu 칩의 상단 금속층과 범프를 재설계해야 했습니다.

huang jenxun은 분석가들과의 전화 회의에서 blackwell 칩에는 "기능적 변경"이 필요하지 않으며 모든 조정은 수율을 향상시키기 위한 것이라고 강조했습니다.

최고 재무 책임자(cfo) colette kress는 nvidia가 계획대로 blackwell의 생산량을 늘리고 있으며 blackwell이 4분기에 수십억 달러의 수익을 회사에 가져올 것으로 기대한다고 말했습니다.

02

마이크론, 신규 dram 생산 확대 계획 추가

일본 언론 보도에 따르면 마이크론은 이르면 2027년 말 가동을 목표로 일본 히로시마현에 새로운 d램 칩 생산 공장을 건설할 계획이다.

이러한 유형의 문제는 nvidia에만 국한되지 않습니다. 업계 관계자는 칩 제조업체들이 칩 크기를 늘려 처리 능력을 높이려고 함에 따라 이러한 문제가 더욱 커질 것이라고 말했습니다. 결함을 제거하거나 수율을 개선하기 위한 칩 설계 변경도 업계에서 흔히 발생합니다.

거대 칩 amd의 ceo인 su zifeng은 칩 크기가 계속 증가함에 따라 제조 복잡성도 필연적으로 증가할 것이라고 지적했습니다.차세대 칩은 인공 지능 데이터 센터의 엄청난 컴퓨팅 성능 수요를 충족하기 위해 에너지 효율성과 전력 소비 측면에서 획기적인 발전을 이루어야 합니다.

"이러한 기술을 작동시키려면 많은 기술적 투자가 필요합니다"라고 그녀는 말했습니다. "더 복잡해지고 커질까요? 의심의 여지가 없습니다. 그게 우리의 현실입니다."

물론 단일 칩의 크기 제한을 돌파하기 위해 두 개의 가장 큰 칩을 결합해 블랙웰을 만들겠다는 엔비디아의 파격적인 전략도 경쟁사들의 의구심을 불러일으켰다.

경쟁사인 cerebras systems의 창립자인 andrew feldman은 멀티 칩 조합 기술 개발의 어려움이 기하급수적으로 증가할 것이라고 믿습니다. cerebras systems는 nvidia의 시장 지위에 도전하기 위해 거대한 단일 칩을 개발하기로 결정하고 이를 기반으로 하는 인공 지능 클라우드 컴퓨팅 서비스를 출시했습니다.

앤드루 펠드먼은 이렇게 말했습니다.

"인공지능 분야에서 의미 있는 작업을 수행하려면 많은 컴퓨팅 성능이 필요하며, 여기에는 단일 칩이 수용할 수 있는 것보다 더 많은 트랜지스터가 필요합니다.

2칩 기술 개발은 이미 어렵고, 4칩 기술 개발은 더욱 어렵고, 8칩 기술 개발은 더욱 어렵다. "

nvidia의 거대한 칩 전략이 궁극적으로 승리할 수 있을지 여부는 시장에서 테스트되어야 합니다. 그러나 확실한 것은 칩 제조의 궁극적인 도전이 이제 막 시작되었다는 것입니다.