소식

3조 칩 기업, 그들도 살아남으려고 하는 걸까?

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

엔비디아는 중국 시장을 위한 특수 AI 칩을 다시 생산할 계획이다.

로이터 통신의 최신 보고서에 따르면 이 문제에 정통한 사람들은 인텔이 현재 미국 수출 통제 요구 사항을 충족하는 중국 시장을 위한 새로운 주력 AI 칩을 개발하고 있으며 국내 Nvidia 특수 칩 라인업에 또 다른 구성원을 추가하고 있다고 말했습니다.

Nvidia가 올해 3월에 "Blackwell" 시리즈를 출시했다는 점은 언급할 가치가 있습니다. Nvidia에 따르면 B200은 특정 작업에서 이전 제품보다 30배 더 빠릅니다. 현재 사용 가능한 최고의 AI 칩 중 하나입니다.

이 새로운 특별 플래그십 칩은 B200과도 관련이 있습니다. 소식통은 Nvidia가 중국의 주요 유통 파트너 중 하나인 Inspur Group과 협력하여 이름을 가칭으로 판단하면 이 칩을 출시하고 배포할 것이라고 말했습니다. B200의 일부 기능이 있을 수 있습니다.

이 B20을 계산하면 불과 1년여 만에 Nvidia는 중국 시장을 위해 7~8개의 특수 칩을 출시했습니다.

A800 및 H800

2022년 10월 7일, 미국 정부는 중국에 대한 특정 반도체 칩과 칩 제조 장비 공급을 중단하는 등 일련의 수출 통제 조치를 발표했습니다.

포토리소그래피 기계 등 생산 장비에 영향을 미치는 것 외에도 엔비디아, AMD 등 미국 기업이 해당 칩을 중국에 판매하는 것을 금지하고 중국의 인공지능 칩을 제한하는 등 첨단 프로세스에 따른 고성능 컴퓨팅 및 인공지능 칩에 대한 중국의 접근도 제한한다. 칩 업체들은 미국 기술로 해외 팹 공장에서 테이프아웃을 진행한다.

이 수출 제한으로 인해 Nvidia와 AMD가 모두 영향을 받았습니다.

엔비디아는 제한이 도입된 후 금지 조치가 기계 학습 작업을 가속화하도록 설계된 A100 및 H100 칩에 영향을 미치고 2022년에 출시될 주력 H100 칩의 개발 완료를 방해할 수 있다고 밝혔습니다. 해당 분기 동안 중국에서 영향을 받는 칩 판매량이 4억 달러에 이르렀다고 지적했습니다. 중국 기업들이 Nvidia의 교체 제품을 구매하지 않기로 결정하면 이 돈은 헛된 손실이 될 것입니다.

그렇다면 미국의 수출 제한은 Nvidia 칩을 정확히 어떻게 제한합니까?

2022년 10월 7일 미국 상무부가 발표한 고급 컴퓨팅 집적 회로(ECCN 3A090 및 4A090)에 대한 수출 제한 규정에 따라 통제 품목 목록은 다음 조건을 충족해야 합니다.

a. 휘발성 메모리를 제외하고 모든 입력 및 출력의 총 양방향 전송 속도가 600GB/s 이상이거나 프로그래밍 가능한 집적 회로 및 다음 집적 회로:

a.1 기계 명령을 실행하는 하나 이상의 디지털 프로세서 유닛, 각 작업의 비트 길이에 TOPS의 처리 성능을 곱하고 모든 프로세서 유닛의 합이 4800 이상입니다.

a.2 하나 이상의 디지털 "원시 컴퓨팅 장치"(3A090.a.1의 TOPS 컴퓨팅과 관련된 기계 명령 실행을 지원하는 장치 제외)는 작업당 비트 길이에 모든 컴퓨팅 장치의 합을 곱합니다. TOPS 처리 성능은 4800 이상입니다.

a.3 처리 성능이 TOPS에 8을 곱하여 계산되고 모든 컴퓨팅 장치의 총합이 4800에 도달하거나 초과하는 하나 이상의 시뮬레이션, 다중 값 또는 다중 레벨 "원래 컴퓨팅 장치"

a.4. 3A090.a.1, 3A090.a.2 및 3A090.a.3에 따라 계산된 합계가 4800 이상인 디지털 프로세서 장치와 "원래 컴퓨팅 장치"의 조합.

3A090.a에 설명된 집적 회로에는 그래픽 처리 장치(GPU), 텐서 처리 장치(TPU), 신경 프로세서, 메모리 프로세서, 비전 프로세서, 텍스트 프로세서, 보조 프로세서/가속기, 적응형 처리 장치, 현장 프로그래밍 가능 논리 장치가 포함됩니다. (FPLD) 및 ASIC(주문형 집적 회로).

가장 중요한 것은 칩 상호 연결 속도의 한계라고 보는 것은 어렵지 않습니다. 이 규정에 따르면 NVIDIA의 인기 제품인 A100은 정확히 그 한계 내에 들어갔고, 칩 간 전송 속도는 특정 기준에서 600GB/s에 도달했습니다. 어느 정도는 미국 상무부가 A100을 기준으로 이 제한을 지정했을 수도 있습니다.

수출 통제에 대처하기 위해 NVIDIA는 A100-A800의 대체품을 신속하게 거세했습니다. 미국 금지 조치는 2022년 10월 7일에 공식적으로 발표되었으며, 한 달 후 NVIDIA는 새로운 규정에 적응하는 A800을 내놓았다고 할 수 있습니다. 과거에는 지역 여건에 맞춰 조정됐지만 이제는 정책 여건에 맞춰 조정됐다.

사양에 따르면 NVIDIA A800은 Ampere A100 GPU와 동일한 칩 아키텍처를 사용합니다. 40GB와 80GB의 두 가지 PCIe 버전, 80GB SXM 버전 등 세 가지 버전으로 제공됩니다. 이 GPU는 최대 9.7 TFLOP(FP64), 19.5 TFLOP(FP64 Tensor Core), 19.5 TFLOP(FP32), 156 TFLOP를 제공합니다. (312 TFLOP 희소성) TF32, 312 TFLOP (624 TFLOP 희소성) BFLOAT16 및 624 TOPS (1248 TOP 희소성) INT8 성능. 40GB 버전에는 최대 1.555TB/s 대역폭의 HBM2 메모리가 탑재되고, 80GB 버전에는 최대 2TB/s 대역폭의 HBM2e가 탑재됩니다.

물론 제한된 수요를 충족하기 위해 대역폭은 필연적으로 원래 600GB/s에서 400GB/s로 감소했습니다. Nvidia 대변인은 Reuters에 보낸 성명에서 다음과 같이 말했습니다. 중국 고객을 위한 A100 GPU의 대안인 A800은 미국 정부의 명시적인 수출 통제 완화 테스트를 충족하며 해당 표준 이상으로 프로그래밍할 수 없습니다.”

CCS Insight 분석가 Wayne Lam은 "A800은 최근 상무부의 무역 제한을 피하기 위해 설계된 재포장된 A100 GPU인 것으로 보인다"고 말하면서 중국에서는 8이 행운의 숫자라고 지적했습니다.

Lam은 "중국은 Nvidia에게 중요한 시장이며 무역 제한을 피하기 위해 제품을 재구성하는 것이 좋은 사업상 합리적입니다"라고 Lam은 말했습니다. Lam은 수천 개의 칩을 사용하는 데이터 센터에서 A800의 칩 간 통신 기능이 크게 감소했다고 말했습니다.

후속 H100에서 Nvidia는 이를 따라 H800을 내놓았습니다. A100에서 Nvidia는 GPU의 600GB/s 상호 연결을 400GB/s로 떨어뜨렸고 H100에서도 동일한 작업을 수행했습니다. 보도에 따르면 H800의 칩 상호 연결 속도는 H100의 절반 정도, 즉 800GB/s에서 400GB/s로 감소했습니다. A800과 비교하면 H800의 성능이 더 큰 영향을 미친다. 결국 전자는 33%만 줄었고 후자는 50%나 줄었다.

당시 엔비디아 대변인은 "우리의 800 시리즈 제품은 수출 통제 규정을 완벽하게 준수한다"며 중국 시장용 H800과 H100의 차이점 공개를 거부했다.

해외 제조업체가 A100과 H100을 미친 듯이 구매하는 상황에서 국내 제조업체는 더 낮은 구성의 H800과 A800만 선택할 수 있습니다. NVIDIA의 특수 버전 칩으로 인해 국내 대형 AI 모델 개발이 어느 정도 제한되었습니다.

H20 및 RTX 4090D

국내 기업의 경우 A800과 H800의 품질이 좋고 나쁜 점이 있는데, 인터넷 대역폭을 끊은 후 이 두 칩의 성능이 조금 떨어지고, 훈련 속도도 훨씬 느려진다는 점입니다. 그것은 좋고 나쁨입니다. Zhengcheng 채널을 통해 주문할 수 있지만 외국 회사에 비해 칩 비용이 더 높습니다.

하지만 A800과 H800 역시 1년을 넘기지 못했습니다. 2023년 10월 17일, 미국 상무부는 고급 컴퓨팅 집적 회로, 반도체 제조 장비, 슈퍼컴퓨팅 애플리케이션 및 최종 용도를 지원하는 품목의 수출을 규제하기 위해 2022년 10월 7일에 발표된 새로운 통제 규칙을 발표했습니다. 추가 업데이트.

그 중 가장 중요한 것은 제어 매개변수의 변경입니다. 임시 최종 규칙은 ECCN 3A090에 따라 제한된 칩을 식별하기 위한 매개변수로 "상호 연결 대역폭"을 제거하고, 대신 ECCN 3A090에 따라 제한된 칩을 식별하기 위한 매개변수로 "상호 연결 대역폭"으로 대체합니다. 칩이 ECCN 3A090(3A090.a 및 3A090.b)에서 보정된 두 가지 매개변수를 초과하면 수출이 제한됩니다.

미국 상무부 문서에 따르면 개정된 3A090.a 규제 매개변수는 하나 이상의 디지털 처리 장치가 있는 집적 회로를 규제하며 이러한 장치의 "총 처리 성능"은 4800 이상 또는 "총 처리 성능"이 되어야 합니다. 성능'은 1600 이상, '성능 밀도'는 5.92 이상입니다. 새로운 ECCN 3A090.b는 "총 처리 성능"이 2400 이상 4800 미만이고 "성능 밀도"가 1.6 또는 1.6인 조건 중 하나를 충족해야 하는 하나 이상의 디지털 처리 장치가 있는 집적 회로를 규제합니다. 5.92 이상 5.92 미만, 또는 "총 처리 성능"이 1600 이상이고, "성능 밀도"가 3.2 이상 3.2 이상 5.92 미만이다.

또한 이 규칙은 제한 임계값 미만의 인공 지능 기능을 갖춘 소비자급 IC에 대해 새로운 "고급 컴퓨팅에 대한 라이센스 예외 통지"를 생성하는 라이센스 예외를 생성합니다. 이 예외는 데이터 사용을 위해 설계된 제품 또는 판매된 칩 등 두 가지 제품에 적용됩니다. 두 번째는 데이터 센터용으로 설계되거나 판매되지 않은 칩인 센터는 4800 이상의 "총 처리 성능"을 갖습니다.

2022년 10월 7일 규정과 비교하여, 새로운 규정은 총 가공 성능과 성능 밀도의 이중 규정에 따라 비거세 제품과 거세 제품 모두 수출 통제 대상에 포함됩니다. 스코프, A800, H800이 영향을 받았고, 다른 엔비디아 제품도 영향을 받았다. 추론 시장용 L40, L40S, 소비자용 RTX 4090도 금지 대상에 포함됐다.

이는 엔비디아에게 큰 타격이었는데, 이는 당시 엔비디아가 판매했던 주류 제품이 수출 통제로 인해 중국에서 판매될 수 없다는 것을 의미했습니다. 지난 몇 년 동안은 중국 시장에서 데이터센터 사업 수익이 대부분을 차지했다는 사실을 아셔야 합니다. 대략 Nvidia의 전체 매출은 20%~25%이며, 2024회계연도 4분기에는 수출 규제로 인해 중국 시장 매출이 한 자릿수로 급감했습니다.

무력한 엔비디아는 다시 마체테를 휘두를 수밖에 없었습니다.

새로운 규칙이 발표된 지 한 달 후인 2023년 11월 16일, NVIDIA는 중국 시장용 GPU 칩인 H20, L20 및 L2를 출시했습니다. H20은 NVIDIA의 Hopper 아키텍처를 기반으로 하고 L20 및 L2는 Ada를 기반으로 합니다. 건축학.

그 중 두 개의 칩 L20과 L2는 각각 L40과 L4를 기반으로 조정되었습니다. 이는 오래된 아키텍처이고 추론 및 훈련에 일반적으로 사용되지 않기 때문에 많은 관심을 받지 못했습니다. H20은 더 이상 인터넷 속도를 제한하지 않는 새로운 규정으로 인해 900GB/s의 전체 NVLink를 확보했지만 분석가 Dylan Petal에 따르면 H20의 실제 활용이 크게 저하되어야 합니다. 속도는 90%에 도달할 수 있지만 실제 멀티 카드 상호 연결 환경에서의 성능은 여전히 ​​H100의 50%에 가깝습니다.

소비자 시장의 RTX 4090의 경우 NVIDIA는 작년 12월에 RTX 4090D라는 대체 제품을 출시했습니다. 미국 수출 통제를 준수하는 이 특수 칩은 CUDA 코어 및 전력 소비량을 줄였습니다. 12.8%, 소비전력도 450W에서 425W로 5.9% 감소하고, 그 외 핵심사양은 모두 동일하다.

주 주파수가 약간 증가했기 때문에 일부 벤치마크 테스트에서 4090D의 성능은 4090에 비해 5% 정도 낮은 수준에 불과합니다. AI 칩과 비교하면 이 격차는 허용 가능한 범위 내에 있는 것으로 보입니다.

2023년 말 4개의 특수 칩이 연속 출시되면서 엔비디아 차이나의 당황스러움이 어느 정도 완화됐고, 판매할 물품이 고갈되는 것을 막았다. 그러나 두 차례의 규제 끝에 대기업과 중소기업은 탈출구는 국산 칩을 구입하거나, 해외에 서버를 구축하거나, 비공식 채널을 통해 H100/200, A100을 구입하는 것인데, 이는 국내 제조사들 사이로 확산될 수밖에 없다.

노황의 칼솜씨

게이밍 GPU에 익숙한 DIY 플레이어라면 Lao Huang의 칼 기술이 그리 낯설지 않을 것입니다.

비교적 최근의 예를 들어보겠습니다. RTX 20 시리즈가 출시된 지 1년 후, 제품 라인을 보다 효과적으로 차별화하고 옆집인 AMD RX5000 시리즈의 신제품 출시에 대응하기 위해 Nvidia는 RTX 20 Super 시리즈를 출시했습니다.

TU106 및 TU104 코어도 기반으로 하지만 Nvidia는 이 두 코어를 사용하여 5개의 그래픽 카드, 즉 RTX 2060, RTX 2060 Super, RTX 2070, RTX 2070 Super 및 RTX 2080을 만들었습니다. 그중 가장 작은 간격은 다음과 같습니다. TU106 코어 RTX 2060 Super와 RTX 2070의 이론적 성능 격차는 약 5%에 불과하며, 실제 실행 점수와 게임 테스트에서도 매우 근접한 수준이다.

오늘날 NVIDIA가 중국을 위해 특별히 수정한 칩은 과거의 반복이자 기존 사업으로의 복귀에 지나지 않습니다.

엔비디아는 앞서 언급한 B20 외에도 소비자 시장에서도 실력을 뽐낼 계획이다. 보도에 따르면 RTX 5090의 축소 버전인 RTX 5090D가 2025년 1월 출시될 것으로 예상된다. TSMC의 4NP 프로세스를 사용하면 미국 수출 제한을 우회하기 위해 핵심 사양이 줄어들 수 있습니다.

이 두 가지 소문난 칩을 포함하면 Nvidia는 이미 중국에 A800, H800, H20, L20, L2, RTX 4090D, B20, RTX 5090D 등 거대한 특별 라인업을 보유하고 있습니다.

일부 사람들은 이러한 특별판 칩의 전망에 대해 매우 낙관적입니다. 연구 기관인 SemiAnalytic은 Nvidia가 올해 중국에서 100만 개 이상의 H20 칩을 판매할 것으로 예상하며 이는 120억 달러 이상의 가치가 있습니다.

하지만 Nvidia는 여전히 걱정할 것이 많습니다. Jeffries 분석가의 보고서에 따르면 미국이 10월 반도체 수출 통제에 대한 연례 검토를 실시할 때 Nvidia의 H20 칩의 중국 판매를 금지할 가능성이 "매우 높다"고 분석가는 말했습니다. 금지, 더 낮은 컴퓨팅 성능 한도 및/또는 제한된 메모리 용량"을 구현합니다.

게다가 H20처럼 인위적으로 제작된 컴플라이언스 카드는 기본적으로 기존 코어의 거세를 기반으로 하고 있다. B20도 마찬가지다. H200과 B200의 코어로도 쓸 수 있었지만, 이제는 더 싼 스페셜을 파는 데만 쓸 수 있게 됐다. 에디션, 판매 수명도 1년 남짓일 가능성이 높기 때문에 어떻게 보아도 적자 사업이다.

하지만 엔비디아는 탈출구가 없습니다. 규칙과 시장의 균형을 맞추기 위해 최선을 다할 뿐입니다. 하지만 계속해서 단종되는 스페셜 에디션 칩에 기꺼이 돈을 지불할 중국 기업이 몇 명이나 될까요?