소식

스마트컴퓨팅 센터칩은 누가 기획하고 있나요?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

텍스트: 반도체 산업의 관점

최근 '컴퓨팅 파워' 관련 산업이 계속해서 붐을 일으키고 있으며, 지능형 컴퓨팅 센터 구축도 곳곳에서 꽃피우고 있습니다.

2024년에는 우창 지능형 컴퓨팅 센터, 중국 모바일 지능형 컴퓨팅 센터(칭다오), 남중국 데이터 밸리 지능형 컴퓨팅 센터, 정저우 인공 지능 컴퓨팅 센터, 브로드 데이터 선전 첸하이 지능형 컴퓨팅 센터 등이 건설을 시작하거나 생산에 투입되었습니다.

불완전한 통계에 따르면 현재 전국 30개 이상의 도시에서 지능형 컴퓨팅 센터를 건설 중이거나 건설을 제안하고 있으며 투자 규모는 100억 위안이 넘습니다.

지능형 컴퓨팅 센터란 정확히 무엇입니까? 지능형 컴퓨팅 센터는 주로 어떤 용도로 사용되나요? 지능형컴퓨팅센터의 특징은 무엇인가요?

지능형컴퓨팅센터란?

"컴퓨팅 인프라의 고품질 개발을 위한 실행 계획"의 정의에 따르면 지능형 컴퓨팅 센터는 일반 컴퓨팅 성능(CPU)과 지능형 컴퓨팅 성능(GPU, FPGA, ASIC 등), 주로 인공지능 애플리케이션(예: 인공지능 딥러닝 모델 개발, 모델 훈련, 모델 추론 및 기타 시나리오)에 필요한 컴퓨팅 성능, 데이터 및 알고리즘을 제공하는 시설입니다.

지능형 컴퓨팅 센터는 인공지능 컴퓨팅 업무에 중점을 둔 데이터 센터라고 할 수도 있다.

데이터센터는 일반적으로 지능형 컴퓨팅 센터 외에 일반 컴퓨팅 작업에 중점을 둔 일반 컴퓨팅 센터와 슈퍼컴퓨팅 작업에 중점을 둔 슈퍼컴퓨팅 센터의 세 가지 범주로 구성됩니다.


2023년은 AIGC 기술이 획기적인 발전을 이룬 중요한 해입니다. 컴퓨터실을 일반컴퓨팅센터로 발전시켜 현 단계의 슈퍼컴퓨팅센터, 지능형컴퓨팅센터로 발전시켰습니다.

지능형 컴퓨팅 센터와 일반 데이터 센터의 차이점은 무엇입니까?

일반적으로 클라우드 컴퓨팅과 밀접하게 관련된 지능형 컴퓨팅 센터는 리소스 제어 및 인프라 관리의 유연성을 강조합니다. 클라우드 환경에서는 데이터 센터 제공업체가 하드웨어 및 특정 소프트웨어 도구의 유지 관리를 담당하고 고객은 데이터를 소유합니다. 이와 대조적으로 기존의 로컬 데이터 센터에서는 기업이 모든 데이터 리소스를 자체적으로 관리하고 유지해야 합니다.

본질적인 차이점은 자본 투자, 자원 배포 및 보안 측면에서 두 모델 사이에 큰 차이를 가져옵니다.

자본 투자 측면에서 지능형 컴퓨팅 센터 고객은 대규모 하드웨어 및 소프트웨어 비용 없이 퍼블릭 클라우드, 프라이빗 클라우드, 하이브리드 클라우드 등 자신에게 적합한 서비스 모델을 선택할 수 있지만, 기존 데이터 센터 고객은 많은 비용을 투자해야 합니다. 필요한 서버, 네트워크 및 스토리지 장비를 구매하고 유지 관리합니다.

자원 배치 및 보안 측면에서 지능형 컴퓨팅 센터 고객은 언제 어디서나 인터넷을 통해 데이터와 애플리케이션에 원격으로 액세스하고 관리할 수 있습니다. 동시에 데이터 센터 제공업체가 제공하는 전문적인 보안 보장도 누릴 수 있습니다. 방화벽, 암호화, 백업 및 복구 등 기존 데이터 센터의 고객은 사무실/지정된 위치로 제한되어 있으며 데이터를 직접 보호하고 관리해야 합니다.

지능형 컴퓨팅 센터는 단순히 인공 지능을 전문적으로 서비스하고 인공 지능 계산에 필요한 전용 컴퓨팅 성능을 제공할 수 있는 데이터 컴퓨팅 센터를 말합니다. 기존 데이터 센터와 비교하여 지능형 컴퓨팅 센터는 더 많은 목표 요구 사항을 충족하고, 더 큰 컴퓨팅 볼륨과 더 빠른 컴퓨팅 속도를 가지며, 대규모 모델 훈련 추론, 자율 주행 및 AIGC와 같은 다양한 수직 산업 시나리오에 AI 컴퓨팅을 제공할 수 있습니다.

AI 지능형 컴퓨팅에는 어떤 종류의 칩이 필요합니까?

하드웨어 선택 측면에서 지능형 컴퓨팅 센터의 하드웨어 아키텍처도 기존 데이터 센터와 다릅니다.

AI 지능형 컴퓨팅에는 어떤 종류의 컴퓨팅 칩이 필요한가요?

기존 데이터 센터의 하드웨어 아키텍처는 주로 서버, 저장 장치 및 네트워크 장치를 포함하여 상대적으로 간단합니다. 이 하드웨어 아키텍처와 비교하여 지능형 컴퓨팅 센터는 더욱 유연하며 다양한 애플리케이션 시나리오에 대해 다양한 컴퓨팅 노드가 선택됩니다.

지능형 컴퓨팅 서버는 지능형 컴퓨팅 센터의 주요 컴퓨팅 하드웨어로 일반적으로 "CPU+GPU", "CPU+NPU" 또는 "CPU+TPU"의 이기종 컴퓨팅 아키텍처를 채택하여 성능, 비용 및 성능을 최대한 발휘합니다. 다양한 컴퓨팅 칩의 성능 에너지 소비 측면에서 장점.

GPU, NPU, TPU는 코어 수가 많아 병렬 컴퓨팅에 능숙합니다. AI 알고리즘에는 다수의 간단한 행렬 연산 작업이 포함되며 강력한 병렬 컴퓨팅 기능이 필요합니다.

기존 범용 서버는 CPU를 메인 칩으로 사용해 클라우드 컴퓨팅, 엣지 컴퓨팅 등 기본적인 범용 컴퓨팅을 지원한다.

AI 지능형 컴퓨팅에는 어떤 종류의 메모리 칩이 필요합니까?

컴퓨팅 성능 칩이 다를 뿐만 아니라 AI 지능형 컴퓨팅도 메모리 칩에 대한 요구 사항이 더 높습니다.

첫 번째는 복용량입니다. 지능형 컴퓨팅 서버의 DRAM 용량은 일반적으로 일반 서버의 8배, NAND 용량은 일반 서버의 3배입니다. 심지어 PCB 회로 기판에도 기존 서버보다 훨씬 더 많은 레이어가 있습니다.

이는 또한 지능형 컴퓨팅 서버가 필요한 성능을 달성하려면 더 많은 메모리 칩을 배포해야 함을 의미합니다.

수요가 증가함에 따라 일련의 병목 현상 문제도 표면화됩니다.

한편, 전통적인 폰 노이만 아키텍처에서는 데이터를 메모리에 로드해야 하므로 데이터 처리 효율성이 낮고 대기 시간이 높으며 전력 소비가 높습니다. 반면에 메모리 벽 문제로 인해 프로세서 성능이 훨씬 빠르게 향상됩니다. 결과적으로 SSD와 메모리 사이에 많은 양의 데이터를 전송해야 하며, CPU에 탑재된 SSD의 용량 및 대역폭 제한도 성능 병목 현상이 되었습니다.

"스토리지 벽" 및 "전력 소비 벽"과 같은 문제에 직면한 기존 컴퓨팅 아키텍처의 컴퓨팅 스토리지 아키텍처는 시급히 업그레이드되어야 합니다. 스토리지와 컴퓨팅을 유기적으로 통합해야만 지능형 컴퓨팅 시대의 엄청난 양의 데이터를 감당할 수 있습니다. 엄청난 에너지 효율성 향상 잠재력을 가지고 있습니다.

이러한 일련의 문제에 대한 대응으로 통합 저장 및 연산 칩이 좋은 해답이 될 수 있습니다.

다양한 칩 외에도 성능을 최대한 발휘하고 안정적인 작동을 보장하기 위해 AI 서버는 향상된 아키텍처, 방열, 토폴로지 및 기타 측면으로 설계되었습니다.

누가 이 칩을 배치하고 있나요?

컴퓨팅 파워 칩의 레이아웃

GPU 측면에서 GPU는 대규모 병렬 컴퓨팅에 능숙합니다. Huawei, Tianshu Zhixin, Moore Thread, Sugon, Suiyuan Technology, Nvidia, Intel, AMD 등은 모두 관련 칩을 출시했습니다. 예를 들어, Huawei는 AI 칩 Ascend 시리즈인 Ascend 910 및 Ascend 310을 출시했습니다. 이 칩은 AI 훈련 및 추론을 위해 특별히 설계되었으며 고성능과 저전력 소비가 특징입니다. Ascend 시리즈는 데이터 센터, 클라우드 서비스, 엣지 컴퓨팅 및 기타 분야에서 널리 사용되어 지능형 컴퓨팅 센터에 강력한 컴퓨팅 성능을 지원합니다.

NVIDIA는 A100, H100 등 AI 훈련 및 추론을 위한 다양한 GPU 제품을 출시했습니다. Intel은 또한 Nvidia와 경쟁하기 위해 Habana Labs의 Gaudi 시리즈 칩과 같은 여러 AI 칩 제품을 출시했습니다. AMD는 또한 AI 칩 분야에서도 계획을 세우고 MI 시리즈 GPU 및 APU 제품을 출시했습니다.

FPGA 측면에서 CPU+FPGA는 유연성과 고성능을 결합하여 알고리즘의 급격한 변화에 적응합니다. Xilinx와 Intel은 시장의 주요 업체입니다. 관련 제품에는 Xilinx의 VIRTEX, KINTEX, ARTIX, SPARTAN 제품 시리즈 및 Intel의 Agilex 제품 시리즈가 있으며, Fudan Microelectronics, Unisoc Microelectronics 및 Anlu Technology가 있습니다.

ASIC 측면에서 CPU+ASIC은 특정 요구 사항에 맞는 고성능 맞춤형 컴퓨팅을 제공합니다. 구글, 인텔, 엔비디아 등 외국 대기업들이 잇따라 ASIC 칩을 출시했다. Cambrian, Huawei HiSilicon, Horizon 등 국내 제조업체도 심층 신경망으로 가속화된 ASIC 칩을 출시했습니다.

NPU 측면에서 NPU는 인공 지능 및 기계 학습 시나리오를 위해 특별히 설계된 프로세서입니다. NPU는 CPU, GPU와 달리 하드웨어 구조가 특별히 최적화되었으며 신경망 추론 등 AI 관련 컴퓨팅 작업을 수행하는 데 중점을 둡니다. CPU의 다양성과 NPU의 특수성이 결합되어 전체 시스템이 다양한 AI 애플리케이션 시나리오에 유연하게 대응하고 알고리즘 및 모델의 변화에 ​​신속하게 적응할 수 있습니다.

현재 시장에는 NPU 모듈을 탑재한 대량 생산 NPU 또는 칩이 많이 있습니다. 잘 알려진 것에는 Qualcomm Hexagon NPU 및 Huawei의 Ascend 시리즈가 있습니다. 모든 주요 제조업체가 칩 컴퓨팅 코어 설계에 독특한 디자인을 가지고 있다는 점은 주목할 가치가 있습니다. . 전략.

TPU의 경우, TPU는 심층 신경망의 컴퓨팅 성능을 가속화하기 위해 Google이 특별히 개발한 칩으로, 대규모 딥 러닝 작업 처리에 더 중점을 두고 더 높은 컴퓨팅 성능과 더 낮은 지연 시간을 제공합니다. TPU는 ASIC 칩이기도 합니다.

DPU의 측면에서 DPU는 데이터 처리 작업을 위해 특별히 설계되었으며 특정 분야의 컴퓨팅 요구에 적합한 고도로 최적화된 하드웨어 구조를 가지고 있습니다. 일반 컴퓨팅에 사용되는 CPU, 가속 컴퓨팅에 사용되는 GPU와 달리 DPU는 데이터센터의 세 번째 메인 칩이다. NVIDIA, Broadcom 및 Intel의 DPU 제품은 국내 시장의 대부분을 점유하고 있습니다. Xilinx, Marvell, Pensando, Fungible, Amazon 및 Microsoft와 같은 많은 제조업체도 지난 2-3년 동안 DPU 또는 유사한 아키텍처 제품을 생산했습니다. 5 년. . 국내 제조업체에는 Zhongke Yushu, Xinqiyuan, Yunbao Intelligence, Dayu Zhixin, Alibaba Cloud 등이 있습니다.

국내 컴퓨팅 칩은 어디로 갔는가?

2024 베이징 모바일 컴퓨팅 네트워크 회의에서 중국 모바일 컴퓨팅 센터의 베이징 노드가 공식적으로 사용되어 중국 지능형 컴퓨팅 센터 건설의 새로운 단계를 열었습니다. 베이징 최초의 대규모 교육 및 홍보 통합 지능형 ​​컴퓨팅 센터인 이 프로젝트는 약 57,000평방미터의 면적을 차지하며 약 4,000개의 AI 가속기 카드를 배치하고 AI 칩의 현지화율이 33%이며 지능형 컴퓨팅 기능을 갖추고 있습니다. 1,000P 이상의 파워 스케일.

베이징 슈퍼 클라우드 컴퓨팅 센터의 운영 주체인 베이징 베이롱 슈퍼 클라우드 컴퓨팅 유한회사(Beijing Beilong Super Cloud Computing Co., Ltd.)의 CTO Zhen Yanan은 최근 국내 대형 모델에 국산 칩을 '접목'하고 있으며 소요 시간은 약 15일밖에 걸리지 않는다고 밝혔습니다. 달려가다. 그는 컴퓨팅 성능 공유가 업계의 주요 트렌드가 될 것이며 고급 GPU 컴퓨팅 리소스를 확보하려면 모든 당사자의 노력이 필요하다고 믿습니다.

최근 몇 년간 중국의 인공지능 컴퓨팅 파워 칩 시장 구조는 엔비디아(NVIDIA)가 주로 시장 점유율의 80% 이상을 차지하고 있다.

Zhen Yanan은 "국산 칩 개발에 대해서도 매우 우려하고 있습니다. 국내 자체 개발 대형 모델과 일부 오픈 소스 대형 모델도 지속적으로 국산 칩에 이식되고 있는 것으로 이해됩니다. 이제 칩 사용 측면에서 일부 모델은 구동이 가능하고, 따라잡아야 할 것은 주로 GPU 등 고성능이다”라고 말했다.

"전체 현지화는 계층적입니다. 칩은 하드웨어 계층에 속합니다. 게다가 소프트웨어 생태계도 있습니다. 국산 칩의 경우 프레임워크와 생태계 모두 일정한 재배 주기가 필요합니다." Zhen Yanan은 최종 적용 당사자에게 다음과 같이 요청했습니다. 국내 칩에 대한 충분한 자신감.

메모리 칩 레이아웃

지능형 컴퓨팅 센터는 스토리지 측면에서 고용량, 고신뢰성, 고가용성 등의 특성을 갖추어야 합니다. 저장 장치는 일반적으로 고성능 하드 드라이브나 솔리드 스테이트 드라이브를 사용하며 데이터 보안과 접근성을 보장하기 위해 중복 스토리지 아키텍처를 갖추고 있습니다. 삼성, 마이크론, SK 하이닉스 등은 지능형 컴퓨팅 센터를 위한 고성능 스토리지 솔루션을 제공하기 위해 데이터 센터, 클라우드 컴퓨팅 및 기타 분야에서 널리 사용되는 관련 칩을 보유하고 있습니다.

국내 제조사들도 최근 몇 년간 DRAM과 NAND 기술을 따라잡는 데 급속한 발전을 이루었습니다.

전통적인 메모리 칩 외에도 지능형 컴퓨팅 센터에는 위에서 언급한 새로운 스토리지-스토리지-컴퓨팅 통합 칩이 더 큰 역할을 수행해야 합니다.

통합 스토리지와 컴퓨팅의 개발 이력으로 볼 때, 2017년부터 NVIDIA, Microsoft, Samsung과 같은 주요 제조업체가 통합 스토리지와 컴퓨팅의 프로토타입을 제안했습니다. 같은 해 국내 통합 스토리지와 컴퓨팅 칩 회사가 등장하기 시작했습니다.

통합 스토리지 및 컴퓨팅 아키텍처에 대한 주요 제조업체의 요구는 실용적이고 구현이 빠릅니다. 엔지니어링 구현에 가장 가까운 기술인 니어 메모리 컴퓨팅은 주요 제조업체의 첫 번째 선택이 되었습니다. Tesla, Samsung 등 풍부한 생태계를 보유한 주요 제조업체는 물론 Intel, IBM 등 기존 칩 제조업체도 모두 Near-Memory 컴퓨팅을 배포하고 있습니다.

국내 스타트업들은 첨단 공정 기술이 필요하지 않은 인메모리 컴퓨팅에 주력하고 있다. 그중 Zhicun Technology, Yizhu Technology, Jiutian Ruixin과 같은 스타트업은 모두 PIM, CIM 및 스토리지와 컴퓨팅을 '스토리지' 및 '컴퓨팅'과 더욱 긴밀하게 통합하는 기타 기술 경로에 투자하고 있습니다. Yizhu Technology, Qianxin Technology 등은 대형 모델 계산 및 자율 주행과 같은 AI 대규모 컴퓨팅 성능 시나리오에 중점을 둡니다. Shanyi, Xinyi Technology, Pingxin Technology, Zhicun Technology 등은 사물 인터넷, 웨어러블 장치 및 스마트 홈에 중점을 둡니다. . 한계 컴퓨팅 성능과 같은 시나리오.

Yizhu Technology는 통합 스토리지 및 컴퓨팅 아키텍처를 사용하여 AI 고전력 칩을 설계하는 데 전념하고 있습니다. 처음으로 멤리스터 ReRAM을 통합 스토리지 및 컴퓨팅 아키텍처와 결합하여 완전한 디지털 칩 설계 아이디어를 기반으로 더 나은 솔루션을 제공합니다. 현재 산업 구조에서 비용 효율성, 더 높은 에너지 효율 비율 및 더 큰 컴퓨팅 성능 개발 여지를 갖춘 AI 대형 컴퓨팅 파워 칩은 개발에 있어 새로운 길을 택했습니다.

Qianxin Technology는 인공 지능 및 과학 컴퓨팅 분야를 위한 대규모 컴퓨팅 성능 스토리지와 컴퓨팅 통합 컴퓨팅 칩 및 컴퓨팅 솔루션의 연구 개발에 중점을 두고 있으며 2019년에 재구성 가능한 스토리지 및 컴퓨팅 통합 기술 제품 아키텍처를 최초로 제안했습니다. 컴퓨팅 처리량 측면에서 다른 회사와 비교할 때 기존 AI 칩은 성능을 10~40배 향상시킬 수 있습니다. 현재 Qianxin Technology의 재구성 가능한 스토리지 및 컴퓨팅 통합 칩(프로토타입)은 클라우드 컴퓨팅, 자율 주행 인식, 이미지 분류, 번호판 인식 및 기타 분야에서 대규모 컴퓨팅 전력 스토리지 및 컴퓨팅 통합 칩 제품 프로토타입을 시도하거나 구현했습니다. 중국에서 최초로 주요 인터넷 기업의 내부 테스트를 통과했습니다.

Zhicun Technology의 계획은 메모리를 재설계하고, 플래시 메모리 저장 셀의 물리적 특성을 활용하고, 더 많은 데이터를 수용할 수 있도록 스토리지 어레이를 변형하고 주변 회로를 재설계하는 동시에 오퍼레이터를 메모리에 저장하여 각 각 장치는 시뮬레이션 작업을 수행하고 작업 결과를 직접 출력하여 저장과 계산을 통합하는 목적을 달성할 수 있습니다.

지능형 컴퓨팅이 전체 규모의 30% 이상을 차지하며 컴퓨팅 파워 구축이 본격화되고 있다.

7월 초, 쓰촨성 청두에서 Tianfu Intelligence Southwest Computing Center가 공식적으로 가동되었습니다. 보고서에 따르면 이 센터는 컴퓨팅 성능을 사용해 청두의 1000억 수준 인공지능 핵심 산업 창출을 지원하고 산업 제조, 자연과학, 생물의학, 과학 연구 시뮬레이션 실험 등 분야에서 인공지능 혁신을 강화할 예정이다.

이것은 고립된 사례가 아닙니다. 지난 달 인촨(Yinchuan) 녹색 지능형 컴퓨팅 센터 프로젝트가 집중적으로 시작되었습니다. 베이징 모바일(Beijing Mobile)은 수백억, 수천억 개의 대규모 모델 교육 및 추론을 지원하기 위해 베이징에 최초의 대규모 교육 및 홍보 통합 지능형 ​​컴퓨팅 센터를 구축했습니다. 복잡성이 높고 컴퓨팅 요구 사항이 높음 정저우 인공 지능 컴퓨팅 센터가 건설을 시작했으며 총 투자액은 16억 위안이 넘습니다. 지능형 컴퓨팅 센터로 대표되는 새로운 디지털 인프라는 건설 및 구현을 가속화하고 있습니다.

7월 15일 국가통계국이 발표한 데이터에 따르면 5월 말 현재 전국에 46만 개의 5G 기지국이 건설되었으며, 고성능 컴퓨터 클러스터를 갖춘 지능형 컴퓨팅 센터가 10개 이상 건설될 예정이며, 지능형 컴퓨팅 성능도 갖추고 있습니다. 전체 컴퓨팅 파워의 30% 이상을 차지합니다.

중국 IDC 서클의 불완전한 통계에 따르면, 2024년 5월 23일 현재 중국 본토에는 283개의 지능형 컴퓨팅 센터가 있으며 이는 중국 본토의 모든 성, 자치구 및 직할시를 포괄합니다. 그 중 투자 통계가 있는 지능형 컴퓨팅 센터 프로젝트는 140개이며 총 투자액은 4,364억 3,400만 위안입니다. 계획된 컴퓨팅 전력 규모 통계를 갖춘 지능형 컴퓨팅 센터 프로젝트는 177개이며 총 컴퓨팅 전력 규모는 369,300PFlop에 달합니다.

이러한 "지능형 컴퓨팅 센터"는 표준과 규모가 서로 다르며 일반적으로 컴퓨팅 성능 규모는 50P, 100P, 500P, 1000P이며 일부는 12000P 이상에 도달합니다. AI 물결은 지능형 컴퓨팅 센터에 광범위한 개발 전망을 가져왔습니다. 수요와 공급의 불일치, 높은 가격, 중복 건설은 우리나라의 컴퓨팅 파워 건설이 여전히 직면하고 있는 문제입니다.

동시에 많은 곳에서는 향후 몇 년간 건설 목표를 명확히 하고 기술, 적용, 자금 지원 측면에서 지원 조치를 개선하기 위한 특별 계획도 도입했습니다. 예를 들어, 장쑤성은 지방 컴퓨팅 성능 인프라 개발을 위한 특별 계획을 발표하여 2030년까지 해당 지방에서 사용되는 총 컴퓨팅 성능이 50EFLOPS(EFLOPS는 초당 100억 부동 소수점 연산을 나타냄)를 초과할 것이라고 제안했습니다. 컴퓨팅 파워는 45% 이상을 차지할 것입니다. 감숙성은 토지 이용, 지자체 지원 시설 건설, 인재 도입 및 자금 조달 측면에서 새로운 컴퓨팅 네트워크 인프라에 대한 정책 지원을 제공할 것을 제안합니다.

"인공지능 대형 모델과 같은 응용 프로그램의 폭발적인 발전으로 인해 지능형 컴퓨팅 성능에 대한 수요가 급증했습니다." 국가정보센터 정보화 및 산업 발전부 국장 Shan Zhiguang은 지능형 컴퓨팅이 빠르게 발전했다고 말했습니다. 우리나라의 컴퓨팅 파워 구조에서 가장 빠르게 성장하고 있으며, 그 중 대형 모델은 지능형 컴퓨팅 파워의 가장 큰 수요자로 수요의 거의 60%를 차지합니다. 2027년까지 중국 지능형 컴퓨팅 파워의 연간 복합 성장률은 33.9%에 이를 것으로 예상된다.