Quem está planejando o chip do centro de computação inteligente?

2024-08-05

Texto: Perspectiva da Indústria de Semicondutores

As indústrias relacionadas ao "poder computacional" continuaram a crescer recentemente, e a construção de centros de computação inteligentes também está florescendo em todos os lugares.

Ao entrar em 2024, o Centro de Computação Inteligente Wuchang, o Centro de Computação Inteligente Móvel da China (Qingdao), o Centro de Computação Inteligente Data Valley do Sul da China, o Centro de Computação de Inteligência Artificial de Zhengzhou, o Centro de Computação Inteligente Broad Data Shenzhen Qianhai, etc.

De acordo com estatísticas incompletas, existem actualmente mais de 30 cidades em todo o país que estão a construir ou a propor construir centros de computação inteligentes, com uma escala de investimento superior a 10 mil milhões de yuans.

O que exatamente é um centro de computação inteligente? Para que é utilizado principalmente o centro de computação inteligente? Quais são as características dos centros de computação inteligentes?

O que é um centro de computação inteligente?

De acordo com a definição do "Plano de Ação para o Desenvolvimento de Infraestrutura de Computação de Alta Qualidade", os centros de computação inteligentes referem-se ao uso de recursos de computação heterogêneos em grande escala, incluindo potência de computação geral (CPU) e potência de computação inteligente (GPU, FPGA, ASIC, etc.), principalmente instalações que fornecem o poder de computação, dados e algoritmos necessários para aplicações de inteligência artificial (como desenvolvimento de modelo de aprendizagem profunda de inteligência artificial, treinamento de modelo, inferência de modelo e outros cenários).

Também pode-se dizer que um centro de computação inteligente é um data center que se concentra em tarefas de computação de inteligência artificial.

Os data centers geralmente incluem três categorias, além dos centros de computação inteligentes, os outros dois são centros de computação gerais que se concentram em tarefas de computação gerais e centros de supercomputação que se concentram em tarefas de supercomputação.

2023 é um ano de viragem importante para o desenvolvimento da tecnologia AIGC. Novos negócios, como o treinamento de grandes modelos e a aplicação de grandes modelos, estão surgindo rapidamente. Como portadores de poder de computação inteligente, os data centers também evoluíram a partir de dados. salas de informática para centros de computação em geral, desenvolvidos para o estágio atual de centro de supercomputação e centro de computação inteligente.

Qual é a diferença entre um centro de computação inteligente e um data center geral?

Os centros de computação inteligente, geralmente intimamente relacionados à computação em nuvem, enfatizam a flexibilidade do controle de recursos e do gerenciamento de infraestrutura. Em um ambiente de nuvem, o fornecedor do data center é responsável pela manutenção do hardware e de determinadas ferramentas de software, enquanto o cliente possui os dados. Em contraste, os data centers locais tradicionais exigem que as próprias empresas gerenciem e mantenham todos os recursos de dados.

As diferenças essenciais conduzem a grandes diferenças entre os dois modelos em termos de investimento de capital, utilização de recursos e segurança.

Em termos de investimento de capital, os clientes dos centros de computação inteligentes podem escolher um modelo de serviço que lhes seja adequado, como nuvem pública, nuvem privada ou nuvem híbrida, sem grandes custos de hardware e software, enquanto os clientes dos centros de dados tradicionais precisam investir muito dinheiro; para adquirir e manter os servidores, equipamentos de rede e armazenamento de que você precisa.

Em termos de implantação de recursos e segurança, os clientes do centro de computação inteligente podem acessar e gerenciar remotamente seus dados e aplicativos através da Internet a qualquer hora e em qualquer lugar. Ao mesmo tempo, também podem desfrutar de garantias de segurança profissional fornecidas por provedores de data center, como. firewalls, criptografia, backup e recuperação, etc., enquanto os clientes de data centers tradicionais estão restritos a escritórios/locais designados e precisam proteger e gerenciar os dados por conta própria.

Um centro de computação inteligente é simplesmente um centro de computação de dados que atende especificamente à inteligência artificial e pode fornecer o poder de computação dedicado necessário para cálculos de inteligência artificial. Em comparação com os data centers tradicionais, os centros de computação inteligentes podem atender a necessidades mais específicas, ter maiores volumes de computação e velocidades de computação mais rápidas e fornecer computação de IA para vários cenários verticais da indústria, como inferência de treinamento de grandes modelos, direção autônoma e força AIGC.

Que tipo de chips são necessários para a computação inteligente de IA?

Em termos de seleção de hardware, a arquitetura de hardware dos centros de computação inteligentes também é diferente dos data centers tradicionais.

Que tipo de chips de computação são necessários para a computação inteligente de IA?

A arquitetura de hardware dos data centers tradicionais é relativamente simples, incluindo principalmente servidores, dispositivos de armazenamento e dispositivos de rede. Comparado com esta arquitetura de hardware, o centro de computação inteligente será mais flexível e diferentes nós de computação serão selecionados para diferentes cenários de aplicação.

O servidor de computação inteligente é o principal hardware de computação do centro de computação inteligente. Geralmente adota a arquitetura de computação heterogênea de "CPU+GPU", "CPU+NPU" ou "CPU+TPU" para dar desempenho total, custo e. desempenho de diferentes chips de computação Vantagens no consumo de energia.

GPU, NPU e TPU têm um grande número de núcleos e são bons em computação paralela. Os algoritmos de IA envolvem um grande número de tarefas simples de operação de matriz e requerem poderosos recursos de computação paralela.

Os servidores tradicionais de uso geral usam CPU como chip principal para oferecer suporte à computação básica de uso geral, como computação em nuvem e computação de ponta.

Que tipo de chips de memória são necessários para a computação inteligente de IA?

Não apenas os chips de poder de computação são diferentes, mas a computação inteligente de IA também possui requisitos mais elevados para chips de memória.

O primeiro é a dosagem. A capacidade DRAM dos servidores de computação inteligentes é geralmente 8 vezes maior que a dos servidores comuns, e a capacidade NAND é 3 vezes maior que a dos servidores comuns. Até mesmo sua placa de circuito PCB possui significativamente mais camadas do que um servidor tradicional.

Isso também significa que os servidores de computação inteligente precisam implantar mais chips de memória para atingir o desempenho necessário.

À medida que a procura aumenta, surge também uma série de problemas de estrangulamento.

Por um lado, a arquitetura von Neumann tradicional exige que os dados sejam carregados na memória, resultando em baixa eficiência de processamento de dados, alta latência e alto consumo de energia, por outro lado, o problema da parede de memória faz com que o desempenho do processador cresça muito mais rápido; do que a velocidade da memória. Como resultado, uma grande quantidade de dados precisa ser transferida entre o SSD e a memória. Além disso, as limitações de capacidade e largura de banda do SSD montado na CPU também se tornaram gargalos de desempenho;

Enfrentando problemas como "parede de armazenamento" e "parede de consumo de energia", a arquitetura de armazenamento de computação na arquitetura de computação tradicional precisa ser atualizada urgentemente. Somente integrando organicamente o armazenamento e a computação ela poderá corresponder à enorme quantidade de dados na era da computação inteligente. com o seu enorme potencial de melhoria da eficiência energética.

Em resposta a esta série de problemas, chips integrados de armazenamento e cálculo podem ser uma boa resposta.

Além de diversos chips, para dar pleno desempenho e garantir uma operação estável, o servidor AI também foi projetado com arquitetura aprimorada, dissipação de calor, topologia e outros aspectos.

Quem está distribuindo essas fichas?

O layout dos chips de poder de computação

No lado da GPU, as GPUs são boas em computação massivamente paralela. Huawei, Tianshu Zhixin, Moore Thread, Sugon, Suiyuan Technology, Nvidia, Intel, AMD, etc. lançaram chips relacionados. Por exemplo, a Huawei lançou a série Ascend de chips de IA, Ascend 910 e Ascend 310. Esses chips são especialmente projetados para treinamento e raciocínio de IA e apresentam alto desempenho e baixo consumo de energia. A série Ascend tem sido amplamente utilizada em data centers, serviços em nuvem, computação de ponta e outros campos, fornecendo suporte poderoso de poder de computação para centros de computação inteligentes.

A NVIDIA lançou vários produtos de GPU para treinamento e inferência de IA, como A100, H100, etc. A Intel também lançou uma série de produtos de chips de IA, como a série de chips Gaudi da Habana Labs, com o objetivo de competir com a Nvidia. A AMD também fez planos na área de chips de IA e lançou produtos GPU e APU da série MI.

Em termos de FPGA, CPU+FPGA combina flexibilidade e alto desempenho para se adaptar às rápidas mudanças nos algoritmos. Xilinx e Intel são os principais players do mercado. Os produtos relacionados incluem: as séries de produtos VIRTEX, KINTEX, ARTIX, SPARTAN da Xilinx e as séries de produtos Agilex da Intel, incluindo Fudan Microelectronics, Unisoc Microelectronics e Anlu Technology wait;

Em termos de ASIC, CPU+ASIC fornece computação personalizada de alto desempenho para atender necessidades específicas. Gigantes estrangeiros como Google, Intel e NVIDIA lançaram sucessivamente chips ASIC. Fabricantes nacionais como Cambrian, Huawei HiSilicon e Horizon também lançaram chips ASIC acelerados por redes neurais profundas.

Em termos de NPU, NPU é um processador especialmente projetado para cenários de inteligência artificial e aprendizado de máquina. Diferente da CPU e da GPU, a NPU foi especificamente otimizada na estrutura de hardware e se concentra na execução de tarefas de computação relacionadas à IA, como inferência de redes neurais. A combinação da versatilidade da CPU e da especificidade da NPU permite que todo o sistema responda com flexibilidade a vários cenários de aplicação de IA e se adapte rapidamente às mudanças em algoritmos e modelos.

Atualmente, existem muitos NPUs ou chips produzidos em massa equipados com módulos NPU no mercado. Os mais conhecidos incluem Qualcomm Hexagon NPU e a série Ascend da Huawei. É importante notar que todos os principais fabricantes têm designs exclusivos no design de núcleos de computação de chips. . Estratégia.

Em termos de TPU, o TPU é um chip desenvolvido pelo Google especificamente para acelerar o poder de computação de redes neurais profundas. É mais focado no processamento de tarefas de aprendizagem profunda em grande escala e possui maior poder de computação e menor latência. TPU também é um chip ASIC.

Em termos de DPU, o DPU é especialmente projetado para tarefas de processamento de dados e possui uma estrutura de hardware altamente otimizada, adequada para necessidades computacionais em campos específicos. Ao contrário da CPU que é usada para computação geral e da GPU que é usada para computação acelerada, o DPU é o terceiro chip principal no data center. Os produtos DPU dos três gigantes internacionais NVIDIA, Broadcom e Intel ocupam a maior parte do mercado nacional. Muitos fabricantes como Xilinx, Marvell, Pensando, Fungible, Amazon e Microsoft também produziram DPU ou produtos de arquitetura semelhante no passado. 5 anos. . Os fabricantes nacionais incluem Zhongke Yushu, Xinqiyuan, Yunbao Intelligence, Dayu Zhixin, Alibaba Cloud, etc.

Para onde foram os chips de computação domésticos?

Na Conferência da Rede de Computação Móvel de Pequim de 2024, o nó de Pequim do Centro de Computação Móvel da China foi oficialmente colocado em uso, marcando uma nova etapa na construção do centro de computação inteligente do meu país. Como o primeiro centro de computação inteligente integrado de treinamento e promoção em grande escala de Pequim, o projeto cobre uma área de aproximadamente 57.000 metros quadrados, implanta quase 4.000 placas aceleradoras de IA, tem uma taxa de localização de 33% de chips de IA e possui uma computação inteligente escala de potência de mais de 1.000P.

Zhen Yanan, CTO da Beijing Beilong Super Cloud Computing Co., Ltd., a entidade operacional do Beijing Super Cloud Computing Center, disse recentemente que está atualmente "enxertando" grandes modelos domésticos com chips domésticos, e isso leva apenas cerca de 15 dias para percorrer. Ele acredita que o compartilhamento de poder de computação será uma tendência importante na indústria, e os recursos de computação GPU de ponta exigem o esforço de todas as partes.

Nos últimos anos, a estrutura de mercado dos chips de potência de computação de inteligência artificial da China tem sido dominada principalmente pela NVIDIA, que representa mais de 80% da participação de mercado.

Zhen Yanan disse: "Também estamos muito preocupados com o desenvolvimento de chips domésticos. Entende-se que grandes modelos domésticos de desenvolvimento próprio e até mesmo alguns grandes modelos de código aberto são constantemente transplantados para chips domésticos. Agora, do ponto de vista do uso de chips, alguns os modelos têm Ele pode ser executado, e o que precisa ser atualizado é principalmente o alto desempenho, como GPU ".

"Toda a localização é hierárquica. Os chips pertencem à camada de hardware. Além disso, existe o ecossistema de software. Para chips domésticos, tanto a estrutura quanto o ecossistema exigem um certo ciclo de cultivo. Zhen Yanan pediu que a parte final do aplicativo fornecesse." confiança suficiente em chips domésticos.

Layout do chip de memória

Os centros de computação inteligentes precisam ter alta capacidade, alta confiabilidade, alta disponibilidade e outras características em termos de armazenamento. Os dispositivos de armazenamento geralmente usam discos rígidos ou unidades de estado sólido de alto desempenho e são equipados com arquitetura de armazenamento redundante para garantir a segurança e acessibilidade dos dados. Samsung, Micron, SK Hynix, etc. possuem chips relacionados que são amplamente utilizados em data centers, computação em nuvem e outros campos para fornecer soluções de armazenamento de alto desempenho para centros de computação inteligentes.

Os fabricantes nacionais também alcançaram um rápido desenvolvimento ao se atualizarem com a tecnologia DRAM e NAND nos últimos anos.

Além dos chips de memória tradicionais, os centros de computação inteligentes também precisam que os novos chips integrados de armazenamento-armazenamento-computação mencionados acima desempenhem um papel mais importante.

A julgar pela história de desenvolvimento de armazenamento e computação integrados, desde 2017, grandes fabricantes como NVIDIA, Microsoft e Samsung propuseram protótipos de armazenamento e computação integrados. No mesmo ano, empresas nacionais de armazenamento integrado e chips de computação começaram a surgir.

A demanda dos principais fabricantes por uma arquitetura integrada de armazenamento e computação é prática e rápida de implementar. Como a tecnologia mais próxima da implementação de engenharia, a computação com memória próxima tornou-se a primeira escolha dos principais fabricantes. Os principais fabricantes com ecossistemas ricos, como a Tesla e a Samsung, bem como os fabricantes tradicionais de chips, como a Intel e a IBM, estão todos a implementar a computação de quase memória.

As start-ups nacionais estão se concentrando na computação in-memory que não requer tecnologia de processo avançada. Entre elas, startups como Zhicun Technology, Yizhu Technology e Jiutian Ruixin estão apostando em PIM, CIM e outras rotas tecnológicas que integram armazenamento e computação mais estreitamente com "armazenamento" e "computação". concentram-se em cenários de grande poder de computação de IA, como cálculos de grandes modelos e direção autônoma; Shanyi, tecnologia Xinyi, tecnologia Pingxin, tecnologia Zhicun, etc. . Cenários como poder computacional marginal.

A Yizhu Technology está comprometida em projetar chips de IA de alta potência usando uma arquitetura integrada de armazenamento e computação. Pela primeira vez, ela combina memristor ReRAM com uma arquitetura integrada de armazenamento e computação. na estrutura industrial atual. Os chips de grande poder computacional de IA com relação custo-benefício, maior índice de eficiência energética e maior espaço para o desenvolvimento do poder computacional tomaram um novo caminho no desenvolvimento.

A Qianxin Technology se concentra na pesquisa e desenvolvimento de armazenamento de grande capacidade de computação e chips de computação integrados e soluções de computação para as áreas de inteligência artificial e computação científica. Em 2019, foi a primeira a propor uma arquitetura de produto de tecnologia integrada de armazenamento e computação reconfigurável. Em comparação com outras empresas em termos de rendimento computacional, os chips tradicionais de IA podem melhorar o desempenho em 10 a 40 vezes. Atualmente, o chip reconfigurável de armazenamento e computação integrado (protótipo) da Qianxin Technology foi testado ou implementado em computação em nuvem, percepção de direção autônoma, classificação de imagem, reconhecimento de placas de veículos e outros campos. Seu grande protótipo de produto de chip integrado de armazenamento e computação de poder também; foi o primeiro na China a passar nos testes internos das principais empresas de Internet.

O plano da Zhicun Technology é redesenhar a memória, usar as características físicas das células de armazenamento de memória Flash, transformar a matriz de armazenamento e redesenhar os circuitos periféricos para que possam acomodar mais dados e, ao mesmo tempo, armazenar operadores na memória, para que cada Cada unidade pode realizar operações de simulação e gerar diretamente os resultados da operação para atingir o objetivo de integrar armazenamento e cálculo.

A computação inteligente é responsável por mais de 30% da escala, e a construção do poder computacional está em pleno andamento

No início de julho, o Tianfu Intelligence Southwest Computing Center foi oficialmente colocado em operação em Chengdu, Sichuan. Segundo relatos, o centro usará o poder da computação para apoiar a criação em Chengdu de uma indústria central de inteligência artificial de nível 100 bilhões e capacitar a inovação da inteligência artificial em áreas como manufatura industrial, ciências naturais, biomedicina e experimentos de simulação de pesquisa científica.

Esse nao é um caso isolado. No mês passado, o projeto Yinchuan Green Intelligent Computing Center começou intensamente. Beijing Mobile construiu o primeiro centro de computação inteligente integrado de treinamento e promoção em grande escala em Pequim para apoiar dezenas de bilhões e centenas de bilhões de treinamento e raciocínio de grandes modelos; alta complexidade e altos requisitos de computação; Zhengzhou O centro de computação de inteligência artificial iniciou a construção, com um investimento total de mais de 1,6 bilhão de yuans... A nova infraestrutura digital representada pelo centro de computação inteligente está acelerando sua construção e implementação.

Dados divulgados pelo Departamento Nacional de Estatísticas em 15 de julho mostraram que até o final de maio, 460.000 estações base 5G foram construídas em todo o país, mais de 10 centros de computação inteligentes com clusters de computadores de alto desempenho foram planejados e poder de computação inteligente; representaram mais de 30% do poder computacional total.

De acordo com estatísticas incompletas do Círculo IDC da China, em 23 de maio de 2024, havia 283 centros de computação inteligente na China continental, cobrindo todas as províncias, regiões autônomas e municípios da China continental. Entre eles, existem 140 projetos de centros de computação inteligentes com estatísticas de investimento, com um investimento total de 436,434 bilhões de yuans. Existem 177 projetos de centros de computação inteligentes com estatísticas planejadas de escala de poder de computação, e a escala total de poder de computação atinge 369.300 PFlops.

Esses "centros de computação inteligentes" têm padrões e escalas diferentes. A escala de poder de computação é geralmente 50P, 100P, 500P, 1000P e alguns chegam a atingir mais de 12.000P. Embora a onda de IA tenha trazido amplas perspectivas de desenvolvimento para centros de computação inteligentes, a incompatibilidade entre oferta e demanda, preços altos e duplicação de construção ainda são problemas enfrentados pela construção de energia computacional em meu país.

Ao mesmo tempo, muitos locais também introduziram planos especiais para clarificar os objectivos de construção nos próximos anos e melhorar as medidas de apoio em termos de tecnologia, aplicação e financiamento. Por exemplo, Jiangsu lançou um plano especial para o desenvolvimento da infra-estrutura provincial de energia computacional, propondo que, até 2030, a capacidade computacional total em uso na província excederá 50EFLOPS (EFLOPS refere-se a 10 bilhões de operações de ponto flutuante por segundo), e sistemas inteligentes o poder computacional representará mais de 45%; Gansu propõe fornecer apoio político para novas infra-estruturas de redes informáticas em termos de utilização do solo, construção de instalações de apoio municipais, introdução de talentos e financiamento.

"O desenvolvimento explosivo de aplicações como grandes modelos de inteligência artificial levou a um aumento na demanda por poder de computação inteligente." Shan Zhiguang, diretor do Departamento de Informatização e Desenvolvimento Industrial do Centro Nacional de Informação, disse que a computação inteligente se desenvolveu rapidamente. e se tornou o que mais cresce na estrutura de poder de computação do meu país. Entre eles, os modelos grandes são os que mais demandam poder de computação inteligente, respondendo por quase 60% da demanda. Espera-se que, até 2027, a taxa composta anual de crescimento do poder de computação inteligente da China atinja 33,9%.

notícias

Quem está planejando o chip do centro de computação inteligente?

Introdução

minhas informações de contato