Diálogo com Xiong Dapeng, presidente da Yizhu Technology: A integração de armazenamento e computação pode iniciar a segunda curva de crescimento do poder da computação na era da IA

2024-08-14

A explosão da inteligência artificial (IA) gerou uma enorme demanda por poder de computação. Na era pós-Moore, os processos avançados de fabricação de chips estão se aproximando dos limites físicos e espera-se que a integração de armazenamento e computação se torne uma das rotas tecnológicas importantes. no futuro.

Armazenamento e computação estão integrados, ou seja, armazenamento de dados e computação estão integrados na mesma área do mesmo chip. Em que aspectos são refletidas as vantagens de desempenho e custo dos chips integrados de armazenamento e arquitetura de computação? Quais são os desafios atuais enfrentados pela comercialização em grande escala? A integração de armazenamento e computação se tornará uma possibilidade para a indústria nacional de chips mudar de rumo e ultrapassá-la?

O China Business News conversou recentemente com Xiong Dapeng, fundador, presidente e CEO da Yizhu Technology, sobre os tópicos acima. Na sua opinião, a tecnologia integrada de armazenamento e computação tem potencial transformador no futuro campo da computação e quebrará a Lei de Moore e iniciará a segunda curva de crescimento do poder da computação. “Especialmente na era da IA, esta tecnologia pode se tornar um fator-chave para impulsionar o crescimento do poder da computação.”

Quebre a arquitetura von Neumann e elimine três problemas principais

Na arquitetura von Neumann tradicional, as funções de computação e armazenamento são completadas por unidades de computação (CPU, GPU, etc. XPU) e unidades de armazenamento, respectivamente. Os dados são obtidos da memória e retornados à memória após o processamento. O tempo necessário para transportar e ler dados da memória fora da unidade de processamento é muitas vezes várias vezes maior que o tempo de computação, resultando em uma diminuição na eficiência de computação ou no poder de computação efetivo.

“Hoje, quando prevalecem modelos grandes, os parâmetros do modelo precisam ser movidos para completar os cálculos. A quantidade de parâmetros é muito grande e o tempo gasto representa uma proporção elevada, até mais de 80%. proporção é ainda maior. Portanto, a largura de banda de dados limita o desempenho efetivo do chip pode ser um P, mas o desempenho real pode ser muito inferior a esse número. Este é o chamado 'muro de armazenamento'", Xiong Dapeng. disse ao China Business News.

Junto com o problema do “problema da parede de armazenamento”, uma grande quantidade de energia é consumida no processo de transmissão, resultando em uma redução significativa no índice de eficiência energética do chip, que é o “problema da parede de energia”.

Além disso, há o problema da "parede de compilação" - ou seja, o agendamento dinâmico do fluxo de dados é complexo e o compilador não pode otimizar automaticamente os operadores e programas executáveis para obter a otimização do fluxo de dados sob condições estáticas e previsíveis, e precisa confiar em manual o ajuste para conseguir isso. O maior poder de computação efetivo aumenta o tempo e os custos de mão de obra da implantação e migração reais. “Esses três pontos restringiram enormemente o desenvolvimento da indústria de IA, que está cada vez mais carente de recursos e aumentou significativamente o consumo de energia.”

A tecnologia integrada de armazenamento e computação quebra a arquitetura von Neumann, integra funções de armazenamento e funções de computação no mesmo chip e usa unidades de armazenamento diretamente para processamento de dados. Ao modificar a arquitetura de computação na memória do circuito de "leitura", ela pode ser usada. no circuito de "leitura". "Os resultados da operação são obtidos no circuito e os resultados são diretamente" gravados "de volta no endereço de destino da memória. As transferências frequentes de dados entre a unidade de computação e a unidade de armazenamento não são mais necessárias, eliminando o consumo causado pela movimentação de dados e reduzindo significativamente o consumo de energia, melhorando significativamente a eficiência da computação.

"Espera-se que a tecnologia integrada de armazenamento e computação se torne uma das rotas técnicas importantes na era pós-Moore. Do primeiro princípio do poder computacional efetivo, para armazenamento e integração computacional, a quantidade de transferência de dados é significativamente reduzida, e o efetivo o poder da computação mostra um crescimento linear. Pode-se dizer que o armazenamento e o poder da computação estão integrados. A integração da computação quebrará a Lei de Moore e abrirá a segunda curva de crescimento do poder da computação. Ao mesmo tempo, acreditamos que a tecnologia de integração de armazenamento e computação é transformadora. potencial no campo da computação do futuro, especialmente na era da IA, esta tecnologia pode se tornar um fator chave na promoção do crescimento do poder da computação." Xiong Dapeng disse.

Uma solução com melhor eficiência energética e desempenho de custos

Comparado com o recentemente popular chip de memória de alta largura de banda HBM, o chip de arquitetura integrada de armazenamento e computação tem melhor eficiência energética do sistema e desempenho de custo.

HBM é uma tecnologia de interface de memória de alto desempenho usada principalmente para melhorar as capacidades de processamento de dados de GPU e sistemas de computação de alto desempenho (HPC). Essa tecnologia aumenta drasticamente a largura de banda empilhando chips DRAM verticalmente e conectando-os firmemente ao processador usando interconexões de alta velocidade.

"A HBM é uma rota técnica eficaz para resolver o problema do 'muro de armazenamento', mas requer custo e consumo de energia, porque fornecer grande largura de banda requer maior consumo de energia, e o preço também é muito caro, excedendo em muito o preço da DRAM tradicional." Xiong Dapeng disse: "Essencialmente, o HBM é um chip de memória e não possui funções de computação. Ele precisa ser emparelhado com chips de computação como GPGPU para obter funções de computação."

Do ponto de vista do custo do sistema, o chip integrado de armazenamento e computação pode ser menor do que a combinação do GPGPU tradicional e do HBM.

Por um lado, isso se deve à maior densidade de potência computacional ou PPA da arquitetura integrada de armazenamento e computação. "A largura de banda de dados equivalente da arquitetura integrada de armazenamento e computação é muito maior do que a da HBM, que pode ser várias vezes ou até dez vezes a diferença. Ao mesmo tempo, sua densidade de poder de computação é mais vantajosa. O poder de computação efetivo real , o desempenho de custos e a relação de eficiência energética serão muito maiores do que a solução GPGPU+HBM", disse Xiong Dapeng.

Por outro lado, a tecnologia integrada de armazenamento e computação é relativamente menos dependente de processos avançados, enquanto tanto a GPGPU como a HBM dependem fortemente de processos avançados. “A HBM depende de processos avançados e apresenta grandes riscos na cadeia de suprimentos. Porém, se adotar a rota integrada de armazenamento e tecnologia de computação, mesmo que não utilize processos avançados, como 12nm e 22nm, o desempenho não pode ser pior que 4nm ou mesmo 3 nm. Isso também é uma mudança no conceito de ultrapassagem.

Em termos de desempenho de custo, embora o armazenamento e a computação integrados possam exigir mais chips para atingir o mesmo desempenho, seu alto desempenho de custo e alta taxa de eficiência energética são uma de suas vantagens significativas.

Poderá ser implementado em larga escala na área de grandes modelos nos próximos 2 a 3 anos.

A investigação e a aplicação de tecnologias integradas de armazenamento e computação estão a acelerar em todo o mundo.

Atualmente, as empresas estrangeiras de chips de computação de grande escala que adotam a rota integrada de armazenamento e computação incluem a startup de chips AI Groq, avaliada em mais de 2,8 bilhões de dólares americanos e considerada uma forte concorrente da Nvidia d-Matrix; adquiriu Microsoft, Temasek, Samsung, Marvell, Hainan, etc. Lux, Ericsson e muitas outras empresas investiram.

Além disso, a Samsung também publicou pesquisas sobre computação em memória baseada em MRAM na Nature e demonstrou a alta precisão de seu algoritmo de IA. SK Hynix lançou produtos de computação DRAM na memória baseados na interface GDDR, que podem aumentar significativamente a velocidade de computação e reduzir o consumo de energia.

“Até onde eu sei, a maioria das empresas estrangeiras implementa armazenamento e computação baseados em SRAM, mas sua capacidade é baixa e o custo é alto. Por exemplo, a solução completa da Groq requer mais de 570 chips. de chips é de apenas um dígito. Isso é causado principalmente pela densidade de armazenamento insuficiente "Xiong Dapeng disse que muitas empresas nacionais emergentes fizeram avanços na tecnologia integrada de armazenamento e computação, proporcionando a possibilidade para a indústria de chips da China mudar de caminho e ultrapassar.

No entanto, quando o poder computacional do armazenamento integrado e dos chips de computação é expandido em grande escala, ainda enfrenta muitos desafios: primeiro, o problema da precisão não confiável, segundo, com base em cálculos analógicos, a conversão digital para analógico traz gargalos em energia; consumo, tamanho da matriz e desempenho; terceiro, grandes modelos de IA têm requisitos de capacidade.

"O caminho totalmente digital pode resolver bem esses problemas, o que também é a base para a Yizhu Technology desenvolver chips de inferência de grande poder computacional de IA, disse Xiong Dapeng."

Em um sistema integrado geral de armazenamento e computação analógico, os dados são armazenados na forma de sinais analógicos, representados por diferentes níveis de tensão dentro da unidade de armazenamento, e operações como MAC são realizadas com base na lei de Ohm e nas leis de Kirchhoff. O maior problema com esta abordagem é que a exatidão e a exatidão não são confiáveis, devido ao ruído do circuito analógico e a diversas variáveis. Independentemente do processo de fabricação ou do ambiente de trabalho, os valores representados pelo memristor apresentarão erros ou desvios. Os métodos híbridos analógico-digital tentam equilibrar questões de eficiência e precisão, mas ainda não conseguem garantir alta precisão e confiabilidade de exatidão.

Xiong Dapeng apresentou que a solução da Yizhu Technology é um armazenamento totalmente digital e integração de computação baseada em memristor (ReRAM). Por ser totalmente digital, os dados são colocados na unidade de armazenamento em formato binário. Um memristor representa apenas um bit e há apenas diferenças entre níveis alto e baixo, resistência alta e baixa e corrente alta e baixa. pode ser confiável.

Além disso, o desenvolvimento de armazenamento e computação integrados também enfrenta problemas de implementação de projetos. "Como uma nova rota tecnológica, como utilizar e integrar na ecologia existente é um grande desafio. A programabilidade e a compatibilidade com a ecologia existente são cruciais", disse Xiong Dapeng ao China Business News.

Tomadas em conjunto, a tecnologia integrada de armazenamento e computação é considerada globalmente como um meio eficaz para resolver a contradição entre a elevada procura de energia computacional e os elevados custos de consumo de energia. Também proporciona uma oportunidade importante para a indústria de chips da China recuperar o atraso. Nos próximos anos, à medida que a tecnologia continua a amadurecer e a procura do mercado aumenta, espera-se que os chips integrados de armazenamento e computação sejam amplamente utilizados em muitos campos e promovam o desenvolvimento inovador de toda a indústria. Actualmente, a aplicação de chips integrados de armazenamento e computação no campo de grandes modelos ainda está em fase de desenvolvimento, e Xiong Dapeng prevê que será implementado em grande escala nos próximos 2-3 anos.

(Este artigo vem do China Business News)

Relatório/Comentários

notícias

Diálogo com Xiong Dapeng, presidente da Yizhu Technology: A integração de armazenamento e computação pode iniciar a segunda curva de crescimento do poder da computação na era da IA

Introdução

Minhas informações de contato