notícias

O artigo foi apresentado na principal conferência de arquitetura de computadores, e a arquitetura de chip se tornou a melhor escolha de computação paralela para IA de ponta

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Coração da Máquina lançado

Departamento Editorial de Coração de Máquina

A explosão de grandes modelos de IA impulsionou uma forte demanda por GPUs, e os aplicativos de IA que penetram da nuvem até a borda também impulsionarão a demanda por servidores de IA de ponta e processadores de aceleração. Ao comparar GPGPU, FPGA, NPU e ASIC, a arquitetura de computação reconfigurável CGRA torna-se a arquitetura de computação paralela mais adequada para IA de ponta. O Processador Paralelo Reconfigurável (RPP) proposto pela Core Dynamics é uma arquitetura de computação mais adequada para processamento paralelo em larga escala do que o CGRA tradicional. Isto não só foi confirmado através de avaliações experimentais, mas também foi reconhecido por autoridades acadêmicas internacionais através da ISCA. conferência. O chip R8 baseado na arquitetura RPP e subsequentes chips de iteração de alto desempenho serão a escolha ideal de processador de aceleração de IA para servidores de IA de ponta e PCs de IA.

Índice

1. O que é IA de ponta?

2. Tendências do mercado de servidores Edge AI

3. Arquitetura de computação ideal adequada para IA de ponta

4. Explicação detalhada da arquitetura RPP

5. Comparação de eficiência energética do processador RPP R8

6. O processador RPP é reconhecido por autoridades acadêmicas internacionais

7. Conclusão

1. O que é IA de ponta?

Edge AI (AI Edge) é uma tecnologia avançada na interseção da inteligência artificial (IA) e da computação de ponta. Este conceito se origina da mudança de paradigma da computação distribuída em que a IA passa da nuvem para a borda. O núcleo da IA ​​de borda é incorporar algoritmos de IA diretamente no ambiente local que gera grandes quantidades de dados, como smartphones, dispositivos IoT ou servidores locais, e conduzir o processamento de dados em tempo real por meio de dispositivos e sistemas localizados na "borda" do processamento e análise da rede (isto é, mais perto da fonte de dados).

Em comparação com o treinamento ou inferência de IA em data centers tradicionais ou plataformas de computação em nuvem, a principal vantagem da IA ​​de ponta é o "processamento no local", que reduz significativamente o atraso na transmissão e processamento de dados. diagnóstico médico em tempo real ou É especialmente importante em cenários de aplicação como controle de automação industrial.

Os equipamentos e sistemas que implementam a computação de IA de ponta incluem principalmente:

  1. Terminal inteligente: um dispositivo utilizado principalmente para gerar ou recolher dados, tais como sensores inteligentes, smartphones, PCs de IA ou dispositivos IoT;
  2. Servidor Edge AI: dispositivos de borda e sistemas de software e hardware que processam e analisam diretamente os dados coletados, como servidores de inferência AI dedicados de modelo de linguagem grande (LLM), servidores de centro de computação de área de condução inteligente, etc.;
  3. Equipamento de rede de comunicação: Embora os requisitos de largura de banda e velocidade das aplicações de IA de ponta para redes de comunicação não sejam tão altos quanto os da nuvem, conexões confiáveis ​​de alta velocidade devem ser fornecidas para atingir os requisitos de baixa latência e tempo real exigidos pela IA de ponta.

Este artigo discute principalmente servidores de IA de ponta e suas tendências de desenvolvimento de mercado, requisitos para processadores de aceleração de IA e arquitetura de computação paralela e implementação de processador adequada para aplicações de IA de ponta.

2. Tendências do mercado de servidores Edge AI

Servidores de IA referem-se a equipamentos de informática de alto desempenho projetados especificamente para aplicações de inteligência artificial e podem suportar tarefas complexas, como processamento de dados em grande escala, treinamento de modelos e cálculos de inferência. Os servidores de IA geralmente são equipados com processadores de alto desempenho, memória de alta velocidade, sistemas de armazenamento de grande capacidade e alta velocidade e sistemas de resfriamento eficientes para atender à demanda extremamente alta por recursos de computação por algoritmos de IA. De acordo com diferentes padrões de classificação, os servidores de IA podem ser divididos em servidores de treinamento, servidores de inferência, servidores GPU, servidores FPGA, servidores CPU, servidores de IA em nuvem e servidores de IA de borda.

De acordo com a previsão do Gartner, de agora até 2027, o mercado de servidores de IA manterá um rápido crescimento, com uma taxa composta de crescimento anual de até 30%. O "Relatório do Mercado Global de Servidores para o Primeiro Trimestre de 2024" divulgado pela agência mostra que as vendas do mercado global de servidores no primeiro trimestre deste ano foram de US$ 40,75 bilhões, um aumento anual de 59,9%, as remessas foram de 2,82 milhões de unidades; um aumento anual de 5,9%. Entre muitos fornecedores de servidores de IA, a Inspur Information continua a ocupar o segundo lugar no mundo e o primeiro na China. Suas remessas de servidores representam 11,3% do mercado global, um aumento anual de 50,4% e a taxa de crescimento mais rápida entre os. TOP5 fabricantes.

De acordo com o "Relatório prospectivo de tendências de desenvolvimento e previsão de demanda da indústria de servidores da China para 2024-2029", divulgado pelo China Business Industry Research Institute, no final de 2022, o tamanho total do mercado interno excederá 42 bilhões de yuans, um ano após -aumento anual de aproximadamente 20% em 2023, será de aproximadamente 49 bilhões de yuans, a taxa de crescimento do mercado está desacelerando gradualmente; Do ponto de vista das remessas, as remessas do mercado de servidores de IA da China serão de aproximadamente 284.000 unidades em 2022, um aumento anual de aproximadamente 25,66% serão enviadas em 2023, e espera-se que atinjam 421.000 unidades em 2024;

Nos primeiros dias do desenvolvimento de grandes modelos de IA, a demanda por servidores de IA era principalmente treinamento de modelos, de modo que os servidores de treinamento dominavam o mercado. Atualmente, 57,33% do mercado de servidores de IA são servidores de treinamento, e os servidores de inferência respondem por 42,67%. No entanto, à medida que as aplicações generativas de IA penetram na borda, espera-se que os servidores de inferência se tornem gradualmente o mainstream do mercado no futuro, e os servidores de IA na borda excedam o treinamento em nuvem e os servidores de inferência em termos de remessas.

Os dados mais recentes do relatório "China Semi-Annual Edge Computing Market (Full Year 2023) Tracking" da IDC mostram que o mercado de servidores de edge computing da China continuará a crescer de forma constante em 2023, com um crescimento anual de 29,1%. A IDC prevê que, até 2028, o mercado de servidores de computação de ponta da China atingirá US$ 13,2 bilhões.



Como uma parte importante da computação de ponta, a escala de servidores de ponta personalizados atingiu US$ 240 milhões em 2023, um aumento de 16,8% em comparação com 2022. Do ponto de vista das vendas dos fabricantes, os maiores fabricantes no mercado de servidores personalizados de borda são Inspur Information, Lenovo, Huawei e H3C. Com o desenvolvimento diversificado de aplicações de computação de ponta, os fabricantes emergentes de servidores terão grandes avanços em cenários de negócios e mercados de aplicativos, como colaboração entre veículos e estradas, IA de ponta e terminais inteligentes, fazendo com que o mercado de servidores de ponta apresente um cenário diversificado.

3. Arquitetura de computação ideal adequada para IA de ponta

A era do PC é liderada pela aliança WINTEL (Microsoft Windows + Intel CPU), e a era dos smartphones é liderada pela aliança Android + Arm. Qual aliança liderará a era da IA? Está surgindo uma nova aliança, ou seja, a NT Alliance (Nvidia+TSMC) formada pela Nvidia e TSMC. De acordo com previsões de especialistas em investimentos de Wall Street, a receita total da NT Alliance deverá atingir US$ 200 bilhões em 2024, com lucro líquido total de US$ 100 bilhões, e o valor total de mercado deverá exceder US$ 5 trilhões. A GPU da Nvidia e o negócio de fabricação de chips de IA da TSMC, impulsionados pelo treinamento de IA em nuvem e aplicativos de grandes modelos de IA, serão os maiores vencedores deste ano.

Embora a NVIDIA ocupe uma posição dominante absoluta no mercado de treinamento e inferência de IA em nuvem, o GPGPU da NVIDIA não é a melhor escolha em cenários de aplicações de IA de ponta porque o alto consumo de energia inerente e o alto custo de sua arquitetura de computação limitam seu uso em mais aplicações. aplicações de IA de borda generalizadas e dispersas. Acadêmicos e especialistas na área de arquitetura de computadores estão procurando uma arquitetura de tecnologia paralela com eficiência energética que possa substituir o design ASIC baseado em arquitetura específica de domínio (DSA) é uma ideia-chave viável, como a unidade de processamento tensor (TPU) do Google. Projetado para acelerar cargas de trabalho de aprendizado de máquina, este processador usa uma arquitetura de matriz sistólica que executa com eficiência operações de multiplicação e acumulação e é direcionado a aplicativos de data center. Outra ideia é a unidade de processamento neural (NPU) representada pela Samsung, que é especialmente projetada para cenas móveis e possui um mecanismo de produto interno que economiza energia e pode usar a dispersão do mapa de recursos de entrada para otimizar o desempenho da inferência de aprendizado profundo.

Embora tanto as TPUs quanto as NPUs possam fornecer soluções de alto desempenho e economia de energia que substituem parcialmente as GPGPUs, seus atributos de design especializados limitam sua versatilidade e ampla aplicabilidade. Kneron, uma startup de chips de IA de ponta com sede na Califórnia e centros de P&D em Taiwan e na China, propôs uma solução NPU reconfigurável que permite que os chips NPU tenham o alto desempenho do ASIC sem sacrificar a confiabilidade dos algoritmos com uso intensivo de dados. Com sua arquitetura única e inovadora e excelente desempenho, a equipe Kneron ganhou o prêmio IEEE CAS 2021 Darlington Best Paper. A NPU reconfigurável de 4ª geração da Kneron pode suportar a execução de redes CNN e Transformer ao mesmo tempo e pode realizar visão de máquina e análise semântica. Ao contrário dos modelos comuns de IA que são direcionados apenas a aplicações específicas, a tecnologia de Rede Neural Artificial Reconfigurável (RANN) da Kneron é mais flexível e pode atender a diferentes necessidades de aplicativos e se adaptar a várias arquiteturas de computação. De acordo com a empresa, seu chip GPT AI KL830 pode ser aplicado em PCs AI, aceleradores USB e servidores de borda. Quando usado em conjunto com uma GPU, o NPU pode reduzir o consumo de energia do dispositivo em 30%.

Hardware reconfigurável é outra solução que pode fornecer computação de alto desempenho e economia de energia. Os FPGAs (field-programmable gate arrays) são representativos da computação de hardware reconfigurável e são caracterizados pela reconfigurabilidade refinada. Os FPGAs utilizam blocos lógicos configuráveis ​​com interconexões programáveis ​​para implementar núcleos de computação personalizados. Esse poder de computação personalizado permite que aceleradores baseados em FPGA sejam implantados em uma ampla gama de aplicações de computação em larga escala, como computação financeira, aprendizado profundo e simulação científica. No entanto, a reconfigurabilidade em nível de bit fornecida pelos FPGAs acarreta sobrecarga significativa de área e energia sem economia de escala, o que limita bastante sua aplicabilidade em cenários de aplicação que exigem baixo consumo de energia e tamanho pequeno.

A arquitetura reconfigurável de granulação grossa (CGRA) representa outra classe de hardware reconfigurável. Comparados aos FPGAs, os CGRAs fornecem reconfigurabilidade de granulação grossa, como unidades funcionais reconfiguráveis ​​em nível de palavra. Como o módulo ALU dentro do CGRA foi construído e sua interconexão é mais simples e menor que o FPGA, sua latência e desempenho são significativamente melhores que o FPGA, que é interconectado no nível do portão para formar uma lógica de computação combinacional. CGRA é mais adequado para computação reconfigurável do tipo palavra (unidade de 32 bits) e pode aliviar os problemas de tempo, área e sobrecarga de energia do FPGA. É uma arquitetura de computação paralela de alto desempenho ideal para futura IA de borda.

Vamos revisar brevemente a história de desenvolvimento do CGRA:

  1. Já em 1991, os círculos acadêmicos internacionais iniciaram pesquisas sobre chips reconfiguráveis;
  2. Em 2003, o Grupo Europeu de Defesa Aeroespacial (EADS) assumiu a liderança na utilização de chips computacionais reconfiguráveis ​​em satélites;
  3. Em 2004, o IMEC da Europa propôs a estrutura dinamicamente reconfigurável ADRES, que tem sido aplicada na TV biomédica de alta definição da Samsung e em outras séries de produtos. A Renesas Technology do Japão também adota essa arquitetura.
  4. Em 2006, a equipe de computação reconfigurável liderada pelo professor Wei Shaojun do Instituto de Microeletrônica da Universidade Tsinghua começou a conduzir pesquisas sobre teoria e arquitetura de computação reconfigurável;
  5. Em 2017, a Agência de Projetos de Pesquisa Avançada de Defesa dos EUA (DARPA) anunciou o lançamento da Iniciativa de Ressurgimento Eletrônico (ERI), listando a tecnologia de "computação reconfigurável" como uma das tecnologias estratégicas dos Estados Unidos nos próximos 30 anos;
  6. Em 2018, a Qingwei Intelligence baseada na tecnologia de computação reconfigurável da Universidade Tsinghua foi estabelecida e iniciou oficialmente o processo de comercialização. Em 2019, a Qingwei Intelligent produziu em massa o primeiro chip de voz inteligente reconfigurável TX210 do mundo, provando o valor comercial da computação reconfigurável. Em 2020, Qingwei Intelligent ganhou o primeiro prêmio de invenção tecnológica da China Electronics Society em 2023, a segunda fase do Fundo Nacional investido em Qingwei Intelligent; Atualmente, a Qingwei Intelligent possui três produtos principais de chips: chips das séries TX2 e TX5 para a extremidade de ponta, bem como a série TX8 para o campo de servidores. Entre eles, os chips das séries TX2 e TX5 têm sido usados ​​em muitas áreas, como segurança inteligente, pagamento financeiro, wearables inteligentes e robôs inteligentes. O principal cenário de aplicação do chip de alta computação TX8 para o mercado de nuvem é o treinamento e inferência; de grandes modelos de IA.
  7. Zhuhai Core Power, outra startup doméstica de chips de IA baseada em tecnologia de computação reconfigurável, foi fundada em 2017. Sua arquitetura de processador paralelo reconfigurável (RPP) é uma versão aprimorada do CGRA. Em 2021, o primeiro chip RPP-R8 foi gravado com sucesso. Em 2023, ele entrou no mercado de aplicações de IA de ponta, como computação financeira, fotografia industrial e robôs, e alcançou uma cooperação estratégica com a Inspur Information para entrar no mercado de servidores de IA de ponta.

A comunidade acadêmica internacional de informática e a indústria de alta tecnologia chegaram a um consenso de que os chips de computação reconfiguráveis ​​baseados na arquitetura CGRA têm uma ampla gama de capacidades de computação geral e podem ser aplicados a vários cenários de computação de IA de ponta. alto poder de computação e necessidades de baixo consumo de energia são a única maneira.

4. Explicação detalhada da arquitetura do processador RPP

Tanto o RPP quanto o CGRA são arrays reconfiguráveis ​​de granulação grossa, ambos podem atingir densidade de área e eficiência energética semelhantes a ASIC, e ambos podem ser programados com software. No entanto, o RPP ainda é diferente do CGRA em termos de tipos reconfiguráveis ​​e modelos de programação, especificamente nos seguintes:

1. RPP é um array reconfigurável quase estático, enquanto o CGRA tradicional é geralmente usado para arrays reconfiguráveis ​​dinâmicos. Matriz reconfigurável estática significa que a execução de cada instrução na unidade de processamento (PE) não muda com o tempo e o fluxo de dados também permanece inalterado. Para o compilador, arrays reconfiguráveis ​​estáticos não precisam organizar as instruções no tempo, o que torna a construção do RPP mais simples e a velocidade de alocação de instruções é muito baixa. Portanto, o RPP pode implementar facilmente um array grande, como um array 32x32. O RPP é mais adequado para computação paralela em larga escala do que o CGRA tradicional.

2. O RPP usa o modelo de programação SIMT multi-threaded, enquanto o CGRA geralmente usa linguagem de programação single-threaded. O RPP é compatível com a linguagem CUDA e é mais adequado para computação paralela. A linguagem CUDA exige que os programadores considerem o grau de paralelismo dos dados desde o início e expressem algoritmos paralelos na linguagem CUDA. O compilador não precisa analisar o grau de computação paralela, e o compilador é muito simples; tipo e é usado apenas para computação paralela de dados, e o grau de paralelismo permanece constante dentro de um programa. CGRA geralmente usa linguagem C + compilador independente. Embora possa teoricamente cobrir qualquer tipo de cálculo, o compilador é muito complexo e é difícil alcançar alta eficiência de compilação.

O gráfico abaixo compara o RPP com várias arquiteturas de aceleração reconfiguráveis ​​convencionais.



As vantagens da arquitetura RPP podem ser resumidas nos quatro pontos a seguir:

  1. Uma arquitetura de processamento paralelo reconfigurável em forma de anel com memória junta permite a reutilização eficiente de dados entre diferentes fluxos de dados;
  2. O design de memória hierárquica possui vários modos de acesso a dados, estratégias de mapeamento de endereços e modos de memória compartilhada para obter acesso à memória eficiente e flexível;
  3. Vários mecanismos de otimização de hardware, como execução simultânea de kernel, divisão e recarga de registros e cálculos escalares e vetoriais heterogêneos, melhoram a utilização e o desempenho geral do hardware;
  4. Uma pilha de software completa, compatível com CUDA, com compilador, ambiente de tempo de execução e biblioteca RPP altamente otimizada, permitindo a implantação rápida e eficiente de aplicativos de IA de ponta.

Core Dynamics propôs o diagrama de blocos de design de hardware RPP baseado na arquitetura RPP e realmente demonstrou as vantagens dessa arquitetura de computação paralela por meio do chip R8. Esta implementação de design de hardware consiste principalmente em um Processador Circular Reconfigurável, uma unidade de memória e um sequenciador, conforme mostrado na figura abaixo.

  1. Processadores reconfiguráveis ​​em loop são os principais componentes de computação da computação massivamente paralela.
  2. A unidade de memória é dividida em vários bancos de memória, cada um deles emparelhado com um cache para permitir a reutilização eficiente de dados, explorando a localidade temporal e espacial do programa. Os dados intermediários são transferidos e armazenados na unidade de memória somente quando os registros e buffers dentro do processador reconfigurável em anel estão cheios.
  3. O sequenciador é usado para decodificar e distribuir instruções para o processador reconfigurável em anel e usa cache para armazenar instruções recebidas do DDR.



O processador reconfigurável em anel inclui a unidade de processamento NPU (PE) e uma memória de correção. Cada PE está equipado com uma porta de memória para facilitar o acesso de dados à unidade de memória. A porta de memória foi projetada com um controlador de modo, unidade de cálculo de endereço e múltiplos multiplexadores para suportar diferentes modos de acesso a dados e modos de memória compartilhada. Para permitir a comunicação flexível entre processadores, cada PE integra uma caixa de comutação (SB) e uma caixa de comutação de interconexão (ICSB) para encaminhamento eficiente de dados. Esses PEs são conectados em uma sequência linear, com a memória shim atuando como uma ponte entre o primeiro e o último PU, formando assim uma topologia em anel.

O processamento de dados dentro do processador reconfigurável em anel começa no primeiro PE e atravessa os PEs em uma maneira de pipeline, com resultados de cálculo intermediários sendo enviados para PEs subsequentes em sequência. A memória shim armazena em cache as saídas do último PE e as recircula para o primeiro PE, maximizando assim a localidade dos dados e eliminando o tráfego de memória para a unidade de memória. O principal componente de computação no PE é o mecanismo de processamento. Em cada PE, existem múltiplas Unidades Lógicas Aritméticas (ALUs), cada uma delas acoplada a um registrador de dados e a um registrador de endereço. Esses registros de dados são agregados para formar um buffer de dados para facilitar o acesso rápido aos dados dentro de cada PE.

Além disso, a combinação de rede de comutação linear e memória shim permite controle flexível do fluxo de dados e reutilização eficiente de dados, ao mesmo tempo que elimina o roteamento de rede complexo em projetos CGRA tradicionais baseados em rede. Combinado com o acesso flexível e eficiente aos dados às unidades de memória, o RPP pode otimizar o processamento do fluxo de dados e minimizar o tráfego de memória, maximizando assim a eficiência da utilização de recursos.

O processador RPP adota o modelo de programação SIMT para permitir o processamento de fluxo de dados de streaming para pipelines multithread flexíveis.



Para garantir a compatibilidade com o ecossistema de software GPGPU existente, o processador RPP da Core Power adota CUDA, que possui uma ampla base de usuários. O código CUDA é analisado pelo frontend baseado em LLVM para gerar código PTX para o backend RPP. O compilador RPP interpreta kernels CUDA como gráficos de fluxo de dados e os mapeia para caminhos de dados virtuais (VDPs). O VDP é então decomposto em vários caminhos de dados físicos (PDPs) com base nas restrições de hardware, e a configuração de cada PDP é gerada em tempo de execução pelo sequenciador.

A pilha de software do RPP pode suportar uma ampla gama de aplicações massivamente paralelas, incluindo aprendizado de máquina, processamento de vídeo/imagem e processamento de sinal. Para aplicativos de aprendizado de máquina, a pilha é compatível com diferentes estruturas convencionais, como PyTorch, ONNX, Caffe e TensorFlow. Além disso, os usuários têm flexibilidade para definir seus programas personalizados usando CUDA. Essas aplicações de alto nível são gerenciadas pela estrutura RPP, que consiste em um compilador e diferentes bibliotecas específicas de domínio. Na parte inferior da pilha de software, o ambiente de tempo de execução RPP e os drivers RPP são usados ​​para garantir que os programas compilados usando a cadeia de ferramentas possam ser executados perfeitamente no hardware subjacente.

5. Comparação de eficiência energética do processador RPP R8

Como o chip RPP-R8 baseado no design de hardware do processador RPP acima e na pilha completa de software funciona em termos de desempenho de computação e eficiência energética?

Os parâmetros de desempenho do chip R8 são mostrados na tabela a seguir:



Para cenários de computação de ponta, a Core Power comparou o chip RPP-R8 com duas GPUs de ponta da NVIDIA: Jetson Nano e Jetson Xavier AGX. O tamanho do chip do Jetson Nano é semelhante ao RPP, proporcionando uma comparação relevante dentro das restrições de área física; o Jetson Xavier AGX foi escolhido com base em seu rendimento teórico equivalente ao RPP-R8. A Core Dynamics avaliou essas três plataformas de aceleração de IA na inferência ResNet-50. O rendimento do Jetson Nano vem do documento de benchmark, enquanto os dados de desempenho do Xavier AGX vêm do site oficial da NVIDIA.



Conforme mostrado na tabela acima, o rendimento operacional medido do RPP-R8 é 41,3 vezes e 2,3 vezes maior que o do Jetson Nano e do Jetson Xavier AGX, respectivamente. Você sabe, o tamanho do chip do Jetson Xavier AGX é quase três vezes maior que o do R8, e o processo é mais avançado (12 nm vs. 14 nm), mas seu desempenho é inferior ao do R8. Em termos de eficiência energética, a eficiência energética do R8 é 27,5 vezes e 4,6 vezes maior que a do Jetson Nano e Jetson Xavier AGX, respectivamente. Esses resultados mostram que o RPP-R8 supera significativamente o Jetson Nano e o Jetson Xavier AGX em cenários de IA de ponta com área e orçamentos de energia limitados.



A inferência de aprendizagem profunda é uma carga de trabalho massivamente paralela amplamente reconhecida e uma aplicação importante para hardware RPP-R8. Tendo em vista a maior complexidade computacional dos modelos da série Yolo em comparação com modelos de classificação como ResNet-50, a Core Power escolheu NVIDIA Jeston Nano Orin como plataforma de GPU, cujo pico de rendimento é superior ao Jetson AGX Xavier, em 40 TOPS. Como as CPUs geralmente não são construídas para inferência de aprendizado profundo de alto desempenho, Jetson Xavier Nx foi escolhido como uma plataforma de GPU relativamente simples com um rendimento máximo de 21 TOPS. Cargas de trabalho com tamanhos de lote de 1, 2 e 4 são avaliadas, refletindo cenários reais de edge. A figura acima mostra a comparação do desempenho de rendimento das três plataformas, com RPP-R8 mostrando maior rendimento no Yolo-v5m e Yolo-v7 tiny. Em um tamanho de lote de 1, o rendimento do RPP-R8 é aproximadamente 1,5× ∼2,5 vezes maior do que Jeston Nano Orin e 2,6× ∼4,3 vezes maior do que Jeston Xavier Nx.

Os resultados da avaliação e dos testes mostram que o RPP supera as arquiteturas tradicionais de GPU, CPU e DSP em termos de latência, rendimento e eficiência energética. A melhoria de desempenho do processador RPP é atribuída aos seus recursos exclusivos de hardware, que incluem principalmente: 1) Processamento de fluxo de dados circular: fluxo de resultados intermediários através de registros de pipeline e FIFOs entre PEs, reduzindo significativamente a movimentação de dados e o tráfego de memória para armazenamento de memória remota; O modo é mais eficiente em comparação ao processamento de dados em GPU e CPU. 2) Sistema de memória hierárquica: o RPP maximiza a localidade dos dados por meio de seu sistema de memória hierárquica. Uma grande parte da área do chip RPP-R8 (aproximadamente 39,9%) é dedicada à memória on-chip. Esta escolha de design oferece uma ampla gama de capacidade de memória, melhora a reutilização de dados e reduz a necessidade de acesso frequente à memória externa. 3) Vetorização e pipelines multithread: a arquitetura de hardware e o modelo de programação do RPP permitem vetorização eficiente e pipelines multithread. Este projeto aproveita ao máximo todo o potencial computacional do RPP para processamento paralelo, garantindo que seus recursos sejam utilizados ao máximo, melhorando assim o desempenho.

Além das vantagens em consumo de energia, latência e rendimento, o RPP também se destaca pela pequena área. Apenas 119 milímetros quadrados de consumo de área de chip tornam o RPP-R8 uma plataforma ideal para computação de borda com área restrita. Outra característica do RPP é sua alta programabilidade, apoiada por uma pilha de software abrangente de ponta a ponta que aumenta significativamente a eficiência da implantação. A compatibilidade com CUDA permite que os usuários aproveitem o ecossistema CUDA familiar, encurtando a curva de aprendizado e promovendo uma adoção mais fácil. Suporta programação just-in-time e modos de programação gráfica, proporcionando aos usuários um alto grau de flexibilidade para atender a diversas necessidades de computação. Diferentes suportes de biblioteca, incluindo OpenRT e RPP-BLAS, também facilitam alto desempenho e implantação eficiente em vários cenários. Uma solução full-stack, incluindo arquitetura de hardware e suporte de software, faz com que o RPP se destaque entre vários hardwares de computação de ponta.

6. A arquitetura RPP é reconhecida por autoridades acadêmicas internacionais

O artigo "Circular Reconfigurable Parallel Processor for Edge Computing" (arquitetura de chip RPP) co-escrito pela Core Dynamics e equipes de arquitetura de computadores das principais universidades, como Imperial College London, Cambridge University, Tsinghua University e Sun Yat-sen University, foi adotado com sucesso pela 51ª Conferência de Arquitetura de Computadores incluída no Industry Track do Simpósio Internacional (ISCA 2024). O fundador e CEO da Core Dynamics, Dr. empresas de renome internacional como Intel e AMD dividiram o palco.



Esta ISCA recebeu um total de 423 submissões de artigos de alta qualidade de todo o mundo. Após um rigoroso processo de revisão, apenas 83 artigos se destacaram, com a taxa geral de aceitação tão baixa quanto 19,6%. Entre eles, o Industry Track é particularmente difícil de admitir, com uma taxa de aceitação de apenas 15,3%.

Como o principal evento acadêmico na área de arquitetura de computadores, o ISCA é organizado conjuntamente pela ACM SIGARCH e IEEE TCCA. Desde a sua criação em 1973, tem sido uma força pioneira na promoção do progresso no campo da arquitetura de sistemas de computador. Sua ampla influência e contribuições notáveis ​​tornaram-na uma plataforma de ponta para gigantes da indústria como Google, Intel e Nvidia competirem. para mostrar resultados de pesquisas de ponta. ISCA, MICRO, HPCA e ASPLOS são conhecidas como as quatro principais conferências, e a ISCA é a líder entre elas. A taxa de aceitação de papel permanece em torno de 18% durante todo o ano. Ao longo dos anos, numerosos resultados de pesquisas publicados na ISCA tornaram-se uma força motriz fundamental no desenvolvimento das indústrias de semicondutores e de computadores.

Os artigos de processador paralelo reconfigurável (RPP) selecionados desta vez injetaram forte impulso no campo da computação de ponta. Os resultados experimentais confirmam plenamente que, como plataforma de hardware de computação paralela, o desempenho do RPP supera amplamente o das GPUs atualmente no mercado, especialmente em cenários de aplicativos que possuem requisitos extremamente altos de latência, consumo de energia e volume.

6. Conclusão

ChatGPT detonou grandes modelos de IA, gerando enorme demanda por GPUs e aceleradores de IA. A tendência de desenvolvimento de aplicações de IA irá gradualmente penetrar desde o treinamento e raciocínio de IA em nuvem até os servidores de IA de ponta e do lado do dispositivo que fornecem suporte de software e hardware para vários aplicativos de IA e também seguirão a tendência de expansão distribuída dos data centers para a computação de ponta. A GPGPU tradicional começou a expor falhas arquitetônicas óbvias em cenários de aplicações de IA de ponta. Seu alto custo, alto consumo de energia e alta latência forçaram os especialistas do setor a buscar arquiteturas de computação paralela mais eficientes em termos energéticos.

Depois de comparar diferentes arquiteturas de computação, como CPU, GPU, ASIC, FPGA e NPU, descobrimos que a arquitetura de computação reconfigurável CGRA é mais adequada para aplicações de IA de ponta, especialmente o processador paralelo reconfigurável (RPP) proposto pela Core Dynamics. Através de análises comparativas com GPUs similares da NVIDIA, o chip R8 baseado na arquitetura RPP tem um bom desempenho em termos de latência, consumo de energia, custo de área, versatilidade e implantação rápida. Acreditamos que esta é atualmente a arquitetura de computação paralela de IA de ponta mais ideal.

Na conferência acadêmica ISCA2024 realizada na Argentina em julho deste ano, o artigo sobre a arquitetura do processador RPP foi reconhecido por autoridades acadêmicas internacionais. Com o desenvolvimento da IA ​​de ponta, os servidores de IA e os PCs de IA darão início a um período dourado de rápido crescimento, e os aceleradores de IA que suportam esses dispositivos de IA de ponta também crescerão simultaneamente. O chip processador RPP proposto pela Zhuhai Core Power Technology também será reconhecido pela indústria e se tornará o processador de aceleração de IA mais ideal em cenários de aplicações de IA de ponta.