Quebrando a ilha ecológica, são lançadas ferramentas domésticas heterogêneas de computação de IA nativa, de Zhongke Jiahe

2024-07-22

Relatório do coração da máquina

Autor: Zenan

"Com a ajuda do software de otimização do sistema, o limite para o desenvolvimento será reduzido, vários hardwares serão unificados e a ecologia tecnológica será desenvolvida. Isto é de grande importância para o progresso da atual ecologia inteligente", disse o Acadêmico do Academia Chinesa de Engenharia e Acadêmico do Instituto de Tecnologia da Computação da Academia Chinesa de Ciências, Sun Ninghui, presidente do comitê e presidente do CCF, fez um discurso na conferência de imprensa. "Além de chips inteligentes e aplicativos da indústria de IA, precisamos que partes de otimização de software de sistema se unam e trabalhem juntas, para que possamos melhorar o ecossistema doméstico."

Acadêmico Sun Ninghui na conferência de imprensa

Diante do problema do poder de computação "travado", finalmente temos uma solução em nível de sistema.

Em 20 de julho, a startup de infraestrutura de IA Zhongke Jiahe lançou oficialmente a primeira geração de ferramentas de computação de IA nativas heterogêneas.

Enfrentando a tendência atual de implementação em larga escala do poder de computação doméstico, o método proposto por Zhongke Jiahe pode permitir que diferentes tipos de chips sejam paralelizados em grande escala, maximizando a eficiência e permitindo que os usuários do poder de computação acessem diretamente o poder de computação sem ter que prestar atenção às diferentes ecologias de chips. Venha e use-o.

Cui Huimin, fundador e CEO da Zhongke Jiahe, divulgou e apresentou que "as ferramentas de poder de computação de IA heterogêneas nativas de Jiahe" já desempenharam um certo papel na infraestrutura de IA do poder de computação doméstico. É compatível com uma variedade de chips de IA domésticos e fornece uma interface unificada de alto desempenho para proteger as diferenças de chip.Com base em plataformas nativas heterogêneas, os clusters de poder de computação de IA melhoraram o desempenho no raciocínio de grandes modelos.A latência pode ser reduzida de 3 a 74 vezes, a taxa de transferência aumentada de 1,4 a 2,1 vezes, a eficiência energética melhorada de 1,46 vezes e pode suportar modelos grandes e densos com parâmetros de 340B e modelos grandes de MoE com 640B。

Ao mesmo tempo, Zhongke Jiahe forneceu suporte de raciocínio de alto desempenho para mais de 10 clientes, incluindo chips, integradores, provedores de serviços, etc. Sua arquitetura suporta grandes modelos convencionais nacionais e estrangeiros e pode realizar raciocínio paralelo diversificado.

Os provedores de energia de computação e parceiros de aplicativos anunciados na conferência de imprensa incluem: AMD, Boyd, Huawei, Hangzhou Artificial Intelligence Computing Center, Open Transun, Moore Thread, Qingyun Technology, Rise VAST, Suiyuan Technology e Wuwenxin Qiong, Yunxi Hashrate, Xinhua San , etc. (classificados em ordem alfabética por pinyin).

Cui Huimin, fundador e CEO da Zhongke Jiahe, na conferência de imprensa

Poder de computação de IA nativa heterogênea, com o objetivo de alcançar "três zeros e um alto"

O plano proposto por Zhongke Jiahe visa permitir a aplicação de grandes modelos de IAObtenha migração com custo zero, uso com perda zero e uso eficiente de implantação com atraso zero em diferentes chips。

Este conjunto de ferramentas de software inclui três produtos: o mecanismo de inferência nativo heterogêneo de grandes modelos "SigInfer", o mecanismo nativo heterogêneo de ajuste fino "SigFT" e a ferramenta automática de geração e tradução de operadores "SigTrans".

Entre eles, o SigInfer, lançado ontem, é um mecanismo de inferência nativo heterogêneo, multiplataforma e de alto desempenho que não apenas suporta placas aceleradoras de IA no nível do servidor, mas também GPUs no nível do consumidor. Portanto, ele pode ser implantado em data centers e acelerar vários dispositivos finais.

Como base técnica para computação heterogênea, diferentes capacidades de computação de IA acessadas por meio do SigInfer podem alcançar interfaces de chamada unificadas e migração suave de aplicativos de negócios. O SigInfer realizará otimização profunda em vários níveis, ao mesmo tempo em que recorrerá a uma variedade de diferentes poderes de computação para explorar totalmente o potencial do poder de computação do chip.

Ele possui vários recursos de mecanismos modernos de inferência de grandes modelos, como suporte para API Serving, agendamento de solicitações, gerenciamento de lote, otimização de cache KV, paralelismo de tensor, paralelismo de pipeline, paralelismo especializado e até mesmo paralelismo de pipeline de várias máquinas.

Zhongke Jiahe disse que o SigInfer já suporta a maioria das grandes estruturas de modelos da indústria.

Atualmente, o SigInfer já pode implementar recursos completos de mecanismo de inferência. O cluster heterogêneo de placas aceleradoras que ele suporta pode agendar com flexibilidade placas aceleradoras NVIDIA AI + placas aceleradoras domésticas de IA para inferência híbrida e pode ser expandido para trilhões de modelos grandes.

Usar o SigInfer para auxiliar na implantação de chips de IA pode permitir que serviços de modelos grandes mantenham alto rendimento e baixa latência quando os requisitos de acesso de negócios aumentam. Esses indicadores são cruciais para aplicações de IA generativa em grande escala.

Ao usar a mesma placa gráfica NVIDIA, podemos ver que o SigInfer pode fornecer um efeito de aceleração mais óbvio:

Além disso, ao usar chips domésticos para realizar tarefas semelhantes, o SigInfer também pode melhorar a taxa de transferência de placas aceleradoras de IA na computação paralela, ao mesmo tempo que reduz significativamente o atraso na saída de tokens.

Ferramentas de poder de computação de IA nativas heterogêneas podem ajustar a frequência de computação do acelerador de IA com base em diferentes estágios de processamento de tarefas de modelos grandes, características do operador, otimização adaptativa de meta de otimização, etc., alcançando assim alta eficiência. Zhongke Jiahe calculou uma conta para nós Durante a operação do data center, o uso do A800 mais SigInfer pode aumentar o índice de eficiência energética em 46% em comparação com o vllm.

Além de otimizar a infraestrutura em nuvem, Zhongke Jiahe também demonstrou otimização de desempenho para inferência do lado do cliente. O SigInfer pode acelerar equipamentos de chips baseados em grandes fabricantes, como Intel, Qualcomm e AMD. Em comparação com as principais soluções de implantação da indústria, o SigInfer pode aumentar a eficiência da inferência do lado do dispositivo em até 5 vezes.

Por trás da computação heterogênea e das melhorias de eficiência estão a aplicação e otimização de uma série de tecnologias e engenharia de ponta.

Para melhorar a eficiência da computação paralela, Zhongke Jiahe introduziu uma série de otimizações. Por exemplo, a otimização do acesso à memória no estágio de decodificação em profundidade permite que o KV Cache obtenha multiplexação em nível de registro. Em comparação com o carregamento de L2, a latência e a largura de banda foram otimizadas.

Ao mesmo tempo, para aliviar a redução do paralelismo, os pesquisadores de Zhongke Jiahe também realizaram divisões paralelas na dimensão sequencial dos dados. Combinado com a otimização de reutilização do KV Cache, ele não apenas economiza o acesso à memória, mas também aumenta o paralelismo, melhorando a eficiência de execução do cálculo central de todo o mecanismo de atenção.

Zhongke Jiahe também explorou métodos de geração de operadores de alto desempenho para poder de computação heterogêneo. Ao cooperar com fabricantes de energia computacional, Zhongke Jiahe migrou o cutelo para a arquitetura de chips domésticos, melhorando significativamente a eficiência operacional da multiplicação de matrizes. Entre eles, a empresa alcançou mais de 20% de melhoria de desempenho através da otimização combinada com tecnologia de compilação.

Com o apoio de uma série de tecnologias, as ferramentas de computação de IA heterogêneas nativas da Jiahe alcançaram excelente otimização da eficiência energética.

A partir da tecnologia de compilação: a rota técnica de Zhongke Jiahe

Diferente dos recursos fornecidos por algumas empresas de infraestrutura de computação de IA no passado,A computação e aceleração heterogêneas fornecidas por Zhongke Jiahe estão centradas na tecnologia de compilação.。

Para computadores, o trabalho realizado pela camada de compilação é a “tradução”. Ela é responsável por converter o conteúdo da linguagem de programação de alto nível escrito por humanos em uma linguagem que a máquina possa compreender e executar.

Nesse processo, a compilação também precisa ser otimizada, ou seja, melhorar a eficiência operacional do código de máquina gerado. Quando se trata de desempenho do chip, a compilação desempenha um papel importante, mas muitas vezes é esquecida.

A plataforma de computação CUDA desempenha um papel importante nos chips NVIDIA mais populares do setor. Inclui linguagens de programação, compiladores, diversas bibliotecas de aceleração de alto desempenho e estruturas de IA. Pode atuar como distribuidor quando o computador executa tarefas, aproveitando ao máximo os recursos computacionais de diferentes hardwares para fazer com que modelos de código complexos sejam executados com mais rapidez. Pode-se dizer que o ecossistema de IA atual é amplamente baseado em CUDA.

Para o poder da computação doméstica, a fim de alcançar aplicações em larga escala, é necessário construir a ecologia e as capacidades necessárias.

Na era da IA generativa, a procura das pessoas por poder computacional promoveu o desenvolvimento da tecnologia de chips, mas também surgiram novos desafios:

Do ponto de vista das empresas de chips, o ecossistema também está se desenvolvendo em múltiplos fragmentos, o que levará ao aumento dos custos de desenvolvimento e a questões como eficiência de implementação e compatibilidade.
Do ponto de vista do desenvolvimento da indústria, a tecnologia de IA está a desenvolver-se rapidamente e abrange cada vez mais cenários, o que significa que estarão envolvidos mais tipos de poder computacional, o que promove ainda mais a procura de computação heterogénea.

Portanto, a indústria precisa urgentemente de uma cadeia de ferramentas eficiente que possa suportar uma variedade de chips nacionais. Se um conjunto de software básico universal, de baixo custo e de alto desempenho puder surgir e ajudar os parceiros ecológicos a transplantar rapidamente os aplicativos desenvolvidos com base no ecossistema da NVIDIA, o potencial dos chips domésticos poderá ser totalmente liberado, impulsionando o ritmo da pesquisa e desenvolvimento tecnológico, assim gradualmente Construa um ciclo positivo que estabeleça o ecossistema de poder de computação de IA.

Isto é o que Zhongke Jiahe tem feito.

A camada básica da plataforma de software fornecida por Zhongke Jiahe está posicionada nas camadas do operador, compilador e estrutura, construindo uma ponte entre hardware e software.As ferramentas heterogêneas de computação de IA nativas fornecidas podem ajudar os usuários a migrar facilmente modelos de IA e arquiteturas de chips, o que traz grande conveniência para aplicativos de IA.

Todos esses níveis de recursos envolvem tecnologia de compilação. A cobertura da compilação de IA inclui a camada e a camada do operador. Em comparação com os compiladores tradicionais, a extensão da transformação semântica é mais ampla. Por exemplo, os compiladores de IA geralmente precisam considerar o particionamento de gráficos de cálculo, fusão de subgráficos, computação paralela, bloqueio de dados, etc. São problemas difíceis de resolver.

A este respeito, Zhongke Jiahe concluiu muitas pesquisas, como a realização de análises de fluxo de dados globais no nível de expressão do Tensor, a construção de gráficos de cálculo precisos e gráficos de dependência de dados e, em seguida, a quebra dos limites dos operadores para a fusão dos operadores, e alcançou bons resultados. Efeito. Em algumas redes, o seu método alcançou uma taxa de aceleração de até 3,7 vezes em comparação com o nível avançado da indústria. Resultados de trabalhos relevantes foram publicados na principal conferência deste ano na área de informática.

Construir poder computacional de ponta a ponta, possibilitando soluções para ajudar a prosperar o ecossistema doméstico de IA

Zhongke Jiahe foi fundada em julho de 2023 e sua equipe vem principalmente do Instituto de Tecnologia da Computação da Academia Chinesa de Ciências. O fundador, Cui Huimin, formou-se no Departamento de Ciência da Computação da Universidade Tsinghua e é o chefe da equipe de compilação do Instituto de Tecnologia da Computação da Academia Chinesa de Ciências. A equipe principal da empresa tem mais de 20 anos de experiência em pesquisa e desenvolvimento de compiladores e atuou como membro principal presidindo ou participando da pesquisa e desenvolvimento de compiladores de vários chips nacionais.

Desde a sua criação, a empresa concentrou-se na tecnologia de compilação e otimização de chips e está comprometida em fornecer recursos computacionais universais, de baixo custo e de alto desempenho, com a missão de "reunir o poder combinado dos chips para construir um ecossistema doméstico". Atualmente, Zhongke Jiahe recebeu várias rodadas de financiamento, totalizando quase 100 milhões de yuans.

Zhongke Jiahe está construindo uma série de produtos em torno de três rotas, incluindo um mecanismo de inferência de grandes modelos de IA que suporta poder de computação heterogêneo, uma estrutura de ajuste fino de modelos grandes e um conjunto de ferramentas de compilação de IA. Eles podem não apenas ajudar os usuários avançados de computação a usar rapidamente o poder computacional diversificado de IA, mas também ajudar os fornecedores de poder computacional a melhorar o ecossistema de software e aumentar a competitividade, completando uma parte importante do ecossistema doméstico de poder computacional de IA.

Mais importante ainda, Zhongke Jiahe espera se tornar uma ponte de "comunicação", conectando um grande número de usuários e provedores de energia computacional, para que ambas as partes possam caminhar alegremente em ambas as direções, promovendo assim o desenvolvimento de poder computacional heterogêneo de IA nativa. para aplicações em grande escala e o desenvolvimento vigoroso do ecossistema doméstico de IA.

notícias

Quebrando a ilha ecológica, são lançadas ferramentas domésticas heterogêneas de computação de IA nativa, de Zhongke Jiahe

Introdução

minhas informações de contato