huawei lança novo armazenamento de ia para permitir treinamento e inferência de grandes modelos de ia com novo paradigma de memória longa

2024-09-21

em 20 de setembro, no data storage summit realizado durante a huawei connect conference 2024, dr. zhou yuefeng, vice-presidente da huawei e presidente da linha de produtos de armazenamento de dados, lançou o novo armazenamento de ia oceanstor a800, que melhora abrangentemente o treinamento de grandes modelos de ia com o novo paradigma de memória longa e capacidades de raciocínio, ajudando milhares de indústrias a entrar na era da inteligência digital.

zhou yuefeng, vice-presidente da huawei e presidente da linha de produtos de armazenamento de dados, fez um discurso de abertura

a civilização humana evoluiu desde a antiga idade da pedra até à era agrícola, à era industrial e agora à era da inteligência digital. os dados têm sido um factor de produção chave para o desenvolvimento de novas forças produtivas. as pessoas usam dados para alcançar um grande desenvolvimento em campos centrais de ia, como grandes modelos de ia, inteligência incorporada e ia para ciência.

a era da inteligência digital é a era de ouro dos dados. embora a escala dos dados esteja crescendo explosivamente e o valor dos dados esteja aumentando, também enfrenta desafios como largura de banda insuficiente de xpu e armazenamento, baixa disponibilidade de clusters de computação e expansão. tempo de inferência, que apresenta requisitos mais elevados para armazenamento. a era da inteligência digital exige armazenamento para ia o armazenamento de dados com desempenho máximo, alta escalabilidade, resiliência de dados, desenvolvimento sustentável, novos paradigmas de dados e capacidades de tecelagem de dados é o único caminho para a era da inteligência digital de ia.

para enfrentar os desafios acima, a huawei lançou seu novo armazenamento de ia oceanstor a800. baseado nas capacidades de treinamento eficientes de grandes modelos de ia, ele melhorou bastante as capacidades de raciocínio e deu saltos e limites no desempenho do cluster e em novos paradigmas de dados, promovendo a aplicação. de ia em milhares de indústrias o negócio é implementado.

1. um único conjunto de dispositivos de armazenamento de ia oferece suporte ao treinamento de modelos grandes em nível de 100.000 cartões. ao construir uma arquitetura técnica com compartilhamento total de placas de rede front-end e interconexão total de controladores e discos ssd back-end, um único dispositivo de armazenamento pode suportar a interconexão total de um cluster de nível de 100.000 placas. um conjunto de armazenamento oceanstor a800 pode realizar conexão estática completa com um cluster de treinamento de até 192.000 cartões, melhorando o desempenho em 40% e reduzindo o uso de espaço em 80%.

2. usando armazenamento e computação, a disponibilidade de clusters de ia aumenta em 30%. as interrupções no treinamento de ia ocorrem com frequência. de acordo com as estatísticas, o tempo de treinamento contínuo mais longo no centro de treinamento de ia é de apenas 2,6 dias, fazendo com que a gpu/npu salve repetidamente os dados do ckpt. a china mobile usa o armazenamento huawei oceanstor ai para treinamento de modelos grandes, alcançando um cluster de armazenamento único de 150 pb, largura de banda de 8 tb/s e recursos de 230 milhões de iops. a disponibilidade do cluster é aumentada em 32%, fornecendo forte suporte para treinamento subsequente de modelos grandes em larga escala. .

3. computação baseada em armazenamento, armazenamento de memória longa melhora a experiência de raciocínio e reduz os custos do sistema.

o contexto longo tornou-se uma tendência de desenvolvimento inevitável para o raciocínio de modelos grandes. de acordo com a lei de escala, fornecer poder computacional de raciocínio alto o suficiente e o número de tokens intermediários pode melhorar muito a precisão do raciocínio. por meio do armazenamento profissional de ia, tokens de contexto longo e de raciocínio intermediário massivo podem ser armazenados por um longo tempo, maximizando o pensamento lógico e as capacidades de raciocínio de grandes modelos, especialmente as capacidades de pensamento lento.

como o primeiro dispositivo de armazenamento do setor a fornecer recursos de memória longos, o oceanstor a800 adota de forma inovadora um mecanismo de cache kv multinível para persistir e usar o kv-cache de maneira eficiente, permitindo que o raciocínio de modelos grandes tenha recursos de memória longos e reduza cálculos repetidos no estágio de pré-preenchimento. a latência de inferência do cliente foi reduzida em 78% e o rendimento de um único cartão xpu aumentou em 67%, melhorando significativamente a experiência de inferência e reduzindo custos.

o novo armazenamento de ia na era da inteligência digital está exercendo valor em cenários industriais como crédito financeiro, análise de pesquisa de investimentos, saúde médica e pesquisa e desenvolvimento de medicamentos. zhou yuefeng disse que na era de ouro dos dados, a huawei liberou capacidades avançadas de armazenamento de dados com seu inovador armazenamento de ia e lançou as bases para a era da inteligência digital.

relatório/comentários

notícias

huawei lança novo armazenamento de ia para permitir treinamento e inferência de grandes modelos de ia com novo paradigma de memória longa

introdução

minhas informações de contato