É lançada a primeira plataforma de treinamento misto de chip heterogêneo em escala de quilocalorias do mundo! Wuwen Xinqiong: Que o mundo não tenha poder de computação de IA difícil de usar

É lançada a primeira plataforma de treinamento misto de chip heterogêneo em escala de quilocalorias do mundo!Wuwen Xinqiong: Deixe o mundo não ter poder de computação de IA difícil de usar

2024-07-15

coisas inteligentes
AutorZeR0
Editor Mo Ying

“Antes de abrir a torneira, não precisamos saber de qual rio vem a água. Da mesma forma, quando usarmos vários aplicativos de IA no futuro, não saberemos quais modelos básicos ela chama e quais placas aceleradoras ela usa. Poder computacional – esta é a melhor infraestrutura de IA nativa.”

Essa infraestrutura AI Native precisa ser construída em conjunto por todos. Em 4 de julho, no Fórum de Infraestrutura de IA da Conferência Mundial de Inteligência Artificial de 2024, Xia Lixue, cofundador e CEO da Wuwen Core Dome, lançou a primeira plataforma de treinamento híbrido de chip heterogêneo em escala de quilocalorias do mundo, o treinamento híbrido heterogêneo de quilocaloria cluster. A utilização do poder de computação atinge um máximo de 97,6%.

Ao mesmo tempo, Xia Lixue anunciou que a plataforma de nuvem Infini-AI do Wuwen Core Dome integrou recursos de treinamento misto de cartão de quilo heterogêneo de grande modelo. É a primeira plataforma do mundo que pode realizar treinamento misto de chip heterogêneo em escala de cartão de quilo de tarefa única. , e tem escalabilidade de 10.000 ka. Suporta treinamento misto de modelos grandes, incluindo seis chips heterogêneos da AMD, Huawei Ascend, Tianshu Zhixin, Muxi, Moore Thread e NVIDIA.

A partir de julho, os usuários que se inscreverem para treinamento experimental poderão iniciar o treinamento de modelos grandes com escala de 70 bilhões de parâmetros no Infini-AI com um clique.

Apenas 4 meses atrás, a plataforma de nuvem de serviço e desenvolvimento de grandes modelos Infini-AI de Wuwen Xinqiong anunciou seu primeiro beta público. Clientes de grandes empresas de modelos como Zhipu AI, Dark Side of the Moon e Shengshu Technology têm usado Infini-AI de forma estável. Poder de computação heterogêneo e mais de 20 startups de aplicativos AI Native continuam a chamar vários modelos predefinidos de APIs no Infini-AI e a usar a cadeia de ferramentas fornecida por Wuwen Xinqiong para desenvolver seus próprios modelos de negócios.

O lançamento da primeira plataforma do mundo que pode realizar treinamento misto de chips heterogêneos em uma escala de quilocard não é apenas um reflexo da força técnica do Wuwen Core Dome em otimização de computação heterogênea e design de sistema de cluster, mas também um reflexo da adesão do Wu Wen Core Dome a "MxN" Uma conquista importante do conceito ecológico da camada intermediária.

Wuwen Xinqiong assumiu a liderança na construção de um padrão ecológico da camada intermediária "MxN" para alcançar a implantação eficiente e unificada de vários algoritmos de modelos grandes em vários chips.

A plataforma Infini-AI suporta mais de 30 modelos, incluindo Qwen2, GLM4, Llama 3, Gemma, Yi, Baichuan2, série ChatGLM3 e AMD, Huawei Shengteng, Biren, Cambrian, Suiyuan, Haiguang, Tianshu Zhixin, mais de 10 tipos de computação placas, incluindo Muxi, Moore Thread e NVIDIA, não apenas suportam conexão um-para-um entre um único algoritmo e um chip, mas também suportam a correspondência e combinação gratuitas de vários modelos e vários chips.

De acordo com Xia Lixue, espera-se que até o final deste ano, Wuwen Xinqiong implemente totalmente o roteamento automático M×N do modelo para o chip.

1. O aglomerado Wanka é um campo de batalha para estrategas militares de grande escala e o país enfrenta dificuldades na abertura do ecossistema.

Xia Lixue, cofundador e CEO da Wuwen Core Dome, acredita que o poder da computação é o posto avançado e a pedra angular do desenvolvimento da IA. A escala dos modelos que apareceram após o GPT-4 não aumentou exponencialmente, e o poder computacional necessário para suportar o algoritmo encontrou um gargalo. Atualmente, ninguém pode implementar um sistema grande com uma escala maior e uma quantidade maior de cálculo. para um único modelo, o que faz com que o desenvolvimento do modelo entre em um novo estágio Em um estado de desaceleração e estagnação, ou seja, o sistema de poder computacional que suporta as capacidades do modelo para passar para a próxima geração ainda precisa ser desenvolvido e construído. .

Grandes modelos competem no poder da computação global sob a influência da Lei de Escala. Há relatos de que a Microsoft e a OpenAI estão construindo um grande projeto de poder computacional no valor de mais de 100 bilhões de dólares americanos. Comparada com muitas outras técnicas, esta expansão de escala simples e grosseira traz o retorno mais prático na inteligência do modelo. Google, OpenAI, bem como os principais fabricantes nacionais e as três principais operadoras estão construindo grandes clusters na escala Wanka.

Em um sistema iterativo, grande e estável verdadeiramente sustentável, a Scaling Law tem vantagens únicas. Não possui tantas técnicas ricas e é mais fácil de manter e expandir. Para um sistema que realmente precisa funcionar por muito tempo, a escalabilidade é um atributo muito importante, e um sistema escalável é um bom sistema.

O gráfico da IDC mostra que a demanda por poder computacional para futuras deduções e treinamentos de IA está se desenvolvendo rapidamente em todo o mundo, e tanto o treinamento quanto a inferência exigem o suporte de recursos computacionais poderosos. A ecologia interna e externa por trás deste enorme mercado é muito diferente. O padrão da camada do modelo ecológico estrangeiro e da camada de chips é relativamente concentrado, enquanto o ecossistema chinês é relativamente descentralizado e vibrante. Tanto a camada do modelo quanto a camada de chips estão competindo para expandir o mercado de poder de computação e enfrentam muitos problemas importantes na abertura do mercado. ecossistema.

O Cluster Wanka é um campo de batalha para estrategistas militares de grande escala. Xia Lixue compartilhou que existem agora mais de 100 clusters de quilocards em construção ou planejados na China, e a maioria deles tem poder de computação heterogêneo. Muitos clusters usam diferentes serviços de chip e estão envolvidos na produção de IA. As razões incluem a possibilidade de riscos na cadeia de abastecimento decorrentes da dependência excessiva de uma única plataforma de hardware e as rápidas melhorias de desempenho dos chips nacionais que fornecem às partes do cluster uma variedade de opções.

No entanto, um grande número de chips heterogêneos também formou "silos ecológicos". Diferentes ecossistemas de hardware são fechados e incompatíveis entre si. As pilhas de software não podem ser bem coordenadas e conectadas. Mesmo que existam muitos clusters de poder de computação, ainda é difícil conseguir integração e utilização eficazes. Este é um desperdício de recursos de poder de computação. Não só se tornou a maior dificuldade na construção de infraestrutura nativa de IA, mas também uma razão importante. a atual grande indústria modelo está enfrentando uma "escassez de poder de computação".

Wuwen Core Dome deseja construir uma infraestrutura de IA nativa que possa se adaptar ao cenário ecológico multimodelo e multichip da China, fornecer uma plataforma de computação útil que integre eficientemente recursos de computação heterogêneos e middleware que suporte otimização e aceleração conjunta de software e hardware. , quebrando os “silos ecológicos” existentes e permitindo que chips e clusters heterogêneos se transformem verdadeiramente em grande poder computacional.

As tarefas de inferência de treinamento de IA são muito diferentes da computação tradicional. Por exemplo, uma única tarefa será grande e em rajadas. Portanto, se uma estratégia de agendamento mais nativa de IA não for adotada, a utilização de recursos de todo o sistema será muito baixa, ou mesmo. Como resultado, as tarefas do cliente muitas vezes são interrompidas e reiniciadas, atrasando assim o processo de desenvolvimento de IA.

A solução da Wuwenxinqiong possui um sistema completo de gerenciamento de nuvem na parte inferior, incluindo recursos de agendamento e plataformas PaaS e MaaS. O seguinte é equivalente a uma base de poder de computação para colaboração em nuvem, permitindo que desenvolvedores e pesquisadores de grandes modelos se movam com suas malas e usem rapidamente diferentes poderes de computação.

A plataforma de serviço MaaS construída nesta base, ou seja, a plataforma de serviço de conjunto de modelos, pode fornecer muitos serviços de modelo grande com aplicativos flexíveis para ajudar algumas empresas que ainda estão no período de aprendizado de IA a desenvolver rapidamente alguns aplicativos de grande escala de modelos grandes.

2. Obtenha treinamento cruzado de diferentes chips e reduza o custo de implementação de aplicativos de grandes modelos

Por trás de uma série de progressos em produção e pesquisa, a equipe de P&D de Wuwen Xinqiong tem muita experiência prática e conquistas em otimização de computação de chips heterogêneos e design de sistemas de cluster.

Recentemente, a equipe conjunta de pesquisa de Wuwen Xinqiong, Universidade Tsinghua e Universidade Jiao Tong de Xangai lançou o HETHUB, um sistema de treinamento híbrido distribuído heterogêneo para modelos de grande escala. Esta é a primeira vez na indústria que o treinamento misto entre seis marcas diferentes de chips foi alcançado, e a conclusão da engenharia é alta. De acordo com Xia Lixue, a intenção original de projetar esta tecnologia é continuar a empurrar o limite superior das capacidades técnicas de grandes modelos, integrando um poder de computação mais heterogêneo e, ao mesmo tempo, ao abrir o ecossistema heterogêneo de chips, continuar a reduzir o custo de implementação de aplicativos de modelos grandes.

Disse que os dois principais desafios enfrentados na construção do sistema foram a comunicação e a formação distribuída. Diferentes bibliotecas de comunicação para diferentes arquiteturas de hardware equivalem a duas pessoas usando linguagens completamente diferentes para concluir um grande projeto. Cartões heterogêneos têm muitas diferenças de desempenho devido a diferentes conceitos de design e se adaptam a tarefas diferentes, resultando em uma variedade de diferenças em; a eficiência exibida por diferentes tipos de cartões pode tornar ineficiente o treinamento distribuído em larga escala.

Portanto, sua equipe tem feito muito trabalho, incluindo:

1. Em termos de comunicação, estabelecer uma biblioteca de comunicação coletiva universal para conseguir uma comunicação eficiente de diferentes tipos de chips e ser compatível com vários tipos de hardware;

2. Propor um esquema de divisão não uniforme baseado no paralelismo de pipeline para resolver o problema de diferentes eficiências de hardware e alocar as tarefas mais adequadas de acordo com sua situação;

3. A ferramenta de previsão de treinamento misto autodesenvolvida pode prever o valor de cada chip antecipadamente no início do treinamento, encontrando assim uma estratégia de divisão ideal para completar toda a tarefa de treinamento e formar a melhor solução em diferentes cartões.

A julgar pelo efeito real do treinamento misto, Wuwen Xinqiong fez muitas combinações que podem chegar a mais de 70%, e a utilização do poder de computação pode chegar a 97,6%. O treinamento misto em 6 combinações diferentes de chips atingiu uma escala de quilocalorias. .

Anteriormente, Wuwen Xinqiong alcançou a inferência M×N, mas agora alcançou o treinamento M×N, o que é um grande avanço.

Essa funcionalidade está integrada à plataforma Infini-AI existente. A plataforma tem a capacidade de permitir que os usuários implantem aplicativos e serviços com eficiência na plataforma. Depois de adicionar recursos de treinamento mistos, ela pode suportar a combinação cruzada de 6 marcas, quebrando o gargalo de treinamento de uma única marca. mundo para apoiar quilocalorias heterogêneas Uma plataforma para treinamento misto.

A camada superior do Infini-AI suporta uma variedade de estratégias de treinamento, incluindo paralelismo de tensor, paralelismo de dados e sobreposição de comunicação, que podem alcançar treinamento eficiente e podem suportar treinamento de modelos grandes com mais de 70 bilhões de tokens, bem como treinamento misto com um clique de grandes -Modelos em escala. Usando esta plataforma, os desenvolvedores não precisam gastar mais tempo considerando as diferenças no poder de computação subjacente. Eles podem personalizar rapidamente seus próprios modelos grandes em um cluster híbrido composto por diferentes chips e implementar rapidamente seus próprios negócios.

3. Agendamento eficiente + tolerância a falhas eficiente para garantir a conclusão estável de tarefas em grandes clusters de poder de computação

Depois de construir um cluster de grande poder computacional, uma das principais tarefas enfrentadas é como usá-lo? Isso envolve questões de agendamento eficiente. Um sistema eficiente de agendamento de poder de computação pode fazer com que recursos heterogêneos integrados sejam melhor utilizados por todos os usuários.

Wuwen Core Dome fez muitos progressos no sistema de agendamento eficiente de poder de computação. O gerenciamento unificado de clusters multi-heterogêneos pode suportar mais de dez tipos de chips e construir mais de 10.000 sistemas de poder de computação em nível de cartão. série de híbrido O design da estratégia de agendamento faz com que o atraso médio no agendamento de tarefas seja no nível de milissegundos, e toda a utilização de recursos do cluster do sistema pode ser mantida acima de 90%. Ao aprimorar a base de todo o contêiner de IA, Wuwen Xinqiong pode aumentar o SLO de todo o cluster para 99,95% em um cenário multilocatário, e a escalabilidade é muito alta.

Além do agendamento, ao realizar o treinamento do modelo, o treinamento não pode ser reiniciado continuamente. Wuwen Core Qiong desenvolveu um sistema de treinamento eficiente e tolerante a falhas, incluindo um sistema de tempo de execução tolerante a falhas para modelos grandes, um sistema híbrido de previsão de anomalias de indicadores e um sistema de leitura e gravação assíncrona de pontos de verificação.

A parte de tolerância a falhas aumentou o tempo efetivo de treinamento de grandes modelos em 30%, a taxa de sucesso da detecção de anomalias de grandes modelos foi aumentada para 70% e a maioria dos erros pode ser descoberta e evitada antecipadamente. foi aumentado em 20 vezes e o terminal anormal de modelos grandes foi melhorado. O tempo foi reduzido para menos de 5 minutos, o que pode garantir a conclusão estável de tarefas em grandes clusters de poder de computação.

Para facilitar o uso do cluster pelos desenvolvedores, a plataforma integra os recursos técnicos de otimização do grande sistema de serviço de modelo de Wuwenxinqiong. Ao encontrar alta simultaneidade e vários usuários enviando solicitações ao mesmo tempo, por meio de agendamento de solicitações, tecnologias como cache de palavras imediatas podem. ajudam as tarefas a serem melhor despachadas e os resultados dos cálculos retornados, o que pode aumentar a taxa de transferência em mais de 30 vezes, tornando os aplicativos executados cada vez mais suavemente.

Conclusão: Que não haja poder de computação de IA difícil de usar no mundo

"Não há contradição entre aumentar o limite técnico e a implementação e difusão da tecnologia, e depende de como estamos determinados a tratar esta tecnologia." como falar sobre tornar todas as famílias eletrificadas há 30 anos.

Uma infra-estrutura excelente é uma “mágica”. Quando o custo marginal cai para um valor crítico, mais pessoas podem adoptar novas tecnologias.

Atualmente, o desenvolvimento da grande indústria de modelos está entrando no estágio de implementação industrial em larga escala. O florescimento de cenários de aplicação trouxe uma necessidade cada vez mais urgente de treinamento em grandes modelos. Construir uma infraestrutura nativa de IA na era dos grandes modelos pode não apenas fornecer aos desenvolvedores de IA um ambiente de P&D mais versátil, eficiente e conveniente, mas também é uma pedra angular para alcançar a integração eficaz dos recursos de computação e apoiar o desenvolvimento sustentável da IA. indústria.

O desenvolvimento de IA requer recursos de sistema subjacentes que possam integrar uniformemente vários chips heterogêneos e uma camada intermediária que implemente facilidade de uso entre poder de computação heterogêneo e vários algoritmos, permitindo aos usuários agendar diferentes poderes de computação por meio de uma estrutura de programação unificada. Ao mesmo tempo, interfaces compatíveis com os hábitos de programação do usuário existentes são instaladas nele para facilitar a expansão futura.

Wuwen Core está empenhada em construir uma infraestrutura AI Native que seja verdadeiramente adaptável a vários modelos e multichips, para que não haja poder de computação de IA difícil de usar no mundo. utilização e integração de "M × N", mas também o objetivo final É transformar os recursos de computação aparentemente inativos em grande poder de computação, melhorar a integridade do ecossistema de grandes modelos, reduzir significativamente o custo de implementação de grandes modelos e ajudar a promover a inovação na aplicação de grandes modelos em diversos setores.

notícias

É lançada a primeira plataforma de treinamento misto de chip heterogêneo em escala de quilocalorias do mundo!Wuwen Xinqiong: Deixe o mundo não ter poder de computação de IA difícil de usar

Introdução

minhas informações de contato