O que resta de um modelo grande pousando no limite?

2024-08-07

À medida que os grandes modelos iniciam o processo de capacitação da indústria, a sua implantação em larga escala na periferia tornou-se uma prioridade máxima para um maior desenvolvimento. No entanto, a implantação na borda/lado é certamente mais propícia para obter resposta instantânea e proteção de privacidade para modelos grandes, mas também enfrentará desafios em termos de fragmentação do poder computacional, questões de eficiência energética e cenários de implementação. Para as empresas, isto é simultaneamente uma dificuldade e uma oportunidade.

Impulsionados pelas necessidades de aplicação da indústria, grandes modelos estão se desenvolvendo em direção ao limite.

Atualmente, a grande indústria modelo do meu país está passando por um rápido desenvolvimento. As estatísticas mostram que no final de março, o número de grandes modelos lançados na China atingiu 117. No entanto, no processo de desenvolvimento, ao contrário dos Estados Unidos, que se concentra em avanços originais, as grandes empresas modelo da China colocam mais ênfase na implementação de aplicações. Zhou Hongyi, fundador e presidente do Grupo 360, disse num discurso anterior que modelos de volume, poder computacional e dados não são as únicas opções para desenvolver modelos com triliões de parâmetros. Grandes modelos de inteligência artificial têm caminhos de desenvolvimento mais diversificados. Li Dahai, cofundador e CEO da Face Wall Intelligence, também enfatizou a importância dos modelos industriais, que agora se tornaram uma das tendências importantes no desenvolvimento.

Se você deseja capacitar milhares de setores de maneira mais eficaz, grandes modelos e o poder de computação relacionado não podem ser implantados apenas na nuvem e os modelos finais têm vantagens comparativas que a nuvem não tem. A primeira é que o modelo final tem maior confiabilidade. Os modelos implantados em terminais podem interagir com o ambiente em tempo real e continuamente, mas é difícil para os modelos em nuvem manterem essa continuidade. Em segundo lugar, o modelo do lado do cliente pode garantir melhor a privacidade do utilizador. Esta questão tem atraído cada vez mais a atenção das pessoas. Se os robôs entrarem amplamente nas residências no futuro, as questões de privacidade se tornarão mais sérias. As vantagens do modelo do lado do cliente para garantir a privacidade dos dados são ainda mais óbvias.

Com base nesse entendimento, algumas empresas de computação de ponta assumiram a liderança na realização de práticas de cenário em torno da IA de ponta e injetaram com sucesso a IA de ponta em vários campos. Por exemplo, no campo da fabricação inteligente, a plataforma de computação de borda Jetson da NVIDIA pode trazer recursos de computação de inferência de IA para cenários industriais e resolver problemas como detecção de defeitos e fabricação flexível na linha de montagem usando raciocínio visual de IA acelerado por GPU. As soluções da Intel também são usadas em áreas como monitoramento inteligente, educação e ensino e assistência médica inteligente. Por meio do gerenciamento de vários dispositivos de ponta, elas ajudam os serviços de inteligência de ponta a se tornarem mais flexíveis, eficientes e precisos.

O desenvolvimento de modelos de ponta e de ponta também impulsionou o crescimento da computação de IA de ponta, e o poder de computação, chips e outros elos da cadeia da indústria relacionados deram início a uma onda de desenvolvimento em grande escala. Qiu Xiaoxin, fundador e presidente da Aixin Yuanzhi, destacou que a verdadeira implementação em larga escala de grandes modelos requer a estreita integração da nuvem, da borda e do fim em três níveis. A chave para a combinação do lado da borda e do lado final está na IA. computação e percepção. Qiu Xiaoxin acredita que chips inteligentes e grandes modelos multimodais se tornaram a "combinação de ouro" na era da inteligência artificial. Quando modelos grandes forem cada vez mais usados em aplicações, mais econômicos, mais eficientes e mais ecológicos se tornarão as palavras-chave. chips inteligentes e equipados com IA O chip de inferência eficiente do processador será uma escolha mais razoável para a implementação de modelos grandes, o que também é a chave para promover a IA inclusiva. A STL Partners prevê que, até 2030, o tamanho potencial do mercado global de edge computing crescerá para US$ 445 bilhões, com uma taxa de crescimento anual composta da indústria de até 48%.

Implantação diversificada de poder de computação para lidar com desafios de fragmentação

No entanto, a implantação de modelos grandes na extremidade/extremidade não pode ser realizada da noite para o dia. Devido às limitações de recursos computacionais dos dispositivos de ponta e à diversidade de requisitos de recursos computacionais de grandes modelos, a implantação de ponta enfrentará primeiro desafios em termos de poder computacional. Por um lado, os fabricantes de modelos precisam realizar processamento técnico, como compressão, poda e quantificação em modelos grandes para reduzir o tamanho e a complexidade computacional do modelo, para que ele possa se adaptar aos requisitos de desempenho dos dispositivos de ponta/extremidade; por outro lado, como melhorar a base de poder computacional. A implantação de instalações também é um foco.

Zhang Yu, diretor de tecnologia da Divisão de Rede e Borda da Intel China, enfatizou que, à medida que a inteligência artificial capacita milhares de indústrias, diferentes aplicações têm demandas diferentes de poder de computação e a extensão é muito ampla. Aqueles com requisitos de alto desempenho precisam ser hospedados em um cluster de poder computacional, enquanto um ou vários dispositivos com requisitos de baixo poder computacional podem ser usados. Yang Lei, diretor de produto da Arm Technology, também disse que ao implantar modelos tão grandes de IA em terminais, ainda enfrenta múltiplos desafios, como custo, consumo de energia e ecossistema de software.

Em resposta a essas tendências de demanda, os fornecedores de infraestrutura de energia computacional, como Inspur e Lenovo, têm construído layouts de potência computacional em torno da “inteligência de rede em nuvem de ponta” nos últimos anos. Os produtos incluem gateways de borda inteligentes, servidores de borda, controladores industriais, computadores incorporados e outros dispositivos de hardware para atender às necessidades de poder de computação de diferentes setores. No lado do chip, a integração de CPU+GPU+NPU tornou-se a direção do desenvolvimento do processador para lidar com o poder de computação de IA mais complexo. Qualcomm lança unidade de processamento neural dedicada integrada Snapdragon X Elite que suporta dezenas de bilhões de modelos em nível de parâmetro. O processador Intel Meteor Lake combina as funções de IA do NPU com o mecanismo de computação do processador para melhorar a eficiência energética dos PCs que executam funções de IA. Em termos de chips de IA domésticos, Aixin Yuanzhi também lançou recentemente o "Processador Aixin Tongyuan AI". O conjunto de instruções do operador principal e a microarquitetura de fluxo de dados adotam uma microarquitetura de fluxo de dados programável, que pode efetivamente melhorar a eficiência energética e o poder de computação. Densidade, adequada para o desenvolvimento de campos de computação de ponta e raciocínio de IA.

As questões de eficiência energética nas extremidades são proeminentes e o desenvolvimento leve é a chave

A eficiência energética também é uma questão fundamental que deve ser considerada no desenvolvimento de grandes modelos de ponta. Na verdade, se os grandes modelos quiserem ser efetivamente implementados no lado extremo/final, em comparação com a nuvem, as questões de eficiência energética são mais proeminentes. Sachin Katti, vice-presidente sênior e gerente geral da Divisão de Rede e Borda da Intel, disse em entrevista ao autor que ao discutir o poder da computação, além de otimizar o poder da computação, a ecologia do software, etc., uma questão chave é o consumo de energia, especialmente quando é implantado na borda. O consumo de energia de equipamentos implantados na borda pode ser de cerca de 200 W; o consumo de energia da implantação em nuvem pode ser de 1k a 2 kW, e o consumo de energia de um rack de camada única no data center pode chegar a 100 kW. Se somarmos o consumo de energia de todo o data center, pode chegar a uma escala de 50G a 100GW.

Os dispositivos de borda geralmente têm capacidade de computação e memória limitadas, e modelos grandes exigem recursos significativos para inferência de alto desempenho. ‌Portanto, ‌como otimizar a utilização de recursos e reduzir o consumo de energia e, ao mesmo tempo, garantir a precisão do modelo e a velocidade de resposta tornou-se uma questão fundamental. Em resposta a esta tendência, fabricantes relevantes promoveram estruturas de desenvolvimento leves e bibliotecas de aceleração, como o mecanismo de implantação de modelo Ryzen AI lançado pela AMD, a biblioteca de aceleração de inferência OpenVINO da Intel, a biblioteca de aceleração de inferência de alto desempenho TensorRT da NVIDIA, etc., combinada com alvo Estruturas de desenvolvimento leves para terminais incorporados e móveis (como PyTorch Mobile, ‌TensorFlow Lite, ‌Paddle Lite, etc.)‌ podem promover a aplicação generalizada de inteligência artificial em dispositivos móveis, ‌Internet das Coisas e outros cenários de computação de ponta.

Além disso, a indústria também começou a adotar amplamente a tecnologia de refrigeração líquida como meio de resfriar servidores e está gradualmente sendo usada em data centers e implantações de grandes modelos. Entende-se que a tecnologia de refrigeração líquida existente já pode resfriar uma frota de 100 kW e deverá ser expandida para 300 kW no futuro.

Explorando aplicações de IA, quem será a “estrela” no futuro?

À medida que as pessoas enfatizam cada vez mais o poder dos grandes modelos em aplicações industriais, encontrar "cenas estelares" adequadas tornou-se uma questão fundamental que determina o sucesso ou o fracasso da indústria. Atualmente, os telefones celulares com IA, os PCs com IA e a direção autônoma tornaram-se os mercados de aplicativos mais promissores para grandes modelos.

A pesquisa mais recente da empresa de pesquisa de mercado IDC mostra que o mercado de telefonia móvel com IA alcançará remessas de 234,2 milhões de unidades em 2024, um aumento de 363,6% em relação aos 50,5 milhões de unidades vendidas em 2023, e representará 19% do total de smartphones. mercado este ano. Em 2028, as remessas de telefones móveis com IA atingirão 912 milhões de unidades em 2028, com uma taxa composta de crescimento anual de 78,4%. Anthony Scarsella, diretor de pesquisa do Worldwide Quarterly Mobile Phone Tracking da IDC, disse que o custo continuará sendo um inibidor importante quando os telefones com IA forem lançados, já que muitos chips e NPUs poderosos são caros e são vendidos principalmente no mercado ultra-high-end. No entanto, à medida que o tempo passa e a concorrência se intensifica, acreditamos que estes componentes chegarão a modelos de gama média e mais acessíveis.

Os PCs com IA estão amadurecendo mais rápido do que o inicialmente esperado e deverão trazer uma onda de substitutos para a indústria global de PCs. De acordo com a previsão da Canalys, a taxa global de penetração de AI PC aumentará de 19% para 71% de 2024 a 2028, e as remessas aumentarão de 51 milhões de unidades para 208 milhões de unidades, com uma taxa composta de crescimento anual de 42,11%. O Morgan Stanley prevê que os PCs com IA representarão 2% do mercado geral de PCs este ano e aumentarão para 16% no próximo ano, 28% em 2026, 48% em 2027 e 64% em 2028.

O uso de modelos grandes em carros ainda está em seus estágios iniciais. No entanto, à medida que o conceito de inteligência gradualmente se enraíza no coração das pessoas, tornou-se consenso para a maioria das pessoas que os carros acabarão por se tornar "terminais móveis ambulantes". grandes modelos de IA em carros também “pegarão a estrada do trem expresso”. Existem duas direções principais para colocar modelos grandes em carros: uma é entrar na área do cockpit para obter uma interação homem-computador mais inteligente; a outra é cooperar com o sistema de direção autônoma para melhorar ainda mais as soluções de direção inteligente; Zhang Chi, CTO da Maichi Intelligent Technology Co., Ltd., disse que os grandes modelos aceleram a transição da condução autônoma das rodovias para cenários urbanos mais complexos e também promovem a formação de percepção ponta a ponta e integração de controle. Liu Jianwei, cofundador e vice-presidente da Aixin Yuanzhi, disse que Aixin Yuanzhi previu o surto do Transformer em 2022 e assumiu a liderança no lançamento de um chip equipado com o processador Aixin Tongyuan AI. Os chips de condução inteligentes da Aixin Yuanzhi, como M55H e M76H, foram instalados nos modelos atuais mais vendidos.

notícias

O que resta de um modelo grande pousando no limite?

Introdução

minhas informações de contato