Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
DesdeBate-papoGPTApós a explosão, a pesquisa e o desenvolvimento de grandes modelos de IA surgiram um após o outro. Enquanto essa "guerra dos 100 modos" estava em pleno andamento, a empresa americana de chips NVIDIA ganhou muito dinheiro com o excelente desempenho de sua GPU em cálculos de modelos grandes. .
No entanto, um movimento recente da Apple esfriou um pouco o entusiasmo da Nvidia.
Treinamento de modelo de IA, Apple escolhe TPU em vez de GPU
A NVIDIA sempre foi líder na área de infraestrutura de computação de IA. No mercado de hardware de IA, especialmente na área de treinamento de IA, sua participação de mercado é superior a 80%. A GPU NVIDIA sempre foi líder na Amazon, Microsoft. , Meta,IA aberta É a solução de poder de computação preferida para muitos gigantes da tecnologia na área de IA e aprendizado de máquina.
Portanto, a Nvidia continua a enfrentar diversos desafios na indústria. Entre seus concorrentes, há muitos players fortes em pesquisa e desenvolvimento independentes de GPUs, bem como pioneiros na exploração de arquiteturas inovadoras. A TPU do Google também se tornou um oponente poderoso que a Nvidia não pode ignorar devido às suas vantagens únicas.
Em 30 de julho, a Apple divulgou um artigo de pesquisa. No artigo, a Apple apresentou dois modelos que fornecem suporte para Apple Intelligence-AFM-on-device (AFM é a abreviatura de Apple Basic Model) e AFM-server (um grande modelo de linguagem baseado em servidor). modelo de linguagem de parâmetros de 100 milhões de anos, o último é um modelo de linguagem baseado em servidor.
A Apple afirmou no artigo que, para treinar seu modelo de IA, utilizou dois tipos de processadores tensores (TPUs) do Google, e essas unidades foram organizadas em grandes clusters de chips. Para construir AFM-on-device, um modelo de IA que pode ser executado em iPhones e outros dispositivos, a Apple usa chips 2048 TPUv5p. Para seu servidor AI modelo AFM-server, a Apple implantou 8192 processadores TPUv4.
A escolha estratégica da Apple de abandonar as GPUs Nvidia e mudar para as TPUs do Google lançou uma bomba de choque no mundo da tecnologia. O preço das ações da Nvidia caiu mais de 7% naquele dia, a maior queda em três meses, e seu valor de mercado evaporou em US$ 193 bilhões.
Especialistas da indústria disseram que a decisão da Apple indica que algumas grandes empresas de tecnologia podem estar procurando alternativas às unidades de processamento gráfico da Nvidia quando se trata de treinamento em inteligência artificial.
GPU TPU VS, qual é mais adequada para modelos grandes?
Antes de discutir se TPU ou GPU são mais adequados para modelos grandes, precisamos ter uma compreensão preliminar dos dois.
Comparação entre TPU e GPU
TPU, o nome completo de Tensor Processing Unit, é um chip especial projetado pelo Google para acelerar cargas de trabalho de aprendizado de máquina. É usado principalmente para treinamento e raciocínio de modelos de aprendizado profundo. Vale ressaltar que o TPU também pertence a uma categoria de chips ASIC, e ASIC é um chip especialmente customizado para determinadas necessidades específicas.
Todos estão familiarizados com GPU, que é um processador originalmente projetado para renderização gráfica e posteriormente amplamente utilizado em computação paralela e aprendizado profundo. Possui poderosos recursos de processamento paralelo e a GPU otimizada também é muito adequada para tarefas paralelas, como aprendizado profundo e computação científica.
Pode-se observar que esses dois chips diferentes possuem objetivos diferentes em seu design inicial.
Em comparação com as CPUs tradicionais, as capacidades de computação paralela das GPUs as tornam particularmente adequadas para processar conjuntos de dados em grande escala e tarefas de computação complexas. Portanto, com a explosão de grandes modelos de IA nos últimos anos, as GPUs tornaram-se a primeira escolha de hardware de computação. Treinamento de IA.
No entanto, com o desenvolvimento contínuo de grandes modelos de IA, as tarefas de computação estão se tornando exponencialmente maiores e mais complexas, o que apresenta novos requisitos de poder de computação e recursos de computação. Quando a GPU é usada para computação de IA, a taxa de utilização do poder de computação é baixa. O gargalo de alta eficiência energética no consumo de energia, bem como o alto preço e a oferta restrita de produtos de GPU NVIDIA, atraíram mais atenção para a arquitetura TPU, que foi originalmente projetada para aprendizado profundo e aprendizado de máquina. O domínio da GPU neste campo está começando a enfrentar desafios.
É relatado que o Google começou a desenvolver internamente chips dedicados a algoritmos de aprendizado de máquina de IA já em 2013, e foi somente em 2016 que esse chip autodesenvolvido chamado TPU foi oficialmente tornado público. Derrotou Lee Sedol em março de 2016 e Ke Jie em maio de 2017 AlphaGo, que é treinado com chips da série TPU do Google.
Se for dito que o TPU é mais adequado para treinamento de grandes modelos de IA, pode ser difícil convencer a todos sem explicar suas “habilidades” em detalhes.
Como o TPU é adequado para treinamento de modelos grandes?
Primeiro, a TPU possui unidades de computação multidimensionais para melhorar a eficiência da computação.Em comparação com a unidade de computação escalar na CPU e a unidade de computação vetorial na GPU, a TPU usa unidades de computação bidimensionais ou mesmo de dimensão superior para completar tarefas de computação e expande o ciclo de operação de convolução para alcançar a reutilização máxima de dados e reduzir dados custos de transmissão e melhorar a eficiência de aceleração.
Em segundo lugar, o TPU tem transmissão de dados que economiza mais tempo e unidade de controle de alta eficiência.O problema da parede de memória causado pela arquitetura von Neumann é particularmente proeminente em tarefas de aprendizagem profunda, e a TPU adota uma estratégia mais radical para projetar a transmissão de dados, e a unidade de controle é menor, deixando mais espaço para memória no chip e unidades de computação.
Por fim, a TPU foi projetada para acelerar a IA e aprimorar os recursos de computação de IA/ML.Com posicionamento preciso, arquitetura simples, controle de thread único e conjunto de instruções personalizado, a arquitetura TPU é extremamente eficiente em operações de aprendizagem profunda e fácil de expandir, tornando-a mais adequada para cálculos de treinamento de IA em escala ultralarga.
É relatado que o Google TPUv4 tem consumo de energia 1,3-1,9 vezes menor que o NVIDIA A100. Em vários modelos de trabalho, como Bert e ResNet, a eficiência é 1,2-1,9 vezes maior que a A100. Ao mesmo tempo, seus produtos TPUv5/TPU Trillium. pode atingir um consumo de energia 1,3-1,9 vezes menor do que o NVIDIA A100, melhorando ainda mais o desempenho da computação em 2 vezes/quase 10 vezes. Pode-se observar que os produtos Google TPU têm mais vantagens em custo e consumo de energia do que os produtos NVIDIA.
Na conferência de desenvolvedores I/O 2024 em maio deste ano, o CEO da Alphabet, Sundar Pichai, anunciou o chip Tensor Processor Unit (TPU) -Trillium do data center de sexta geração, dizendo que o produto é quase cinco vezes mais rápido que seu antecessor, e diz que as entregas estarão disponíveis ainda este ano.
O Google disse que o desempenho computacional do chip Trillium de sexta geração é 4,7 vezes maior que o do chip TPU v5e e a eficiência energética é 67% maior que a v5e. O chip foi projetado para alimentar tecnologia que gera texto e outros conteúdos a partir de modelos grandes. O Google também disse que os chips Trillium de sexta geração estarão disponíveis para seus clientes em nuvem até o final do ano.
Os engenheiros do Google obtiveram ganhos adicionais de desempenho aumentando a capacidade de memória de alta largura de banda e a largura de banda geral. Os modelos de IA exigem grandes quantidades de memória avançada, o que tem sido um gargalo na melhoria adicional do desempenho.
Vale a pena notar que o Google não venderá seus próprios chips TPU separadamente como produtos independentes, mas fornecerá serviços de computação baseados em TPU para clientes externos por meio do Google Cloud Platform (GCP).
A inteligência do Google também pode ser vista neste plano: vender hardware diretamente envolve despesas elevadas e gerenciamento complexo da cadeia de suprimentos. Ao fornecer TPU por meio de serviços em nuvem, o Google pode simplificar o processo de instalação, implantação e gerenciamento, reduzindo a incerteza e a sobrecarga adicional. Este modelo também simplifica o processo de vendas, eliminando a necessidade de estabelecer uma equipe adicional de vendas de hardware. Além disso, o Google está em uma competição acirrada com a OpenAI por IA generativa. Se o Google começar a vender TPUs, estará competindo com dois oponentes poderosos ao mesmo tempo: Nvidia e OpenAI, o que pode não ser a estratégia mais inteligente no momento.
Neste ponto do artigo, algumas pessoas podem perguntar: Como a TPU tem excelentes vantagens de desempenho, ela substituirá a GPU em um futuro próximo?
Agora falando em substituir a GPU? Talvez seja muito cedo
Este problema não é tão simples.
Apenas falar sobre as vantagens do TPU sem falar sobre as vantagens da GPU é cegante. A seguir, também precisamos entender como a GPU é adequada para o treinamento atual de grandes modelos de IA em comparação com a TPU.
Vemos que as vantagens do TPU residem no seu excelente índice de eficiência energética e nos indicadores de potência de computação de custo unitário. No entanto, como um chip ASIC, sua desvantagem de alto custo de tentativa e erro também é relativamente clara.
Além disso, em termos de maturidade do ecossistema. Após anos de desenvolvimento, a GPU possui um ecossistema grande e maduro de software e ferramentas de desenvolvimento. Muitos desenvolvedores e instituições de pesquisa vêm desenvolvendo e otimizando com base em GPU há muito tempo e acumularam uma riqueza de bibliotecas, estruturas e algoritmos. O ecossistema TPU é relativamente novo e os recursos e ferramentas disponíveis podem não ser tão ricos quanto os das GPUs, o que pode dificultar a adaptação e a otimização para os desenvolvedores.
Em termos de versatilidade. As GPUs foram originalmente projetadas para renderização gráfica, mas sua arquitetura é altamente flexível e pode se adaptar a muitos tipos diferentes de tarefas de computação, não apenas ao aprendizado profundo. Isso torna a GPU mais adaptável ao enfrentar diversos cenários de aplicação. Por outro lado, as TPUs são projetadas de forma personalizada para cargas de trabalho de aprendizado de máquina e podem não ser capazes de lidar com outras tarefas de computação não relacionadas ao aprendizado de máquina com a mesma eficiência que as GPUs.
Finalmente, a concorrência no mercado de GPU é acirrada. Vários fabricantes continuam a promover inovações tecnológicas e atualizações de produtos, e novas arquiteturas e melhorias de desempenho são mais frequentes. O desenvolvimento da TPU é liderado principalmente pelo Google, e seu ritmo de atualização e evolução pode ser relativamente lento.
No geral, a NVIDIA e o Google têm estratégias diferentes para chips de IA: a NVIDIA amplia os limites de desempenho dos modelos de IA, fornecendo poder de computação poderoso e amplo suporte ao desenvolvedor, enquanto o Google melhora o desempenho do chip de IA por meio de uma arquitetura de computação distribuída eficiente. . Estas duas escolhas de caminhos diferentes permitem-lhes mostrar vantagens únicas nos seus respectivos campos de aplicação.
A razão pela qual a Apple escolheu o Google TPU pode ser devido aos seguintes pontos: primeiro, o TPU tem um bom desempenho ao processar tarefas de treinamento distribuídas em grande escala, fornecendo recursos de computação eficientes e de baixa latência, em segundo lugar, usando a plataforma Google Cloud, a Apple pode reduzir o hardware; custos e ser flexível. Ajustar os recursos de computação para otimizar o custo geral do desenvolvimento de IA. Além disso, o ecossistema de desenvolvimento de IA do Google também oferece diversas ferramentas e suporte, permitindo à Apple desenvolver e implantar seus modelos de IA com mais eficiência.
O exemplo da Apple prova a capacidade do TPU no treinamento de grandes modelos. No entanto, em comparação com a NVIDIA, a TPU ainda é raramente usada na área de modelos grandes. Existem mais empresas de modelos grandes por trás dela, incluindo gigantes como OpenAI, Tesla e ByteDance. Os principais data centers de IA ainda usam GPUs NVIDIA.
Portanto, pode ser muito cedo para dizer que a TPU do Google pode vencer a GPU da Nvidia, mas a TPU deve ser um jogador muito desafiador.
O desafiante da GPU não é apenas TPU
A China também tem uma empresa que aposta em chips TPU – Zhonghao Xinying. Yang Gongyifan, fundador da Zhonghao Xinying, já trabalhou como membro da equipe principal de P&D de chips no Google e esteve profundamente envolvido no design e P&D do Google TPU 2/3/4. Em sua opinião, a TPU é uma arquitetura vantajosa para grandes modelos de IA. .
Em 2023, o chip "Snap" de Zhonghao Xinying nasceu oficialmente. Com seus recursos exclusivos de interconexão entre chips de alta velocidade de 1.024 chips, o chip "Snap" construiu um cluster de computação inteligente em grande escala chamado "Taize". Seu desempenho de cluster de sistema é dezenas de vezes maior do que o das GPUs tradicionais, e é um AIGC com mais de 100 bilhões de parâmetros. O treinamento e a inferência de grandes modelos fornecem garantia de poder computacional sem precedentes. Esta conquista não apenas demonstra o profundo acúmulo de Zhonghao Xinying no campo da tecnologia de poder de computação de IA, mas também conquista um lugar valioso para os chips nacionais no cenário internacional.
No entanto, na corrida do ouro da inteligência artificial de hoje, os chips NVIDIA H100 são escassos e caros. Empresas grandes e pequenas estão procurando substituir os produtos de chips de IA da NVIDIA, incluindo empresas que seguem a rota tradicional de GPU, bem como exploram novas arquiteturas empresariais.
Os desafios enfrentados pela GPU vão muito além da TPU.
Na pesquisa e desenvolvimento do caminho da GPU, o maior rival da Nvidia éAMD, em janeiro deste ano, os pesquisadores usaram cerca de 8% das GPUs no cluster de supercomputação Frontier para treinar um grande modelo no nível GPT 3.5. O cluster de supercomputação Frontier é totalmente baseado em hardware AMD, composto por 37.888 GPUs MI250X e 9.472 CPUs Epyc 7A53. Esta pesquisa também superou as dificuldades de modelos avançados de treinamento distribuído em hardware AMD, fornecendo uma grande plataforma de treinamento para plataformas AMD. a viabilidade.
Ao mesmo tempo, o ecossistema CUDA está sendo gradualmente desmembrado. Em julho deste ano, a empresa britânica Spectral Compute lançou uma solução que pode compilar nativamente o código-fonte CUDA para GPUs AMD, o que melhorou muito a eficiência de compatibilidade das GPUs AMD com CUDA.
InformaçõesGaudi 3 também comparou diretamente o Nvidia H100 quando foi lançado. Em abril deste ano, a Intel lançou o Gaudi 3 para aprendizagem profunda e modelos de IA generativos em grande escala. A Intel disse que, em comparação com a geração anterior, o Gaudi 3 pode fornecer quatro vezes o poder de computação da IA no formato de ponto flutuante BF16, largura de banda de memória aumentada em 1,5. tempos e serviço A largura de banda da rede para expansão do sistema em larga escala é duplicada. Comparado ao chip H100 da NVIDIA, se aplicado ao modelo Meta Llama2 com parâmetros 7B e 13B e ao modelo OpenAI GPT-3 com parâmetros 175B, espera-se que Gaudi 3 reduza o tempo de treinamento desses modelos em uma média de 50%.
Além disso, quando aplicado ao Llama com parâmetros 7B e 70B e ao modelo Falcon de código aberto com parâmetros 180B, espera-se que o rendimento de inferência de Gaudi 3 seja 50% maior em média do que o H100, e a eficiência de inferência seja 40% maior em média. Além disso, Gaudi 3 tem uma maior vantagem de desempenho de inferência em sequências de entrada e saída mais longas.
Quando aplicado ao Llama com parâmetros 7B e 70B e ao modelo Falcon com parâmetros 180B, a velocidade de inferência do Gaudi 3 é aumentada em 30% em comparação com o NVIDIA H200.
A Intel disse que o Gaudi 3 estará disponível para clientes no terceiro trimestre deste ano e para OEMs, incluindo Dell, HPE, Lenovo e Supermicro, no segundo trimestre, mas a faixa de preço do Gaudi 3 não foi anunciada.
Em novembro passado,MicrosoftNa Ignite Technology Conference, lançou seu primeiro chip de IA autodesenvolvido, Azure Maia 100, bem como Azure Cobalt, um chip usado em serviços de software em nuvem. Os dois chips serão fabricados pela TSMC e usarão tecnologia de processo de 5 nm.
É relatado que os produtos de última geração da Nvidia às vezes podem ser vendidos por 30.000 a 40.000 dólares cada. Acredita-se que os chips usados para ChatGPT exijam cerca de 10.000, o que é um custo enorme para as empresas de IA. As principais empresas tecnológicas com grande procura de chips de IA estão à procura desesperadamente de fontes alternativas de fornecimento. A Microsoft optou por desenvolver os seus próprios produtos na esperança de melhorar o desempenho de produtos de IA generativos, como o ChatGPT, ao mesmo tempo que reduz os custos.
Cobalt é um chip de uso geral baseado na arquitetura Arm com 128 núcleos. Maia 100 é um chip ASIC especialmente projetado para serviços de nuvem Azure e cargas de trabalho de IA. Ele é usado para treinamento e raciocínio em nuvem, e o número de transistores chega a 105 bilhões. Esses dois chips serão importados para o data center do Microsoft Azure e serviços de suporte como OpenAI e Copilot.
Rani Borkar, vice-presidente responsável pelo departamento de chips Azure, disse que a Microsoft começou a testar o chip Maia 100 com os produtos Bing e Office AI, o principal parceiro de IA da Microsoft, o desenvolvedor ChatGPT OpenAI, também está em testes. Alguns comentários do mercado acreditam que o momento do projeto do chip de IA da Microsoft é uma coincidência, no momento em que os modelos de linguagem em larga escala cultivados pela Microsoft, OpenAI e outras empresas começaram a decolar.
No entanto, a Microsoft não acredita que seus chips de IA possam substituir amplamente os produtos da Nvidia. Alguns analistas acreditam que, se os esforços da Microsoft forem bem-sucedidos, isso também poderá ajudá-la a obter vantagem em futuras negociações com a Nvidia.
Além dos gigantes dos chips, também não falta impacto das empresas iniciantes. Por exemplo, LPU lançado pela Groq, Wafer Scale Engine 3 lançado pela Cerebras, Sohu lançado pela Etched, etc.
Atualmente, a Nvidia controla aproximadamente 80% do mercado de chips de inteligência artificial para data centers, enquanto a maior parte dos 20% restantes são controlados por diferentes versões do Google TPU. A quota de mercado da TPU continuará a aumentar no futuro? Quanto vai crescer? Haverá outras arquiteturas de chips de IA que dividirão a estrutura de mercado existente em três? Espera-se que esse suspense seja gradualmente revelado nos próximos anos.