A gigante dos chips subiu novamente, quem está por trás disso?

2024-08-06

Em 30 de julho, o preço das ações da Nvidia caiu 7%, o que foi o maior declínio da empresa em três meses. Seu valor de mercado evaporou US$ 193,4 bilhões durante a noite, caindo para US$ 2,55 trilhões.

De 10 a 30 de julho, o preço das ações da Nvidia despencou 23%, passando de US$ 134,91 por ação para US$ 103,73. Anteriormente, o impulso crescente ininterrupto da empresa parecia fazer com que os investidores ignorassem os riscos.

Nas últimas duas semanas, os investidores retiraram dinheiro de grandes ações de tecnologia, como a Nvidia, à medida que ficavam preocupados com o fato de as grandes empresas estarem lutando para gerar retorno sobre seus gastos com IA.

Analistas técnicos apontaram que tal mudança deixa espaço para o preço das ações da Nvidia cair ainda mais.

Culpa da Apple?

A queda acentuada no preço das ações da Nvidia pode estar relacionada à Apple.

Em 29 de julho, a Apple declarou em um artigo técnico que dois modelos de seu sistema de inteligência artificial (IA) Apple Intelligence foram treinados em chips de nuvem projetados pelo Google. A Apple detalhou o processamento tensor usado para treinamento. Além disso, a Apple também lançou uma versão prévia do Apple Intelligence para alguns dispositivos.

A Apple não faz menção ao Google ou à Nvidia em seu artigo de 47 páginas, mas observa que seu Apple Foundation Model (AFM) e servidores AFM são treinados em clusters TPU na nuvem. O artigo afirma que o sistema permite que a Apple treine modelos AFM de forma eficiente e escalonável, incluindo AFM no dispositivo, servidor AFM e modelos maiores.

A Apple afirma que o AFM-on-device é treinado em uma única fatia de chips 2048 TPU v5p, o TPU mais avançado disponível em dezembro de 2023. O servidor AFM é treinado em chips 8192 TPU v4, que são configurados para funcionar juntos como 8 fatias na rede do data center.

O Google implantou TPU em grandes quantidades em data centers há muito tempo para acelerar o treinamento e a inferência do modelo de IA. Além disso, não apenas para uso próprio, o Google também considera o TPU como.computação em nuvemOs serviços são prestados a terceiros para utilização, transformando-os em produtos para venda.

O TPU mais recente do Google custa menos de US$ 2 por hora, e o chip requer pré-encomenda com três anos de antecedência para ser usado. O Google lançou TPUs para cargas de trabalho internas pela primeira vez em 2015 e as disponibilizou ao público em 2017. Eles são agora os chips personalizados mais sofisticados projetados para inteligência artificial.

Mesmo assim, o Google continua sendo um dos principais clientes da Nvidia e vende acesso à tecnologia da Nvidia em sua plataforma em nuvem.

A Apple disse anteriormente que a inferência, que consiste em pegar um modelo de IA pré-treinado e executá-lo para gerar conteúdo ou fazer previsões, será feita em parte em chips nos próprios data centers da Apple.

A Apple divulgou documentos técnicos relevantes durante WWDC 2024 em junho, mostrando que, além de usar hardware como os próprios processadores da Apple e sua própria estrutura de software na Apple Intelligence, os engenheiros também usaram suas próprias GPUs combinadas com Google TPUs para acelerar o treinamento do modelo de inteligência artificial.

A Nvidia enfrenta uma pressão competitiva crescente. Tomando o Google como exemplo, a gigante da tecnologia continua a expandir a sua quota de mercado através de chips de IA autodesenvolvidos. Dados da TechInsights mostram que no mercado de aceleradores de data center em 2023, as remessas de TPU do Google atingirão 2 milhões de unidades. Embora ligeiramente inferiores aos 3,8 milhões de unidades da NVIDIA, ela ocupa o terceiro lugar na indústria e tem um forte impulso de crescimento. . Ao mesmo tempo, gigantes da tecnologia como a Microsoft estão gradualmente a reduzir a sua dependência da Nvidia e a mudar para chips de outras marcas concorrentes.

GPUs são muito caras

Além do risco da dependência única, o alto preço das GPUs Nvidia também assusta muitas fabricantes.

Os relatórios mostram que os servidores de IA equipados com a GPU Blackwell de próxima geração da Nvidia custam até US$ 2 a 3 milhões cada.

A NVIDIA lançou dois conjuntos de designs de referência baseados na arquitetura Blackwell. Entre eles, o NVL36 está equipado com 36 placas aceleradoras de GPU B200. O preço esperado era de US$ 2 milhões. o preço aumentou. O NVL72 dobrou de tamanho e está equipado com 72 placas aceleradoras B200. O preço inicial deverá ser de US$ 3 milhões.

A NVIDIA prevê que em 2025, as remessas de servidores B200 deverão atingir 60.000 a 70.000 unidades, com um preço total de US$ 120 bilhões a US$ 210 bilhões.

Atualmente, AWS, Dell, Google, Meta, Microsoft, etc. estão interessados em adquirir servidores B200, e a escala supera as expectativas.

Os servidores de IA são compostos principalmente de CPU, GPU, FPGA e outros processadores, que são usados para lidar com um grande número de tarefas de computação. Em comparação com os servidores tradicionais, os servidores de IA geralmente requerem hardware de maior desempenho para atender às necessidades de processamento de dados em grande escala. e cálculos complexos. Devido ao preço mais elevado destes hardwares, eles representam a maior parte do custo dos servidores de IA. Entre eles, a GPU é responsável pelo maior custo entre os vários processadores.

No processo de treinamento e inferência de IA, a GPU geralmente é o hardware mais caro. Isso ocorre porque a GPU possui forte poder de computação e capacidade de processamento paralelo, o que pode acelerar o processo de treinamento e inferência do modelo de IA. A maioria dos servidores de IA está equipada com múltiplas GPUs para atender às necessidades de computação de alto desempenho.

Como a GPU possui um poderoso poder de computação, seu consumo de energia também é alto. Para atender às necessidades de computação dos modelos de IA, geralmente é necessário configurar várias GPUs, o que aumentará ainda mais o consumo de energia do servidor. O alto consumo de energia significa que o servidor requer uma fonte de alimentação maior durante a execução e incorre em contas de eletricidade mais altas.

Em comparação com as CPUs, as GPUs têm uma arquitetura mais complexa e mais componentes, o que significa que a manutenção da GPU é mais tediosa e complexa e requer mais técnicos profissionais para manter e gerenciar. Além disso, devido ao alto consumo de energia da GPU, seus requisitos de refrigeração também são maiores, exigindo equipamentos de refrigeração adicionais e custos de manutenção.

Com o rápido desenvolvimento da tecnologia de IA, o desempenho da GPU também está melhorando constantemente. Para se manterem competitivas, muitas empresas precisam adquirir frequentemente novas versões de GPUs, o que aumentará o custo dos servidores.

Com a promoção de aplicações de IA, mais e mais empresas estão começando a usar servidores de IA, o que levou a uma demanda crescente por GPUs. Quando a oferta excede a demanda, o preço das GPUs também aumentará.

Pressão dos concorrentes

Os concorrentes da NVIDIA estão todos se preparando e, entre eles, a AMD, a mais atraente, teve um bom desempenho recentemente.

Em 30 de julho, a AMD divulgou seu relatório financeiro do segundo trimestre de 2024. O lucro líquido aumentou 881% ano a ano, a receita dos negócios de data center dobrou e tirou muitos negócios da Nvidia.

A receita total da AMD no trimestre atingiu US$ 5,835 bilhões, o que não apenas superou os US$ 5,72 bilhões esperados anteriormente, mas também alcançou um crescimento anual de 9% e um crescimento mensal de 7%. O lucro líquido atingiu US$ 265 milhões, um aumento anual de 881% e um aumento mensal de 115%.

As vendas do MI300, um chip GPU usado em data centers, ultrapassaram US$ 1 bilhão em um único trimestre, impulsionando um aumento significativo na receita da divisão de data centers.

A série MI300 é uma GPU AI lançada pela AMD no final de 2023, incluindo MI300X, bem como núcleo de CPU integrado e acelerador de GPU MI300A. Entre eles, o MI300X faz benchmarks contra o H100 da Nvidia. Segundo a AMD, o desempenho do MI300X está no mesmo nível do NVIDIA H100 quando usado para treinamento de IA. Em termos de raciocínio, seu desempenho excede o dos produtos concorrentes. Tomando como exemplo um único servidor composto por 8 GPUs, ao executar o modelo BLOOM com 176 bilhões de parâmetros e o modelo Llama2 com 70 bilhões de parâmetros, o desempenho da plataforma MI300X é 1,4 a 1,6 vezes maior que o da plataforma H100.

O CEO da AMD, Su Zifeng, disse que as vendas de chips de IA da empresa são "maiores do que o esperado" e que a Microsoft está aumentando o uso de chips MI300 como suporte de poder de computação para GPT-4 Turbo e para oferecer suporte a Word, Teams, etc. A Hugging Face é um dos primeiros clientes a adotar a nova nuvem Azure da Microsoft, que permite que clientes empresariais e de IA implantem centenas de milhares de modelos no MI300 com um único clique.

Em junho deste ano, a AMD anunciou um roteiro iterativo, planejando lançar o MI325X no quarto trimestre deste ano e lançar as séries MI350 e MI400 nos próximos dois anos. Entre elas, o M1300X e o MI325X adotarão o CDNA3. arquitetura, e o M1350 adotará a estrutura CDNA4 MI400 adotará a arquitetura CDNA de próxima geração. A AMD lançará novas séries de produtos todos os anos. Do ponto de vista da indústria, essa velocidade está alinhada com o plano divulgado pela Nvidia.

Além disso, Su Zifeng disse que a demanda por raciocínio de IA será maior do que treinamento. Os PCs com IA são uma parte importante da categoria de PCs, e o mercado de PCs é uma boa oportunidade de crescimento de receita para os negócios da AMD.

Este ano, a AMD está acelerando a implantação de IA por meio de investimentos. Em julho, a empresa gastou US$ 665 milhões para adquirir o Silo AI, o maior laboratório de inteligência artificial da Europa, que fornece soluções ponta a ponta baseadas em IA. Esta aquisição é considerada um passo importante para a AMD alcançar a Nvidia.

Su Zifeng disse que, além de adquirir a Silo AI, a AMD investiu mais de US$ 125 milhões em mais de uma dúzia de empresas de inteligência artificial nos últimos 12 meses para expandir o ecossistema AMD e manter a posição de liderança das plataformas de computação AMD. A AMD continuará investindo em software, disse ela, o que foi um dos motivos para investir na Silo AI.

Com base em hardware de GPU de qualidade, desenvolvimento de software e ecossistema, a AMD está competindo da mesma forma que a Nvidia tem tido sucesso.

NVIDIA também tem pontos fracos

Para competir com a NVIDIA, a melhor estratégia é aproveitar seus pontos fortes e evitar pontos fracos, ou seja, usar seus próprios pontos fortes para atacar os pontos fracos da NVIDIA.

Embora as capacidades de processamento paralelo da GPU sejam muito fortes, esta é a razão fundamental pela qual ela é boa no treinamento de IA. Mas quando os dados são movidos para frente e para trás, a GPU não os processa tão rapidamente. Quando grandes modelos de IA são executados, eles geralmente exigem um grande número de GPUs e um grande número de chips de memória, que estão conectados entre si. Quanto mais rápido os dados se moverem entre a GPU e a memória, melhor será o desempenho. Ao treinar grandes modelos de IA, alguns núcleos de GPU ficam ociosos, aguardando dados quase metade do tempo.

Se um grande número de núcleos de processador e uma grande quantidade de memória puderem ser combinados para formar a computação na memória, a complexidade das conexões entre vários chips poderá ser bastante reduzida e a velocidade de transmissão de dados poderá ser bastante melhorada. Um grande número de núcleos de processador está conectado dentro do chip e pode funcionar centenas de vezes mais rápido do que uma combinação de GPUs independentes. Atualmente, diversas startups estão fazendo essas coisas, e o desenvolvimento merece atenção.

Além disso, você deve estar preparado para uma guerra prolongada no ecossistema de software e hardware para lidar com a NVIDIA. Nesse sentido, você precisa de um forte histórico de recursos para lutar por sua vida. AMD e Intel estão fazendo isso.

Além do chip em si, mais esforços podem ser feitos na interconexão chip a chip. A Nvidia não é líder nesse aspecto, a Broadcom é.

A Broadcom resolve o problema de interconexão entre chips e não compete diretamente com as GPUs da Nvidia. Embora a NVIDIA também tenha sua própria tecnologia de interconexão chip a chip, do ponto de vista de toda a indústria, a tecnologia e os produtos da Broadcom são superiores. Entre os oito maiores sistemas de servidores de IA do mundo, 7 implantaram infraestrutura Ethernet suportada pela tecnologia Broadcom. espera-se que, até 2025, todos os sistemas de servidores de IA de ultragrande escala sejam alimentados por Ethernet.

A Broadcom é a melhor para resolver problemas de largura de banda de comunicação No mercado global de SerDes de 50 GB/s, sua interface SerDes converte dados paralelos de baixa velocidade em dados seriais de alta velocidade e, em seguida, converte novamente em dados paralelos. a extremidade receptora. Através de tais operações, os dados podem ser transferidos de uma TPU para outra em alta velocidade, melhorando significativamente a eficiência da transmissão.

Também beneficiando do crescimento da IA, a receita do produto Netcom da Broadcom está a crescer a uma taxa de crescimento anual de 40%. O relatório financeiro da empresa mostra que no segundo trimestre fiscal, a partir de maio deste ano, a receita de IA aumentou 280% ano a ano, para US$ 3,1 bilhões, e espera-se que esse número exceda US$ 11 bilhões antes do final deste ano fiscal. .

Uma grande queda seguida por uma grande ascensão novamente

Muitos concorrentes estão pressionando a Nvidia, o que é uma razão importante para a queda do preço das ações da empresa. No entanto, o mercado muda tão rapidamente que as pessoas não conseguem reagir a tempo.

Na noite de 31 de julho, o preço das ações da Nvidia subiu repentinamente, com um aumento de mais de 14% de uma só vez, e seu valor de mercado aumentou em US$ 326,9 bilhões em um único dia.

A Nvidia se tornou a primeira ação a ter um aumento de capitalização de mercado em um único dia de mais de US$ 300 bilhões. Atualmente, a NVIDIA ocupa os três primeiros lugares na lista de aumento de valor de mercado em um único dia das ações dos EUA. Em 22 de fevereiro e 23 de maio deste ano, o valor de mercado em um único dia da NVIDIA aumentou em US$ 276,6 bilhões e US$ 217,7 bilhões, respectivamente.

O Morgan Stanley emitiu um relatório de pesquisa afirmando que, considerando que a Nvidia foi vendida recentemente pelo mercado, embora as razões específicas sejam desconhecidas, acredita que pode trazer boas oportunidades de entrada no mercado para investidores interessados. ações e lucros obtidos A previsão e o preço-alvo não mudaram, com uma classificação de "excesso de peso" e um preço-alvo de $ 144.

Em apenas dois dias, o preço das ações da Nvidia caiu drasticamente e depois subiu acentuadamente. Isso pode estar relacionado à oferta restrita da Blackwell e à dificuldade em entregar todos os produtos no prazo.

O Morgan Stanley disse que os produtos da Blackwell têm despertado forte interesse no mercado, especialmente pela melhoria significativa no seu desempenho de raciocínio, o que impulsiona ainda mais o desejo de compra dos clientes.

No entanto, há notícias na indústria de que o chip GPU Blackwell pode atrasar ou os produtos de servidor equipados com o chip podem atrasar.

Embora o desempenho de muitas tecnologias e produtos concorrentes esteja cada vez melhor, pressionando a Nvidia, os produtos GPU da empresa ainda são a principal força no mercado de servidores de IA atualmente e no curto e médio prazo, com fornecimento geral superando a demanda. Como as GPUs Blackwell que muitos clientes anseiam estão prestes a ser enviadas, a notícia de que a entrega será adiada certamente aguçará o apetite do mercado e ajudará no aumento do preço das ações.

notícias

A gigante dos chips subiu novamente, quem está por trás disso?

Introdução

minhas informações de contato