notícias

os bons dias das gpus nvidia acabaram?

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

o “festival de gpu” da nvidia terminará?

desde o lançamento do chatgpt pela open ai nos estados unidos em 30 de novembro de 2022, a ia generativa (inteligência artificial) se tornou uma grande mania, e as gpus da nvidia se tornaram populares como semicondutores de ia. no entanto, na produção de gpus, existem dois gargalos: o processo intermediário da tsmc e a memória de alta largura de banda (hbm) empilhada com dram, levando a uma escassez global de gpus “o gargalo é o processo intermediário entre hbm e. tsmc?”

entre essas gpus, o “h100” teve uma demanda particularmente alta, com seu preço subindo para us$ 40.000, desencadeando o chamado “festival de gpu” da nvidia.

sob esta circunstância, a tsmc dobrou sua capacidade de produção de interposer de processo intermediário, e fabricantes de dram como sk hynix aumentaram a produção de hbm, resultando na redução do prazo de entrega do "h100" de 52 para 20 semanas.

então, o “festival de gpu” da nvidia terminará?

portanto, neste artigo discutiremos se o “dia da gpu” da nvidia está chegando ao fim. vamos falar primeiro sobre a conclusão. espera-se que, mesmo até 2024, apenas 3,9% dos servidores de ia de ponta (a definição será explicada mais tarde) necessários para o desenvolvimento e operação de ia no nível chatgpt sejam enviados. portanto, parece que as necessidades dos provedores de serviços em nuvem (csps), como google, amazon e microsoft, não podem ser atendidas de forma alguma. resumindo, até agora, o "festival de gpu" da nvidia é apenas o começo, e um boom abrangente de ia generativa está chegando.

a seguir, vamos revisar brevemente os dois principais gargalos da gpu nvidia.

dois gargalos de gpu nvidia

na produção das gpus nvidia, a fundição tsmc é responsável por todos os processos frontais, intermediários e traseiros. aqui, o processo intermediário refere-se ao processo de produção separada de gpu, cpu, hbm e outros chips e sua colocação em um substrato quadrado cortado de um wafer de silício de 12 polegadas. este substrato é denominado interpositor de silício (figura 1).

figura 1 processos intermediários emergentes de 2,5d para 3d, como gpu nvidia (fonte: tadashi kamewada)

além disso, o pacote de gpu nvidia desenvolvido pela tsmc é chamado cowos (chip on wafer on substrate), mas os dois gargalos são a capacidade do interpositor de silício e o hbm (figura 2). a situação é a seguinte.

figura 2 estrutura cowos e dois gargalos na gpu nvidia (fonte: wikichip)

o cowos foi desenvolvido em 2011, mas desde então, à medida que o desempenho da gpu melhorou, o tamanho dos chips gpu continuou a aumentar e o número de hbms instalados na gpu também aumentou (figura 3). como resultado, os interpositores de silício estão aumentando a cada ano, enquanto o número de interpositores disponíveis em um único wafer está diminuindo na proporção inversa.

figura 3 a área do interposer e o número de hbm aumentam a cada geração (fonte: kc yee (tsmc))

além disso, o número de hbm instalados na gpu aumenta e o número de chips dram empilhados dentro do hbm também aumenta. além disso, a dram é miniaturizada a cada dois anos e o padrão hbm é atualizado a cada dois anos para melhorar o desempenho. portanto, o hbm de última geração está em falta.

nesse cenário, a tsmc dobrará sua capacidade de produção de interpositores de silício de 15.000 wafers por mês por volta do verão de 2023 para mais de 30.000 wafers por mês por volta do verão deste ano. além disso, a samsung electronics e a micron technology obtiveram a certificação nvidia e começaram a fornecer hbm de última geração, que anteriormente era dominada pela sk hynix.

afetado pelo acima exposto, o tempo de entrega do nvidia h100, que tem a maior demanda, foi significativamente reduzido de 52 para 20 semanas. então, quanto as remessas de servidores de ia aumentaram como resultado?

definição de dois tipos de servidores de ia

de acordo com "global annual server shipments, 2023-2024" (servers report database, 2024) divulgado pela digitimes research, existem dois tipos de servidores de ia:

sistemas equipados com dois ou mais aceleradores de ia, mas não hbm, são chamados de “servidores universais de ia”.

os sistemas equipados com pelo menos quatro aceleradores de ia alimentados pela hbm são chamados de “servidores de ia de ponta”.

o acelerador de ia aqui se refere a hardware especial projetado para acelerar aplicativos de ia, especialmente redes neurais e aprendizado de máquina. um exemplo típico é a gpu da nvidia. além disso, o desenvolvimento e a operação de ia generativa no nível chatgpt requerem um grande número de servidores de ia de ponta, em vez de servidores de ia de uso geral.

então, quais são os volumes de remessa de servidores de ia gerais e servidores de ia de ponta?

remessas gerais de servidores de ia e servidores de ia de ponta

a figura 4 mostra as remessas de servidores gerais de ia e servidores de ia de ponta de 2022 a 2023. espera-se que as remessas gerais de servidores de ia sejam de 344.000 unidades em 2022, 470.000 unidades em 2023 e 725.000 unidades em 2024.

figura 4 remessas gerais de servidores de ia e servidores de ia de ponta (2022-2024) (fonte: digitimes research)

ao mesmo tempo, espera-se que os servidores de ia de ponta necessários para o desenvolvimento e operação de ia generativa de nível chatgpt enviem 34.000 unidades em 2022, 200.000 unidades em 2023 e 564.000 unidades em 2024.

então, as remessas de servidores de ia de ponta podem atender às necessidades dos csps dos eua?

a figura 5 mostra os números de remessa de servidores, servidores de ia gerais e servidores de ia de ponta. quando desenhei este diagrama e olhei para ele, fiquei surpreso e me perguntei: "é quantos servidores de ia de ponta estão sendo enviados? isso ocorre porque, olhando para os servidores como um todo, eles são servidores de ia de uso geral?" ainda é um servidor de inteligência artificial de última geração e as remessas são muito pequenas.

figura 5 remessas de servidores, servidores de ia em geral e servidores de ia de ponta

fonte: autor baseado em mic e digitimes

fiquei ainda mais desapontado quando analisei quantos servidores de ia de ponta seriam necessários para desenvolver e executar ia generativa no nível chatgpt.

servidor de ia de ponta necessário para gerar ia no nível chatgpt

é relatado que o desenvolvimento e operação do chatgpt requerem 30.000 servidores de ia de ponta nvidia dgx h100 (figura 6). quando vi esse número de trinta mil unidades, fiquei tonto.

figura 6 quantos servidores de ia de ponta são necessários para executar o chatgpt? (fonte: site da hpc)

a propósito, o "nvidia dgx h100" está equipado com oito chips "h100", e o preço de cada chip disparou para us$ 40.000, elevando o preço total do sistema para us$ 460.000. em outras palavras, gerar ia no nível chatgpt requer um investimento de 30.000 unidades x us$ 460.000 = us$ 13,8 bilhões (aproximadamente 2 trilhões de ienes com base em us$ 1 = 145 ienes!).

acho que o mundo está cheio de sistemas de ia generativos, mas quantas ias generativas do tipo chatgpt foram realmente (ou serão) construídas? (figura 7)

figura 7 remessas de servidores, remessas de servidores de ia de ponta e o número de sistemas de ia gerados no nível chatgpt (fonte: mic e digitimes)

como o volume de remessas de servidores de ia de ponta em 2022 será de 34.000 unidades, apenas um sistema de ia de nível chatgpt pode ser construído (este é chatgpt). no ano seguinte, em 2023, as remessas de servidores de ia de ponta chegarão a 200.000 unidades, portanto, de 6 a 7 sistemas de ia de nível chatgpt poderão ser construídos. como se espera que 564.000 servidores de ia de ponta sejam enviados em 2024, será possível construir de 18 a 19 sistemas de ia de nível chatgpt.

no entanto, a estimativa acima pressupõe que a ia de nível chatgpt pode ser construída com 30.000 servidores de ia de ponta "nvidia dgx h100".no entanto, como é provável que uma geração de ia se torne mais complexa, mais de 30.000 nvidia dgx h100s podem ser necessários neste caso. considerando tudo isso, é improvável que os provedores de serviços de comunicação dos eua fiquem satisfeitos com as remessas atuais de servidores de ia de ponta.

agora, vamos ver quantos servidores de ia de ponta cada usuário final (como um csp nos estados unidos) possui.

número de servidores de ia de ponta para usuários finais

a figura 8 mostra o número de servidores de ia de ponta por usuários finais. em 2023, a microsoft, proprietária da openai, tem o maior número de servidores de ia de ponta, com 63.000 unidades, mas em 2024, o google ultrapassará a microsoft e terá o maior número de servidores de ia de ponta.

figura 8 servidores de inteligência artificial de última geração por usuário final (2023-2024) (fonte: digitimes research)

os cinco primeiros em 2024 são google, classificado em primeiro lugar com 162.000 unidades (5 sistemas), microsoft classificado em segundo lugar com 90.000 unidades (3 sistemas), super micro classificado em terceiro com 68.000 unidades (2 sistemas) e amazon (67.000 unidades) classificado em quarto. 2 sistemas), seguido pelo meta em quinto lugar com 46.000 unidades (1 sistema) (o número entre colchetes é o número de sistemas que a ia de geração de classe chatgpt pode construir). percebe-se que as cinco principais empresas de geração de energia solar térmica dos estados unidos monopolizam cerca de 80% da participação.

a seguir, vamos dar uma olhada nas remessas de aceleradores de ia de servidores de ia de ponta (figura 9). como esperado, as gpus da nvidia são as mais usadas para aceleradores de ia, atingindo 336.000 unidades em 2024. no entanto, surpreendentemente, a segunda empresa mais popular não é a amd, mas o google.

figura 9 servidores de ia de ponta por acelerador de ia (2023-2024) (fonte: digitimes research)

o google desenvolveu sua própria unidade de processamento tensor (tpu) como acelerador de ia. até 2024, o número de servidores de ia de ponta equipados com esta tpu chegará a 138.000. aqui, pela figura 8, sabemos que o google terá 162.000 servidores de ia de ponta até 2024. portanto, espera-se que 138 mil unidades sejam equipadas com tpu do próprio google, e as 24 mil unidades restantes sejam equipadas com gpu da nvidia. em outras palavras, para a nvidia, o google é ao mesmo tempo um cliente e um inimigo formidável.

além disso, se olharmos para as remessas de 2024, a amd, que ocupa o terceiro lugar, tem 45 mil unidades, seguida pela amazon, que ocupa o quarto lugar, com 40 mil unidades. a amazon também está desenvolvendo o aws trainium como acelerador de inteligência artificial. se esperar mais, a amd poderá ser superada pela amazon.

resumindo, a nvidia tem atualmente as maiores remessas de aceleradores de ia, mas o google e a amazon estão se tornando seus fortes concorrentes. o concorrente da nvidia não é o fabricante de processadores amd (certamente não a ameaçada intel), mas os csps norte-americanos google e amazon.

um boom de ia generativa em grande escala está chegando

vamos resumir tudo até agora. de acordo com um relatório da digitimes research, espera-se que as remessas de servidores de ia de ponta capazes de desenvolver e executar ia generativa de nível chatgpt representem apenas 3,9% de todos os servidores até 2024. acredita-se que este volume de remessas simplesmente não consegue atender às necessidades dos csps.

em outras palavras, o “festival de gpu” da nvidia de 2023 a 2024 é apenas o começo. como resultado, é provável que ocorra um boom total de ia generativa. vamos mostrar o básico abaixo.

a figura 10 mostra o mercado de semicondutores por aplicação e sua previsão futura publicada pela semiconductor industry association (sia). de acordo com as previsões da sia, o mercado global de semicondutores ultrapassará 1 bilião de dólares em 2030.

figura 10 previsão de remessa de semicondutores por aplicação (fonte: sia blog)

até 2030, os maiores mercados serão a computação e o armazenamento de dados. isso inclui pcs e servidores (e, claro, servidores de ia de ponta), mas como é improvável que as remessas de pcs aumentem significativamente, os servidores provavelmente constituirão a maioria.

comunicações com fio referem-se a semicondutores usados ​​em data centers. isto significa que, até 2030, a computação e o armazenamento de dados (330 mil milhões de dólares) + comunicações com fios (60 mil milhões de dólares) = um total de 390 mil milhões de dólares tornar-se-ão semicondutores para centros de dados (incluindo pcs), tornando-se o maior mercado do mundo.

outra coisa a observar é o mercado de data centers e suas perspectivas,conforme mostrado na figura 11. após o lançamento do chatgpt em 2022, espera-se que o mercado de data centers cresça de forma constante. os data centers consistem em três elementos: infraestrutura de rede, servidores e armazenamento, e espera-se que os servidores e o armazenamento praticamente dupliquem entre 2023 e 2029.

figura 11 perspectiva do mercado de data center (o boom abrangente da ia ​​generativa ainda não chegou) (fonte: autor baseado em dados do statista market insights)

desta forma, os semicondutores de servidores (incluindo servidores de ia de ponta) ocuparão a maior parte do mercado global, e o mercado de data centers também se expandirá.

repita uma última vez.até agora, o “gpu festival” da nvidia é apenas um evento pré-feriado. um boom total de ia generativa está chegando.