notícias

Os gigantes da nuvem estão em fuga e 2 milhões de CPUs autodesenvolvidas foram lançadas!Uma nova rodada de remodelação de fichas começou

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


coisas inteligentes
AutorZeR0
Editor Mo Ying

Na semana passada, o processador Graviton4 desenvolvido de forma independente pela Amazon Cloud Technology, a maior gigante mundial de computação em nuvem, foi totalmente lançado e inicialmente forneceu suporte para a nova instância Amazon EC2 R8g.

Este incidente é bastante emocionante e parece que a CPU do servidor Arm passou por mil navegações e todas as dificuldades foram recompensadas.

O campo da CPU do servidor passou por uma série de mudanças. No início, foi dominado por um grupo de predecessores de conjuntos de instruções simplificados, mas depois foi contra-atacado e corroído pela complexa arquitetura do conjunto de instruções x86. Quando Arm, o sucessor do conjunto de instruções simplificado, quer entrar no caminho do data center, o x86 já dominou totalmente o mercado.

Na verdade, Arm estava ansioso por experimentar este mercado emergente já em 2008. Como resultado, dez anos mais tarde, depois de testar a água várias vezes, não conseguiu provocar salpicos esporádicos.

O primeiro ingresso para entrar no mercado de data center foi enviado pela Amazon Cloud Technology, a irmã mais velha da indústria de computação em nuvem.

Naquela época, a Amazon Cloud Technology emitiu "três ataques consecutivos":

1. Em janeiro de 2015, adquiriu inesperadamente a Annapurna Labs, uma empresa israelense de design de chips, que atraiu a atenção da indústria;

2. Em 2017, foi lançado o Amazon Nitro, o primeiro chip de rede autodesenvolvido, trazendo o primeiro chip DPU comercial do mundo ao palco da história;

3. Em 2018, o primeiro processador Amazon Graviton foi lançado, dando à CPU do servidor Arm uma coordenada clara na história dos data centers.

Posteriormente, a Amazon Cloud Technology realizou intensamente pesquisas de chips personalizados multilinhas, semelhantes a livros didáticos, e outros grandes fabricantes chineses e americanos também seguiram a tendência de processadores autodesenvolvidos. O longo cabo de guerra da CPU do servidor finalmente mudou de um esmagamento unilateral do x86 para um impulso crescente no campo Arm.

Graviton tornou-se gradualmente a CPU de servidor Arm mais usada no mundo, e a Amazon Cloud Technology é considerada a "esperança de toda a aldeia", levando o ecossistema Arm a expandir seu território em data centers. Um relatório de Bernstein no ano passado mostrou que a Amazon Cloud Technology é responsável por mais da metade do mercado global de CPU para servidores Arm.


▲ Amazon Cloud Technology lançou cinco processadores Graviton em cinco anos (Fonte: Zhidongxi)

Hoje, é comum que grandes fabricantes desenvolvam chips autodesenvolvidos, mas poucos conseguem. Vale a pena mastigar este livro de referência de CPU de servidor autodesenvolvido, escrito pela Amazon Cloud Technology em cinco anos.

1. Seis anos de autopesquisa e inovação em CPU, abrindo caminho para chips de servidor Arm

A primeira geração abriu a estrada nas montanhas, a segunda geração estabeleceu os rios e lagos.

Este é um verdadeiro retrato da fortuna de chips de servidor autodesenvolvidos da Amazon Cloud Technology: o processador Graviton lançado em novembro de 2018 foi o primeiro tiro de CPUs autodesenvolvidas pelas principais empresas de computação em nuvem, um ano depois, o sucessor Graviton2 apareceu, marcando o As; A CPU do servidor Arm entra oficialmente na competição do mercado de data centers, ela compete com o x86.

Graviton2 integra 30 bilhões de transistores, tem uma contagem de núcleos quatro vezes maior que a da geração anterior e duplicou o cache L1/L2. A largura de banda do barramento atinge 2 TB/s, alcançando uma melhoria de desempenho de 7 vezes em comparação com a geração anterior. Em comparação com instâncias semelhantes baseadas em x86, o desempenho das instâncias baseadas em Graviton2 foi melhorado em 40% e o custo por instância foi reduzido em 20%.

O excelente desempenho em baixo consumo de energia levou a Amazon Cloud Technology a migrar cargas de trabalho gerais para Graviton2 para economizar energia e custos. Desde então, a taxa de adoção da série Graviton disparou e as cargas de trabalho cobertas expandiram-se do cache inicial e da Web para análise de dados, aprendizado de máquina, computação de alto desempenho, etc.

O sucesso inicial da Graviton no mercado pode ser considerado um nó que muda o destino da Arm.

Por trás disso, a Amazon Cloud Technology pensou muito na inovação subjacente: pela primeira vez, ela não usa mais a tecnologia multi-threading síncrona, mas realiza o uso exclusivo de recursos single-threaded do núcleo físico, permitindo que cada vCPU ocupar exclusivamente 1 núcleo físico, tornando as vCPUs mais isoladas, o que não causará instabilidade de desempenho devido à contenção de recursos.


Da primeira à segunda geração, o Graviton obteve melhorias consideráveis ​​de desempenho ao aumentar o número de núcleos, mas na terceira geração, a Amazon Cloud Technology precisa incorporar mais inovações de design.

Aumentar o número de núcleos e aumentar a frequência principal são dois métodos comuns para melhorar o desempenho. A terceira geração do Graviton 3 lançada em 2021 não adota essas ideias. O número de núcleos permanece inalterado e a frequência principal é apenas ligeiramente aumentada. Como aumentar a frequência é arriscado para data centers de grande escala, pode causar muito consumo de energia e exigir configurações atualizadas de energia e refrigeração, levando, em última análise, a um aumento nos custos de uso dos clientes.

Graviton3 fez várias inovações diferentes de seu antecessor:

1. Usando o design Chiplet, 7 matrizes de silício são embaladas juntas;

2. O método paralelo em nível de instrução é adotado para aumentar o número de instruções que podem ser executadas em um único ciclo central, permitindo que o núcleo conclua mais tarefas;

3. Para largura de banda de memória e cargas de trabalho sensíveis a atrasos, o espaço de memória é aumentado em 40% e DDR5 é usado para aumentar a largura de banda do canal de memória em 50%.

Como resultado, em comparação com a geração anterior, o Graviton3 pode aumentar o desempenho das cargas de trabalho de aplicativos em 25% sem qualquer diferença e reduzir o consumo de energia em até 60% em comparação com instâncias x86. Com uma unidade integrada de aceleração de hardware de aprendizado de máquina, este processador também alcança uma melhoria de 3x no desempenho do aprendizado de máquina e é usado por pesquisadores e empresas de IA para MLOps na nuvem.


Graviton3E, lançado em 2022, é especialmente otimizado para operações de ponto flutuante e instruções vetoriais. O desempenho da computação vetorial é o dobro do Graviton3. É especialmente adequado para cenários de aplicação como inteligência artificial/aprendizado de máquina e computação de alto desempenho.

A última geração do Graviton4 usa um núcleo Neoverse-V2 melhor e aumenta o número de núcleos para 96 ​​núcleos. O cache L2 de cada núcleo é duplicado para 2 MB e a largura de banda da memória é aumentada em 75%.


Cada geração do Graviton terá melhorias de desempenho de dois dígitos em comparação com a geração anterior, e o consumo de energia por unidade de potência computacional continuará a diminuir. A conservação de energia e a redução de emissões são extremamente importantes para o desenvolvimento sustentável dos data centers. Clientes de nuvem conhecidos como Twitter, Databricks, Formula 1 e Snap usaram serviços baseados em Graviton e elogiaram suas vantagens na redução de custos e melhoria de eficiência.

De acordo com relatos da mídia estrangeira, em meados de 2022, Graviton será responsável por aproximadamente 20% das instâncias de CPU da Amazon Cloud Technology, a maioria das quais são Graviton2. Cerca de 50% das novas instâncias de máquinas virtuais da Amazon Cloud Technology serão da série Graviton.

Alguns clientes da nuvem endossaram publicamente que economizaram de 10% a 40% dos custos de computação ao alugar serviços da Graviton.

Como um dos primeiros usuários do Graviton, a Daewoo Unlimited usou o Graviton2 para reduzir o custo das operações de big data em 20%, que usa extensivamente as instâncias do Graviton2 e também atualizou para instâncias de nova geração, melhorando o desempenho de criptografia e descriptografia da plataforma IoT; em 50%.

De acordo com dados da empresa de pesquisa de mercado IDC, a participação de mercado das remessas de servidores Arm no primeiro trimestre de 2023 é de aproximadamente 10%. Neste momento, os problemas ecológicos da Arm no mercado de servidores foram inicialmente resolvidos.

Até o momento, a Amazon Cloud Technology implantou mais de 2 milhões de processadores Graviton em 33 regiões e mais de 100 zonas de disponibilidade em seis continentes ao redor do mundo. Esses processadores controlam mais de 150 instâncias de computação e são usados ​​por mais de 50 mil empresas e desenvolvedores em todo o mundo.


2. O único fabricante de nuvem que implementa o uso em larga escala da arquitetura Arm

No processo de atendimento aos clientes da nuvem, a equipe de tecnologia de nuvem da Amazon descobriu que, se quiser revolucionar o preço/desempenho da computação para todas as cargas de trabalho possíveis, precisará repensar completamente as instâncias e se aprofundar na tecnologia subjacente, incluindo chips personalizados.

Por que o chip foi projetado com base na arquitetura Arm?

Para a Amazon Cloud Technology, esta é uma situação e um plano voltado para o futuro.

Em primeiro lugar, a licença da Arm é relativamente fácil de obter e tem um alto grau de liberdade de design, o que torna mais fácil para a Amazon Cloud Technology projetar processadores que atendam melhor às necessidades dos negócios em nuvem.

Em segundo lugar, a poupança de energia tem sido um grande problema para os centros de dados. Considerando as economias de escala, alguns watts economizados por chip são importantes. Arm foi testado pelo mercado de processadores móveis por suas vantagens, como alta eficiência energética, alta densidade de potência de computação e baixo custo.

Além disso, como mencionamos anteriormente, o Graviton é muito cauteloso no aumento da frequência e complementa o desempenho através de um paralelismo de nível de instrução mais elevado, tornando-o mais competitivo em termos de desempenho de custos. Sob alta utilização da CPU, cada vCPU no Graviton ocupa um núcleo físico e não há problema de contenção. Ele pode manter uma velocidade ainda rápida e sua vantagem de preço se tornará óbvia.

De acordo com a Amazon Cloud Technology, em comparação com a instância R7g de sétima geração usando Graviton3, o desempenho da instância R8g do Amazon EC2 baseada no processador Graviton4 de nova geração foi melhorado em 30%, o tamanho da instância é maior, vCPU e memória são aumentados em 3 vezes e pode fornecer Melhor preço/desempenho para cargas de trabalho com uso intensivo de memória, como bancos de dados, cache na memória e análise de big data em tempo real.

Em comparação com as instâncias R7g, as instâncias R8g podem acelerar aplicações web em até 30%, bancos de dados em até 40% e grandes aplicações Java em até 45%.

Seu desempenho e vantagens econômicas foram verificados por alguns testes reais.


De acordo com alguns resultados de testes de benchmark divulgados pela Phoronix, com o mesmo número de vCPUs, o novo núcleo Graviton4 é aproximadamente equivalente ao Intel Sapphire Rapids em desempenho e é comparável ao EPYC de quarta geração da AMD na execução de computação de alto desempenho, criptografia, código compilação, rastreamento de raios e bancos de dados, modelagem 3D e outras cargas de trabalho, o progresso intergeracional é geralmente muito bom.


▲ Após o teste, a instância R8g baseada em Graviton4 é mais econômica do que a instância de nuvem Amazon Cloud Technology baseada em Intel Xeon e AMD EPYC (Fonte: Phoronix.com)

Como um dos primeiros clientes das instâncias R8g, a Honeycomb compartilhou que a melhoria no rendimento do Graviton4 é muito óbvia. Em comparação com quando o Graviton foi usado pela primeira vez, há quatro anos, o rendimento por vCPU mais que dobrou. Eles planejam migrar toda a carga de trabalho para Graviton4 assim que a série de instâncias R8g for lançada oficialmente.

A Epic Games, produtora do jogo de sucesso "Fortnite", comentou que a instância EC2 R8g baseada no mais recente Graviton4 é a instância EC2 mais rápida que eles testaram e está entre suas "cargas de trabalho mais competitivas e sensíveis à latência". pode melhorar totalmente o desempenho dos servidores de jogos.

Os resultados dos testes preliminares no SAP HANA Cloud usando instâncias R8g mostram que, em comparação com as instâncias baseadas em Graviton3, as instâncias R8g podem melhorar o desempenho analítico em até 25% e o desempenho da carga de trabalho transacional em até 40%.


▲Comparação de diferentes especificações de instâncias R8g

Até agora, apenas a Amazon Cloud Technology realmente percebeu o uso em larga escala da arquitetura Arm.

Por que a tecnologia Amazon Cloud? Como disse Dai Wen, gerente geral de arquitetura de soluções da Amazon Cloud Technology Greater China, na Cúpula da China deste ano: "Somente em um ambiente de computação em nuvem podemos ter a oportunidade de fazer essa inovação completa, desde aplicativos até CPUs".

Os chips desenvolvidos pela própria empresa não são inovações no papel. Eles exigem o acúmulo de experiência em engenharia. Eles não devem apenas buscar alto desempenho, mas também ser suficientemente estáveis, confiáveis ​​e altamente seguros.

Usar a mesma microarquitetura Arm não significa que você pode fazer uma CPU com o mesmo desempenho, e projetar um chip não significa que você pode alcançar produção em massa e sucesso comercial. Apenas os problemas de linearidade e atraso de comunicação causados ​​pela interconexão de centenas de núcleos de CPU podem confundir muitas equipes de chips, sem mencionar as dificuldades ecológicas de projetar chips de servidores Arm.

As ideias de pesquisa e desenvolvimento da Amazon Cloud Technology são baseadas em um profundo entendimento das cargas de trabalho dos clientes em nuvem e na penetração reversa no design de chips. Essa abordagem centrada no cliente permite que a Amazon Cloud Technologies se ajuste no curto prazo para se adaptar rapidamente à dinâmica do mercado.

Tomando Graviton4 como exemplo, a Amazon Cloud Technology projetou pela primeira vez uma arquitetura de CPU para aplicações práticas. A engenharia de design deste processador mudou do sistema tradicional de avaliação de benchmark MicroBenchmark para um método de avaliação baseado em cargas de trabalho reais. Por exemplo, otimizar o banco de dados Cassandra, o aplicativo Groovy e o servidor nginx requer diferentes parâmetros de CPU front-end e back-end.

A enorme escala de clientes criou grandes barreiras para a Amazon Cloud Technology. Seus extensos clusters de data centers em todo o mundo podem hospedar a implementação de processadores da série Graviton. O efeito de escala formado pelo maior negócio de computação em nuvem do mundo pode efetivamente diluir o custo da Amazon Cloud Technology.

Serviços de nuvem continuamente inovadores permitem que a Amazon Cloud Technology entenda os aplicativos mais usados ​​e seus padrões de consumo de recursos, de modo a selecionar os pontos técnicos com os maiores benefícios para os usuários, realizar a otimização direcionada e melhorar rapidamente as pilhas de software e hardware e até mesmo o design da CPU. , desenvolva vCPU e núcleo de hardware correspondentes.

Ao mesmo tempo, as várias linhas de produtos de serviços de hospedagem da Amazon usam uma infraestrutura unificada, para que as inovações da Graviton possam ser aplicadas a todos os serviços de hospedagem em tempo hábil. Os usuários podem aproveitar facilmente a melhoria econômica trazida pelo Graviton alterando as opções de computação.

Os usuários só precisam se preocupar com qual instância pode atender melhor às suas necessidades, e a Amazon Cloud Technology é responsável por reduzir o custo de migração e aprendizado de software. Ao integrar profundamente mais serviços de gerenciamento com Graviton, a migração perfeita de x86 para Arm torna-se simples e rápida.

3. Como os chips autodesenvolvidos afetam a computação em nuvem?

Hoje, os chips autodesenvolvidos tornaram-se um movimento padrão para as principais empresas de tecnologia. Seja reduzindo custos e aumentando a eficiência, construindo vantagens competitivas, melhorando a controlabilidade e reduzindo a dependência de empresas de chips terceirizadas, é uma boa história que pode facilmente. convencer clientes e investidores a jusante.

Mas há nove anos, quando a Amazon Cloud Technology assumiu a liderança no desenvolvimento dos seus próprios chips, esta ainda era uma exploração avançada.

Olhando para trás, para a história do desenvolvimento da computação em nuvem, o lançamento da primeira definição de instância EC2 (Elastic Cloud Computing) pela Amazon Cloud Technology em 2006 é considerado um momento histórico. Posteriormente, cada vez mais empresas aceitaram gradativamente o conceito de computação em nuvem e começaram a migrar seus aplicativos para a nuvem.

Agora, a Amazon Cloud Technology pode executar com sucesso clusters de computação de alto desempenho com dezenas de milhares de nós na nuvem para treinar grandes modelos e pode lidar com aplicativos de streaming em tempo real de alta simultaneidade na nuvem. Você deve saber que a primeira instância EC2 da Amazon Cloud Technology tem frequência principal de apenas 1,7 GHz, largura de banda de rede de 250 Mbps, memória inferior a 2 GB e disco mecânico de apenas 160 GB.

Nos primeiros anos do negócio de computação em nuvem, a Amazon Cloud Technology teve que resolver muitos problemas espinhosos. O que preocupava particularmente a equipe era que, se uma versão personalizada do Xen fosse usada como hipervisor de virtualização, não importava quanto tempo fosse gasto na otimização do código. , a camada de virtualização sempre consumiria recursos do host e as CPUs x86 não são boas para lidar com o tráfego de rede.

Até 2013, a Annapurna Labs, uma empresa israelense de chips, entrou na mira da Amazon Cloud Technology. Através da cooperação, a Amazon Cloud Technology gravou o processamento de rede em hardware pela primeira vez. O surpreendente desempenho da implementação fez com que a Amazon Cloud Technology olhasse para este parceiro excepcional: em janeiro de 2015, a Amazon Cloud Technology anunciou a aquisição do Annapurna Labs e desde então embarcou na jornada de chips autodesenvolvidos.

Olhando para trás, este foi definitivamente um investimento astuto na história da tecnologia de nuvem da Amazon.

Apenas dois anos após esta transação, a Amazon Cloud Technology anunciou a plataforma de virtualização Nitro, que transfere toda a segurança, gerenciamento e monitoramento para o hardware, fornecendo quase 100% do poder de computação do host aos clientes.

Desde então, a computação em nuvem embarcou num caminho de isolamento físico completo dos negócios e da infra-estrutura, e a inovação da tecnologia de virtualização subjacente e o desenvolvimento de tipos de servidores de nível superior podem ser realizados em paralelo.

Isso deu origem a um ponto de viragem importante para as instâncias EC2: de 2006 a 2017, a Amazon Cloud Technology passou de 1 tipo de instância EC2 para 70 tipos em 11 anos e de 2017 a 2023, as instâncias EC2 cresceram repentinamente, passando de 1 para 1; 70 tipos em 6 anos. 70 tipos foram desenvolvidos para 750 tipos, o que pode fornecer instâncias de computação adequadas para diversas cargas.

Baseando-se no sucesso do Nitro, a Amazon Cloud Technology desenvolveu três linhas de produtos: chips de rede, CPUs de servidor e chips de treinamento e inferência de IA: os chips de rede Nitro se desenvolveram até a quinta geração e continuam a otimizar o desempenho da rede, o desempenho do armazenamento e a segurança reforço; Graviton Quatro gerações e cinco modelos foram lançados; chip de inferência de IA Inferentia e chip de treinamento de IA Trainium, que fornecem aos usuários opções de aceleração de IA além de GPUs, fornecendo exemplos de inferência e treinamento mais econômicos.

Isso permite que a Amazon Cloud Technology mantenha a flexibilidade da inovação interna full-stack: começando com placas e servidores customizados, até chips customizados em profundidade na parte inferior e, em seguida, para a expansão horizontal do território de chips autodesenvolvidos, a Amazon Cloud Technology irá gradualmente passar de chips, hardware para software A integração e a colaboração podem não apenas trazer melhor relação custo-benefício e confiabilidade para o negócio, mas também formar sua própria competitividade central.

Os chips desenvolvidos pela própria empresa estão vinculados aos servidores de armazenamento e sistemas de rede de alta velocidade desenvolvidos pela própria Amazon Cloud Technology, permitindo que mais chips sejam interconectados de forma eficiente, reduzindo assim significativamente o tempo de computação. Com base nessas inovações, a Amazon Cloud Technology pode suportar uma das tarefas mais desafiadoras da computação em nuvem: inteligência artificial e aprendizado de máquina.

No recente Amazon Cloud Technology Summit em Nova York, a Amazon Cloud Technology anunciou que 96% dos unicórnios de IA/ML administraram seus negócios na Amazon Cloud Technology, e 90% das empresas na lista 2024 Forbes AI 50 escolheram a Amazon Cloud Technology. De 2023 até agora, a Amazon Cloud Technology lançou oficialmente 326 funções de IA generativa. Durante o mesmo período, o número de serviços de aprendizado de máquina e IA generativa oficialmente disponíveis excedeu o dobro de outros fornecedores.

Extensos casos de uso e profundo acúmulo técnico estão sempre intimamente relacionados. Esse número impressionante de casos de uso de IA dá à Amazon casos práticos suficientes para fornecer aos clientes opções que podem alcançar os melhores benefícios, e o amplo feedback dos clientes pode se tornar a melhor força motriz para o design de seu chip. A iteração contínua da tecnologia de chips apoiará serviços em nuvem cada vez mais rentáveis ​​e promoverá o desenvolvimento inclusivo da IA ​​generativa.

Conclusão: Nenhum chip é a única solução para a computação em nuvem

Há muitas opções de silício no mercado, e os provedores de infraestrutura em nuvem podem desempenhar um papel na forma de reuni-las para melhor permitir inovações que vão desde infraestrutura até serviços em nuvem.

Diferentemente das empresas independentes de chips, o objetivo dos chips autodesenvolvidos da Amazon Cloud Technology não é participar da competição de mercado, mas fornecer aos seus clientes uma "loja universal" que não apenas forneça chips autodesenvolvidos, mas também produtos convencionais, como como CPUs Intel e GPUs NVIDIA A escolha cabe ao cliente selecionar a combinação de produtos que melhor atenda às suas necessidades de carga de trabalho com base nos perfis dessas instâncias de chips.

A evolução de seis anos do Graviton contou a história da implementação de CPUs de servidores Arm. A Arm fornece à Amazon Cloud Technology a base para personalização flexível de CPUs, enquanto a Amazon Cloud Technology promove mudanças no mercado de chips de servidor e se torna o melhor endosso das vantagens da relação custo e desempenho-preço da Arm no mercado de data centers.

Enquanto a Graviton ainda tiver espaço para reduzir custos e aumentar a eficiência, a Amazon Cloud Technology poderá continuar a reduzir preços e a partilhar lucros, e a devolver os dividendos de escala e tecnologia aos clientes da nuvem.