notícias

Dez anos afiando uma espada: por que o chip TPU do Google pode “comer” a Apple?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Antes do nascimento do ChatGPT, o Google desencadeou sozinho uma onda importante no desenvolvimento da inteligência artificial no mundo. O que ressoou em todo o mundo foi que o Google AlphaGo derrotou o jogador coreano Go Lee Sedol na "Guerra Homem-Máquina". em 2016. Por trás disso, o chip TPU que suporta a operação do “cérebro mais poderoso” do AlphaGo é crucial e ainda está sendo aprimorado iterativamente.

Embora a TPU tenha sido originalmente criada para cargas de trabalho internas, devido às suas múltiplas vantagens, ela não só foi amplamente utilizada no Google e se tornou a espinha dorsal da IA, mas também foi favorecida e aplicada de forma competitiva por gigantes da tecnologia como a Apple e muitos modelos de grande porte. startups. Olhando para trás, os chips TPU passaram gradualmente da borda da indústria de IA para o centro do palco dez anos após seu nascimento. No entanto, como a infra-estrutura TPU é construída principalmente em torno do TensorFlow e do JAX, o Google também enfrenta desafios como "ilhas técnicas" até certo ponto.



Dez anos “acompanhando” a inovação em inteligência artificial

Com o desenvolvimento aprofundado do aprendizado de máquina e dos algoritmos de aprendizado profundo, a demanda da indústria por chips de computação de IA dedicados de alto desempenho e baixo consumo de energia está crescendo rapidamente. No entanto, CPUs e GPUs tradicionais de uso geral especializadas em tarefas complexas, como aceleração gráfica e renderização de vídeo, não conseguem atender às enormes demandas de cargas de trabalho de aprendizado profundo. Ao mesmo tempo, existem problemas como baixa eficiência e computação dedicada limitada.

Jeff Dean, cientista-chefe do Google, disse: "Fizemos alguns cálculos aproximados sobre quanto poder de computação seria necessário se centenas de milhões de pessoas tivessem uma conversa de três minutos com o Google todos os dias. Rapidamente percebemos naquela época que isso exigiria basicamente consumindo todos os computadores implantados pelo Google. Em outras palavras, o número de computadores nos data centers do Google precisará ser duplicado para suportar esses novos recursos.

Como resultado, o Google se comprometeu a explorar soluções de aprendizado de máquina mais econômicas e com economia de energia e lançou imediatamente o projeto TPU e anunciou em 2015 que o chip TPU de primeira geração (TPU v1) estava on-line internamente. Um TPU é um circuito integrado de aplicação específica (ASIC) projetado para uma única finalidade específica, incluindo a execução de operações matemáticas baseadas em matrizes e vetores exclusivas necessárias para construir modelos de IA. Diferente das operações matriciais da GPU, a característica icônica do PU é sua unidade de multiplicação de matrizes (MXU).

De acordo com o vice-presidente do Google e acadêmico de engenharia Norm Jouppi, o surgimento da TPU permitiu ao Google salvar 15 data centers. Uma razão importante pela qual a TPU é mais econômica é que a pilha de software do Google é mais integrada verticalmente do que a GPU. O Google tem uma equipe de engenharia dedicada construindo toda a sua pilha de software, desde a implementação do modelo (Vertex Model Garden) até estruturas de aprendizagem profunda (Keras, JAX e TensorFlow) até compiladores otimizados para TPUs (XLA).

Em termos de desempenho, o TPU v1 possui 65536 MAC (Matrix Multiplication Unit) de 8 bits, um desempenho máximo de 92 TOPS e 28 MiB de espaço de memória no chip. Comparado com CPU e GPU, o TPU v1 tem um bom desempenho em tempo de resposta e taxa de eficiência energética e pode melhorar significativamente a velocidade de inferência das redes neurais. O sucesso do TPU v1 fez o Google perceber que os chips de aprendizado de máquina têm amplas perspectivas de desenvolvimento, por isso continua a atualizar e lançar iterativamente produtos com desempenho mais avançado e maior eficiência baseados no TPU v1.

Por exemplo, TPU v2 e TPU v3 são projetados como inferência de IA do lado do servidor e chips de treinamento para suportar tarefas de IA mais complexas. A TPU v4 melhora ainda mais a escalabilidade e a flexibilidade e suporta a construção de clusters de computação de IA em grande escala. Entre eles, o TPU v2 estende pela primeira vez o design de chip único para um sistema de supercomputação maior, construindo um TPU Pod composto por 256 chips TPU. Além disso, a TPU v3 adiciona tecnologia de refrigeração líquida e a TPU v4 introduz interruptores de circuito óptico para melhorar ainda mais o desempenho e a eficiência.

Em 2023, diante das dúvidas e polêmicas “exageradas” enfrentadas pelo chip TPU v5, o Google saltou diretamente para a versão TPU v5e. TPU v5e foi ajustado na arquitetura, usando uma única arquitetura TensorCore. O pico de poder de computação do INT8 atinge 393 TFLOPS, que excede os 275 TFLOPS do v4. o nível da geração anterior v4. Isso mostra que o TPU v5e é mais adequado para tarefas de raciocínio e também pode refletir a escolha estratégica do Google para o mercado de serviços de poder de computação de IA.

Na I/O Developer Conference em maio deste ano, o Google lançou o TPU Trillium de sexta geração. Amin Vadhat, vice-presidente e gerente geral de Google Cloud Machine Learning, Systems and Cloud AI, disse que o desempenho máximo de computação do Trillium TPU é mais de 4,7 vezes maior do que o da geração anterior TPU v5e, e a eficiência energética é superior a 67% superior ao TPU v5e Ao mesmo tempo, memória de alta largura de banda A capacidade e a largura de banda são duplicadas, e a largura de banda de interconexão entre chips também é duplicada para atender às necessidades de sistemas de IA mais avançados.



Vale ressaltar que o Trillium pode escalar até 256 TPUs em um único pod de alta largura de banda e baixa latência. Ao aproveitar os avanços do Google em escalabilidade em nível de pod, tecnologia multi-slice e unidades de processamento inteligente Titanium, os usuários poderão vincular centenas de pods individuais de TPUs Trillium para construir redes de supercomputadores e data centers em escala de petabytes.

No geral, a vantagem da solução tecnológica TPU reside no seu design de arquitetura mais centralizado. Ao contrário de várias GPUs conectadas à mesma placa, as TPUs são organizadas em forma de cubo, permitindo uma comunicação mais rápida entre chips, e a cooperação profunda com a Broadcom melhorou muito a taxa de transmissão da comunicação. Além disso, em cenários dedicados e requisitos de casos de uso, pode promover mais rapidamente a otimização e a iteração do produto. No entanto, como a infra-estrutura TPU é construída principalmente em torno de TensorFlow e JAX, e a indústria é mais convencional no uso do modelo HuggingFace e PyTorch para inovação, o Google também enfrenta o problema da "ilha técnica" até certo ponto.

Adotado pela Apple e por um grande número de startups de IA

Em termos de aplicações, o projeto Google TPU foi originalmente criado para necessidades internas específicas e rapidamente se tornou amplamente utilizado em vários departamentos, tornando-se um dos chips personalizados mais maduros e avançados na área de IA. De acordo com Andy Swing, engenheiro-chefe do sistema de hardware de aprendizado de máquina do Google, eles originalmente esperavam fabricar menos de 10.000 TPU v1, mas eventualmente produziram mais de 100.000, com aplicativos abrangendo publicidade, pesquisa, voz, AlphaGo e até direção autônoma e muitos outros. outros campos.

À medida que o desempenho e a eficiência continuam a melhorar, os chips TPU tornaram-se gradualmente a infraestrutura de IA do Google e a espinha dorsal de quase todos os produtos. Por exemplo, o Google Cloud Platform usa extensivamente chips TPU para apoiar sua infraestrutura de IA. Esses chips são usados ​​para acelerar o processo de treinamento e inferência de modelos de aprendizado de máquina e fornecer recursos de computação eficientes e de alto desempenho. Por meio do Google Cloud Platform, os usuários podem acessar instâncias de máquinas virtuais (VM) baseadas em chips TPU para treinar e implantar seus próprios modelos de aprendizado de máquina.

Embora tenha conquistado uma boa base de usuários para serviços em nuvem, o Google não vende hardware diretamente aos usuários. Analistas da indústria apontam que o Google está competindo ferozmente com a OpenAI por IA generativa. Se vender TPU, desafiará diretamente a Nvidia "Lutar de ambos os lados" pode não ser a estratégia mais sábia no momento. Ao mesmo tempo, a venda direta de hardware envolve grandes despesas gerais e um gerenciamento complexo da cadeia de suprimentos, enquanto o fornecimento de TPU por meio de serviços em nuvem pode simplificar o processo de instalação, implantação e gerenciamento, reduzindo a incerteza e as despesas adicionais.

Por outro lado, a estreita cooperação entre Google Cloud e Nvidia também precisa ser considerada. O Google não apenas usa GPUs NVIDIA internamente, mas também fornece serviços baseados em GPU NVIDIA em sua plataforma de serviços em nuvem para atender às necessidades dos clientes em computação de alto desempenho e aplicativos de IA.

É verdade que os chips de IA da Nvidia se tornaram um item “obrigatório” para os gigantes da tecnologia, mas a indústria também está explorando opções mais diversificadas. Embora tenha sido amplamente utilizado internamente, o Google também está tentando usar a TPU para acompanhar a inovação da inteligência artificial e fornecer serviços de IA a mais clientes. Andy Swing disse: “Nossa configuração de TPU e pod está em um local que melhor corresponde aos recursos atuais do data center, mas estamos mudando o design do data center para melhor atender às necessidades. amanhã. Diferentemente, estamos construindo uma rede global de data centers repleta de TPUs.”



Atualmente, muitas empresas de tecnologia em todo o mundo estão usando chips TPU do Google. Por exemplo, a Apple admitiu que usa o Google TPU para treinar seu modelo de inteligência artificial, dizendo que “este sistema nos permite treinar modelos AFM de forma eficiente e escalonável, incluindo dispositivos AFM, servidores AFM e modelos maiores”. treinou o servidor AFM do zero em 8.192 chips TPUv4, usando um comprimento de sequência de 4.096 e um tamanho de lote de 4.096 sequências para conduzir treinamento de 6,3 trilhões de tokens. Além disso, o AFM do lado do dispositivo é treinado em chips 2048 Google TPUv5p.

Outros dados mostram que mais de 60% das startups de IA generativa que receberam financiamento e quase 90% dos unicórnios de IA generativa estão usando a infraestrutura de IA do Google Cloud e os serviços Cloud TPU, e são amplamente utilizados em vários campos socioeconômicos.

Por exemplo, startups de IA bem conhecidas, como Anthropic, Midjourney, Salesforce, Hugging Face e AssemblyAI, estão usando extensivamente o Cloud TPU. Entre eles, como um "rival OpenAI", a Anthropic usa o chip Google Cloud TPU v5e para fornecer suporte de hardware para seu grande modelo de linguagem Claude para acelerar o treinamento do modelo e o processo de inferência. Além disso, muitas instituições de pesquisa científica e educacionais também estão usando chips Google TPU para apoiar seus projetos de pesquisa relacionados à IA. Estas instituições podem utilizar o poder computacional de alto desempenho dos chips TPU para acelerar processos experimentais, promovendo assim a investigação científica de ponta e o progresso na educação.

É importante notar que, de acordo com informações oficiais do Google, o custo operacional de sua mais recente TPU é inferior a US$ 2 por hora, mas os clientes precisam reservá-la com três anos de antecedência para garantir o uso. Isto pode trazer desafios importantes para grandes empresas modelo numa indústria em rápida mudança.

De qualquer forma, a jornada de dez anos da TPU provou com sucesso que, além de CPU e GPU, a indústria tem um novo caminho na busca do poder de computação necessário para IA. Ela também se tornou o núcleo das funções de IA em quase todos os produtos do Google e. suporta o avançado desenvolvimento do Google DeepMind de modelos básicos e até mesmo de toda a grande indústria de modelos. No futuro, à medida que a tecnologia de IA continua a se desenvolver e o mercado continua a se expandir, mais empresas poderão optar por usar chips Google TPU para atender às suas necessidades de computação de IA. Mas o hardware de IA também pode tornar-se mais especializado, o que tornará o hardware e os modelos mais integrados, dificultando a procura de novas possibilidades de inovação fora do quadro.