notícias

O Google é o maior vencedor!Para usar IA em telefones celulares da Apple, Cook se curvou diante de seus oponentes

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nos últimos dois dias, o lançamento do Apple Intelligence se tornou uma das maiores novidades de tecnologia.

Embora comparado com a versão completa do Apple Intelligence anunciada há mais de um mês, os recursos do Apple Intelligence introduzidos no Apple iOS 18.1 beta 1 não estão completos, Genmoji, notificações prioritárias, Siri com reconhecimento de tela e integração ChatGPT... estes. De jeito nenhum.

Mas, em geral, a Apple ainda traz Writing Tools (ferramentas de escrita), gravação de chamadas (incluindo transcrição) e uma Siri recém-projetada.

Entre eles, as Ferramentas de Escrita suportam reescrita, especialização, abreviação e outras funções, e podem ser usadas em cenários como bate-papo, postagem em Moments, notas Xiaohongshu e gravação de chamadas de texto, podendo não apenas gravar chamadas, mas também transcrevê-las automaticamente; texto, o que é conveniente para a revisão dos usuários.

Além disso, o Siri também foi “atualizado”, mas infelizmente está atualmente limitado ao design, incluindo novos efeitos especiais “marcados” e suporte para entrada de teclado.

Mas o que é surpreendente é que a Apple divulgou em um artigo chamado "Apple Intelligence Foundation Language Models" queA Apple não utilizou a NVIDIA H100 comum e outras GPUs, mas escolheu a TPU de seu “antigo rival” Google para treinar o modelo básico do Apple Intelligence.


Imagem/maçã

Use o Google TPU para criar Apple Intelligence

Como todos sabemos, a Apple Intelligence é dividida em três camadas: uma é a IA no dispositivo executada localmente em dispositivos Apple e a outra é a IA na nuvem executada nos próprios data centers da Apple com base na tecnologia de “computação em nuvem privada”. De acordo com notícias da cadeia de suprimentos, a Apple construirá seu próprio data center com a fabricação em massa do M2 Ultra.

Além disso, há outra camada que se conecta a grandes modelos de nuvem de terceiros, como GPT-4o, etc.

Mas este é o lado da inferência. A maneira como a Apple treina seu próprio modelo de IA sempre foi um dos focos de atenção da indústria. A julgar pelo documento oficial da Apple, a Apple treinou dois modelos básicos no hardware dos clusters TPUv4 e TPUv5p:

Um é o modelo AFM-on-device do lado do dispositivo com uma escala de parâmetros de 300 milhões, que é treinado usando 2.048 blocos de TPU v5p e é executado localmente em dispositivos Apple, o outro é um modelo AFM-servidor do lado do servidor com um servidor maior; escala de parâmetros, usando 8192 blocos, o treinamento do chip TPU v4 é executado no próprio data center da Apple.


Imagem/maçã

Afinal, todos nós sabemos que GPUs como a Nvidia H100 são atualmente a escolha principal para treinamento de IA. Existe até um ditado que diz que "apenas GPUs Nvidia são usadas para treinamento de IA".

Em contraste, a TPU do Google parece um tanto “desconhecida”.

Mas, na verdade, o TPU do Google é um acelerador especialmente projetado para tarefas de aprendizado de máquina e aprendizado profundo, que pode fornecer excelentes vantagens de desempenho. Com seu poder de computação eficiente e conexões de rede de baixa latência, a TPU do Google tem um bom desempenho ao lidar com grandes tarefas de treinamento de modelos.

Por exemplo, TPU v4 pode fornecer um poder de computação de pico de até 275 TFLOPS por chip e conectar 4.096 chips TPUv4 a um supercomputador TPU de grande escala por meio de interconexão de ultra-alta velocidade, dobrando assim a escala de poder de computação.

E não apenas a Apple, mas outras grandes empresas de modelos também adotaram a TPU do Google para treinar seus grandes modelos.Claude da Antrópico é um exemplo típico.


Classificações do Chatbot Arena, Foto/LMSYS

Claude agora pode ser considerado o concorrente mais poderoso do modelo OpenAI GPT Na arena do robô de bate-papo LMSYS, Claude 3.5 Sonnet e GPT-4o sempre foram "dragões agachados e filhotes de fênix" (elogio). De acordo com as divulgações, a Anthropic nunca comprou GPUs Nvidia para construir supercomputação, mas em vez disso usa clusters TPU no Google Cloud para treinamento e inferência.

No final do ano passado, a Anthropic anunciou oficialmente que seria a primeira a usar clusters TPU v5e no Google Cloud para treinar Claude.

O uso a longo prazo do Anthropic e os resultados alcançados por Claude demonstram plenamente a eficiência e confiabilidade do Google TPU no treinamento de IA.

Além disso, o Gemini do Google também depende inteiramente de chips TPU desenvolvidos por ele mesmo para treinamento. O modelo Gemini visa avançar a fronteira da tecnologia de processamento e geração de linguagem natural, e seu processo de treinamento requer o processamento de grandes quantidades de dados de texto e a realização de cálculos de modelos complexos.

O poderoso poder de computação da TPU e a eficiente arquitetura de treinamento distribuído permitem que o Gemini conclua o treinamento em um período de tempo relativamente curto e alcance avanços significativos no desempenho.

Mas se Gemini é compreensível, então por que pessoas da Anthropic à Apple escolhem o Google TPU em vez da GPU Nvidia?

TPU e GPU, a batalha secreta entre Google e Nvidia

Na SIGGRAPH 2024, a principal conferência de computação gráfica realizada na segunda-feira, o fundador e CEO da NVIDIA, Jensen Huang, revelou que a NVIDIA enviará amostras da arquitetura Blackwell esta semana, que é a arquitetura de GPU de última geração da NVIDIA.

Em 18 de março de 2024, a NVIDIA lançou sua arquitetura de GPU de última geração - Blackwell, e a GPU B200 de última geração na conferência GTC. Em termos de desempenho, a GPU B200 pode atingir 20 petaflops (um quatrilhão de operações de ponto flutuante por segundo) de poder de computação no FP8 e no novo FP6, tornando-a excelente no processamento de modelos complexos de IA.

Dois meses após o lançamento do Blackwell, o Google também lançou seu TPU de sexta geração (Trillium TPU), cada chip pode fornecer um poder de computação máximo de quase 1.000 TFLOPS (trilhões por segundo) no BF16, e o Google também o avaliou como "o TPU de maior desempenho e maior economia de energia até o momento".


Imagem/Google

Comparada com o Trillium TPU do Google, a GPU NVIDIA Blackwell ainda tem certas vantagens em computação de alto desempenho com suporte para memória de alta largura de banda (HBM3) e ecossistema CUDA. Em um único sistema, a Blackwell pode conectar até 576 GPUs em paralelo para obter poderoso poder de computação e escalabilidade flexível.

Em contraste, o Trillium TPU do Google concentra-se na eficiência e na baixa latência em treinamento distribuído em larga escala. A TPU foi projetada para permanecer eficiente no treinamento de modelos em larga escala e melhorar a eficiência geral da computação, reduzindo a latência de comunicação por meio de interconexões de rede de altíssima velocidade.

E não apenas na última geração de chips de IA,A “guerra secreta” entre o Google e a Nvidia já existe há oito anos, começando em 2016, quando o Google desenvolveu seu próprio chip AI TPU.

Até hoje, a GPU H100 da NVIDIA é atualmente o chip AI mais popular no mercado convencional. Ele não apenas fornece memória de alta largura de banda de até 80 GB, mas também suporta memória HBM3 e realiza comunicação eficiente de várias GPUs por meio da interconexão NVLink. Baseada na tecnologia Tensor Core, a GPU H100 possui eficiência computacional extremamente alta em tarefas de aprendizagem profunda e inferência.

Mas, ao mesmo tempo, o TPUv5e tem vantagens significativas no desempenho de custos e é especialmente adequado para treinar modelos de pequeno e médio porte. A vantagem do TPUv5e reside em seu poderoso poder de computação distribuída e taxa de consumo de energia otimizada, o que faz com que ele tenha um bom desempenho no processamento de dados em grande escala. Além disso, o TPUv5e também está disponível através do Google Cloud Platform, permitindo aos usuários realizar treinamento e implantação flexíveis na nuvem.


Data center do Google, foto/Google

No geral, a NVIDIA e o Google têm estratégias diferentes para chips de IA: a NVIDIA amplia os limites de desempenho dos modelos de IA, fornecendo poder de computação poderoso e amplo suporte ao desenvolvedor, enquanto o Google melhora o desempenho do chip de IA por meio de uma arquitetura de computação distribuída eficiente. . Estas duas escolhas de caminhos diferentes permitem-lhes mostrar vantagens únicas nos seus respectivos campos de aplicação.

Mas o mais importante é que os únicos que podem derrotar a Nvidia são aqueles que adotam estratégias de co-design de software e hardware e possuem fortes capacidades de chip e software.

O Google é um desses oponentes.

O mais forte desafiante à hegemonia da Nvidia

Blackwell é outra grande atualização da NVIDIA depois do Hopper. Possui recursos de computação poderosos e foi projetado para modelos de linguagem em larga escala (LLM) e IA generativa.

Segundo relatos, a GPU B200 é fabricada usando o processo N4P da TSMC, tem até 208 bilhões de transistores, é “composta” por dois chips GPU usando tecnologia de interconexão e está equipada com até 192 GB de HBM3e (memória de alta largura de banda), com uma largura de banda de até 8 TB/s.

Em termos de desempenho, o Trillium TPU do Google melhorou 4,7 vezes no BF16 em comparação com a geração anterior TPU v5e, e a capacidade e largura de banda da HBM, bem como a largura de banda de interconexão do chip, também dobraram. Além disso, o Trillium TPU também está equipado com o SparseCore de terceira geração, que pode acelerar o treinamento de uma nova geração de modelos básicos, com menor latência e menor custo.

Trillium TPU é particularmente adequado para o treinamento de modelos de linguagem em larga escala e sistemas de recomendação. Ele pode ser expandido para centenas de conjuntos e conectar dezenas de milhares de chips por segundo por meio de tecnologia de interconexão de rede em nível PB, realizando outro nível de super "computador". ", melhorando significativamente a eficiência da computação e reduzindo a latência da rede.


Imagem/Google

A partir do segundo semestre deste ano, os usuários do Google Cloud serão os primeiros a adotar este chip.

Em geral, a vantagem de hardware do Google TPU reside no seu poder de computação eficiente e na arquitetura de treinamento distribuído de baixa latência. Isso faz com que o TPU tenha um bom desempenho no treinamento de modelos de linguagem e sistemas de recomendação em larga escala. No entanto, a vantagem do Google TPU reside em outro ecossistema completo independente de CUDA e em uma integração vertical mais profunda.

Por meio da plataforma Google Cloud, os usuários podem treinar e implantar na nuvem com flexibilidade. Este modelo de serviço em nuvem não só reduz o investimento das empresas em hardware, mas também melhora a eficiência do treinamento dos modelos de IA. O Google e o Cloud também fornecem uma série de ferramentas e serviços que apoiam o desenvolvimento de IA, como TensorFlow e Jupyter Notebook, facilitando o treinamento e teste de modelos para os desenvolvedores.


Google TPU v5p usado pela Apple, foto/Google

O ecossistema de IA do Google também inclui uma variedade de ferramentas e estruturas de desenvolvimento, como o TensorFlow, uma estrutura de aprendizado de máquina de código aberto amplamente utilizada que pode utilizar totalmente os recursos de aceleração de hardware das TPUs. O Google também fornece outras ferramentas para apoiar o desenvolvimento de IA, como TPU Estimator e Keras. A integração perfeita dessas ferramentas simplifica muito o processo de desenvolvimento.

Além disso, a vantagem do Google é que o próprio Google é o cliente com maior demanda por poder de computação TPU. Desde o processamento do enorme conteúdo de vídeo do YouTube até todos os treinamentos e inferências do Gemini, a TPU está integrada ao sistema de negócios do Google há muito tempo e também atendeu às enormes necessidades de poder de computação do Google.

Pode-se dizer que a integração vertical do Google é muito mais completa do que a da Nvidia, e dominou quase completamente os nós principais, desde o treinamento do modelo até a aplicação e a experiência do usuário. Isso realmente dá ao Google maiores possibilidades de começar de baixo, de acordo com a tecnologia e. tendências do mercado.

Portanto, embora o Trillium TPU ainda seja difícil de competir com a GPU Blackwell em termos de indicadores de desempenho do chip, quando se trata de treinamento de modelos grandes, o Google ainda pode otimizar sistematicamente a eficiência para rivalizar ou até mesmo superar o ecossistema CUDA da NVIDIA.

Usar TPU no Google Cloud é a melhor escolha da Apple

Resumindo, o desempenho, o custo e as vantagens ecológicas do cluster TPU do Google o tornam a escolha ideal para treinamento de modelos de IA em larga escala. Por sua vez, usar TPU no Google Cloud também é a melhor escolha da Apple nesta fase.


A supercomputação baseada em TPU v4 também é usada pela Apple.Imagem/Google

Por um lado, há desempenho e custo. A TPU tem um bom desempenho no tratamento de tarefas de treinamento distribuídas em larga escala, fornecendo recursos de computação eficientes e de baixa latência para atender às necessidades da Apple em treinamento de modelos de IA. Ao usar a plataforma Google Cloud, a Apple pode reduzir custos de hardware, ajustar com flexibilidade os recursos de computação e otimizar o custo geral do desenvolvimento de IA.

O outro aspecto é a ecologia.O ecossistema de desenvolvimento de IA do Google também oferece uma variedade de ferramentas e suporte, permitindo à Apple desenvolver e implantar seus modelos de IA de forma mais eficiente. Juntamente com a poderosa infraestrutura e suporte técnico do Google Cloud, também fornece uma base sólida para os projetos de IA da Apple.

Em março deste ano, Sumit Gupta, que trabalhou para Nvidia, IBM e Google, juntou-se à Apple para liderar a infraestrutura em nuvem. Segundo relatos, Sumit Gupta juntou-se à equipe de infraestrutura de IA do Google em 2021 e, eventualmente, tornou-se gerente de produto da TPU do Google, CPU Arm autodesenvolvida e outras infraestruturas.

Sumit Gupta entende as vantagens da TPU do Google melhor do que a maioria das pessoas da Apple.

No primeiro semestre de 2024, o círculo tecnológico está turbulento.
A implementação de grandes modelos está se acelerando, telefones celulares com IA, PCs com IA, eletrodomésticos com IA, pesquisa com IA, comércio eletrônico com IA... Os aplicativos de IA estão surgindo indefinidamente;
Vision Pro chega à venda e chega ao mercado chinês, desencadeando outra onda de computação espacial XR;
HarmonyOS NEXT é lançado oficialmente, mudando o ecossistema de sistemas operacionais móveis;
Os carros entraram totalmente no “segundo semestre” e a inteligência tornou-se uma prioridade;
A concorrência no comércio eletrónico está a tornar-se cada vez mais acirrada, com preços mais baixos e melhores serviços;
A onda de expansão internacional está a aumentar e as marcas chinesas estão a embarcar na jornada da globalização;

Em julho é lançado o tópico de revisão semestral da Lei Technology·Semestral, resumindo as marcas, tecnologias e produtos que valem a pena registrar no primeiro semestre de 2024 na indústria de tecnologia, registrando o passado e olhando para o futuro, fique ligado.