notícias

Xiao Zha revelou que gastou muito dinheiro para treinar o Llama 4 e 240.000 GPUs foram usadas juntas!Previsto para ser lançado em 2025

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Taozi

[Introdução à Nova Sabedoria] Inesperadamente, o multimodal Llama 4 já começou a treinar a todo vapor. Xiao Zha disse que investirá dez vezes o valor de cálculo do Llama 3 para treinar o modelo, que deve ser lançado em 2025. Ele gastou muito dinheiro para comprar uma GPU, mas temia que fosse tarde demais.

O Llama 3.1 acaba de ser lançado e o Llama 4 foi totalmente colocado em treinamento.

Nos últimos dias, Xiao Zha disse no relatório financeiro do segundo trimestre que Meta usará dez vezes o poder de computação do Llama 3 para treinar a próxima geração multimodal Llama 4, que deverá ser lançado em 2025.


Com este projeto de lei, Lao Huang tornou-se novamente o maior vencedor

Qual é o conceito de dez vezes o valor do cálculo?

Você sabe, o Llama 3 é treinado em dois clusters de GPU com 24.000 GPUs. Em outras palavras, o treinamento do Llama 4 requer 240.000 GPUs.



Então, o inventário Meta é suficiente?

Ainda me lembro que Xiao Zha anunciou no início do ano que planejava implantar 350.000 Nvidia H100 até o final do ano.

Ele também revelou mais detalhes. A Meta construirá internamente dois clusters únicos para treinamento de LLM, um equipado com 22.000 blocos H100 e outro cluster equipado com 24.000 blocos.


Certa vez, alguns internautas analisaram como o uso da GPU aumentou durante o processo de iteração do modelo Llama:

Lhama 1: 2.048 GPUs

Lhama 2: 4096 GPUs

Lhama 3.1: 16384 GPUs


Ou gaste 40 bilhões de dólares americanos, Xiao Zha não quer que seja tarde demais

Percebe-se que treinar grandes modelos é um negócio caro.

O relatório financeiro mostra que as despesas de capital da Meta em servidores, centros de dados e infraestrutura de rede aumentaram quase 33% no segundo trimestre.

Aumentou para US$ 8,5 bilhões, de US$ 6,4 bilhões no mesmo período do ano passado.

Espera-se agora que os gastos anuais sejam de 37 a 40 mil milhões de dólares, acima da estimativa anterior de 35 a 40 mil milhões de dólares.


Um relatório da Information disse que a OpenAI gastou US$ 3 bilhões em modelos de treinamento e outros US$ 4 bilhões no aluguel de servidores da Microsoft com desconto.

Pode-se ver como é irônico gastar poder computacional para treinar grandes modelos.

Mas o significado é que o código aberto do Llama 3.1 se tornará um importante ponto de viragem na indústria de IA, e a inteligência artificial de código aberto começará a se tornar um padrão da indústria como o Linux.

A Meta está planejando clusters de computação e data centers para os próximos anos para apoiar futuras gerações de modelos de IA.

Xiao Zha admitiu que é difícil prever o futuro caminho de desenvolvimento da tecnologia de IA, mas a construção de infraestrutura não é rápida.

Apesar da incerteza, eu estava disposto a correr o risco de construir antes do tempo, em vez de ficar atrás dos meus concorrentes devido à falta de preparação.


A visão de Xiao Zha já levou a empresa a se destacar na onda do metaverso.

Quando o preço das ações da empresa sofreu um forte impacto em 2022, Xiao Zha ainda assumiu o risco e comprou um grande número de H100.

O relatório financeiro do terceiro trimestre daquele ano mostrou que as despesas de capital da Meta atingiram 32 a 33 mil milhões de dólares.

Muito disso vai para a construção de data centers, servidores e infraestrutura de rede, bem como para enormes investimentos no Metaverso.

Na entrevista, Xiao Zha explicou: “Naquela época, a Meta estava desenvolvendo vigorosamente a ferramenta de vídeo curto Reels, então eram necessárias mais GPUs para treinar o modelo”.

Como a inferência de modelos é uma questão crucial para o Meta, ele precisa fornecer serviços para usuários de seus próprios aplicativos, como Facebook e Ins.

Nas palavras originais de Xiao Zha:

A proporção de cálculos de inferência e treinamento exigidos por nós pode ser muito maior do que outras empresas envolvidas nesta área. Isso ocorre porque o número de usuários da comunidade que atendemos é muito grande.

Todo mundo tem um agente de IA

Há algum tempo, o cientista da Meta AI, Thomas Scialom, também mencionou em uma entrevista no blog que o Llama 4 começou a treinar em junho.

Ele disse que o novo modelo pode se concentrar na tecnologia de agentes, e algumas pesquisas foram conduzidas em ferramentas de agentes, como o Toolformer.


Xiao Zha acredita que os agentes de IA em breve se tornarão o “equipamento padrão” para empresas online.

“Com o passar do tempo, acho que assim como toda empresa tem um site, contas de mídia social e endereços de e-mail, no futuro toda empresa terá um agente de IA com quem os clientes poderão interagir.”

O objetivo da Meta é permitir que todas as pequenas empresas e, eventualmente, até mesmo todas as grandes empresas, integrem facilmente seu próprio conteúdo e produtos em agentes de IA.

Quando esta tecnologia for colocada em aplicações práticas em larga escala, acelerará enormemente a nossa receita de informação empresarial.


Apesar das críticas dos investidores sobre os elevados gastos da Meta em IA e no Metaverso, Zuckerberg continua comprometido com sua estratégia.

Embora a realidade virtual pareça ter ficado em segundo plano nos últimos trimestres na Meta, Zuckerberg mencionou que as vendas do Quest 3 superaram as expectativas da empresa.

Os números do segundo trimestre mostram que as receitas nesta área aumentaram 22%, para 39,1 mil milhões de dólares, e os lucros aumentaram 73%, para 13,5 mil milhões de dólares.

Para o terceiro trimestre, a Meta espera receitas na faixa de US$ 38,5-41 bilhões.

Fontes dizem que a empresa anunciará um par de fones de ouvido mais barato na conferência Connect em setembro.

Além disso, o assistente de IA Meta AI está se tornando cada vez mais popular, e Xiao Zha disse que se espera que ele se torne o assistente de IA mais usado até o final do ano.


Referências:

https://the-decoder.com/meta-plans-to-use-10-times-more-compute-power-to-train-its-next-generation-lama-4-ai-model/

https://www.theverge.com/2024/7/31/24210786/meta-earnings-q2-2024-ai-llama-zuckerberg