notícias

Llama 3.1 vazou antecipadamente, tirando o GPT-4o de seu trono?Mais rápido e 10 vezes mais barato

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Texto | Chang Minxiao e Yuan Yingliang

Editor|Anita Tang

Se o destino do grande modelo do Llama for se tornar o teto dos modelos de código aberto, então “vazar tragicamente” é o desastre que o Llama terá que superar.

Em março de 2023, o Llama 2 vazou antecipadamente e a Meta teve que lançar o modelo como código aberto.

Hoje, a história se repete novamente.

Em 12 de julho, horário do Pacífico, um funcionário da Meta revelou que a Meta planeja lançar a versão com maior escala de parâmetros do Llama até o momento: Llama 3.1 405B em 23 de julho de 2024, horário local. Ele revelou que o 405B será o primeiro modelo multimodal da série Llama.

No entanto, em 22 de julho, horário do Pacífico, um dia antes do lançamento programado, o modelo e os resultados do benchmark do Llama 3.1 vazaram em comunidades técnicas como o Reddit, e o link magnético do Llama 3.1 (um programa usado para baixar documentos) foi foi divulgado em comunidades como HuggingFace.

A julgar pelos resultados vazados,O desempenho do Llama 3.1 é comparável ao GPT-4o da OpenAI!

Alguns blogueiros de IA elogiaram que o lançamento do Llama 3.1 será mais um dia que mudará o destino do mundo da IA:


△Fonte:X

Os resultados de benchmark vazados mostram que o Llama 3.1 tem três tamanhos: 8B, 70B e 405B. O modelo 70B com o menor número de parâmetros possui desempenho comparável ao GPT-4o em muitos aspectos.


△A imagem acima mostra a comparação entre cada versão do Llama 3.1 e OpenAI GPT-4o e Llama 3 8B/70B Entre elas, a versão 70B, que está no meio da escala, também supera o GPT-4o em muitos aspectos. Fonte da imagem: usuário X @mattshumer_

Alguns internautas apontaram que, se baseado neste benchmark, o Llama 3.1 405B ≈ GPT-4o, o Llama 3.1 70B se tornará o primeiro modelo leve e GPT-4o mini que pode derrotar o OpenAI.


△Fonte da imagem: usuário X @corbtt

No entanto, muitos internautas que baixaram o modelo para "pioneiros" descobriram que a versão vazada do Llama 3.1 405B tem um tamanho de arquivo de aproximadamente 820 GB, exigindo quase três vezes a memória do Llama 2 (aproximadamente 280 GB), que mantém a precisão total.

Isso significa que, a menos que você tenha uma mina em casa e possa comprar GPUs suficientes, será difícil para os desenvolvedores individuais executarem o Llama 3.1 em seus próprios computadores. Alguns internautas especulam que o Llama 3.1 não é para indivíduos, mas para instituições e empresas.

O Llama 3.1, que ainda não foi anunciado oficialmente, também recebeu água fria. Muitos internautas reclamaram: o Llama 3.1 tem requisitos de GPU muito altos e não é tão bom quanto o mini GPT-4o da OpenAI ao lado.


△Comentários de internautas sobre X. Fonte da imagem: usuário X @_Talesh


Iteração de funções, otimização de indicadores e redução de recursos computacionais

De acordo com informações vazadas do modelo, o Llama 3.1 tem mais iterações em funcionalidade do que o Llama 3, que será lançado em 19 de abril de 2024, incluindo janelas de contexto mais longas, entrada e saída em vários idiomas e possível integração com ferramentas de desenvolvedores e terceiros.

Treinamento de dados: o Llama 3.1 foi treinado usando mais de 15T tokens de fontes públicas. Os dados de ajuste fino incluem conjuntos de dados de ajuste de instruções disponíveis publicamente (ao contrário do Llama-3!) e mais de 25 milhões de exemplos gerados sinteticamente. Diálogo multilíngue: O Llama 3.1 suporta 8 idiomas: inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Embora infelizmente não esteja disponível em chinês, os desenvolvedores podem ajustar os modelos do Llama 3.1 para outros idiomas além dos 8 idiomas suportados. Janela de contexto: O comprimento do contexto de cada versão é expandido de 8k para 128k, o que equivale aproximadamente ao modelo ser capaz de lembrar, compreender e processar 96.000 palavras por vez, quase um "Harry Potter" original inteiro.

Muitos internautas estão ansiosos para experimentá-lo e deixar o Llama 3.1 competir com os "predecessores" do modelo. Eles descobriram que não apenas os indicadores foram significativamente melhorados, mas também os recursos computacionais foram muito economizados.

Com base em testes realizados por internautas, em comparação com o Llama 3, as capacidades do Llama 3.1 foram significativamente melhoradas. Entre eles, human_eval e trueqa_mc1 fizeram progressos significativos, o que significa que a capacidade de gerar código de programação é mais forte e as respostas às perguntas são mais autênticas.

Ao mesmo tempo, em comparação com o modelo básico, o modelo de instrução do Llama 3 melhorou significativamente indicadores como aprendizado rápido, aprendizado contextual e ajuste eficiente de parâmetros.

Isso é razoável porque o modelo básico geralmente não é ajustado para uma tarefa específica, enquanto o modelo instrutivo é especialmente treinado para seguir instruções ou concluir tarefas específicas. Em geral, os indicadores do modelo instrutivo apresentam melhor desempenho.

Isso faz com que as pessoas anseiem ainda mais pelo lançamento oficial do Llama3.1. Os resultados do teste do modelo Llama3.1 que vazaram atualmente são apenas para o modelo básico, enquanto o modelo de instrução pode ter um desempenho melhor!


△Fonte da imagem: usuário X @thenameless7741


△Fonte da imagem: usuário X @thenameless7741

Surpreendentemente, nos resultados dos testes de benchmark, o modelo Llama 3.1 70B empatou ou até venceu o GPT-4o, enquanto o modelo Llama 3.1 8B ficou próximo do desempenho do modelo Llama 3 70B. Alguns internautas especularam que isso pode ter utilizado tecnologia de destilação de modelo, ou seja, os modelos 8B e 70B são simplificados a partir do modelo maior de 405B, tornando o modelo grande “pequeno”.

A tecnologia de destilação modelo pode ser vista como um aluno aprendendo com um professor. O modelo grande e poderoso (o modelo do professor) é o professor, e o modelo menor e mais simples (o modelo do aluno) é o aluno. O modelo do aluno aprende “imitando” o modelo do professor, tornando o resultado o mais próximo possível do resultado do modelo do professor, aprendendo assim conhecimentos e habilidades semelhantes.

O modelo de estudante treinado por destilação pode reduzir o tamanho do modelo e os requisitos de recursos computacionais, mantendo alto desempenho e precisão considerável.


△Fonte: Reddit


Nem todos podem executá-lo, mas o preço é razoável.

Ainda não se sabe se o Llama 3.1 será de código aberto como esperado. Mas mesmo que seja de código aberto, se você quiser usar o Llama 3.1, ainda precisará ter uma mina em casa.

Se você deseja executar o Llama 3.1, o ingresso mais básico é uma GPU suficiente.

Documentos vazados mostram que o tempo de treinamento do Llama 3.1 405B em hardware do tipo H100-80GB é de 30,84 milhões de horas de GPU. Isso significa que, supondo que apenas um H100-80GB seja usado por hora, serão necessários 30,84 milhões de horas para executar o Llama 3.1 405B – levará 3.500 anos até que o modelo esteja funcionando!


△Fonte: Reddit

Se a empresa quiser implantar de forma privada, se quiser executar com sucesso o Llama 3.1 405B dentro de um mês, ela deverá reservar pelo menos 43.000 H100-80GB. Calculado com base no preço unitário do H100 de US$ 40.000,Usando bilhetes de poder de computação Llama 3.1 405B, o preço chega a 1,7 bilhão de dólares americanos, equivalente a 12,5 bilhões de yuans.

Mas a boa notícia é que o custo de inferência do Llama 3.1 pode ser mais barato.

De acordo com a Análise Artificial, o custo necessário para processar 1 milhão de Tokens, Llama 3.1 405B, será mais barato e mais econômico do que modelos de ponta de qualidade semelhante (GPT-4o e Claude 3.5 Sonnet).


△Fonte da imagem: usuário X @ArtificialAnlys

Além disso, alguns internautas especularam através do código do arquivo fonte que o Llama 3.1 405B pode se tornar um produto de associação e os usuários precisam pagar ao usá-lo. Porém, ainda precisamos aguardar a divulgação oficial quanto à real situação.


△Fonte da imagem: usuário X @testingcatalog

(O autor 36Kr Zhou Xinyu também contribuiu para este artigo)

Bem-vindo a comunicar

Bem-vindo a comunicar