notícias

O link magnético do Llama 3.1 vazou antes do previsto!O trono do modelo de código aberto mudou de mãos da noite para o dia, o GPT-4o foi superado

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria] Llama 3.1 vazou antecipadamente novamente! A comunidade de desenvolvedores está novamente frenética: o maior modelo é 405B, os modelos 8B e 70B também são atualizados ao mesmo tempo e o tamanho do modelo é de cerca de 820GB. Os resultados dos testes de benchmark são surpreendentes e o link magnético está circulando descontroladamente por toda a rede.

A história se repete novamente, Llama 3.1 405B vazou antecipadamente!

Agora, espalhou-se a notícia sobre benchmarks e links magnéticos.


Além do maior 405B, a Meta também atualizou os modelos 8B e 70B lançados no início de maio desta vez e aumentou o comprimento do contexto para 128K.

Neste ponto, a versão do modelo foi oficialmente iterada do Llama 3 para o Llama 3.1.


De acordo com as informações fornecidas pelo link magnético, o tamanho do novo modelo é 763,48GiB (aproximadamente 820GB).


Pode-se ver no "teste de benchmark" que vazou que até mesmo o modelo pequeno 8B é capaz de jogar, enquanto o desempenho do modelo 70B pode alcançar o GPT-4o em vários benchmarks.


Os desenvolvedores ficaram furiosos depois de ver os resultados do teste, Aidan McLau, exclamou——.

Se os benchmarks do Llama 3-405B fossem verdadeiros, seria

- Torne-se o melhor modelo do mundo

- Ajustável para todos

- Mais barato que GPT-4o!


O CEO da HyperWriteAI, Matt Schumer, prevê: Definitivamente se tornará o SOTA no modelo de código aberto. (Mesmo o 70B pode competir com o GPT-4o, sem mencionar que isso ocorre antes do ajuste fino das instruções.)

Imagine um modelo de nível GPT-4o rodando a 330 tokens por segundo e 10 vezes mais barato. Isso é tão emocionante.

Amanhã será um dia selvagem!


E as palavras de Xiao Zha sugeriram a chegada do 405B – ​​o momento de silêncio antes da semana fatídica.


Muitos internautas estão perguntando à OpenAI online: quando o novo modelo será lançado?

Família Llama 3.1, lançada amanhã

De acordo com o card modelo vazado, o Llama 3.1 será lançado no dia 23.

As licenças são "Licença Comercial Personalizada" e "Licença Comunitária Llama 3.1".


Cartão de modelo vazado: https://pastebin.com/9jGkYbXY

Especificamente, o modelo grande multilíngue da série Llama 3.1 é um conjunto de modelos generativos pré-treinados e com instruções ajustadas, incluindo três tamanhos de parâmetros de 8B, 70B e 405B.

Modelos Llama 3.1 somente texto (8B, 70B, 405B) após ajuste fino das instruções, otimizados para casos de uso de conversação em vários idiomas.


Além do inglês, pode suportar 7 idiomas, incluindo alemão, francês, italiano, português, hindi, espanhol e tailandês.

Segundo relatos, os novos recursos do Llama 3.1 incluem contexto mais longo, suporte para entrada e saída em vários idiomas e integração de desenvolvedores com ferramentas de terceiros.

Referências

Um gráfico de benchmark no GitHub (agora 404) mostra o excelente desempenho do Llama 3.1 no teste de benchmark.

Especificamente, na avaliação de benchmark do modelo de pré-treinamento de benchmark, o Llama 3.1 405B estabeleceu os recordes mais recentes em tarefas gerais, raciocínio de conhecimento e compreensão de leitura.

Especialmente nos benchmarks de subdivisão MMLU e SQuAD, a melhoria é mais óbvia.

Ao mesmo tempo, as versões de parâmetros do Llama 3.1 8B e 70B foram ligeiramente melhoradas em comparação com o Llama 3. No entanto, em alguns indicadores, o 70B Llama 3.1 não é tão bom quanto a geração anterior.


Além disso, no modelo de ajuste fino da instrução, pode-se observar que o Llama 3.1 405B é mais forte que o modelo pré-treinado. Em raciocínio, codificação, matemática, uso de ferramentas e benchmarks multilíngues, eles esmagaram as versões 8B e 70B ajustadas.

Os modelos Llama 3.1 8B e 70B ajustados também melhoraram significativamente o desempenho em tarefas de capacidade múltipla.


Alguns internautas compilaram os benchmarks de outros modelos líderes. Através da comparação, pode-se ver que o Claude 3.5 Sonnet é o rei de todos os benchmarks.

A versão ajustada do Llama 3.1 405B é a melhor apenas no benchmark matemático MMLU Pro, superando todos os modelos grandes com uma pontuação de 73,3%.

Além disso, 405B está no mesmo nível do GPT-4o nos benchmarks de GPQA (Conhecimento e Raciocínio Profissional de Pós-Graduação), Matemática, DROP (Compreensão de Leitura), MGSM (Matemática Multilíngue), HumanEval (Programação) e BBH (Avaliação de Conhecimento) .

Além disso, o 405B está significativamente à frente do mais recente mini modelo GPT-4o.


Llama 3.1 é um modelo de linguagem autoregressivo que usa uma arquitetura Transformer otimizada. A versão ajustada utiliza SFT e RLHF para corresponder às preferências humanas em termos de segurança.

Para os modelos da série Llama 3.1, a contagem de tokens refere-se apenas aos dados de pré-treinamento.

Todas as versões do modelo usam Grouped Query Attention (GQA) para melhorar a escalabilidade da inferência.

Dados de treinamento de token 15T

Assim como o Llama 3, o Llama 3.1 é pré-treinado em aproximadamente 15 trilhões de tokens de fontes disponíveis publicamente.

Os dados de ajuste fino incluem conjuntos de dados de instruções disponíveis publicamente, bem como mais de 25 milhões de amostras sintéticas, e os dados de pré-treinamento estão disponíveis até dezembro de 2023.



Disponível para pesquisa comercial

O Llama 3.1 oferece suporte a ambientes de vários idiomas para uso comercial e de pesquisa.

Modelos somente texto ajustados com instruções são adequados para assistentes de chat, enquanto modelos pré-treinados podem ser adaptados a uma variedade de tarefas de geração de linguagem natural. A coleção de modelos Llama 3.1 também suporta o aproveitamento da saída do modelo para melhorar outros modelos, incluindo geração de dados sintéticos e destilação de modelo.

A violação de leis e regulamentos de uso, políticas de uso e licença comunitária do Llama 3.1 proibida e idiomas suportados estão além do escopo.

E a equipe enfatizou que além dos oito idiomas suportados, o Llama 3.1 é treinado em um conjunto mais amplo de idiomas. Os desenvolvedores podem ajustá-lo e aplicá-lo a outras linguagens, desde que políticas como licenças comunitárias sejam seguidas e o uso seja seguro e responsável.

39,3 milhões de horas de treinamento em GPU

Durante o pré-treinamento, Meta usa uma biblioteca de treinamento personalizada, cluster de GPU personalizado e infraestrutura de produção Meta. Ajuste fino, anotação e avaliação também são realizados na infraestrutura de produção.

O treinamento utilizou um total de 39,3 milhões de horas de computação de GPU e o tipo de hardware é H100-80GB (TDP é 700W).

O tempo de treinamento é o tempo total da GPU necessário para treinar cada modelo, e o consumo de energia é a capacidade máxima de energia de cada dispositivo GPU, ajustado para eficiência no uso de energia.


As emissões totais de gases de efeito estufa provenientes do treinamento com base na localização são estimadas em 11.390 toneladas de equivalente de dióxido de carbono (CO2eq).

A Meta enfatiza que mantém emissões líquidas zero de gases de efeito estufa desde 2020 e gera 100% de sua eletricidade a partir de recursos renováveis, resultando em emissões totais de gases de efeito estufa de 0 toneladas de equivalente CO2 com base em uma referência de mercado.


risco significativo

A Meta também conduziu testes sobre os principais riscos.

Inclui utilidade CBRNE (materiais químicos, biológicos, radiológicos, nucleares e explosivos), segurança infantil e ataques cibernéticos.

Em ataques cibernéticos, a equipe investigou se os LLMs poderiam melhorar as capacidades humanas em tarefas de hacking, incluindo nível de habilidade e velocidade.

A pesquisa se concentra em avaliar a capacidade dos LLMs de serem utilizados como agentes autônomos em operações de ataques cibernéticos, especialmente quando atacados por ransomware.

O principal objetivo é avaliar se esses modelos podem efetivamente realizar ataques cibernéticos complexos como agentes independentes, sem intervenção humana.

Os internautas estão fritando a panela e testemunhando a história novamente

Depois que o link magnético foi lançado, internautas impacientes começaram a baixar diretamente, mas isso pode levar muito tempo.


Alguns internautas estão esperando o lançamento do Llama 3.1 405B amanhã e testemunhar a história novamente!


A lacuna entre os modelos de código aberto e de código fechado diminuiu novamente.


Alguém também testou a clássica pergunta da armadilha "Quem é maior, 9,11 ou 9,9?", e o Llama 3.1-405B respondeu corretamente.


Para os "pobres em GPU", 820 GB são muito relutantes para rodar em um notebook.





Referências:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756