Superando o modelo de código aberto de nível GPT4o vazou: 405 bilhões de parâmetros, links para download estão disponíveis

Além do modelo de código aberto de nível GPT4o Llama 3.1 vazou: 405 bilhões de parâmetros, link para download está disponível!

2024-07-23

Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

Prepare sua GPU!

Llama 3.1 finalmente apareceu, mas a fonte não é oficial do Meta.

Hoje, a notícia vazada do novo modelo Llama se tornou viral no Reddit.Além do modelo básico, também inclui resultados de benchmark de 8B, 70B e o maior parâmetro de 405B。

A figura abaixo mostra os resultados da comparação de cada versão do Llama 3.1 com OpenAI GPT-4o e Llama 3 8B/70B. pode ser visto,Até a versão 70B excede o GPT-4o em vários benchmarks。

Fonte da imagem: https://x.com/mattshumer_/status/1815444612414087294

Obviamente, os modelos 8B e 70B da versão 3.1 são destilados do 405B, portanto há uma melhoria significativa de desempenho em comparação com a geração anterior.

Alguns internautas disseram que isso éPela primeira vez, o modelo de código aberto superou modelos de código fechado como GPT4o e Claude Sonnet 3.5, alcançando SOTA em vários benchmarks.。

Ao mesmo tempo, o cartão do modelo do Llama 3.1 vazou, e os detalhes também vazaram (a data marcada no cartão do modelo mostra que ele é baseado no lançamento de 23 de julho).

Alguém resumiu os seguintes destaques:

O modelo usa mais de 15T tokens de fontes públicas para treinamento, e o prazo para dados de pré-treinamento é dezembro de 2023;
Os dados de ajuste fino incluem o conjunto de dados de ajuste fino de instruções disponível publicamente (ao contrário do Llama 3) e 15 milhões de amostras sintéticas;
O modelo suporta vários idiomas, incluindo inglês, francês, alemão, hindi, italiano, português, espanhol e tailandês.

Fonte da imagem: https://x.com/iScienceLuvr/status/1815519917715730702

Embora o link vazado do Github seja atualmente 404, alguns internautas forneceram o link para download (mas por segurança, é recomendável aguardar o anúncio oficial do canal hoje à noite):

No entanto, este é um modelo grande com uma escala de centenas de bilhões, portanto, prepare espaço suficiente no disco rígido antes de fazer o download:

A seguir estão os conteúdos importantes do cartão modelo Llama 3.1:

Informações básicas do modelo

O conjunto Meta Llama 3.1 Multilingual Large Language Model (LLM) é um conjunto de modelos generativos pré-treinados e ajustados por instrução dos tamanhos 8B, 70B e 405B (entrada/saída de texto). Os modelos somente texto ajustados por comando do Llama 3.1 (8B, 70B, 405B) são otimizados para casos de uso de conversação multilíngue e superam muitos modelos de bate-papo de código aberto e fechado disponíveis em benchmarks comuns do setor.

Arquitetura do modelo: Llama 3.1 é um modelo de linguagem autorregressivo de arquitetura Transformer otimizada. A versão ajustada usa SFT e RLHF para alinhar preferências de usabilidade e segurança.

Idiomas suportados: inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês.

Pode-se inferir a partir das informações do modelo do cartão queOs modelos da série Llama 3.1 têm um comprimento de contexto de 128k . Todas as versões do modelo usam Grouped Query Attention (GQA) para melhorar a escalabilidade de inferência.

uso esperado

Casos de uso pretendidos. O Llama 3.1 destina-se ao uso em aplicações de negócios e pesquisas multilíngues. Modelos somente texto ajustados por instrução são adequados para bate-papo semelhante a um assistente, enquanto modelos pré-treinados podem ser adaptados a uma variedade de tarefas de geração de linguagem natural.

O conjunto de modelos Llama 3.1 também oferece suporte à capacidade de aproveitar a saída do modelo para melhorar outros modelos, incluindo geração e destilação de dados sintéticos. A licença comunitária do Llama 3.1 permite esses casos de uso.

O Llama 3.1 treina em um conjunto mais amplo de idiomas do que os 8 idiomas suportados. Os desenvolvedores podem ajustar os modelos do Llama 3.1 para idiomas diferentes dos 8 idiomas suportados, desde que cumpram o Contrato de Licença da Comunidade e a Política de Uso Aceitável do Llama 3.1, e são responsáveis, nesses casos, por garantir que outros idiomas sejam usados em de forma segura e responsável Language Llama 3.1.

Infraestrutura de software e hardware

O primeiro é o elemento de treinamento. O Llama 3.1 usa uma biblioteca de treinamento personalizada, cluster de GPU personalizado do Meta e infraestrutura de produção para pré-treinamento. Ele também é ajustado, anotado e avaliado na infraestrutura de produção.

O segundo é o consumo de energia do treinamento. O treinamento do Llama 3.1 usa um total de 39,3 M de horas de cálculo de GPU em hardware do tipo H100-80GB (TDP é 700W). Aqui, o tempo de treinamento é o tempo total de GPU necessário para treinar cada modelo, e o consumo de energia é a capacidade máxima de energia de cada dispositivo GPU, ajustado para eficiência de energia.

Treinamento sobre emissões de gases de efeito estufa. As emissões totais de gases de efeito estufa com base em referências geográficas durante o período de treinamento do Llama 3.1 são estimadas em 11.390 toneladas de equivalente CO2. Desde 2020, a Meta tem mantido emissões líquidas zero de gases de efeito estufa em todas as suas operações globais e combinou 100% do seu uso de eletricidade com energia renovável, resultando em emissões totais de gases de efeito estufa baseadas no mercado de 0 toneladas de CO2e durante o período de treinamento.

Os métodos utilizados para determinar o uso de energia no treinamento e as emissões de gases de efeito estufa podem ser encontrados no artigo a seguir. Como a Meta divulga publicamente esses modelos, outros não precisam arcar com o fardo do treinamento no uso de energia e nas emissões de gases de efeito estufa.

Endereço do artigo: https://arxiv.org/pdf/2204.05149

dados de treinamento

Visão geral: o Llama 3.1 é pré-treinado usando aproximadamente 15 trilhões de dados de tokens de fontes públicas. Os dados de ajuste fino incluem conjuntos de dados de instruções disponíveis publicamente e mais de 25 milhões de exemplos gerados sinteticamente.

Atualização dos dados: o prazo para dados de pré-treinamento é dezembro de 2023.

Pontuação de referência

Nesta seção, Meta relata os resultados de pontuação do modelo Llama 3.1 no benchmark de anotação. Para todas as avaliações, Meta utiliza bibliotecas de avaliação internas.

Considerações sobre riscos de segurança

A equipe de pesquisa do Llama está empenhada em fornecer à comunidade de pesquisa recursos valiosos para estudar a robustez do ajuste fino seguro e fornecer aos desenvolvedores modelos prontos para uso seguros e robustos para uma variedade de aplicações, a fim de reduzir o trabalho dos desenvolvedores que implantam IA segura. quantidade de sistemas.

A equipe de pesquisa usou uma abordagem multifacetada de coleta de dados que combinou dados gerados por humanos de fornecedores com dados sintéticos para mitigar possíveis riscos de segurança. A equipe de pesquisa desenvolveu uma série de classificadores baseados em modelos de linguagem grande (LLM) para selecionar cuidadosamente prompts e respostas de alta qualidade, melhorando assim o controle de qualidade dos dados.

Vale ressaltar que o Llama 3.1 atribui grande importância ao modelo de rejeição de prompts benignos e ao tom de rejeição. A equipe de pesquisa introduziu avisos de limite e avisos adversários na política de dados de segurança e modificou a resposta dos dados de segurança para seguir as diretrizes de tom.

O modelo Llama 3.1 não foi projetado para ser implantado de forma independente, mas deve ser implantado como parte de um sistema geral de IA, com “proteções de segurança” adicionais fornecidas conforme necessário. Os desenvolvedores devem implementar medidas de segurança do sistema ao construir sistemas de agentes.

Observe que esta versão apresenta novos recursos, incluindo janelas de contexto mais longas, entrada e saída multilíngue e possível integração do desenvolvedor com ferramentas de terceiros. Ao construir com esses novos recursos, além de considerar as práticas recomendadas que geralmente se aplicam a todos os casos de uso de IA generativa, você também precisa prestar atenção especial às seguintes questões:

Uso de ferramentas: Assim como acontece com o desenvolvimento de software padrão, os desenvolvedores são responsáveis por integrar o LLM com as ferramentas e serviços de sua escolha. Devem desenvolver políticas claras para os seus casos de utilização e avaliar a integridade dos serviços de terceiros que utilizam para compreender as limitações de segurança e proteção ao utilizar esta funcionalidade.

Multilíngue: Lama 3.1 suporta 7 idiomas além do inglês: francês, alemão, hindi, italiano, português, espanhol e tailandês. O Llama pode gerar texto em outros idiomas, mas esse texto pode não atender aos limites de desempenho de segurança e capacidade de ajuda.

Os valores fundamentais do Llama 3.1 são abertura, inclusão e utilidade. Ele foi projetado para atender a todos e é adequado para uma variedade de casos de uso. Portanto, o Llama 3.1 foi projetado para ser acessível a pessoas de todas as origens, experiências e perspectivas. O Llama 3.1 é centrado nos usuários e em suas necessidades, sem inserir julgamentos ou normas desnecessárias, ao mesmo tempo que reflete o reconhecimento de que mesmo conteúdos que podem parecer problemáticos em alguns contextos podem ser úteis em outros. O Llama 3.1 respeita a dignidade e a autonomia de todos os usuários e, em particular, respeita os valores da liberdade de pensamento e expressão que alimentam a inovação e o progresso.

Mas o Llama 3.1 é uma tecnologia nova e, como qualquer tecnologia nova, existem riscos associados ao seu uso. Os testes realizados até o momento não cobriram e não podem cobrir todas as situações. Portanto, como todos os LLMs, os resultados potenciais do Llama 3.1 não podem ser previstos com antecedência e, em alguns casos, o modelo pode responder às solicitações do usuário de forma imprecisa, tendenciosa ou de outra forma questionável. Portanto, antes de implantar qualquer aplicação do modelo Llama 3.1, os desenvolvedores devem realizar testes de segurança e ajustes para a aplicação específica do modelo.

Fonte do cartão modelo: https://pastebin.com/9jGkYbXY

Informações de referência: https://x.com/op7418/status/1815340034717069728

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294

notícias

Além do modelo de código aberto de nível GPT4o Llama 3.1 vazou: 405 bilhões de parâmetros, link para download está disponível!

Introdução

minhas informações de contato