notícias

Como criar um modelo de código aberto que possa derrotar o GPT-4o Tudo sobre o Llama 3.1 405B está escrito no artigo?

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

Após um “vazamento acidental” com dois dias de antecedência, o Llama 3.1 foi finalmente lançado oficialmente na noite passada.

O Llama 3.1 estende o comprimento do contexto para 128K e tem três versões: 8B, 70B e 405B, mais uma vez elevando sozinho o padrão competitivo para pistas de modelos grandes.

Para a comunidade de IA, o significado mais importante do Llama 3.1 405B é que ele atualiza o limite superior das capacidades do modelo básico de código aberto. Funcionários do Meta disseram que em uma série de tarefas, seu desempenho é comparável ao melhor fechado. modelo de origem.

A tabela abaixo mostra o desempenho dos modelos atuais da Série Llama 3 nos principais benchmarks. Percebe-se que o desempenho do modelo 405B é muito próximo do GPT-4o.



Ao mesmo tempo, Meta publicou o artigo "The Llama 3 Herd of Models", revelando os detalhes da pesquisa dos modelos da série Llama 3 até agora.



Endereço do artigo: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

A seguir, vamos dar uma olhada no conteúdo do artigo.

Destaques do papel Llama3

1. Após o pré-treinamento usando comprimento de contexto de 8K, o Llama 3.1 405B usa comprimento de contexto de 128K para treinamento contínuo e suporta o uso de vários idiomas e ferramentas.

2. Em comparação com o modelo Llama anterior, o Meta fortaleceu os pipelines de curadoria de dados de pré-processamento e pré-treinamento, bem como a garantia de qualidade e métodos de filtragem de dados pós-treinamento.

Meta acredita que existem três alavancas principais para o desenvolvimento de modelos subjacentes de alta qualidade: dados, escala e gerenciamento de complexidade.

Primeiro, em comparação com versões anteriores do Llama, o Meta melhora os dados usados ​​para pré-treinamento e pós-treinamento, tanto em quantidade quanto em qualidade. Meta pré-treinou o Llama 3 em um corpus de aproximadamente 15 trilhões de tokens multilíngues, em comparação com o Llama 2, que usou apenas 1,8 trilhão de tokens.

A escala do modelo treinado desta vez é muito maior do que o modelo Llama anterior: o modelo de linguagem principal usa operações de ponto flutuante (FLOPs) de 3,8 × 10²⁵ para pré-treinamento, que é quase 50 vezes maior que a versão maior do Llama 2 .

Com base na lei de escala, sob o orçamento de treinamento do Meta, o modelo principal atual já está aproximadamente no tamanho computacionalmente ideal, mas o tempo de treinamento do Meta para modelos menores excedeu em muito o comprimento computacionalmente ideal. Os resultados mostram que esses modelos menores superam os modelos computacionalmente ótimos para o mesmo orçamento de inferência. Na fase pós-treinamento, a Meta utilizou o modelo principal 405B para melhorar ainda mais a qualidade de modelos menores, como os modelos 70B e 8B.

3. Para suportar a inferência de produção em massa de modelos 405B, o Meta quantiza 16 bits (BF16) em 8 bits (FP8), reduzindo assim os requisitos de computação e permitindo que o modelo seja executado em um único nó de servidor.

4. O pré-treinamento de 405B em tokens de 15,6T (3,8x10²⁵ FLOPs) é um grande desafio. Meta otimizou toda a pilha de treinamento e usou mais de 16K GPUs H100.

Como disse o fundador do PyTorch e Meta Distinguished Engineer Soumith Chintala, o artigo do Llama3 revela muitos detalhes interessantes, um dos quais é a construção da infraestrutura.



5. No pós-treinamento, Meta melhora o modelo de Chat por meio de múltiplas rodadas de alinhamento, incluindo ajuste fino supervisionado (SFT), amostragem de rejeição e otimização de preferência direta. A maioria das amostras SFT são geradas a partir de dados sintéticos.

Os pesquisadores fizeram várias escolhas no design para maximizar a escalabilidade do processo de desenvolvimento do modelo. Por exemplo, a arquitetura do modelo Transformer denso padrão foi escolhida com apenas pequenos ajustes em vez de uma mistura de modelos especialistas para maximizar a estabilidade do treinamento. Da mesma forma, é adotado um procedimento pós-treinamento relativamente simples, baseado em ajuste fino supervisionado (SFT), amostragem de rejeição (RS) e otimização de preferência direta (DPO), em vez de algoritmos de aprendizagem por reforço mais complexos, que tendem a ser menos estáveis. e extensão mais difícil.

6. Como parte do processo de desenvolvimento do Llama 3, a equipe Meta também desenvolveu extensões multimodais do modelo para permitir o reconhecimento de imagem, reconhecimento de vídeo e compreensão de fala. Esses modelos ainda estão em desenvolvimento ativo e ainda não estão prontos para lançamento, mas o artigo apresenta os resultados de experimentos preliminares com esses modelos multimodais.

7. Meta atualizou sua licença para permitir que os desenvolvedores usem a saída do modelo Llama para aprimorar outros modelos.

No final deste artigo, vemos também uma longa lista de colaboradores:





Esta série de fatores finalmente criou a série Llama 3 hoje.

É claro que, para desenvolvedores comuns, como utilizar modelos em escala 405B é um desafio e requer muitos recursos de computação e experiência.

Após o lançamento, o ecossistema do Llama 3.1 está pronto, com mais de 25 parceiros oferecendo serviços que funcionam com o modelo mais recente, incluindo Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud e Snowflake, entre outros.



Para mais detalhes técnicos, consulte o artigo original.