minhas informações de contato
Correspondência[email protected]
2024-07-24
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Relatório do coração da máquina
Departamento Editorial de Coração de Máquina
Após um “vazamento acidental” com dois dias de antecedência, o Llama 3.1 foi finalmente lançado oficialmente na noite passada.
O Llama 3.1 estende o comprimento do contexto para 128K e tem três versões: 8B, 70B e 405B, mais uma vez elevando sozinho o padrão competitivo para pistas de modelos grandes.
Para a comunidade de IA, o significado mais importante do Llama 3.1 405B é que ele atualiza o limite superior das capacidades do modelo básico de código aberto. Funcionários do Meta disseram que em uma série de tarefas, seu desempenho é comparável ao melhor fechado. modelo de origem.
A tabela abaixo mostra o desempenho dos modelos atuais da Série Llama 3 nos principais benchmarks. Percebe-se que o desempenho do modelo 405B é muito próximo do GPT-4o.
Ao mesmo tempo, Meta publicou o artigo "The Llama 3 Herd of Models", revelando os detalhes da pesquisa dos modelos da série Llama 3 até agora.
Endereço do artigo: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
A seguir, vamos dar uma olhada no conteúdo do artigo.
Destaques do papel Llama3
1. Após o pré-treinamento usando comprimento de contexto de 8K, o Llama 3.1 405B usa comprimento de contexto de 128K para treinamento contínuo e suporta o uso de vários idiomas e ferramentas.
2. Em comparação com o modelo Llama anterior, o Meta fortaleceu os pipelines de curadoria de dados de pré-processamento e pré-treinamento, bem como a garantia de qualidade e métodos de filtragem de dados pós-treinamento.
Meta acredita que existem três alavancas principais para o desenvolvimento de modelos subjacentes de alta qualidade: dados, escala e gerenciamento de complexidade.
Primeiro, em comparação com versões anteriores do Llama, o Meta melhora os dados usados para pré-treinamento e pós-treinamento, tanto em quantidade quanto em qualidade. Meta pré-treinou o Llama 3 em um corpus de aproximadamente 15 trilhões de tokens multilíngues, em comparação com o Llama 2, que usou apenas 1,8 trilhão de tokens.
A escala do modelo treinado desta vez é muito maior do que o modelo Llama anterior: o modelo de linguagem principal usa operações de ponto flutuante (FLOPs) de 3,8 × 10²⁵ para pré-treinamento, que é quase 50 vezes maior que a versão maior do Llama 2 .
Com base na lei de escala, sob o orçamento de treinamento do Meta, o modelo principal atual já está aproximadamente no tamanho computacionalmente ideal, mas o tempo de treinamento do Meta para modelos menores excedeu em muito o comprimento computacionalmente ideal. Os resultados mostram que esses modelos menores superam os modelos computacionalmente ótimos para o mesmo orçamento de inferência. Na fase pós-treinamento, a Meta utilizou o modelo principal 405B para melhorar ainda mais a qualidade de modelos menores, como os modelos 70B e 8B.
3. Para suportar a inferência de produção em massa de modelos 405B, o Meta quantiza 16 bits (BF16) em 8 bits (FP8), reduzindo assim os requisitos de computação e permitindo que o modelo seja executado em um único nó de servidor.
4. O pré-treinamento de 405B em tokens de 15,6T (3,8x10²⁵ FLOPs) é um grande desafio. Meta otimizou toda a pilha de treinamento e usou mais de 16K GPUs H100.
Como disse o fundador do PyTorch e Meta Distinguished Engineer Soumith Chintala, o artigo do Llama3 revela muitos detalhes interessantes, um dos quais é a construção da infraestrutura.
5. No pós-treinamento, Meta melhora o modelo de Chat por meio de múltiplas rodadas de alinhamento, incluindo ajuste fino supervisionado (SFT), amostragem de rejeição e otimização de preferência direta. A maioria das amostras SFT são geradas a partir de dados sintéticos.
Os pesquisadores fizeram várias escolhas no design para maximizar a escalabilidade do processo de desenvolvimento do modelo. Por exemplo, a arquitetura do modelo Transformer denso padrão foi escolhida com apenas pequenos ajustes em vez de uma mistura de modelos especialistas para maximizar a estabilidade do treinamento. Da mesma forma, é adotado um procedimento pós-treinamento relativamente simples, baseado em ajuste fino supervisionado (SFT), amostragem de rejeição (RS) e otimização de preferência direta (DPO), em vez de algoritmos de aprendizagem por reforço mais complexos, que tendem a ser menos estáveis. e extensão mais difícil.
6. Como parte do processo de desenvolvimento do Llama 3, a equipe Meta também desenvolveu extensões multimodais do modelo para permitir o reconhecimento de imagem, reconhecimento de vídeo e compreensão de fala. Esses modelos ainda estão em desenvolvimento ativo e ainda não estão prontos para lançamento, mas o artigo apresenta os resultados de experimentos preliminares com esses modelos multimodais.
7. Meta atualizou sua licença para permitir que os desenvolvedores usem a saída do modelo Llama para aprimorar outros modelos.
No final deste artigo, vemos também uma longa lista de colaboradores:
Esta série de fatores finalmente criou a série Llama 3 hoje.
É claro que, para desenvolvedores comuns, como utilizar modelos em escala 405B é um desafio e requer muitos recursos de computação e experiência.
Após o lançamento, o ecossistema do Llama 3.1 está pronto, com mais de 25 parceiros oferecendo serviços que funcionam com o modelo mais recente, incluindo Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud e Snowflake, entre outros.
Para mais detalhes técnicos, consulte o artigo original.