notícias

O modelo mais forte Llama 3.1 405B é lançado oficialmente, Zuckerberg: código aberto lidera uma nova era

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

Agora mesmo, o tão esperado Llama 3.1 foi lançado oficialmente!

Meta emitiu oficialmente uma voz de que “o código aberto lidera uma nova era”.



No blog oficial, Meta disse: "Até hoje, os modelos de grande linguagem de código aberto ficaram muito atrás dos modelos fechados em termos de funcionalidade e desempenho. Agora, estamos inaugurando uma nova era liderada pelo código aberto. Lançamos publicamente o Meta Llama 3.1 405B Acreditamos que é o maior e mais poderoso modelo básico de código aberto do mundo, com mais de 300 milhões de downloads em todas as versões do Llama até o momento, e estamos apenas começando.”

O fundador e CEO da Meta, Zuckerberg, também escreveu pessoalmente um longo artigo "Open Source AI Is the Path Forward", explicando por que o código aberto é uma coisa boa para todos os desenvolvedores, para o Meta e para o mundo.



Os destaques deste lançamento incluem:

  • A última série de modelos estende o comprimento do contexto para 128K, adiciona suporte para oito idiomas e inclui o modelo de código aberto Llama 3.1 405B;
  • O Llama 3.1 405B está em uma categoria à parte, com Meta dizendo oficialmente que está no mesmo nível dos melhores modelos de código fechado;
  • Esta versão também fornece mais componentes (incluindo sistemas de referência) para serem usados ​​com o modelo para construir o Llama como um sistema;
  • Os usuários podem experimentar o Llama 3.1 405B por meio do WhatsApp e meta.ai.



Endereço: https://llama.meta.com/

Os internautas podem baixá-lo e experimentá-lo.

Lhama 3.1 Introdução

Llama 3.1 405B é o primeiro modelo disponível publicamente que rivaliza com os principais modelos de IA em termos de bom senso, manipulabilidade, matemática, uso de ferramentas e tradução multilíngue.

Meta diz que a última geração do Llama inspirará novos aplicativos e paradigmas de modelagem, incluindo o aproveitamento da geração de dados sintéticos para impulsionar e treinar modelos menores e destilação de modelos – uma capacidade nunca antes alcançada no espaço de código aberto.

Ao mesmo tempo, a Meta também lançou versões atualizadas dos modelos 8B e 70B, que suportam vários idiomas, têm um comprimento de contexto de 128K e capacidades de raciocínio mais fortes. Os modelos mais recentes oferecem suporte a casos de uso avançados, como resumo de texto em formato longo, agentes de conversação multilíngues e assistentes de codificação.

Por exemplo, o Llama 3.1 pode traduzir histórias para o espanhol:



Quando o usuário pergunta: “São 3 camisas, 5 pares de shorts e 1 vestido. Suponha que você vá viajar por 10 dias. As roupas estão preparadas o suficiente, a modelo consegue raciocinar rapidamente.



Contexto longo: para documentos carregados, o Llama 3.1 é capaz de analisar e resumir documentos grandes de até 8 mil tokens.



O Coding Assistant, para requisitos do usuário, pode escrever código rapidamente:



Além disso, o desenvolvedor do Llama 3.1 405B também tuitou “spoiler”, dizendo que o desenvolvimento de um modelo que integre recursos de voz e visuais como o GPT-4o ainda está em desenvolvimento.



Meta também fez alterações na licença de código aberto para permitir que os desenvolvedores usassem a saída dos modelos Llama (incluindo 405B) para melhorar outros modelos. Além disso, mantendo seu compromisso com o código aberto, a partir de hoje a Meta está disponibilizando esses modelos à comunidade para download em llama.meta.com e Hugging Face.

Link para Download:

  • https://huggingface.co/meta-llama
  • https://llama.meta.com/

Avaliação do modelo

Meta é avaliado em mais de 150 conjuntos de dados de referência, além de extensa avaliação humana.

Os resultados experimentais mostram que o modelo principal Llama 3.1 405B é competitivo com os principais modelos básicos, incluindo GPT-4, GPT-4o e Claude 3.5 Sonnet em uma variedade de tarefas. Além disso, os modelos pequenos 8B e 70B são competitivos com modelos de código fechado e de código aberto com números semelhantes de parâmetros.







Arquitetura do modelo

Sendo o maior modelo da Meta até o momento, treinar o Llama 3.1 405B usando mais de 15 trilhões de tokens é um grande desafio. Para permitir o treinamento nesta escala, a Meta otimizou toda a pilha de treinamento e treinou em mais de 16.000 GPUs H100, tornando este modelo o primeiro modelo Llama treinado nesta escala.



Para resolver esse problema, Meta fez as seguintes escolhas de design, concentrando-se em manter o processo de desenvolvimento do modelo escalonável e simples.

  • Uma arquitetura de modelo Transformer de decodificador padrão com apenas pequenos ajustes foi escolhida em vez de um modelo especialista híbrido para maximizar a estabilidade do treinamento.
  • Um procedimento de treinamento pós-iteração é empregado, usando ajuste fino supervisionado e otimização de preferência direta em cada rodada. Isso permite que Meta crie dados sintéticos da mais alta qualidade para cada rodada e melhore o desempenho de cada recurso.

Em comparação com as versões anteriores do Llama, o Meta melhorou a quantidade e a qualidade dos dados usados ​​para pré-treinamento e pós-treinamento, como o desenvolvimento de um pipeline de pré-processamento e gerenciamento mais cuidadoso para dados de pré-treinamento e o desenvolvimento de garantia de qualidade mais rigorosa. e gerenciamento de dados pós-treinamento.

Como esperado das leis de escalonamento de modelos de linguagem, o novo modelo principal do Meta superou modelos menores treinados usando o mesmo procedimento. Meta também usa um modelo de parâmetro 405B para melhorar a qualidade pós-treinamento de modelos menores.

Para suportar a saída de inferência em larga escala do modelo 405B, Meta quantizou o modelo de 16 bits (BF16) para 8 bits (FP8), reduzindo efetivamente os requisitos de computação necessários e permitindo que o modelo seja executado em um único nó de servidor.

Ajustes de comando e bate-papo

O Llama 3.1 405B se esforça para melhorar a utilidade, a qualidade e o seguimento detalhado das instruções dos modelos em resposta às instruções do usuário, garantindo ao mesmo tempo um alto nível de segurança.

Na fase pós-treinamento, a equipe de pesquisa construiu o modelo de chat final realizando diversas rodadas de alinhamento com base no modelo pré-treinado. Cada rodada envolve ajuste fino supervisionado (SFT), amostragem de rejeição (RS) e otimização de preferência direta (DPO).

A equipe de pesquisa usa geração de dados sintéticos para produzir a grande maioria dos exemplos de SFT, com múltiplas iterações para produzir dados sintéticos de qualidade cada vez maior em todos os recursos. Além disso, a equipe de pesquisa empregou diversas técnicas de processamento de dados para filtrar esses dados sintéticos com a mais alta qualidade e ajustar o volume de dados em toda a escalabilidade funcional.

Sistema Lhama

O modelo Llama sempre existiu como parte de um sistema de IA e pode coordenar vários componentes, incluindo a chamada de ferramentas externas. Meta foi projetado para ir além do modelo básico e dar aos desenvolvedores a flexibilidade para projetar e criar produtos personalizados que atendam à sua visão.

Para desenvolver IA de forma responsável além da camada do modelo, a Meta lançou um sistema de referência completo que inclui vários exemplos de aplicativos, bem como novos componentes, como Llama Guard 3, um modelo de segurança multilíngue, e Prompt Guard, um filtro de injeção imediata). Esses aplicativos de amostra são de código aberto e podem ser desenvolvidos pela comunidade de código aberto.

A fim de colaborar mais amplamente com a indústria, startups e a comunidade de código aberto para ajudar a definir melhor as interfaces dos componentes, Meta publicou uma solicitação de comentário para “Llama Stack” no GitHub. Llama Stack é um conjunto de interfaces padronizadas para construção de componentes canônicos do conjunto de ferramentas (ajuste fino, geração de dados sintéticos) e aplicativos de agente. Isso ajuda a alcançar a interoperabilidade com mais facilidade.

Ao contrário dos modelos fechados, os pesos do modelo Llama estão disponíveis para download. Os desenvolvedores podem personalizar totalmente o modelo de acordo com suas necessidades e aplicações, treinar em novos conjuntos de dados e realizar ajustes adicionais.

Desenvolvido usando Llama 3.1 405B

Para desenvolvedores comuns, a implantação de um modelo em grande escala como o 405B é, sem dúvida, um desafio e requer uma grande quantidade de recursos computacionais e habilidades profissionais. Ao se comunicar com a comunidade de desenvolvedores, Meta percebeu que o desenvolvimento de IA generativa é mais do que apenas inserir prompts no modelo. Eles esperam que todos os desenvolvedores explorem totalmente o potencial do Llama 3.1 405B nas seguintes áreas:

  • Inferência em tempo real e em lote
  • ajuste fino supervisionado
  • Teste e avalie o desempenho do modelo em aplicações específicas
  • Pré-treinamento contínuo
  • Geração Aumentada de Recuperação (RAG)
  • chamada de função
  • Geração de dados sintéticos

Desde o lançamento, todos os recursos avançados do modelo Llama 3.1 405B estarão disponíveis para os desenvolvedores começarem imediatamente. Os desenvolvedores também podem explorar fluxos de trabalho de ordem superior, como a geração de dados sintéticos com base na destilação de modelos. Nesta atualização, a Meta também integra perfeitamente soluções fornecidas pelos parceiros AWS, NVIDIA e Databricks para obter geração de aumento de recuperação (RAG) mais eficiente. Além disso, o Groq foi otimizado para inferência de baixa latência para implantação de modelos na nuvem, e melhorias de desempenho semelhantes foram feitas para sistemas locais.

Meta também incorporou um "pacote de ferramentas para presente" para Llama 3.1 405B desta vez, incluindo projetos importantes como vLLM, TensorRT e PyTorch, desde o desenvolvimento do modelo até a implantação "pronto para uso", em uma única etapa.

Link de referência: https://ai.meta.com/blog/meta-llama-3-1/