minhas informações de contato
Correspondência[email protected]
2024-07-24
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Relatório do coração da máquina
Departamento Editorial de Coração de Máquina
Agora mesmo, o tão esperado Llama 3.1 foi lançado oficialmente!
Meta emitiu oficialmente uma voz de que “o código aberto lidera uma nova era”.
No blog oficial, Meta disse: "Até hoje, os modelos de grande linguagem de código aberto ficaram muito atrás dos modelos fechados em termos de funcionalidade e desempenho. Agora, estamos inaugurando uma nova era liderada pelo código aberto. Lançamos publicamente o Meta Llama 3.1 405B Acreditamos que é o maior e mais poderoso modelo básico de código aberto do mundo, com mais de 300 milhões de downloads em todas as versões do Llama até o momento, e estamos apenas começando.”
O fundador e CEO da Meta, Zuckerberg, também escreveu pessoalmente um longo artigo "Open Source AI Is the Path Forward", explicando por que o código aberto é uma coisa boa para todos os desenvolvedores, para o Meta e para o mundo.
Os destaques deste lançamento incluem:
Endereço: https://llama.meta.com/
Os internautas podem baixá-lo e experimentá-lo.
Lhama 3.1 Introdução
Llama 3.1 405B é o primeiro modelo disponível publicamente que rivaliza com os principais modelos de IA em termos de bom senso, manipulabilidade, matemática, uso de ferramentas e tradução multilíngue.
Meta diz que a última geração do Llama inspirará novos aplicativos e paradigmas de modelagem, incluindo o aproveitamento da geração de dados sintéticos para impulsionar e treinar modelos menores e destilação de modelos – uma capacidade nunca antes alcançada no espaço de código aberto.
Ao mesmo tempo, a Meta também lançou versões atualizadas dos modelos 8B e 70B, que suportam vários idiomas, têm um comprimento de contexto de 128K e capacidades de raciocínio mais fortes. Os modelos mais recentes oferecem suporte a casos de uso avançados, como resumo de texto em formato longo, agentes de conversação multilíngues e assistentes de codificação.
Por exemplo, o Llama 3.1 pode traduzir histórias para o espanhol:
Quando o usuário pergunta: “São 3 camisas, 5 pares de shorts e 1 vestido. Suponha que você vá viajar por 10 dias. As roupas estão preparadas o suficiente, a modelo consegue raciocinar rapidamente.
Contexto longo: para documentos carregados, o Llama 3.1 é capaz de analisar e resumir documentos grandes de até 8 mil tokens.
O Coding Assistant, para requisitos do usuário, pode escrever código rapidamente:
Além disso, o desenvolvedor do Llama 3.1 405B também tuitou “spoiler”, dizendo que o desenvolvimento de um modelo que integre recursos de voz e visuais como o GPT-4o ainda está em desenvolvimento.
Meta também fez alterações na licença de código aberto para permitir que os desenvolvedores usassem a saída dos modelos Llama (incluindo 405B) para melhorar outros modelos. Além disso, mantendo seu compromisso com o código aberto, a partir de hoje a Meta está disponibilizando esses modelos à comunidade para download em llama.meta.com e Hugging Face.
Link para Download:
Avaliação do modelo
Meta é avaliado em mais de 150 conjuntos de dados de referência, além de extensa avaliação humana.
Os resultados experimentais mostram que o modelo principal Llama 3.1 405B é competitivo com os principais modelos básicos, incluindo GPT-4, GPT-4o e Claude 3.5 Sonnet em uma variedade de tarefas. Além disso, os modelos pequenos 8B e 70B são competitivos com modelos de código fechado e de código aberto com números semelhantes de parâmetros.
Arquitetura do modelo
Sendo o maior modelo da Meta até o momento, treinar o Llama 3.1 405B usando mais de 15 trilhões de tokens é um grande desafio. Para permitir o treinamento nesta escala, a Meta otimizou toda a pilha de treinamento e treinou em mais de 16.000 GPUs H100, tornando este modelo o primeiro modelo Llama treinado nesta escala.
Para resolver esse problema, Meta fez as seguintes escolhas de design, concentrando-se em manter o processo de desenvolvimento do modelo escalonável e simples.
Em comparação com as versões anteriores do Llama, o Meta melhorou a quantidade e a qualidade dos dados usados para pré-treinamento e pós-treinamento, como o desenvolvimento de um pipeline de pré-processamento e gerenciamento mais cuidadoso para dados de pré-treinamento e o desenvolvimento de garantia de qualidade mais rigorosa. e gerenciamento de dados pós-treinamento.
Como esperado das leis de escalonamento de modelos de linguagem, o novo modelo principal do Meta superou modelos menores treinados usando o mesmo procedimento. Meta também usa um modelo de parâmetro 405B para melhorar a qualidade pós-treinamento de modelos menores.
Para suportar a saída de inferência em larga escala do modelo 405B, Meta quantizou o modelo de 16 bits (BF16) para 8 bits (FP8), reduzindo efetivamente os requisitos de computação necessários e permitindo que o modelo seja executado em um único nó de servidor.
Ajustes de comando e bate-papo
O Llama 3.1 405B se esforça para melhorar a utilidade, a qualidade e o seguimento detalhado das instruções dos modelos em resposta às instruções do usuário, garantindo ao mesmo tempo um alto nível de segurança.
Na fase pós-treinamento, a equipe de pesquisa construiu o modelo de chat final realizando diversas rodadas de alinhamento com base no modelo pré-treinado. Cada rodada envolve ajuste fino supervisionado (SFT), amostragem de rejeição (RS) e otimização de preferência direta (DPO).
A equipe de pesquisa usa geração de dados sintéticos para produzir a grande maioria dos exemplos de SFT, com múltiplas iterações para produzir dados sintéticos de qualidade cada vez maior em todos os recursos. Além disso, a equipe de pesquisa empregou diversas técnicas de processamento de dados para filtrar esses dados sintéticos com a mais alta qualidade e ajustar o volume de dados em toda a escalabilidade funcional.
Sistema Lhama
O modelo Llama sempre existiu como parte de um sistema de IA e pode coordenar vários componentes, incluindo a chamada de ferramentas externas. Meta foi projetado para ir além do modelo básico e dar aos desenvolvedores a flexibilidade para projetar e criar produtos personalizados que atendam à sua visão.
Para desenvolver IA de forma responsável além da camada do modelo, a Meta lançou um sistema de referência completo que inclui vários exemplos de aplicativos, bem como novos componentes, como Llama Guard 3, um modelo de segurança multilíngue, e Prompt Guard, um filtro de injeção imediata). Esses aplicativos de amostra são de código aberto e podem ser desenvolvidos pela comunidade de código aberto.
A fim de colaborar mais amplamente com a indústria, startups e a comunidade de código aberto para ajudar a definir melhor as interfaces dos componentes, Meta publicou uma solicitação de comentário para “Llama Stack” no GitHub. Llama Stack é um conjunto de interfaces padronizadas para construção de componentes canônicos do conjunto de ferramentas (ajuste fino, geração de dados sintéticos) e aplicativos de agente. Isso ajuda a alcançar a interoperabilidade com mais facilidade.
Ao contrário dos modelos fechados, os pesos do modelo Llama estão disponíveis para download. Os desenvolvedores podem personalizar totalmente o modelo de acordo com suas necessidades e aplicações, treinar em novos conjuntos de dados e realizar ajustes adicionais.
Desenvolvido usando Llama 3.1 405B
Para desenvolvedores comuns, a implantação de um modelo em grande escala como o 405B é, sem dúvida, um desafio e requer uma grande quantidade de recursos computacionais e habilidades profissionais. Ao se comunicar com a comunidade de desenvolvedores, Meta percebeu que o desenvolvimento de IA generativa é mais do que apenas inserir prompts no modelo. Eles esperam que todos os desenvolvedores explorem totalmente o potencial do Llama 3.1 405B nas seguintes áreas:
Desde o lançamento, todos os recursos avançados do modelo Llama 3.1 405B estarão disponíveis para os desenvolvedores começarem imediatamente. Os desenvolvedores também podem explorar fluxos de trabalho de ordem superior, como a geração de dados sintéticos com base na destilação de modelos. Nesta atualização, a Meta também integra perfeitamente soluções fornecidas pelos parceiros AWS, NVIDIA e Databricks para obter geração de aumento de recuperação (RAG) mais eficiente. Além disso, o Groq foi otimizado para inferência de baixa latência para implantação de modelos na nuvem, e melhorias de desempenho semelhantes foram feitas para sistemas locais.
Meta também incorporou um "pacote de ferramentas para presente" para Llama 3.1 405B desta vez, incluindo projetos importantes como vLLM, TensorRT e PyTorch, desde o desenvolvimento do modelo até a implantação "pronto para uso", em uma única etapa.
Link de referência: https://ai.meta.com/blog/meta-llama-3-1/