O grande modelo de código aberto mais poderoso se tornou um deus da noite para o dia! Llama 3.1 é lançado de forma chocante, a verdadeira era do GPT-4 para todos está aqui

O grande modelo de código aberto mais poderoso se tornou um deus da noite para o dia! Llama 3.1 é lançado de forma chocante, a era do GPT-4 verdadeiramente universal chegou

2024-07-24

coisas inteligentes
Autor: Departamento Editorial de Zhi Dongxi

Zhidongxi informou em 24 de julho que ontem à noite Meta anunciou o lançamento do modelo de código aberto mais poderoso até o momento——Lhama 3.1 405B, também lançou os modelos Llama 3.1 70B e 8B recém-atualizados.

Llama 3.1 405B suporta comprimento de contexto de128 mil fichas, baseado em15 trilhões de tokens、Mais de 16.000 GPUs H100Este é o primeiro modelo Llama que Meta já treinou nesta escala.

Os resultados da avaliação dos pesquisadores com base em mais de 150 conjuntos de testes de referência mostram que,Lhama 3.1 405B funciona com GPT-4o, Claude 3.5 Sonnet e Gemini Ultra e outros modelos principais da indústria.。

Além de seu forte desempenho, o fundador e CEO da Meta, Mark Zuckerberg, também publicou pessoalmente um artigo para apoiá-lo. Ele disse que além de ter melhor custo e desempenho do que os modelos de código fechado,O modelo de código aberto 405B se tornará a melhor escolha para as empresas ajustarem e treinarem modelos menores。

Meta AI anunciou seu acesso ao Llama 3.1 405B e lançou novas funções, como edição de imagens AI, programação AI e assistentes inteligentes de dispositivos VR/AR. Zuckerberg previu,O uso do assistente Meta AI ultrapassará o ChatGPT em alguns meses。

▲ Meta AI suporta interação de áudio e vídeo em tempo real entre fones de ouvido Quest e usuários

O ecossistema de código aberto do Meta também está pronto. Meta eMais de 25 parceirosOs modelos Llama 3.1 estarão disponíveis, incluindo Amazon AWS, NVIDIA, Databricks, Groq, Dell, Microsoft Azure e Google Cloud, entre outros.

Até o momento, o total de downloads de todas as versões do modelo Llama excedeu300 milhões de vezes, o lançamento do modelo Llama 3.1, que é equivalente ao modelo de código fechado convencional, pode significar que a história do modelo de código aberto que Meta deseja contar está apenas começando...

Link para download do modelo:

https://llama.meta.com/

https://huggingface.co/meta-llama

Link do papel:

https://t.co/IZqC6DJkaq

▲ Resumo da interpretação do papel modelo Meta Llama 3.1

1. O modelo de código aberto 405B é comparado ao GPT-4o e 25 parceiros estão prontos

Meta avaliou o desempenho de mais de 150 conjuntos de dados de benchmark e descobriu que o Llama 3.1 405B é comparável ao GPT-4o, Claude 3.5 Sonnet e Gemini Ultra em uma série de tarefas como bom senso, operabilidade, matemática, uso de ferramentas e tradução multilíngue. .

Em um cenário da vida real, o Llama 3.1 405B foi comparado com a avaliação humana e seuO desempenho geral é melhor que o GPT-4o e o Claude 3.5 Sonnet。

atualizadoLhama 3.1 8B e 70BOs modelos também apresentam desempenho melhor do que modelos com o mesmo tamanho de parâmetro. Esses modelos de parâmetros menores suportam a mesma janela de contexto de tokens de 128K, multilíngue, inferência aprimorada e o uso de ferramentas de última geração para oferecer suporte a aplicativos mais avançados.

A Meta atualizou sua licença para permitir que os desenvolvedores, pela primeira vez, usem a saída do modelo Llama, incluindo a escala de parâmetros 405B, para melhorar outros modelos.

Ao mesmo tempo, o ecossistema de código aberto do Meta se expandiu ainda mais e mais de 25 empresas lançaram o novo modelo Llama 3.1.

em,Tecnologia de nuvem Amazon, Databricks e Nvidia Um conjunto completo de serviços está sendo lançado para apoiar os desenvolvedores no ajuste fino e no treinamento de seus próprios modelos. A startup de chips de IA Groq e outras criaram serviços de inferência de baixa latência e baixo custo para todos os novos modelos lançados pela Meta desta vez.

Ao mesmo tempo, estes modelos serãoTecnologia de nuvem Amazon, Microsoft Azure, Google Cloud, OracleFornece serviços nas principais plataformas de nuvem.

Dimensione IA, Dell, DeloitteEmpresas como a Llama estão prontas para ajudar as empresas a adotar modelos Llama e treinar modelos personalizados usando seus próprios dados.

Llama 3.1 405B não é apenas o modelo de código aberto mais forte, mas também deve se tornar o modelo mais forte. A distância entre o código aberto e o código fechado foi bastante reduzida novamente.

2. Otimize completamente a pilha de treinamento e concentre-se em tornar o modelo escalonável

Para poder treinar modelos baseados em 15 trilhões de tokens e, ao mesmo tempo, alcançar os resultados desejados pelos pesquisadores dentro de um tempo razoável, a Meta otimizou completamente a pilha de treinamento.

Ao enfrentar os desafios acima, a Meta optou por focar em estratégias que mantêm o processo de desenvolvimento do modelo escalável e mais simples:

1. Os pesquisadores escolheramArquitetura do modelo Transformer somente decodificador padrãoFazer pequenos ajustes em vez de usar um modelo especialista híbrido do MoE pode maximizar a estabilidade do treinamento.

2. Os pesquisadores usaramProcedimento iterativo de pós-treinamento , usando ajuste fino supervisionado e otimização de preferência direta em cada rodada. Isso permite que o modelo crie dados sintéticos da mais alta qualidade para cada rodada e melhore o desempenho em todas as capacidades.

Comparado com os modelos anteriores da série Llama, o Meta melhora a quantidade e a qualidade dos dados usados para pré-treinamento e pós-treinamento.Essas melhorias incluemDesenvolver pipelines de pré-processamento e gerenciamento mais cuidadosos para dados de pré-treinamento, desenvolver garantia de qualidade mais rigorosa e métodos de filtragem para dados pós-treinamento。

Como esperado das Leis de Escalabilidade de modelos de linguagem de grande porte, o novo modelo carro-chefe do Meta supera modelos menores treinados usando a mesma estratégia. A Meta também melhorou a qualidade do treinamento de seus modelos menores usando um modelo com parâmetros 405B.

Ao mesmo tempo, para apoiar a inferência em larga escala do modelo de parâmetros 405B, os pesquisadores quantizaram o modelo de BF16 a FP8, reduzindo efetivamente os requisitos de computação necessários e permitindo que o modelo fosse executado em um único nó de servidor.

Em termos de instrução e ajuste fino do chat, os pesquisadores geraram o modelo final realizando várias rodadas de alinhamento sobre o modelo pré-treinado, com cada rodada envolvendo ajuste fino supervisionado (SFT), amostragem de rejeição (RS) e otimização de preferência direta (DPO). A grande maioria dos exemplos de SFT são gerados usando geração de dados sintéticos para produzir dados sintéticos de maior qualidade em todos os recursos.

Além disso, o Meta emprega diversas técnicas de processamento de dados para filtrar esses dados sintéticos com a mais alta qualidade, o que permite que novos modelos ajustem os volumes de dados em toda a escalabilidade funcional.

Do lado dos dados, os pesquisadores também equilibraram cuidadosamente os dados para produzir modelos de alta qualidade com todos os recursos. Por exemplo, manter a qualidade do modelo em benchmarks de contexto curtos permite escalar para comprimentos de contexto de 128K.

Além disso, a Meta também anunciou o lançamento de um programa globalSistema de lhama . Além de cobrir o modelo Llama, o sistema também envolve coordenação de múltiplos componentes e chamadas de ferramentas externas para ajudar os desenvolvedores a desenvolver produtos customizados que são mais fortes que o modelo básico.

O sistema Llama cobrirá uma série de novos componentes, incluindo novos recursos de código abertoferramentas de segurança Como Llama Guard 3 (modelo de segurança multilíngue) e Prompt Guard (filtro de injeção instantânea). Para conectar componentes diferentes, Meta também emitiu uma solicitação de comentários sobre a API Llama Stack, uma interface padrão para facilitar o aproveitamento do modelo Llama por projetos de terceiros.

Para desenvolvedores comuns, usar modelos em escala 405B ainda é um desafio, que requer muitos recursos computacionais e experiência.

Com base no sistema Llama, o desenvolvimento generativo de IA não envolve apenas modelos de prompt. Todos deveriam ser capazes de usar o modelo 405B para concluir mais tarefas, incluindo raciocínio em tempo real e em lote, ajuste fino supervisionado, avaliação de modelo para aplicações específicas, contínua. pré-treinamento e geração aprimorada de recuperação (RAG), chamadas de função, geração de dados sintéticos, etc.

Este é o maior modelo lançado pela Meta até o momento, e mais tamanhos compatíveis com dispositivos, mais modos e atualizações no nível do agente serão lançados no futuro.

três,Modificação explosiva de modelo grande 405BMeta IA, Assistente de voz inteligente Questatualizar

Agora, vários terminais de propriedade da Meta, comoChatbot WhatsApp e Meta AIZhongdu começou a usar o Llama 3.1 405B.

Meta AI atualmente suporta sete novos idiomas. Desta vez, Meta lança um lote de novas ferramentas criativas Meta AI, concentrando-se principalmente em áreas como geração visual, matemática e codificação.

Primeiro, dê uma olhada na geração visual, lançamento do Meta AIFunção de prompt de geração de imagem “Imagine Me”, que permite aos usuários digitar “imagine-me” no bate-papo Meta AI e adicionar prompts como “imagine-me como realeza” ou “imagine-me em uma pintura surreal” para gerar imagens e compartilhá-las com amigos e familiares.

Meta AI estará online"Editar com IA" recurso, os usuários podem facilmente adicionar ou remover objetos com o clique do mouse, ou alterá-los e editá-los enquanto mantêm o resto da imagem inalterado, como "Alterar Gato para Corgi". A Meta AI também suportará a adição de imagens recém-criadas às postagens do Facebook, bem como em plataformas sociais como Instagram, Messenger e WhatsApp.

Em matemática e programação, os usuários podem obter ajuda com tarefas matemáticas com explicações e feedback passo a passo, escrever código mais rapidamente com suporte para depuração e sugestões de otimização e dominar conceitos técnicos e científicos complexos com orientação especializada.

Os usuários podem combinar a experiência de codificação e os recursos de geração de imagens da Meta AI para criar novos jogos do zero ou novas versões de jogos clássicos. Leva apenas alguns minutos para transformar suas ideias fantásticas em realidade e até mesmo permitir que os usuários visualizem o jogo diretamente.

Vale ressaltar que Meta AI também é adequado paraÓculos inteligentes Ray-Ban Meta , e será lançado em modo experimental no Meta Quest nos EUA e Canadá no próximo mês. Meta AI substituirá os comandos de voz atuais no Quest, permitindo aos usuários controlar o fone de ouvido com as mãos livres, obter respostas a perguntas, manter-se informados sobre informações em tempo real, verificar o clima e muito mais.

Os usuários também podem usar o Meta AI com a visualização que veem no fone de ouvido, como perguntar sobre coisas que veem no ambiente físico.

4. Carta aberta de Zuckerberg: O código aberto é melhor para os desenvolvedores, para o Meta e para o mundo

A série Llama 3.1 acaba de ser lançada, e o longo blog de Zuckerberg foi lançado no site oficial ao mesmo tempo, tornando o cheiro de pólvora entre os modelos de código aberto e fechado ainda mais forte.

▲ Captura de tela de parte da carta aberta de Zuckerberg

No início, Zuckerberg mencionou que a lacuna entre os modelos de código aberto e de código fechado está gradualmente diminuindo. No ano passado, o Llama 2 estava apenas no mesmo nível do modelo de código fechado mais avançado da geração anterior. Este ano, o Llama 3 está no mesmo nível dos modelos mais avançados e lidera em algumas áreas.

A partir do próximo ano, ele espera que o modelo Llama seja o mais avançado do setor . E os atuais modelos da série Llama já estão em uma posição de liderança em termos de abertura, capacidade de modificação e economia.

Em seu blog, ele apontou diretamente para o modelo de código fechado e respondeu a três questões principais: por que a IA de código aberto é boa para os desenvolvedores, por que a IA de código aberto é boa para o Meta e por que a IA de código aberto é boa para o mundo.

Primeiro, por que a IA de código aberto é boa para desenvolvedores?

Ele acredita que os desenvolvedores precisam treinar e ajustar seus próprios modelos para atender às suas necessidades específicas; os desenvolvedores precisam controlar seu próprio destino, em vez de estarem vinculados a um fornecedor fechado; os desenvolvedores precisam proteger seus próprios dados; modelo que seja barato de gerir; os promotores querem investir num ecossistema que se tornará o padrão a longo prazo.

O benefício da IA de código aberto para Meta é que o modelo de negócios da Meta é construir as melhores experiências e serviços para as pessoas. Para isso, ele acredita que deve garantir que sempre tenha acesso à melhor tecnologia e não caia no fechado. ecossistema de concorrentes.

Ao mesmo tempo, a IA de código aberto incentivará a Meta a desenvolver o Llama em um ecossistema completo com potencial para se tornar um padrão da indústria.

Ele também mencionou que uma das principais diferenças entre o Meta e os participantes do modelo de código fechado é que a venda de acesso a modelos de IA não é o modelo de negócios do Meta, o que significa que o código aberto não reduzirá sua receita, sustentabilidade ou investimento contínuo em capacidade de pesquisa. .

Finalmente, Meta tem uma longa história de sucesso e projetos de código aberto.

Sobre o debate sobre a segurança dos modelos de IA de código aberto, Zuckerberg tem isto a dizerA IA de código aberto será mais segura do que outras opções . Ele acredita que o código aberto garantirá que mais pessoas em todo o mundo possam desfrutar dos benefícios e oportunidades trazidos pela IA, que o poder não esteja concentrado nas mãos de algumas empresas e que a tecnologia possa ser aplicada de forma mais uniforme e segura em toda a sociedade.

Conclusão: Meta deu outro passo e o debate sobre fontes abertas e fechadas de grandes modelos mudou.

A batalha entre grandes modelos de código aberto e fechado continua...

A partir do lançamento da série de modelos Meta Llama 3.1, pode-se ver que a lacuna entre os grandes modelos de código aberto e de código fechado está diminuindo, e há uma forte tendência de acompanhar o ritmo e se atualizar. . Como defensora leal do campo de grandes modelos de código aberto e pioneira em inovação tecnológica, a Meta está determinada a construir seu próprio ecossistema de código aberto desde o lançamento da série de modelos Llama. Ao mesmo tempo, em comparação com o modelo Llama anterior, a Meta também construirá uma equipe interna para o lançamento deste novo modelo, a fim de permitir que o maior número possível de desenvolvedores e parceiros usem a série Llama.

Meta deu outro passo, tornando a conclusão do debate sobre o modelo de código aberto e de código fechado ainda mais confusa. Mas, em última análise, em aplicações reais, muitas empresas e desenvolvedores optarão por usar modelos de código aberto ou de código fechado de acordo com necessidades e situações específicas. Portanto, levará tempo para provar as capacidades específicas do modelo e sua aplicação real. cenários de vida.

notícias

O grande modelo de código aberto mais poderoso se tornou um deus da noite para o dia! Llama 3.1 é lançado de forma chocante, a era do GPT-4 verdadeiramente universal chegou

Introdução

minhas informações de contato