notícias

O modelo de código aberto supera o modelo de código fechado mais forte. O Llama 3.1 pode subverter o ecossistema de IA? |Jiazi Guangnian

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Zuckerberg promete buscar o código aberto até o fim.

Autor|Sukhoi

Editor|Zhao Jian

Lhama 3.1 finalmente chegou.

Em 23 de julho, horário local dos Estados Unidos, a Meta lançou oficialmente o Llama 3.1. Inclui três tamanhos: 8B, 70B e 405B, e o contexto máximo foi aumentado para 128k. Llama é atualmente uma das grandes séries de modelos com maior número de usuários e desempenho mais poderoso no campo de código aberto.

Os principais pontos deste Lhama 3.1 são:

1. Existem três versões: 8B, 70B e 405B, das quais a versão 405B é atualmente um dos maiores modelos de código aberto 2. O modelo possui 405 bilhões de parâmetros, superando os principais modelos de IA existentes em desempenho 3. O modelo apresenta; Uma janela de contexto mais longa (até 128K tokens), capaz de lidar com tarefas e conversas mais complexas 4. Suporta entrada e saída em vários idiomas, aumentando a versatilidade e aplicabilidade do modelo 5. Capacidades de raciocínio aprimoradas, especialmente excelentes na resolução; problemas matemáticos complexos e geração de conteúdo dinamicamente.

Meta escreveu em seu blog oficial: "Hoje, ainda é normal que o desempenho de modelos de grandes linguagens de código aberto fique atrás dos modelos de código fechado. Mas agora, estamos inaugurando uma nova era liderada pelo código aberto. Nosso lançamento público do Meta O Llama 3.1 405B é o primeiro do mundo. O maior e mais poderoso modelo básico de código aberto da web, com mais de 300 milhões de downloads cumulativos de todas as versões do Llama até o momento, isso é apenas o começo.”

O debate entre código aberto e código fechado sempre foi um tema quente na área de tecnologia.

O software de código aberto é mais transparente e flexível, permitindo que desenvolvedores de todo o mundo revisem, modifiquem e melhorem o código em conjunto, promovendo assim a rápida inovação e o progresso na tecnologia. Os modelos de código fechado são geralmente desenvolvidos e mantidos por uma única empresa ou organização, que pode fornecer suporte e serviços profissionais para garantir a segurança e estabilidade do software. Mas este modelo também limita o controle do usuário e as capacidades de personalização.

Até agora, o modelo de código fechado sempre foi um pouco melhor. Até o lançamento do Llama 3.1, o acirrado debate contínuo sobre código aberto e código fechado foi marcado: o modelo de código aberto pode finalmente competir com o modelo de código fechado.

De acordo com os dados de benchmark fornecidos pela Meta, a versão mais popular 405B já é comparável ao GPT-4 e Claude 3 em termos de desempenho. Entre eles, a Avaliação Humana é utilizada principalmente para avaliar a capacidade do modelo de compreender e gerar código e resolver problemas lógicos abstratos. Competindo com outros modelos grandes, o Llama 3.1 405B parece ser um pouco melhor.


Llama 3.1 está no mesmo nível do GPT-4 e Claude 3.5 Fonte: Meta.

Andrew Ng, professor associado de ciência da computação e engenharia elétrica e diretor do Laboratório de Inteligência Artificial da Universidade de Stanford, elogiou “as equipes Meta e Llama por sua tremenda contribuição ao código aberto” nas redes sociais. “Com seu maior comprimento de contexto e funcionalidade aprimorada, o Llama 3.1 é um presente fantástico para todos”, disse ele, e espera que “regulamentações tolas como o SB1047 proposto pela Califórnia não impeçam inovações como esta”.


Redes sociais de Ng Enda, fonte: X

Yann LeCun, vencedor do Prêmio Turing e cientista-chefe de inteligência artificial da Meta, citou a descrição de desempenho do Llama 3.1 no The Verge – Meta lançou o maior e melhor modelo de inteligência artificial de código aberto até o momento: o Llama 3.1 tem um bom desempenho em certos benchmarks. OpenAI e outros concorrentes.


Redes sociais de Yang Likun, fonte: X

Curiosamente, a versão 405B do Llama 3.1 foi suspeita de ter sido “roubada” no HugginFace e no GitHub ontem. Os dados de avaliação enviados pelo denunciante são basicamente consistentes com as informações da versão divulgadas oficialmente hoje.

Mark Zuckerberg, fundador e CEO da Meta, escreveu pessoalmente um longo artigo intitulado "Open Source AI Is the Path Forward", detalhando os benefícios do código aberto para desenvolvedores e para o Meta e por que ele é importante globalmente.

Ele prevê que até o final deste ano, o Meta AI ultrapassará o ChatGPT como o assistente mais utilizado.

Ele também disse:Prometa levar o código aberto até o fim.


Parte do artigo de "AI de código aberto é o caminho a seguir", fonte Meta

1.A confecção do Lhama 3.1

Em termos de arquitetura de modelo, sendo o maior modelo do Meta até o momento, o Llama 3.1 é treinado em dados de mais de 15 trilhões de tokens, e os dados de pré-treinamento estão disponíveis até dezembro de 2023.

Para implementar o treinamento em grande escala em um tempo razoável e alcançar os resultados desejados, o Meta otimizou toda a pilha de treinamento, usando mais de 16.000 blocos de H100, o primeiro modelo Llama treinado nessa escala.


Arquitetura do modelo do transformador no processo de geração de texto do Llama 3.1, fonte: Meta

A fim de maximizar a estabilidade e a conveniência do treinamento, Meta escolheu a arquitetura padrão do modelo Transformer somente decodificador para ajuste fino, em vez da arquitetura Mixed Expert Model (MoE) atualmente popular.

Esta decisão permite que o Llama 3.1 ainda garanta uma saída de texto curto de alta qualidade ao suportar comprimentos de contexto de até 128K, permitindo o processamento flexível de texto longo e curto, em vez de focar apenas em texto longo.

Ao mesmo tempo, a equipe de pesquisa implementou um método iterativo de pós-treinamento para gerar dados sintéticos de alta qualidade e melhorar as diversas funções do modelo por meio de cada rodada de ajuste fino supervisionado e otimização de preferência direta. Em comparação com as versões anteriores, o Llama 3.1 aumenta a quantidade e a qualidade dos dados pré-treinamento e pós-treinamento, introduz processos de pré-processamento e gerenciamento mais detalhados e tecnologias de filtragem e garantia de qualidade mais rigorosas.

De acordo com a lei de expansão dos modelos de linguagem, o Llama 3.1 supera os pequenos modelos anteriores usando o mesmo procedimento de treinamento em desempenho.

Para atender aos requisitos de execução dos modelos 405B em grande escala, a Meta quantizou os dados do modelo de 16 bits (BF16) a 8 bits (FP8), o que reduziu bastante a demanda por recursos de computação e permitiu que o modelo fosse executado em um único nó de servidor.

Em termos de ajuste fino de comando e chat do modelo Llama 3.1 405B, a equipe de desenvolvimento está empenhada em melhorar a capacidade de resposta, praticidade e qualidade do modelo aos comandos do usuário, garantindo ao mesmo tempo um alto grau de segurança.

Na fase pós-treino, a equipe fez diversas rodadas de ajustes com base no pré-treinamento. Cada rodada inclui ajuste fino supervisionado (SFT), amostragem de rejeição (RS) e otimização de preferência direta (DPO).Além disso, a equipe usou a geração de dados sintéticos para gerar a grande maioria dos exemplos de SFT, o que significa que eles não confiaram apenas em dados do mundo real, mas sim em dados gerados por algoritmos para treinar o modelo.

Ao mesmo tempo, a equipe também usa uma variedade de métodos de processamento de dados para filtrar esses dados e garantir a mais alta qualidade e expandir a gama de aplicações de dados ajustados.

A Meta também está explorando uma nova estratégia, que é usar o modelo 405B como "modelo professor" para os modelos 70B e 8B, extraindo assim pequenos modelos customizados de grandes modelos que atendam às necessidades de diversos setores. Esta abordagem coincide com a estratégia do GPT-4o mini.Ou seja, "faça grande primeiro e depois diminua"

Andrej Karpathy, um dos ex-membros fundadores da OpenAI, comentou certa vez sobre o GPT-4o Mini: "O modelo deve primeiro ficar maior antes de se tornar menor. Porque precisamos que eles ajudem (automaticamente) a reconstruir os dados de treinamento para torná-los ideais, formato sintético." Ele ressaltou que esse método pode efetivamente transferir a profundidade e a amplitude do conhecimento de modelos grandes para modelos menores, mais práticos e menos dispendiosos.

Como líder na rota do modelo de código aberto, Meta também demonstrou sinceridade no suporte a instalações para o modelo Llama.

O sistema Llama foi projetado como uma estrutura abrangente que pode integrar vários componentes, incluindo a chamada de ferramentas externas. O objetivo da Meta é fornecer um sistema mais amplo que permita aos desenvolvedores projetar e criar com flexibilidade produtos personalizados que atendam às suas necessidades.

Para evoluir a IA de forma responsável além da camada do modelo, a equipe de pesquisa lançou um sistema de referência completo com vários exemplos de aplicativos e novos componentes, como o modelo de segurança multilíngue Llama Guard 3 e o filtro de injeção imediata Prompt Guard. Esses aplicativos são de código aberto e estão disponíveis para desenvolvimento adicional pela comunidade.

Para definir melhor as interfaces dos componentes e promover sua padronização na indústria, os pesquisadores colaboraram com a indústria, startups e a comunidade em geral e publicaram a proposta “Llama Stack” no GitHub. Este é um conjunto de interfaces padronizadas que simplificam a construção de componentes do conjunto de ferramentas (como ajuste fino, geração de dados sintéticos) e aplicativos de agente.

De acordo com os dados de teste de benchmark fornecidos pela Meta, o Llama 3.1 405B obteve pontuação de 98,1 no teste de benchmark NIH/Multi-needle, que é comparável ao GPT-4 e Claude 3.5 em termos de pontuações de desempenho. A versão 405B tem uma excelente capacidade de integrar informações de texto massivas e obteve pontuação de 95,2 no teste de benchmark ZeroSCROLLS/QuALITY. É muito amigável para desenvolvedores de aplicativos de IA preocupados com o desempenho do RAG.


Llama 3.1 comparado com modelos de código fechado como GPT4, fonte: Meta


Llama 3.1 comparado com modelos de código aberto como Mistral 7B Instruct, fonte: Meta

A versão Llama 3.1 8B é significativamente melhor que Gemma 2 9B 1T e Mistral 7B Instruct, e seu desempenho foi significativamente melhorado em comparação com a geração anterior Llama 3 8B. Ao mesmo tempo, a versão Llama 3.1 70B superou até o GPT-3.5 Turbo.

De acordo com o relatório oficial da equipe Llama, eles realizaram avaliações de desempenho aprofundadas e testes manuais extensivos desses modelos em mais de 150 conjuntos de dados de benchmark multilíngues. Os resultados mostram que o modelo top do Llama é comparável aos principais modelos básicos do mercado, como GPT-4, GPT-4o e Claude 3.5 Sonnet em diversas tarefas. Ao mesmo tempo, em comparação com modelos de código aberto e fechado com escalas de parâmetros semelhantes, a versão pequena do Llama também apresentou forte competitividade.


2.O debate entre modelos de código aberto e de código fechado

O modelo de código aberto pode superar o modelo de código fechado?

Esta questão tem sido controversa desde o ano passado. Os caminhos de desenvolvimento dos dois modelos representam filosofias técnicas diferentes e cada um deles tem os seus próprios méritos na promoção do progresso tecnológico e na satisfação das necessidades empresariais.

Por exemplo, o Llama 3.1 é um grande modelo de código aberto que permite que pesquisadores e desenvolvedores acessem seu código-fonte, e as pessoas podem estudar, modificar e até mesmo melhorar livremente o modelo. Esta abertura incentiva ampla colaboração e inovação, permitindo que desenvolvedores de diversas origens trabalhem juntos para resolver problemas.

Em contraste, ChatGPT é um modelo de código fechado desenvolvido pela OpenAI. Embora forneça acesso à API, seu algoritmo principal e dados de treinamento não são totalmente divulgados. A natureza de código fechado do GPT-3 torna-o mais robusto no caminho da comercialização. Ao mesmo tempo, a sua controlabilidade garante a estabilidade e segurança do produto, tornando-o mais confiável para as empresas no tratamento de informações sensíveis. No entanto, este isolamento também limita a capacidade dos investigadores externos de compreender e inovar plenamente o modelo.

Em maio do ano passado, a mídia estrangeira noticiou que o Google havia vazado um documento com o tema: "Não temos fosso, nem o OpenAI. Enquanto ainda estamos discutindo, o código aberto roubou silenciosamente nossos empregos". Depois que Meta lançou o grande modelo de código aberto Llama 2 no mesmo ano, Yang Likun disse que o Llama 2 mudaria a estrutura de mercado de grandes modelos de linguagem.

As pessoas estão ansiosas pela comunidade de código aberto liderada pela série de modelos Llama. Anteriormente, o modelo de código fechado mais avançado GPT-4 sempre foi um pouco melhor, embora a diferença entre o Llama 3 naquela época já fosse muito pequena.

A lista de maior autoridade na área de grandes modelos é a Large Model Arena (LLM Arena), que adotou o sistema de pontos ELO do xadrez. Sua regra básica é permitir que os usuários façam qualquer pergunta a dois modelos anônimos (por exemplo, ChatGPT, Claude, Llama) e votem naquele que tiver a melhor resposta. Os modelos com melhores respostas receberão pontos, e a classificação final será determinada pelos pontos acumulados. A Areaan ELO coletou dados de votação de 500 mil pessoas.


Uma visão geral das classificações de grandes modelos, fonte: LLM Arena

No ranking da LLM Arena, o GPT-4o da OpenAI ocupa atualmente o primeiro lugar. Os dez principais modelos são todos de código fechado. Embora o modelo de código fechado ainda esteja muito à frente no ranking, a lacuna entre os modelos de código aberto e de código fechado não está crescendo, como Robin Li disse na Baidu AI Developer Conference de 2024, mas na verdade está diminuindo gradualmente.


Durante o WAIC, Robin Li disse: “O código aberto é na verdade uma espécie de imposto de QI”.Fonte: Baidu

Com o lançamento do Llama 3.1 hoje, o modelo de código aberto pode finalmente competir com o modelo de código fechado.

Quanto a qual modelo de código aberto ou de código fechado é melhor, "Jiazi Guangnian" discutiu com muitos profissionais da indústria de IA. A indústria geralmente acredita que:Muitas vezes depende da posição pessoal de cada um e não é uma simples questão a preto e branco.

A questão do código aberto e do código fechado não é apenas uma diferença técnica, mas mais uma questão de escolha do modelo de negócio. Atualmente, não importa se se trata de um grande modelo de código aberto ou de código fechado, ainda não foi encontrado um modelo de negócios totalmente bem-sucedido.

Então, quais fatores influenciam as diferenças de capacidade entre os modelos de código aberto e de código fechado?

Zhang Junlin, chefe de pesquisa e desenvolvimento de novas tecnologias do Weibo, destacou que a taxa de crescimento das capacidades do modelo é um fator chave. Se a capacidade do modelo crescer rapidamente, significa que uma grande quantidade de recursos computacionais será necessária em um curto período de tempo. Nesse caso, o modelo de código fechado tem mais vantagens devido às suas vantagens de recursos. Pelo contrário, se as capacidades do modelo crescerem lentamente, a lacuna entre o código aberto e o código fechado diminuirá e a velocidade de recuperação acelerará.

Ele acredita que nos próximos anos, a diferença de capacidades entre os modelos de código aberto e fechado dependerá do desenvolvimento da tecnologia de “dados sintéticos”. Se a tecnologia de "dados sintéticos" fizer progressos significativos nos próximos dois anos, a lacuna entre as duas poderá aumentar. Se não houver avanço, as capacidades das duas tenderão a ser semelhantes;

No geral, os “dados sintéticos” se tornarão uma tecnologia chave para o desenvolvimento de grandes modelos de linguagem no futuro.

O código aberto ou fechado não determina por si só o desempenho do modelo. Os modelos de código fechado não lideram porque são de código fechado, e os modelos de código aberto não ficam para trás porque são de código aberto. Pelo contrário, o modelo escolhe o código fechado porque é líder, e tem que escolher o código aberto porque não é líder o suficiente.

Se uma empresa criar um modelo de alto desempenho, ele poderá não ser mais de código aberto.

Por exemplo, a startup estrela francesa Mistral, seu modelo 7B de código aberto mais poderoso Mistral-7B e o primeiro modelo MoE de código aberto 8x7B (MMLU 70) são um dos modelos mais populares na comunidade de código aberto. No entanto, Mistral-Medium (MMLU-75) e Mistral-Large (MMLU-81) posteriormente treinados por Mistral são ambos modelos de código fechado.

Atualmente, o modelo de código fechado de melhor desempenho e o modelo de código aberto de melhor desempenho são dominados por grandes empresas e, entre as grandes empresas, Meta tem a maior determinação de código aberto.Se o OpenAI não é de código aberto por causa dos retornos comerciais, então qual é o propósito da Meta escolher ser de código aberto e permitir que os usuários o experimentem gratuitamente?

No relatório financeiro do último trimestre, a resposta de Zuckerberg a esta questão foi que o código aberto da sua tecnologia de IA da Meta era promover a inovação tecnológica, melhorar a qualidade do modelo, estabelecer padrões da indústria, atrair talentos, aumentar a transparência e apoiar estratégias de longo prazo.

Desta vez, Zuckerberg explicou em detalhes “por que a IA de código aberto é boa para os desenvolvedores” em “A IA de código aberto é o caminho a seguir”:

Em conversas com desenvolvedores, CEOs e autoridades governamentais de todo o mundo, muitas vezes os ouço enfatizar a necessidade de treinar, ajustar e otimizar seus próprios modelos.

Cada organização tem necessidades únicas e modelos de diferentes tamanhos podem ser otimizados para essas necessidades, treinados ou ajustados com dados específicos. Tarefas simples no dispositivo e tarefas de classificação podem exigir modelos menores, enquanto tarefas mais complexas requerem modelos maiores.

Agora você pode usar modelos Llama de última geração e continuar a treiná-los com seus próprios dados, otimizando-os posteriormente para a escala ideal, sem que nós ou qualquer outra pessoa tenha acesso aos seus dados.

Precisamos controlar nosso próprio destino e não ficar em dívida com um fornecedor de código fechado.

Muitas organizações não querem confiar em um modelo que elas próprias não podem administrar e controlar. Eles temem que os fornecedores de modelos de código fechado possam alterar o modelo, os termos de uso ou até mesmo descontinuar totalmente os serviços. Eles também não querem ficar presos a uma única plataforma de nuvem que tenha direitos exclusivos sobre um determinado modelo. O código aberto fornece a muitas empresas uma cadeia de ferramentas compatível, facilitando a alternância entre diferentes sistemas.

Precisamos proteger nossos dados.

Muitas organizações lidam com dados confidenciais e precisam proteger esses dados contra envio por meio de APIs de nuvem para modelos de código fechado. Outras organizações simplesmente não confiam na abordagem dos fornecedores de modelos de código fechado para o processamento de dados. O código aberto resolve esses problemas permitindo que você execute modelos onde quiser e é amplamente considerado mais seguro devido à transparência do processo de desenvolvimento.

Precisamos de uma forma eficiente e econômica de operar.

Os desenvolvedores podem executar modelos Llama 3.1 405B para inferência em sua própria infraestrutura por cerca de metade do custo do uso de modelos de código fechado, como GPT-4o, adequados para tarefas de inferência off-line e voltadas para o usuário.

Apostamos num ecossistema que promete tornar-se o padrão a longo prazo.

Muitas pessoas veem os modelos de código aberto evoluindo mais rapidamente do que os modelos de código fechado e esperam que a arquitetura do sistema que constroem traga as maiores vantagens a longo prazo.

(Imagem da capa da conta Meta X)