Llama 3.1 lançado oficialmente: modelo de parâmetro de 405 bilhões de código aberto, Xiao Zha: Execute o código aberto até o fim

Llama 3.1 lançado oficialmente: modelo de código aberto de 405 bilhões de parâmetros, Xiao Zha: Execute o código aberto até o fim

2024-07-24

Texto | Deng Yongyi e Zhou Xinyu

Editor｜Su Jianxun

O trono do GPT-4o ainda não está quente, Xiao Zha liderou o exército de código aberto e correu para lá——

Conforme rumores anteriores, Meta lançou oficialmente o Llama 3.1 em 23 de julho, horário do Pacífico nos Estados Unidos. Esta é a série de modelos grandes mais amplamente usada e de melhor desempenho no campo de código aberto atualmente.

Coincidentemente, um dia antes de seu lançamento, o Llama 3.1 “vazou” na comunidade de desenvolvedores. Além das informações do modelo, ele também incluía um link magnético para o modelo 405B. Os desenvolvedores já estavam brincando com ele.

As informações divulgadas oficialmente do Llama 3.1 também condizem com a novidade: são três tamanhos: 8B, 70B e 405B, e o comprimento do contexto foi aumentado para 128K.

De acordo com os dados de teste de benchmark fornecidos pela Meta, o 405B mais popular (405 bilhões de parâmetros) já é comparável em desempenho ao GPT-4 e Claude 3.5.

△Comparação com GPT-4 e Claude 3.5

Diante dos atuais top models da Yishui, o Llama 3.1 não tem medo:

△Comparação com modelo de código fechado

△Comparação com modelo de código aberto

Pode-se dizer que o lançamento do Llama 3.1 marcou um marco na recente batalha feroz entre rotas de código aberto e de código fechado: os principais modelos de código aberto realmente uniram forças com os principais modelos de código fechado.

"Até agora, os modelos de linguagem de grande escala de código aberto ficaram atrás dos modelos fechados em termos de funcionalidade e desempenho. Agora, estamos inaugurando uma nova era liderada pelo código aberto", disse Meta.

△Uma imagem que se tornou popular recentemente no círculo de IA, o modelo de código aberto alcança o modelo de código fechado

A Meta também anexou um documento de 92 páginas ao seu lançamento oficial, revelando detalhes do treinamento:

O Llama 3.1 foi treinado com dados de mais de 15 trilhões de tokens, usando 16.000 blocos H100. Os dados de pré-treinamento utilizados são de dezembro de 2023. Para garantir a estabilidade do treinamento, apenas a arquitetura do modelo Transformer é usada para ajuste, em vez da arquitetura atualmente popular do Mixed Expert Model (MoE).

Isso também leva ao fato de que o Llama 3.1 pode manter a saída de alta qualidade de janelas de contexto curtas, mesmo que seja expandido para um comprimento de contexto de 128K. Não é mais "texto longo especial", mas "longo e curto livremente".

Atualmente, não existe um modelo de código aberto tão grande no mundo que tenha atingido tal escala de treinamento.

Para obter mais detalhes, também o apresentamos em detalhes no push há algumas horas. Não entrarei em detalhes aqui.

Em 2024, à medida que a escala do treinamento de modelos se torna cada vez maior, os desenvolvedores também se perguntam: Será que as grandes empresas que pagaram enormes custos de treinamento continuarão a abrir o código-fonte?

Afinal, o OpenAI é uma lição aprendida com o passado - ele aderiu ao espírito do código aberto nos primeiros dias, mas desde que o GPT3.5 se tornou popular e foi comercializado, o OpenAI não é mais um código aberto e é ridicularizado como IA fechada.

Mas no momento em que o Llama 3.1 foi lançado, Zuckerberg enfatizou novamente:

Execute o código aberto até o fim!

Além de lançar o modelo, Xiao Zha também publicou um manifesto de código aberto pensativo e idealista, explicando por que o Meta deveria ser de código aberto e por que o código aberto é benéfico para os desenvolvedores.

É importante notar que ele acredita que, embora os Estados Unidos e a China enfrentem uma concorrência acirrada em IA, a escolha da rota de código aberto ainda traz mais vantagens do que desvantagens.

Ok, o Llama 3.1 já está assim, e temos que fazer a pergunta novamente: Quando chegarão o OpenAI e o GPT-5?

A seguir está a carta aberta de Zuckerberg, compilada pela “Intelligent Emergence”:

"IA de código aberto é o caminho a seguir"

Nos primórdios da computação de alto desempenho, as principais empresas de tecnologia da época investiram pesadamente no desenvolvimento de suas próprias versões de código fechado do Unix. Na época, era difícil imaginar outra forma de desenvolver software tão avançado.

Ainda assim, o Linux de código aberto finalmente pegou – inicialmente porque permitia aos desenvolvedores modificar seu código da maneira que quisessem e era mais barato. Com o tempo, tornou-se mais avançado, mais seguro e possui um ecossistema mais amplo do que qualquer Unix de código fechado, suportando mais recursos; . Hoje, o Linux é a base padrão da indústria para a computação em nuvem e o sistema operacional que executa a maioria dos dispositivos móveis – e todos nós nos beneficiamos de sua excelência.

Acredito que a inteligência artificial se desenvolverá de maneira semelhante. Hoje, diversas empresas de tecnologia estão desenvolvendo modelos líderes de código fechado. Mas o código aberto está rapidamente preenchendo essa lacuna. No ano passado, o Llama 2 só era comparável aos modelos da geração mais antiga que ficaram para trás em termos de tecnologia de ponta. Este ano, o Llama 3 concorre com os modelos mais avançados e lidera em algumas áreas. A partir do próximo ano, esperamos que o futuro Llama seja o mais avançado do setor. Mas antes disso, Llama já era líder em código aberto, capacidade de modificação e eficiência de custos.

Hoje, estamos dando o próximo passo para tornar a IA de código aberto o padrão do setor. Lançaremos o Llama 3.1 405B, o primeiro modelo de IA de código aberto líder do setor, bem como os novos e aprimorados modelos Llama 3.1 70B e 8B. Além de ter melhor custo/desempenho em relação aos modelos de código fechado, o fato do modelo 405B ser de código aberto o tornará a melhor escolha para ajuste fino e extração de modelos menores.

Além de lançarmos esses modelos, também estamos trabalhando com diversas empresas para fazer crescer o ecossistema mais amplo. Amazon, Databricks e Nvidia estão lançando um conjunto completo de serviços para apoiar os desenvolvedores no ajuste fino e no refinamento de seus próprios modelos. Empresas inovadoras como a Groq (uma startup de chips de IA) criaram serviços de inferência de baixa latência e baixo custo para todos os novos modelos.

Esses modelos estarão disponíveis em todas as principais nuvens, incluindo AWS, Azure, Google, Oracle e muito mais. Scale.AI, Dell, Deloitte e outros estão prontos para ajudar as empresas a implantar o Llama e treinar modelos personalizados usando seus próprios dados. À medida que a comunidade cresce e mais empresas desenvolvem novos serviços, juntos podemos tornar o Llama um padrão da indústria e levar os benefícios da IA a todos.

Meta está comprometida com IA de código aberto. Vou descrever por que acho que o código aberto é a melhor pilha de desenvolvimento para as pessoas, por que o Llama de código aberto é bom para o Meta, por que a IA de código aberto é boa para o mundo e, por causa disso, a comunidade de código aberto veio para ficar.

Por que a IA de código aberto é boa para desenvolvedores

Quando converso com desenvolvedores, CEOs e autoridades governamentais em todo o mundo, normalmente ouço alguns temas:

Precisamos treinar, ajustar e refinar nossos próprios modelos.

Cada organização tem necessidades diferentes que são melhor atendidas por modelos de tamanhos diferentes que são treinados ou ajustados usando dados específicos. Tarefas no dispositivo e tarefas de classificação exigem modelos menores, enquanto tarefas mais complexas exigem modelos maiores.

Agora, você poderá pegar modelos Llama de última geração, continuar a treiná-los usando seus próprios dados e, em seguida, refiná-los em seu modelo de tamanho ideal - sem que nós ou qualquer outra pessoa vejamos seus dados.

Precisamos controlar nosso próprio destino e não estar vinculados a um fornecedor de código fechado.

Muitas organizações não querem confiar em um modelo que não possam administrar e controlar. Eles não querem que os provedores de modelos de código fechado possam alterar seus modelos, alterar seus termos de uso ou até mesmo parar de atendê-los totalmente. Eles também não querem ficar presos a uma única nuvem que tenha direitos exclusivos sobre um determinado modelo. O código aberto fornece conjuntos de ferramentas compatíveis para muitos ecossistemas empresariais e você pode alternar facilmente entre eles.

Precisamos proteger nossos dados.

Muitas organizações lidam com dados confidenciais que precisam ser protegidos e não podem ser transferidos por meio de APIs em nuvem para um modelo de código fechado. Outras organizações simplesmente não confiam seus dados em fornecedores de modelos de código fechado. O código aberto resolve esses problemas permitindo que você execute o modelo em qualquer lugar que desejar. É amplamente aceito que o software de código aberto é mais seguro porque é desenvolvido de forma mais transparente.

Precisamos de um modelo operacional eficiente e acessível.

Os desenvolvedores podem executar inferência no Llama 3.1 405B em sua própria infraestrutura por aproximadamente 50% do custo do uso de modelos de código fechado, como GPT-4o, para tarefas de inferência off-line e voltadas para o usuário.

Apostamos num ecossistema que pode tornar-se o padrão a longo prazo.

Muitas pessoas veem o código aberto avançando mais rápido do que os modelos de código fechado e desejam que a arquitetura na qual seus sistemas são construídos lhes proporcione a maior vantagem no longo prazo.

Por que a IA de código aberto é boa para o Meta

O modelo de negócios da Meta é construir as melhores experiências e serviços para as pessoas. Para tal, temos de garantir que temos sempre acesso à melhor tecnologia, em vez de ficarmos presos ao ecossistema de código fechado de um concorrente que limita o que podemos construir.

Uma das minhas experiências formativas foi que nossos serviços eram limitados pelo que a Apple nos permitia construir em sua plataforma. A maneira como eles tributam os desenvolvedores, as regras arbitrárias que aplicam e toda a inovação de produtos que impedem de ser lançada, fica claro que se pudermos construir as melhores versões de nossos produtos e os concorrentes não puderem limitar o que podemos construir, então Meta e muitas outras empresas serão livres para criar melhores serviços para as pessoas. A nível filosófico, esta é a principal razão pela qual acredito tão fortemente na construção de um ecossistema de código aberto para a próxima geração de computação em IA e AR/VR.

Muitas vezes as pessoas me perguntam se estou preocupado com o fato de o Llama de código aberto abrir mão de vantagens técnicas, mas acho que isso ignora alguns motivos importantes:

Primeiro, para garantir que tenhamos acesso à melhor tecnologia e não fiquemos presos a um ecossistema de código fechado a longo prazo, o Llama precisa evoluir para um ecossistema completo, incluindo ferramentas, melhorias de eficiência, otimização de silício e outras integrações. Se fôssemos a única empresa a usar o Llama, o ecossistema não cresceria e não seríamos melhores do que as variantes de código fechado do Unix.

Em segundo lugar, espero que a concorrência se intensifique à medida que a inteligência se desenvolve, o que significa que, nessa altura, abrindo o código de qualquer modelo específico, as pessoas não desistirão do próximo modelo que tenha uma vantagem maior. O caminho da Llama para se tornar um padrão da indústria passa por um modelo de concorrência consistente, eficiência e código aberto geração após geração.

Terceiro, uma diferença fundamental entre os fornecedores de modelos Meta e de código fechado é que a venda de acesso a modelos de IA não é o nosso modelo de negócio. Isso significa que o lançamento público do Llama não prejudica nossa receita, sustentabilidade ou capacidade de investir em pesquisa, como acontece com fornecedores de código fechado. (Esta é uma das razões pelas quais vários fornecedores de código fechado têm feito lobby junto aos governos contra o código aberto.)

Finalmente, Meta tem uma longa história e sucesso em projetos de código aberto. Economizamos bilhões de dólares ao lançar nossos projetos de servidores, redes e data centers por meio do Open Source Compute Project e padronizar nossa cadeia de suprimentos em nossos projetos. Nós nos beneficiamos da inovação do ecossistema, de ferramentas líderes de código aberto como PyTorch, React e muito mais. Essa abordagem sempre funcionou para nós quando a mantivemos no longo prazo.

Por que a IA de código aberto é boa para o mundo

Acredito que o código aberto é necessário para um futuro positivo da IA. A inteligência artificial tem maior potencial do que qualquer outra tecnologia moderna para aumentar a produtividade humana, a criatividade e a qualidade de vida, e para promover a investigação médica e científica, acelerando ao mesmo tempo o crescimento económico.

O código aberto garantirá que mais pessoas em todo o mundo tenham acesso aos benefícios e oportunidades da IA, que o poder não esteja concentrado nas mãos de algumas empresas e que a tecnologia possa ser implementada de forma mais uniforme e segura em toda a sociedade.

Há um debate contínuo sobre a segurança dos modelos de IA de código aberto, e minha opinião é que a IA de código aberto será mais segura do que as alternativas. Penso que os governos concluirão que é do seu interesse apoiar o código aberto porque isso tornará o mundo mais próspero e seguro.

Meu entendimento de segurança é que precisamos nos proteger contra dois tipos de danos: danos não intencionais e danos intencionais. Danos não intencionais ocorrem quando um sistema de IA pode causar danos mesmo que a pessoa que o administra não tenha intenção de fazê-lo.

Por exemplo, os modelos modernos de IA podem, inadvertidamente, fornecer conselhos de saúde inadequados. Ou, num cenário mais futurista, alguns temem que os modelos possam replicar-se inadvertidamente ou optimizar excessivamente os objectivos em detrimento dos seres humanos. Dano intencional ocorre quando um mau ator usa um modelo de IA com o objetivo de causar danos.

É importante notar que os danos não intencionais abrangem a maioria das preocupações que as pessoas têm sobre a inteligência artificial – desde o impacto que os sistemas de IA terão sobre os milhares de milhões de pessoas que os utilizarão até aos cenários de ficção científica mais verdadeiramente catastróficos para a humanidade. Nesse sentido, o código aberto deveria ser muito mais seguro porque o sistema é mais transparente e pode ser amplamente inspecionado.

Historicamente, o software de código aberto tem sido mais seguro por esse motivo. Da mesma forma, usar o Llama e seus sistemas de segurança, como o Llama Guard, pode ser mais seguro do que um modelo de código fechado. Como resultado, a maioria das discussões sobre a segurança da IA de código aberto concentra-se em danos intencionais.

Nosso processo de segurança inclui testes rigorosos e equipes vermelhas para avaliar se nossos modelos são capazes de causar danos significativos, com o objetivo de mitigar o risco antes do lançamento. Como o modelo é de código aberto, qualquer pessoa pode testá-lo.

Devemos lembrar que esses modelos são treinados com base em informações que já estão disponíveis na Internet, portanto, ao considerar os danos, nosso ponto de partida deve ser se um modelo é mais rápido do que as informações que podem ser recuperadas do Google ou de outros resultados de pesquisa com maior probabilidade de causar danos.

Ao raciocinar sobre danos intencionais, é útil distinguir entre o que um ator individual ou de pequena escala pode fazer e o que um ator de grande escala, como um Estado-nação com vastos recursos, pode fazer.

Em algum momento no futuro, os malfeitores individuais poderão aproveitar a inteligência dos modelos de IA para criar tipos inteiramente novos de danos a partir de informações disponíveis na Internet. Neste ponto, o equilíbrio de poder será fundamental para a segurança da IA.

Penso que seria melhor viver num mundo onde a IA fosse amplamente utilizada, para que os grandes intervenientes pudessem contrabalançar o poder dos vilões mais pequenos. É assim que gerimos a segurança nas redes sociais: os nossos sistemas de IA mais poderosos identificam e bloqueiam ameaças de atacantes menos sofisticados que muitas vezes utilizam sistemas de IA mais pequenos.

De um modo mais geral, as grandes instituições que implementem a IA em grande escala contribuirão para a segurança e a estabilidade da sociedade como um todo. Desde que todos tenham acesso a modelos semelhantes – algo que o código aberto facilita – os governos e agências com mais recursos computacionais poderão verificar os malfeitores com menos computação.

A próxima questão é como os Estados Unidos e as democracias deverão responder às ameaças de países com vastos recursos como a China. A vantagem dos Estados Unidos reside na descentralização e na inovação de código aberto.

Algumas pessoas acreditam que temos de bloquear os nossos modelos para evitar que a China os obtenha, mas o que quero dizer é que isso não funcionará e apenas colocará os Estados Unidos e os seus aliados em desvantagem. Nossos adversários são muito bons em espionagem. Roubar modelos em um pendrive é relativamente fácil, e a forma como a maioria das empresas de tecnologia opera não torna isso muito mais difícil.

Um mundo apenas de modelos de código fechado parece mais provável que resulte em um punhado de grandes empresas, além dos nossos adversários geopolíticos, terem acesso a modelos líderes, enquanto startups, universidades e pequenas empresas ficam de fora.

Além disso, limitar a inovação dos EUA a desenvolvimentos de código fechado aumenta a probabilidade de simplesmente não liderarmos. Em vez disso, penso que a nossa melhor estratégia é construir um forte ecossistema de código aberto e fazer com que as nossas empresas líderes trabalhem em estreita colaboração com os nossos governos e aliados para garantir que possam tirar melhor partido dos avanços mais recentes e serem sustentáveis a longo prazo, com a vantagem de serem pioneiros.

Ao considerar oportunidades futuras, lembre-se de que a maioria das empresas líderes de tecnologia e pesquisas científicas atuais são baseadas em software de código aberto. Se investirmos juntos, a próxima geração de empresas e de investigação utilizará IA de código aberto. Isto inclui startups iniciantes, bem como pessoas em universidades e países que podem não ter os recursos para desenvolver a sua própria IA de última geração a partir do zero.

Mais importante ainda, a IA de código aberto representa a melhor oportunidade do mundo para aproveitar esta tecnologia para criar a maior oportunidade económica e segurança para todos.

vamos construir juntos

Para os modelos anteriores do Llama, a Meta os desenvolveu por conta própria e depois os lançou sem se concentrar muito na construção de um ecossistema mais amplo.

Estamos adotando uma abordagem diferente com este lançamento. Estamos formando equipes internamente para disponibilizar o Llama ao maior número possível de desenvolvedores e parceiros, e também estamos construindo ativamente parcerias para que mais empresas no ecossistema também possam oferecer recursos exclusivos aos seus clientes.

Acredito que o lançamento do Llama 3.1 será um ponto de viragem na indústria, com a maioria dos desenvolvedores começando a usar principalmente código aberto, e espero que esta abordagem só cresça a partir daqui. Espero que você se junte a nós em nossa jornada para levar os benefícios da inteligência artificial a todas as pessoas do mundo.

O link para obter o Llama 3.1 é: https://llama.meta.com/

MZ (Mark Zuckerberg)

Bem-vindo a comunicar

notícias

Llama 3.1 lançado oficialmente: modelo de código aberto de 405 bilhões de parâmetros, Xiao Zha: Execute o código aberto até o fim

Introdução

minhas informações de contato