Código aberto = o modelo mais poderoso! Llama3.1 lançado, 405B ultrapassa GPT-4o de código fechado, Zuckerberg: divisor de águas moment

Código aberto = o modelo mais poderoso! Llama 3.1 lançado, 405B supera GPT-4o de código fechado, Zuckerberg: momento divisor de águas

2024-07-24

Baijiao vem do Templo Aofei

Qubits | Conta pública QbitAI

LIama 3.1Lançado oficialmente, ascendendo ao trono dos grandes modelos!

Em mais de 150 conjuntos de testes de benchmark, o desempenho da versão 405B iguala ou até supera os modelos SOTA existentes.GPT-4oe Claude 3.5 Soneto.

Em outras palavras, desta vez,O modelo de código aberto mais forte é o modelo mais forte。

Antes disso, o Llama 3.1 já foi exposto e vazou diversas vezes, e agora pode-se dizer que está esperando há muito tempo.

A partir de hoje, o modelo pode ser baixado e utilizado no site oficial, e o aplicativo Meta AI pode ser testado online.

O que é ainda mais apreciado pela comunidade de pesquisa é o lançamento de quase 100 páginas de artigos detalhados, cobrindo tudo no processo de criação do Llama 3.1: dados de pré-treinamento, filtragem, recozimento, dados sintéticos, leis de escala, infraestrutura, paralelismo, treinamento receitas, adaptação pós-treinamento, uso de ferramentas, benchmarking, estratégias de inferência, quantificação, visão, voz, vídeo...

O cientista-chefe do HuggingFace elogiou: Se você está começando a estudar modelos grandes do zero, comece a ler este artigo.

Xiao ZhaZuckerbergEle também zombou disso em sua última entrevista à Bloomberg.IA aberta。

A liderança de Altman é louvável, mas é um tanto irônico que a empresa chamada OpenAI tenha se tornado líder na construção de modelos fechados de inteligência artificial.

Xiao Zha também escreveu um longo artigo especificamente para isso:IA de código aberto é o caminho a seguir。

No passado, os modelos de código aberto ficavam principalmente atrás dos modelos de código fechado em termos de desempenho, funcionalidade, etc., mas agora:

Assim como o Linux de código aberto, ele se destacou entre os sistemas de código fechado e ganhou popularidade, tornando-se gradativamente mais avançado e mais seguro, além de possuir um ecossistema mais amplo que os sistemas de código fechado.

Acredito que o Llama 3.1 será um ponto de viragem na indústria.

Até o momento, o total de downloads de todas as versões do Llama ultrapassou 300 milhões de vezes, e o Meta também está fazendo afirmações ousadas:

Isto é apenas o começo.

Os principais fornecedores de nuvem também lançaram suporte para Llama 3.1 o mais rápido possível, e o preço é da tia Jiang:

LIama 3.1 lançado oficialmente

Vejamos primeiro os recursos do modelo.

O Llama 3.1 estende o comprimento do contexto para 128K e adiciona suporte para oito idiomas.

Entre eles, a versão Super Large Cup 405B empatou e superou os principais modelos existentes em termos de bom senso, manobrabilidade, matemática, uso de ferramentas e capacidade de tradução multilíngue.

Além disso, também foram lançadas versões atualizadas dos modelos 8B e 70B, e suas capacidades são basicamente as mesmas dos modelos top com os mesmos parâmetros.

Vamos ver de novoArquitetura do modelo。

De acordo com a introdução oficial, treinar o modelo Llama 3.1 405B em mais de 15 trilhões de tokens é um grande desafio.

Para esse fim, eles otimizaram significativamente toda a pilha de treinamento e expandiram a escala de poder computacional do modelo para mais de 16.000 GPUs H100 pela primeira vez.

Especificamente, ele ainda usa o decodificador padrão apenasTransformadorarquitetura e fazer algumas pequenas alterações e adotar um processo iterativo de pós-treinamento, com SFT (ajuste fino supervisionado) e DPO (otimização de preferência direta) em cada rodada para melhorar o desempenho de cada capacidade.

Em comparação com as versões anteriores do Llama, eles melhoraram a quantidade e a qualidade dos dados usados para pré e pós-treinamento.

Para suportar a inferência de produção em massa de modelos de tamanho 405B, a Meta quantizou o modelo de valores de 16 bits (BF16) para 8 bits (FP8), reduzindo efetivamente os requisitos de computação necessários e permitindo que o modelo seja executado em um único nó de servidor.

existirAjuste fino de instruçãoPor outro lado, o Meta também melhora a capacidade do modelo de responder às instruções do usuário e aumenta sua capacidade de seguir instruções detalhadas, garantindo ao mesmo tempo a segurança.

Na fase pós-treinamento, o Meta realiza várias rodadas de alinhamento com base no modelo pré-treinado.

Cada rodada inclui ajuste fino supervisionado (SFT), amostragem de rejeição (RS) e otimização de preferência direta (DPO).

Eles geraram a maioria dos exemplos de SFT usando dados sintéticos e iteraram diversas vezes.

Além disso, uma variedade de técnicas de processamento de dados são usadas para filtrar esses dados sintéticos com a mais alta qualidade.

Um total de 15T tokens são limpos e filtrados usando o modelo Llama 2, enquanto o código e os pipelines de processamento de dados relacionados à matemática baseiam-se principalmente nos métodos do Deepseek.

Além da resposta mais básica de acordo com as palavras imediatas, os funcionários do Meta disseram que qualquer desenvolvedor comum pode usá-lo para fazer coisas avançadas, como:

Inferência em tempo real e em lote

Supervisionar o ajuste fino

Avalie modelos para aplicações específicas

Pré-treinamento contínuo

Geração Aumentada de Recuperação (RAG)

chamada de função

Geração de dados sintéticos

E por trás disso está o apoio dos seus fortes parceiros ecológicos.

Xiao Zha escreve um longo artigo: IA de código aberto é o caminho a seguir

(O texto a seguir foi traduzido por Big Model e o conteúdo principal foi extraído. Se houver alguma omissão ou erro, corrija-o!)

Nos primórdios da computação de alto desempenho, as grandes empresas de tecnologia da época investiram pesadamente no desenvolvimento de suas próprias versões de código fechado do Unix. Naquela época, era difícil imaginar que um software tão avançado pudesse ser produzido de outra forma que não o código fechado. No entanto, o sistema operacional Linux de código aberto acabou ganhando popularidade generalizada - inicialmente porque permitiu aos desenvolvedores modificar o código livremente e de forma mais barata ao longo do tempo, o Linux não apenas se tornou mais avançado e seguro, mas também construiu um ecossistema mais amplo do que qualquer Unix de código fechado; sistema, suportando mais recursos.Hoje, o Linux se tornoucomputação em nuveme a base padrão do setor para a maioria dos sistemas operacionais de dispositivos móveis e, como resultado, todos nós desfrutamos de produtos melhores.

Acredito que a inteligência artificial se desenvolverá de maneira semelhante . Hoje, diversas empresas de tecnologia estão desenvolvendo modelos líderes de código fechado. Mas o código aberto está rapidamente fechando a lacuna. No ano passado, o Llama 2 só era comparável aos modelos de uma geração atrás. Este ano, o Llama 3 concorre com os modelos mais avançados e lidera em algumas áreas. A partir do próximo ano, esperamos que os futuros modelos Llama sejam os mais avançados do setor. Mas mesmo antes disso, a Llama já liderava o caminho em termos de abertura, capacidade de modificação e eficiência de custos.

Hoje estamos caminhando para“A inteligência artificial de código aberto se torna o padrão da indústria” direção. Lançamos o Llama 3.1 405B, o primeiro modelo de IA de código aberto de ponta, bem como modelos aprimorados do Llama 3.1 70B e 8B. Além de ter uma relação custo/desempenho significativamente melhor em comparação com modelos de código fechado, a abertura do modelo 405B o tornará a melhor escolha para ajuste fino e destilação de modelos menores.

Além de lançar esses modelos, estamos trabalhando com diversas empresas para expandir o ecossistema mais amplo. Amazon, Databricks e Nvidia estão lançando um conjunto de serviços para permitir que os desenvolvedores ajustem e destilem seus próprios modelos. Inovadores como Groq criaram serviços de inferência de baixa latência e baixo custo para todos os novos modelos. Esses modelos estarão disponíveis em todas as principais plataformas de nuvem, incluindo AWS, Azure, Google, Oracle e muito mais. Empresas como Scale.AI, Dell, Deloitte e outras estão prontas para ajudar as empresas a adotar o Llama e treinar modelos personalizados com seus próprios dados. À medida que a comunidade cresce e mais empresas desenvolvem novos serviços, juntos podemos tornar o Llama o padrão da indústria, trazendo os benefícios da IA para todos.

Meta é dedicado à inteligência artificial de código aberto. Descreverei por que acho que o código aberto é a melhor pilha de desenvolvimento, por que o Llama de código aberto é bom para o Meta e por que a IA de código aberto é boa para o mundo e, portanto, uma plataforma sustentável a longo prazo.

Por que a IA de código aberto é boa para desenvolvedores

Quando converso com desenvolvedores, CEOs e autoridades ao redor do mundo, normalmente ouço alguns temas:

Precisamos treinar, ajustar e destilar nossos próprios modelos . . Cada organização tem suas próprias necessidades e é mais adequada para usar modelos de diferentes tamanhos que podem ser treinados ou ajustados com base em seus dados específicos. Para tarefas no dispositivo e tarefas de classificação, modelos pequenos são suficientes; para tarefas mais complexas, são necessários modelos grandes. Agora você pode aproveitar as vantagens dos modelos Llama de última geração, continuar a treiná-los com seus próprios dados e, em seguida, destilá-los em um tamanho de modelo que melhor atenda às suas necessidades - sem permitir que nós ou qualquer outra pessoa vejamos seus dados.

Precisamos controlar nosso próprio destino e não ficar presos a fornecedores de código fechado . Muitas organizações não querem confiar num modelo que elas próprias não possam gerir e controlar. Eles não querem que um provedor de modelo de código fechado possa alterar o modelo, modificar os termos de uso ou até mesmo interromper totalmente o serviço. Eles também não querem ficar limitados ao uso exclusivo de modelos em apenas uma plataforma de nuvem. O código aberto permite que um amplo ecossistema de empresas tenha cadeias de ferramentas compatíveis, permitindo que você se mova facilmente entre elas.

Precisamos manter nossos dados seguros . Muitas organizações lidam com dados confidenciais que precisam ser protegidos e não podem ser enviados por meio de APIs de nuvem em um modelo de código fechado. Existem também organizações que simplesmente não confiam seus dados em fornecedores de modelos de código fechado. O código aberto resolve esses problemas permitindo que você execute modelos em qualquer lugar. Existe uma crença comum de que o software de código aberto é geralmente mais seguro porque o seu processo de desenvolvimento é mais transparente.

Precisamos de um modelo que funcione de forma eficiente e seja acessível . Os desenvolvedores podem executar a inferência do Llama 3.1 405B em sua própria infraestrutura, seja para tarefas de inferência off-line ou voltadas para o usuário, por aproximadamente metade do custo do uso de modelos de código fechado, como o GPT-4o.

Queremos investir em ecossistemas que se tornarão padrões de longo prazo . Muitas pessoas veem o código aberto avançando mais rápido do que os modelos de código fechado e desejam construir seus sistemas na arquitetura que lhes proporcionará a maior vantagem no longo prazo.

Por que a IA de código aberto é boa para o Meta

O modelo de negócios da Meta é criar as melhores experiências e serviços para as pessoas. Para tal, temos de garantir que temos sempre acesso à melhor tecnologia e não estamos presos aos ecossistemas de código fechado dos nossos concorrentes, limitando a nossa capacidade de inovação.

Uma das minhas principais experiências foi que nossos serviços eram limitados pelas restrições da Apple sobre o que poderíamos construir em sua plataforma. Desde a forma como tributam os desenvolvedores, às regras que aplicam aleatoriamente, a todas as inovações de produtos que impedem de serem lançadas, fica claro que, se pudermos construir as melhores versões de nossos produtos, os concorrentes não poderão limitar nossa inovação, Meta e muitos outros. outras empresas serão capazes de fornecer melhores serviços às pessoas. Filosoficamente, esta é a principal razão pela qual acredito fortemente na construção de um ecossistema aberto para a próxima geração de computação em IA e AR/VR.

As pessoas costumam me perguntar se estou preocupado em abrir mão de vantagens técnicas ao abrir o código do Llama, mas acho que isso perde o panorama geral por vários motivos:

Primeiro, para garantir que tenhamos acesso à melhor tecnologia e não fiquemos presos a um ecossistema de código fechado a longo prazo, o Llama precisa evoluir para um ecossistema completo de ferramentas, incluindo melhorias de eficiência, otimização de silício e outras integrações. Se fôssemos a única empresa a usar o Llama, o ecossistema não cresceria e não teríamos um desempenho melhor do que as versões de código fechado do Unix.

Em segundo lugar, espero que o desenvolvimento da IA continue a ser muito competitivo, o que significa que o código aberto de qualquer modelo específico não proporciona uma vantagem maior do que o próximo melhor modelo no momento. O caminho da Llama para se tornar um padrão da indústria é continuar a manter a competitividade, a eficiência e a abertura, desenvolvendo-se de geração em geração.

Terceiro, uma diferença fundamental entre os fornecedores de modelos Meta e de código fechado é que a venda de acesso a modelos de IA não é o nosso modelo de negócio. Isto significa que a divulgação pública do Llama não prejudica a nossa receita, sustentabilidade ou capacidade de investir em investigação, o que não é o caso dos fornecedores de código fechado.

Finalmente, Meta tem uma longa história de sucesso e projetos de código aberto. Economizamos bilhões de dólares por meio do projeto Open Compute, liberando projetos de servidores, redes e data centers e permitindo que a cadeia de suprimentos padronizasse nossos projetos. Nós nos beneficiamos da inovação do ecossistema por meio de ferramentas líderes de código aberto, como PyTorch, React e muito mais. Essa abordagem sempre funcionou para nós no longo prazo.

Por que a IA de código aberto é boa para o mundo

Acredito que o código aberto é fundamental para alcançar um futuro positivo em IA. A inteligência artificial tem maior potencial do que qualquer outra tecnologia moderna para aumentar a produtividade humana, a criatividade e a qualidade de vida – e acelerar o crescimento económico, ao mesmo tempo que impulsiona avanços na medicina e na investigação científica. O código aberto garantirá que mais pessoas em todo o mundo tenham acesso aos benefícios e oportunidades da IA, que o poder não esteja concentrado nas mãos de algumas empresas e que a tecnologia possa ser implementada de forma mais uniforme e segura em toda a sociedade.

Há um debate contínuo sobre a segurança dos modelos de IA de código aberto, e minha opinião é que a IA de código aberto será mais segura do que as alternativas.

Entendo que a estrutura de segurança é que precisamos nos proteger contra dois tipos de danos: não intencionais e intencionais. Danos não intencionais ocorrem quando um sistema de IA pode causar danos, mesmo que a pessoa que o administra não tenha a intenção de fazê-lo. Por exemplo, os modelos modernos de IA podem, inadvertidamente, fornecer conselhos de saúde inadequados. Ou, num cenário mais futurista, alguns temem que os modelos possam replicar-se inadvertidamente ou optimizar excessivamente os objectivos em detrimento dos seres humanos. Dano intencional ocorre quando um mau ator usa um modelo de IA com a intenção de causar danos.

É importante notar que os danos não intencionais abrangem a maioria das preocupações que as pessoas têm sobre a inteligência artificial – desde o impacto que os sistemas de IA terão sobre os milhares de milhões de pessoas que os utilizam, até à maioria dos cenários de ficção científica que são verdadeiramente catastróficos para a humanidade. Neste sentido, o código aberto deveria ser mais seguro porque o sistema é mais transparente e pode ser amplamente examinado. Historicamente, o software de código aberto tem sido, portanto, mais seguro. Da mesma forma, usar o Llama e seus sistemas de segurança como o Llama Guard provavelmente será mais seguro e confiável do que um modelo de código fechado. Como resultado, a maioria das conversas sobre a segurança da IA de código aberto concentra-se em danos intencionais.

Nosso processo de segurança inclui testes rigorosos e equipes vermelhas para avaliar a capacidade de nossos modelos de causar danos significativos, com o objetivo de mitigar o risco antes do lançamento. Como o modelo é aberto, qualquer pessoa pode testá-lo. Temos que lembrar que estes modelos são treinados com base em informações que já estão na web, portanto, ao considerar os danos, o ponto de partida deve ser se o modelo pode contribuir para mais danos do que informações que podem ser rapidamente recuperadas do Google ou de outros resultados de pesquisa.

Ao considerar oportunidades futuras, lembre-se de que a maioria das empresas líderes de tecnologia e pesquisas científicas atuais são baseadas em software de código aberto. Se investirmos juntos, a próxima geração de empresas e de investigação utilizará IA de código aberto.

Mais importante ainda, a IA de código aberto representa a melhor oportunidade do mundo para aproveitar esta tecnologia para maximizar as oportunidades económicas e a segurança para todos.

vamos construir juntos

Tal como acontece com os modelos anteriores do Llama, o Meta se desenvolveu e depois se lançou sem prestar muita atenção à construção de um ecossistema mais amplo. Adotamos uma abordagem diferente com este lançamento. Estamos construindo a equipe internamente para disponibilizar o Llama ao maior número possível de desenvolvedores e parceiros, e também estamos construindo ativamente parcerias para que mais empresas no ecossistema também possam fornecer recursos exclusivos aos seus clientes.

Eu acreditoO lançamento do Llama 3.1 será um ponto de viragem para a indústria , a maioria dos desenvolvedores começará a usar principalmente código aberto, e espero que essa abordagem só cresça a partir de agora. Espero que você se junte a nós em nossa jornada para levar os benefícios da inteligência artificial a todas as pessoas do mundo.

Link da última entrevista:

https://x.com/rowancheung/status/1815763595197616155

Links de referência:

[1]https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

[2]https://ai.meta.com/blog/meta-llama-3-1/

notícias

Código aberto = o modelo mais poderoso! Llama 3.1 lançado, 405B supera GPT-4o de código fechado, Zuckerberg: momento divisor de águas

LIama 3.1 lançado oficialmente

Xiao Zha escreve um longo artigo: IA de código aberto é o caminho a seguir

Introdução

minhas informações de contato