Momento ChatGPT para grandes modelos de código aberto? O tão aguardado Llama 3 405B está prestes a ser lançado

Momento ChatGPT para grandes modelos de código aberto?O tão aguardado Llama 3 405B está prestes a ser lançado

2024-07-23

O tão aguardado Llama 3 405B, originalmente previsto para ser lançado no dia 23, está chegando.

Como modelo top da série Llama 3, a versão 405B possui 405 bilhões de parâmetros e é um dos maiores modelos de código aberto até o momento.

Nas primeiras horas da noite passada, o META vazou repentinamente dados de avaliação do Llama 3.1-405B. Alguns internautas previram que uma versão do Llama 3.1-70B poderia ser lançada ao mesmo tempo, porque "(modelos vazados com antecedência) é uma antiga tradição do META. . O modelo Llama do ano passado foi Fiz isso uma vez.

Alguns analistas acreditam que o Llama 3 405B não é apenas mais uma melhoria nas capacidades de inteligência artificial. Para a IA de código aberto, “este é um potencial.Bate-papoGPTmomento”, onde a IA de última geração é verdadeiramente democratizada e colocada diretamente nas mãos dos desenvolvedores.

Três previsões para o próximo anúncio do Llama 3 405B

Alguns analistas previram os destaques do próximo anúncio do Llama 3 405B a partir de três perspectivas: qualidade de dados, ecossistema de modelo e soluções de API.

Primeiro, o Llama 3 405B pode revolucionar a qualidade dos dados para modelos especializados.

Para os desenvolvedores focados na construção de modelos profissionais de IA, um desafio de longo prazo é obter dados de treinamento de alta qualidade. Modelos especialistas menores (parâmetros de 1 a 10B) geralmente utilizam técnicas de destilação para aumentar seu conjunto de dados de treinamento com a saída do modelo maior.No entanto, usandoIA abertaEsses dados de gigantes de código fechado, como o Google Cloud, são severamente restringidos, limitando as aplicações comerciais.

Llama 3 405B surgiu. Como um rolo compressor de código aberto que rivaliza com o poder dos modelos proprietários, ele fornece uma nova base para os desenvolvedores criarem conjuntos de dados ricos e irrestritos. Isso significa que os desenvolvedores são livres para usar a produção destilada do Llama 3 405B para treinar modelos de nicho, acelerando significativamente os ciclos de inovação e implantação em campos profissionais. Espere um aumento no desenvolvimento de modelos ajustados e de alto desempenho que sejam robustos e éticos de código aberto.

Em segundo lugar, o Llama 3 405B formará um novo ecossistema de modelos: de modelos básicos a combinações especializadas

O lançamento do Llama 3 405B pode redefinir a arquitetura dos sistemas de IA. O tamanho do modelo (405 mil milhões de parâmetros) pode significar uma solução única para todos, mas o verdadeiro poder reside na sua integração com um sistema de modelo hierárquico. Esta abordagem será particularmente ressonante para desenvolvedores que trabalham com IA em diferentes escalas.

Espere uma mudança para um ecossistema de modelos mais dinâmico, com o Llama 3 405B atuando como espinha dorsal, apoiado por modelos de pequeno e médio porte. Esses sistemas podem empregar técnicas como a decodificação especulativa, onde modelos menos complexos cuidam da maior parte do processamento, chamando o modelo 405B apenas quando necessário para verificação e correção de erros. Isto não só maximiza a eficiência, mas também abre novos caminhos para otimizar recursos computacionais e tempos de resposta em aplicações em tempo real, especialmente quando executadas em RDUs SambaNova otimizadas para essas tarefas.

Finalmente, o Llama 3 405B tem competição pela API mais eficiente

Com grande poder vem uma grande responsabilidade – e para o Llama 3 405B, a implantação é um grande desafio. Os desenvolvedores e as organizações precisam ter cuidado com a complexidade do modelo e os requisitos operacionais. Haverá competição entre os provedores de nuvem de IA para fornecer a solução API mais eficiente e econômica para a implantação do Llama 3 405B.

Essa situação oferece aos desenvolvedores uma oportunidade única de interagir com diferentes plataformas e comparar como várias APIs lidam com modelos tão grandes.Os vencedores neste espaço serão aqueles que puderem fornecer APIs que não apenas gerenciem efetivamente a carga computacional, mas também não sacrifiquem a precisão do modelo ou aumentem desproporcionalmentePegada de carbono。

Em resumo, o Llama 3 405B não é apenas mais uma ferramenta no arsenal de IA, é uma mudança fundamental em direção ao desenvolvimento de IA aberto, escalável e eficiente. Os analistas acreditam que, quer estejam ajustando modelos de nicho, construindo sistemas complexos de IA ou otimizando estratégias de implantação, a chegada do Llama 3 405B abrirá novos horizontes para os usuários.

O que pensam os internautas?

Os internautas postaram no subreddit LocalLLaMA e compartilharam informações sobre o Meta Llama 3.1 com 405 bilhões de parâmetros. A julgar pelos resultados deste modelo de IA em vários benchmarks importantes de IA, seu desempenho superou o líder atual, ou seja, o do OpenAI.GPT-4o, marcando a primeira vez que um modelo de código aberto pode superar o atual modelo de código fechado de última geraçãoMestrado em DireitoModelo.

Conforme mostrado nos benchmarks, Meta Llama 3.1 supera GPT-4o em vários testes como GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem e winograd. No entanto, supera GPT-4o em HumanEval e MMLU-. social Em termos de ciência, fica atrás do GPT-4o.

Ethan Mollick, professor associado da Wharton School da Universidade da Pensilvânia, escreve:

Se essas estatísticas forem verdadeiras, é seguro dizer que os principais modelos Al estarão disponíveis gratuitamente para todos a partir desta semana.

Governos, organizações e empresas em todos os países do mundo podem utilizar as mesmas capacidades de IA que todas as outras pessoas. Isto vai ser divertido.

Alguns internautas resumiram vários destaques do modelo Llama 3.1:

O modelo usa mais de 15T tokens de fontes públicas para treinamento, e o prazo para dados de pré-treinamento é dezembro de 2023;

Os dados de ajuste fino incluem conjunto de dados de ajuste fino de instruções disponível publicamente (ao contrário do Llama 3) e 15 milhões de amostras sintéticas;

O modelo suporta vários idiomas, incluindo inglês, francês, alemão, hindi, italiano, português, espanhol e tailandês.

Alguns internautas disseram que esta é a primeira vez que um modelo de código aberto supera modelos de código fechado como GPT4o e Claude Sonnet 3.5 e alcança SOTA em vários benchmarks.

notícias