A Apple abriu o código-fonte do modelo 7B e forneceu todo o conjunto de dados do processo de treinamento de uma só vez. Os internautas disseram: É muito diferente do Apple

A Apple abriu o código-fonte do modelo 7B e forneceu todo o conjunto de dados do processo de treinamento de uma só vez. Os internautas disseram: É muito diferente da Apple.

2024-07-22

A Apple é a última a entrar no campo de batalha de grandes modelos de código aberto e é mais aberta do que outras empresas.

sair da camaModelo 7B, não apenas o efeito é o mesmo queLhama 3 8BÉ muito bom e tem código aberto de uma só vez.Todos os processos e recursos de treinamento。

Você sabe, não muito tempo atrás, Elizabeth Gibney, editora da revista Nature,Escrevendo críticas：

Muitos modelos de IA que afirmam ser de código aberto não são, na verdade, transparentes em termos de dados e métodos de formação, e não podem satisfazer as necessidades da investigação científica real.

Mas desta vez a Apple realmente veio para valer! !

Até o cientista da PNL e criador do AutoAWQ exclamou:

A Apple lançou um modelo que supera o Mistral 7B, mas o que é ainda melhor é que eles abrem completamente o código-fonte de tudo,Inclui conjunto de dados de pré-treinamento

Também atraiu internautas ao ridículo online:

Quanto à importância deste código aberto, alguns internautas entusiasmados também ajudaram a resumi-lo:

Para quem deseja treinar um modelo do zero ou ajustar um modelo existente,processo de gerenciamento de dadosDeve ser estudado.

Claro, além da OpenAI e da Apple, a Mistral AI e a NVIDIA também lançaram um modelo pequeno com parâmetros de 12B na semana passada.

O fundador do HuggingFace disse:"Semana de Modelos Pequenos"chegando!

rolar! Continue rolando! Então, quão eficaz é o modelo pequeno lançado pela Apple desta vez?

O efeito é próximo ao Llama 3 8B

Não vamos falar sobre o quão poderoso ele é. Vamos dar uma olhada no que o diretor técnico do Hugging Face acabou de “retirar da caixa”.Configuração básica do modelo。

Resumindo:

Modelo básico 7B, usado em conjuntos de dados abertos2,5T fichasformação conduta
Principalmente dados em inglês, com2048janela de contexto de tokens
Os conjuntos de dados incluem DCLM-BASELINE, StarCoder e ProofPile2
A pontuação MMLU está próxima de Llama 3 8B
Treinamento usando estrutura PyTorch e OpenLM

Especificamente, a equipe de pesquisa propôs primeiro um modelo de linguagemNovo benchmark para comparação de dados——DCLM。

Este benchmark foi proposto porque a equipe encontrou:

de conjuntos de dados maiores por modelos de aprendizado de máquina (ML)Filtre e selecione automaticamente dados de alta qualidade, pode ser a chave para construir um conjunto de treinamento de alta qualidade.

Portanto, a equipe usa o DCLM para projetar conjuntos de dados de alta qualidade para melhorar o desempenho do modelo, especialmente no domínio multimodal.

QueIdeiasÉ simples: use uma estrutura padronizada para conduzir experimentos, incluindo arquitetura de modelo fixo, código de treinamento, hiperparâmetros e avaliação, e finalmente descubra qual estratégia de organização de dados é melhor para treinar modelos de alto desempenho.

Com base nas ideias acima, a equipe construiu umConjunto de dados de alta qualidade DCLM-BASELINEe o usou para treinar um modelo de parâmetro 7B-DCLM-7B do zero.

Qual é o desempenho específico do DCLM-7B?

Os resultados mostram que é 5-shot no benchmark MMLUTaxa de precisão chega a 64%, comparável ao Mistral-7B-v0.3 (63%) e Llama 3 8B (66%) e o desempenho médio em 53 tarefas de compreensão de linguagem natural também é comparável ao Llama 3 8B, enquanto o cálculo necessário A quantidade é de apenas 1; /6 deste último.

Comparado com outros modelos do mesmo tamanho, a pontuação MMLU do DCLM-7B supera o Mistral-7B e está próximo do Llama 3 8B.

Finalmente, paraTeste o efeito do novo conjunto de dados, alguns especialistas usaram o llm.c de Kapasi para treinar o GPT-2 1.5B para comparar os dois conjuntos de dados do DCLM-Baseline e do FineWeb-Edu.

Os resultados mostram que o DCLM-Baseline alcançoupontuação média mais alta, e tem melhor desempenho em tarefas como ARC (raciocínio científico de problemas de alunos do ensino fundamental), HellaSwag (raciocínio de bom senso) e MMLU.

Modelos “pequenos” viram nova tendência

Voltando ao início, os modelos “pequenos” se tornaram a nova tendência ultimamente.

Primeiro, HuggingFace lançou uma família de pequenos modelos“Pequeno LM”, que inclui os modelos 135M, 360M e 1.7B.

Eles superam modelos de tamanhos semelhantes em uma ampla gama de inferências e benchmarks de bom senso.

Então, de repente, o OpenAI foi lançadoGPT-4o mini, não apenas a capacidade está próxima do GPT-4, mas o preço caiu significativamente.

Apenas no GPT-4o miniLançado no mesmo dia, Mistral AI e NVIDIA lançaram um modelo pequeno de parâmetro de 12B——Mistral NeMo。

Em termos de desempenho geral, o Mistral NeMo derrotou o Gemma 2 9B e o Llama 3 8B em vários testes de benchmark.

Então, por que todo mundo está começando a lançar modelos pequenos?

A razão pode ser lembrada pelo fundador do smol AI. Embora o modelo tenha se tornado menor, quando as capacidades são semelhantes, o modelo pequeno.Custos bastante reduzidos。

Assim como na imagem que ele forneceu, os modelos pequenos representados pelo GPT-4o mini são geralmente mais baratos que os da direita.

Nesse sentido, espero que as pessoas que comem melão sejam assim:

Então, qual você prefere?

notícias

A Apple abriu o código-fonte do modelo 7B e forneceu todo o conjunto de dados do processo de treinamento de uma só vez. Os internautas disseram: É muito diferente da Apple.

Introdução

minhas informações de contato