notícias

A Apple abriu o código-fonte do modelo 7B e forneceu todo o conjunto de dados do processo de treinamento de uma só vez. Os internautas disseram: É muito diferente da Apple.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A Apple é a última a entrar no campo de batalha de grandes modelos de código aberto e é mais aberta do que outras empresas.

sair da camaModelo 7B, não apenas o efeito é o mesmo queLhama 3 8BÉ muito bom e tem código aberto de uma só vez.Todos os processos e recursos de treinamento



Você sabe, não muito tempo atrás, Elizabeth Gibney, editora da revista Nature,Escrevendo críticas

  • Muitos modelos de IA que afirmam ser de código aberto não são, na verdade, transparentes em termos de dados e métodos de formação, e não podem satisfazer as necessidades da investigação científica real.

Mas desta vez a Apple realmente veio para valer! !

Até o cientista da PNL e criador do AutoAWQ exclamou:

  • A Apple lançou um modelo que supera o Mistral 7B, mas o que é ainda melhor é que eles abrem completamente o código-fonte de tudo,Inclui conjunto de dados de pré-treinamento



Também atraiu internautas ao ridículo online:



Quanto à importância deste código aberto, alguns internautas entusiasmados também ajudaram a resumi-lo:

  • Para quem deseja treinar um modelo do zero ou ajustar um modelo existente,processo de gerenciamento de dadosDeve ser estudado.



Claro, além da OpenAI e da Apple, a Mistral AI e a NVIDIA também lançaram um modelo pequeno com parâmetros de 12B na semana passada.

O fundador do HuggingFace disse:"Semana de Modelos Pequenos"chegando!



rolar! Continue rolando! Então, quão eficaz é o modelo pequeno lançado pela Apple desta vez?

O efeito é próximo ao Llama 3 8B

Não vamos falar sobre o quão poderoso ele é. Vamos dar uma olhada no que o diretor técnico do Hugging Face acabou de “retirar da caixa”.Configuração básica do modelo

Resumindo:

  • Modelo básico 7B, usado em conjuntos de dados abertos2,5T fichasformação conduta
  • Principalmente dados em inglês, com2048janela de contexto de tokens
  • Os conjuntos de dados incluem DCLM-BASELINE, StarCoder e ProofPile2
  • A pontuação MMLU está próxima de Llama 3 8B
  • Treinamento usando estrutura PyTorch e OpenLM



Especificamente, a equipe de pesquisa propôs primeiro um modelo de linguagemNovo benchmark para comparação de dados——DCLM。

Este benchmark foi proposto porque a equipe encontrou:

  • de conjuntos de dados maiores por modelos de aprendizado de máquina (ML)Filtre e selecione automaticamente dados de alta qualidade, pode ser a chave para construir um conjunto de treinamento de alta qualidade.

Portanto, a equipe usa o DCLM para projetar conjuntos de dados de alta qualidade para melhorar o desempenho do modelo, especialmente no domínio multimodal.

QueIdeiasÉ simples: use uma estrutura padronizada para conduzir experimentos, incluindo arquitetura de modelo fixo, código de treinamento, hiperparâmetros e avaliação, e finalmente descubra qual estratégia de organização de dados é melhor para treinar modelos de alto desempenho.



Com base nas ideias acima, a equipe construiu umConjunto de dados de alta qualidade DCLM-BASELINEe o usou para treinar um modelo de parâmetro 7B-DCLM-7B do zero.



Qual é o desempenho específico do DCLM-7B?

Os resultados mostram que é 5-shot no benchmark MMLUTaxa de precisão chega a 64%, comparável ao Mistral-7B-v0.3 (63%) e Llama 3 8B (66%) e o desempenho médio em 53 tarefas de compreensão de linguagem natural também é comparável ao Llama 3 8B, enquanto o cálculo necessário A quantidade é de apenas 1; /6 deste último.



Comparado com outros modelos do mesmo tamanho, a pontuação MMLU do DCLM-7B supera o Mistral-7B e está próximo do Llama 3 8B.



Finalmente, paraTeste o efeito do novo conjunto de dados, alguns especialistas usaram o llm.c de Kapasi para treinar o GPT-2 1.5B para comparar os dois conjuntos de dados do DCLM-Baseline e do FineWeb-Edu.



Os resultados mostram que o DCLM-Baseline alcançoupontuação média mais alta, e tem melhor desempenho em tarefas como ARC (raciocínio científico de problemas de alunos do ensino fundamental), HellaSwag (raciocínio de bom senso) e MMLU.



Modelos “pequenos” viram nova tendência

Voltando ao início, os modelos “pequenos” se tornaram a nova tendência ultimamente.

Primeiro, HuggingFace lançou uma família de pequenos modelos“Pequeno LM”, que inclui os modelos 135M, 360M e 1.7B.



Eles superam modelos de tamanhos semelhantes em uma ampla gama de inferências e benchmarks de bom senso.



Então, de repente, o OpenAI foi lançadoGPT-4o mini, não apenas a capacidade está próxima do GPT-4, mas o preço caiu significativamente.



Apenas no GPT-4o miniLançado no mesmo dia, Mistral AI e NVIDIA lançaram um modelo pequeno de parâmetro de 12B——Mistral NeMo

Em termos de desempenho geral, o Mistral NeMo derrotou o Gemma 2 9B e o Llama 3 8B em vários testes de benchmark.



Então, por que todo mundo está começando a lançar modelos pequenos?

A razão pode ser lembrada pelo fundador do smol AI. Embora o modelo tenha se tornado menor, quando as capacidades são semelhantes, o modelo pequeno.Custos bastante reduzidos



Assim como na imagem que ele forneceu, os modelos pequenos representados pelo GPT-4o mini são geralmente mais baratos que os da direita.



Nesse sentido, espero que as pessoas que comem melão sejam assim:



Então, qual você prefere?