minhas informações de contato
Correspondência[email protected]
2024-07-22
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
A Apple é a última a entrar no campo de batalha de grandes modelos de código aberto e é mais aberta do que outras empresas.
sair da camaModelo 7B, não apenas o efeito é o mesmo queLhama 3 8BÉ muito bom e tem código aberto de uma só vez.Todos os processos e recursos de treinamento。
Você sabe, não muito tempo atrás, Elizabeth Gibney, editora da revista Nature,Escrevendo críticas:
- Muitos modelos de IA que afirmam ser de código aberto não são, na verdade, transparentes em termos de dados e métodos de formação, e não podem satisfazer as necessidades da investigação científica real.
Mas desta vez a Apple realmente veio para valer! !
Até o cientista da PNL e criador do AutoAWQ exclamou:
- A Apple lançou um modelo que supera o Mistral 7B, mas o que é ainda melhor é que eles abrem completamente o código-fonte de tudo,Inclui conjunto de dados de pré-treinamento
Também atraiu internautas ao ridículo online:
Quanto à importância deste código aberto, alguns internautas entusiasmados também ajudaram a resumi-lo:
- Para quem deseja treinar um modelo do zero ou ajustar um modelo existente,processo de gerenciamento de dadosDeve ser estudado.
Claro, além da OpenAI e da Apple, a Mistral AI e a NVIDIA também lançaram um modelo pequeno com parâmetros de 12B na semana passada.
O fundador do HuggingFace disse:"Semana de Modelos Pequenos"chegando!
rolar! Continue rolando! Então, quão eficaz é o modelo pequeno lançado pela Apple desta vez?
O efeito é próximo ao Llama 3 8B
Não vamos falar sobre o quão poderoso ele é. Vamos dar uma olhada no que o diretor técnico do Hugging Face acabou de “retirar da caixa”.Configuração básica do modelo。
Resumindo:
Especificamente, a equipe de pesquisa propôs primeiro um modelo de linguagemNovo benchmark para comparação de dados——DCLM。
Este benchmark foi proposto porque a equipe encontrou:
- de conjuntos de dados maiores por modelos de aprendizado de máquina (ML)Filtre e selecione automaticamente dados de alta qualidade, pode ser a chave para construir um conjunto de treinamento de alta qualidade.
Portanto, a equipe usa o DCLM para projetar conjuntos de dados de alta qualidade para melhorar o desempenho do modelo, especialmente no domínio multimodal.
QueIdeiasÉ simples: use uma estrutura padronizada para conduzir experimentos, incluindo arquitetura de modelo fixo, código de treinamento, hiperparâmetros e avaliação, e finalmente descubra qual estratégia de organização de dados é melhor para treinar modelos de alto desempenho.
Com base nas ideias acima, a equipe construiu umConjunto de dados de alta qualidade DCLM-BASELINEe o usou para treinar um modelo de parâmetro 7B-DCLM-7B do zero.
Qual é o desempenho específico do DCLM-7B?
Os resultados mostram que é 5-shot no benchmark MMLUTaxa de precisão chega a 64%, comparável ao Mistral-7B-v0.3 (63%) e Llama 3 8B (66%) e o desempenho médio em 53 tarefas de compreensão de linguagem natural também é comparável ao Llama 3 8B, enquanto o cálculo necessário A quantidade é de apenas 1; /6 deste último.
Comparado com outros modelos do mesmo tamanho, a pontuação MMLU do DCLM-7B supera o Mistral-7B e está próximo do Llama 3 8B.
Finalmente, paraTeste o efeito do novo conjunto de dados, alguns especialistas usaram o llm.c de Kapasi para treinar o GPT-2 1.5B para comparar os dois conjuntos de dados do DCLM-Baseline e do FineWeb-Edu.
Os resultados mostram que o DCLM-Baseline alcançoupontuação média mais alta, e tem melhor desempenho em tarefas como ARC (raciocínio científico de problemas de alunos do ensino fundamental), HellaSwag (raciocínio de bom senso) e MMLU.
Modelos “pequenos” viram nova tendência
Voltando ao início, os modelos “pequenos” se tornaram a nova tendência ultimamente.
Primeiro, HuggingFace lançou uma família de pequenos modelos“Pequeno LM”, que inclui os modelos 135M, 360M e 1.7B.
Eles superam modelos de tamanhos semelhantes em uma ampla gama de inferências e benchmarks de bom senso.
Então, de repente, o OpenAI foi lançadoGPT-4o mini, não apenas a capacidade está próxima do GPT-4, mas o preço caiu significativamente.
Apenas no GPT-4o miniLançado no mesmo dia, Mistral AI e NVIDIA lançaram um modelo pequeno de parâmetro de 12B——Mistral NeMo。
Em termos de desempenho geral, o Mistral NeMo derrotou o Gemma 2 9B e o Llama 3 8B em vários testes de benchmark.
Então, por que todo mundo está começando a lançar modelos pequenos?
A razão pode ser lembrada pelo fundador do smol AI. Embora o modelo tenha se tornado menor, quando as capacidades são semelhantes, o modelo pequeno.Custos bastante reduzidos。
Assim como na imagem que ele forneceu, os modelos pequenos representados pelo GPT-4o mini são geralmente mais baratos que os da direita.
Nesse sentido, espero que as pessoas que comem melão sejam assim:
Então, qual você prefere?