notícias

OpenAI lança batalha sangrenta com modelos pequenos!O DCLM da Apple faz uma estreia forte, destruindo o código aberto completo do Mistral 7B

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Tao Zi Qiao Yang

[Introdução à Nova Sabedoria] A era dos modelos pequenos está aqui? OpenAI entrou no campo de batalha de modelos pequenos pela primeira vez com GPT-4o Mistral AI e HuggingFace lançou modelos pequenos um após o outro esta semana. Hoje, a Apple também lançou um pequeno modelo DCLM de 7 bilhões de parâmetros, que supera o Mistral-7B em desempenho.

O campo de batalha dos pequenos modelos está prestes a começar!

Após o lançamento do GPT-4o mini e do Mistral NeMo, a Apple também entrou no jogo.

O modelo pequeno do DCLM contém dois tamanhos de parâmetros - 7 bilhões e 1,4 bilhão, e é de código aberto após o lançamento. O parâmetro máximo de 7 bilhões supera o Mistral-7B, e seu desempenho está próximo do Llama 3 e Gemma.


De acordo com Vaishaal Shankar, cientista pesquisador da equipe de ML da Apple (também desenvolvedor DCLM), este é o modelo de "código verdadeiramente aberto" de melhor desempenho até o momento, que não apenas possui pesos e código de treinamento, mas também é baseado no modelo aberto conjunto de dados DCLM-Baseline.


Comparado com o desempenho do modelo, o modelo de “código aberto real” do DCLM é mais atraente.

Em contraste, a maioria dos gigantes da tecnologia apenas se envolve em modelos de código fechado, ou “ainda se agarram à pipa e cobrem parcialmente o rosto”.


Além disso, Shankar também previu que os pontos de verificação intermediários do modelo e o status do otimizador continuarão online no futuro.


Será que esta é a primavera da comunidade de código aberto LLM?


A série DCLM é totalmente de código aberto

Atualmente, todos os pesos dos modelos foram lançados no HuggingFace e os cartões dos modelos basicamente cobrem informações importantes.


https://huggingface.co/apple/DCLM-7B

DCLM-7B também adota uma arquitetura somente decodificador e usa estruturas PyTorch e OpenLM para pré-treinamento.

O conjunto de dados de linha de base DCLM de um total de 4T tokens vem de um total de 240T DCLM, e o modelo DCLM-7B filtra ainda 2,5T dele para treinamento.


O comprimento do contexto é 2048, que é menor que o comprimento de 8k do Mistral 7B e Gemma 2 9B.

Em termos de desempenho, o autor utilizou diretamente o conjunto de avaliação LLM Foundry para testar as pontuações do modelo em 53 tarefas de benchmark.

Ao comparar com outros modelos, além da pontuação MMLU, o autor também personalizou dois indicadores - “precisão central” (núcleo) e “precisão estendida” (estendida).

A primeira é a média da precisão central de 22 tarefas, incluindo HellaSwag e ARC-E, enquanto a última cobre todas as 53 tarefas.

Embora não utilize a maior parte dos dados, em comparação com outros modelos de dados abertos do mesmo tamanho (tanto os pesos como os conjuntos de dados são de código aberto), o DCLM alcança o melhor desempenho em todos os três indicadores.


As três colunas de pontuações de benchmark da esquerda para a direita são: núcleo, MMLU, extensão

Em comparação com o modelo SOTA MAP-Neo anterior, a precisão da tarefa MMLU de 5 disparos do DCLM-7B atingiu 63,7%, um aumento de 6,6 pontos percentuais, enquanto a quantidade de cálculo necessária para o treinamento foi reduzida em 40%.

Contudo, se comparado com modelos com pesos de código aberto e conjuntos de dados de código fechado, o efeito não é satisfatório.

Há uma grande lacuna entre DCLM e Phi-3 em vários indicadores, e as pontuações são aproximadamente equivalentes a Mistral-7B-v0.3 ou Gemma 8B.


Os pesquisadores descobriram que ao treinar com 100B adicionais de dados do mesmo conjunto de dados e estender o comprimento do contexto para 8k, as pontuações do modelo nos benchmarks principais e estendidos melhoraram ainda mais, mas os resultados do MMLU não mudaram.


Este resultado excede completamente a pontuação do Mistral 7B-v0.3.

Além disso, HuggingFace também lançou uma versão de ajuste fino de instruções do modelo 7B, que alcançou uma melhoria de desempenho em grande escala na tarefa de raciocínio matemático GSM8K, com a pontuação subindo dos 2,1 originais para 52,5.


https://huggingface.co/apple/DCLM-7B-8k

Além da versão 7B, a versão 1.4B também está online simultaneamente. Milagrosamente, a quantidade de dados de treinamento aumentou 0,1T em comparação com a versão 7B.


https://huggingface.co/TRI-ML/DCLM-1B

Comparado com o SmolLM lançado recentemente pelo HuggingFace, o desempenho do DCLM-1B é significativamente melhor, especialmente a pontuação MMLU de 5 disparos, que é 11,9% maior que o SmolLM.

Além disso, a pontuação MMLU do DCLM-1B de 41,9 também é maior do que 37,87 do Qwen-1.5B e 35,90 do Phi-1.5B.


O modelo 7B ficou para trás, mas o modelo 1.4B o superou. Como era de se esperar, os modelos pequenos são a especialidade da Apple.

É importante notar que o modelo 7B está disponível apenas sob a licença de código de amostra (ASCL) da Apple, mas a versão 1.4B é lançada sob o Apache 2.0, permitindo uso comercial, distribuição e modificação.

Agora que estamos falando sobre os modelos da série DCLM lançados desta vez, temos que mencionar sua importante base – o benchmark DataComp.


Endereço do artigo: https://arxiv.org/pdf/2406.11794

O artigo DataComp foi publicado pela primeira vez em 17 de junho. Os coautores Jeffrey Li, Alex Fang e o co-autor final Vaishaal Shankar também são desenvolvedores do Apple DCLM.

O artigo não apenas discorre sobre o processo de construção do conjunto de dados, mas também menciona algum conteúdo sobre o modelo DCLM.

Vaishaal Shankar disse que uma versão atualizada deste artigo será lançada em breve para fornecer mais detalhes técnicos sobre o pré-treinamento do modelo.

Em comparação com a modificação do modelo para o mesmo conjunto de dados, a ideia da DataComp é oposta - o modelo usado para avaliação é fixo e a tarefa é filtrar e processar os melhores dados de um pool de dados total de 240T.

Pode-se dizer que esta abordagem é muito consistente com as ideias de pesquisa e desenvolvimento dos gigantes da tecnologia - para o desempenho do LLM, os dados de pré-treinamento estão se tornando um fator mais importante do que a arquitetura e os pesos do modelo.

Afinal, uma série de modelos de “código aberto”, como Llama, Gemma e Phi, apenas divulgam pesos e não publicam dados.

Tanto a Lei de Escala quanto o SLM são obrigatórios

Para os gigantes da tecnologia de IA, às vezes quanto maior o modelo, melhor.


Na verdade, sempre houve escassez de pequenos modelos na comunidade de IA, como as múltiplas iterações dos modelos da série Phi da Microsoft e o Gemma 2 7B recém-atualizado pelo Google no final de junho.

Esta semana, a OpenAI lançou repentinamente o GPT-4o mini, a Mistral AI se uniu à Nvidia para lançar o Mistral NeMo, o SmoLLM da HuggingFace e outros modelos pequenos foram lançados, adicionando fogo ao campo dos modelos pequenos novamente.

Como disse um pesquisador da OpenAI: “Embora prefiramos treinar modelos grandes mais do que qualquer outra pessoa, a OpenAI também sabe como treinar modelos pequenos”.


Modelos pequenos têm a vantagem de serem de baixo custo, rápidos e mais profissionais. Geralmente são treinados usando apenas uma pequena quantidade de dados e são projetados para tarefas específicas.

Diminuir os modelos grandes e depois expandir a sua escala pode ser uma das tendências no desenvolvimento futuro.


Dois dias atrás, quando o GPT-4o mini foi lançado, Andrej Karpathy também emitiu um longo tweet expressando opiniões semelhantes.


Ele acredita que a concorrência no tamanho dos modelos vai “aumentar ao contrário”, não ficando cada vez maior, mas competindo para ver quem é menor e mais leve.

A razão pela qual o LLM atual se tornou gradualmente um “gigante” é porque o processo de treinamento ainda é um grande desperdício. Basicamente, estamos pedindo ao modelo que se lembre do conteúdo de toda a Internet (e, de fato, a capacidade de memória do LLM é muito boa). , e a qualidade é melhor do que os humanos são muito melhores).

Mas para modelos pequenos, os objetivos de treinamento mudaram. A questão principal é como os sistemas de IA podem aprender mais com menos dados.

Precisamos que o modelo se torne maior primeiro e depois menor, porque precisamos que o "gigante" reconstrua e molde os dados em uma forma sintética ideal, obtenha gradualmente o "conjunto de treinamento perfeito" e depois alimente-o ao modelo pequeno.

Musk também concordou com esta visão. A escada de melhoria do modelo descrita por Karpathy é exatamente o caminho que Tesla tomou na realidade.


Em abril de 2023, Sam Altman anunciou o fim da era dos grandes modelos de IA. Numa entrevista recente, ele também confirmou que a qualidade dos dados é um fator chave de sucesso para a formação adicional em IA.


Os pesquisadores da Microsoft fizeram essa suposição ao desenvolver o modelo Phi. Os pesquisadores de IA da Hugging Face também confirmaram recentemente essa hipótese e divulgaram um conjunto de dados de treinamento de alta qualidade.

Tomando o GPT-4 como exemplo, o custo de desenvolvimento e uso de mais de um trilhão de parâmetros excede US$ 100 milhões.

Um modelo pequeno, como um treinado especificamente num conjunto de dados jurídicos, pode utilizar menos de 10 mil milhões de parâmetros e custar menos de 10 milhões de dólares. Utiliza menos capacidade computacional para responder a cada consulta, pelo que o custo é menor.

Nadella disse que a série de modelos pequenos Phi tem apenas 1/100 do tamanho do modelo gratuito por trás do OpenAI, e seu desempenho em muitas tarefas é quase tão bom.


Além disso, as startups do Google e de IA Mistral, Anthropic e Cohere também lançaram modelos menores este ano.

Em junho, a Apple anunciou seu próprio roteiro de desenvolvimento de IA, planejando usar modelos pequenos para que o software pudesse rodar inteiramente no telefone, tornando-o mais rápido e seguro.

Para muitas tarefas, como resumir documentos ou gerar imagens, modelos grandes podem ser um exagero.

Illia Polosukhin, autora do trabalho pioneiro do Transformer, disse que o cálculo de 2+2 não deveria exigir um quatrilhão de operações.

No entanto, os gigantes da tecnologia não desistiram dos modelos grandes. Na conferência WWDC deste ano, a Apple anunciou a integração do ChatGPT ao assistente Siri para realizar tarefas complexas, como redigir e-mails.

Afinal, levando ao AGI/ASI definitivo, a expansão da escala dos parâmetros é diretamente proporcional ao crescimento da inteligência.


Referências:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/