Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mengchen vem do Templo Aofei
Qubits | Conta pública QbitAI
O pequeno modelo SOTA que pode rodar diretamente no navegador está aqui, vencendo nos níveis de 200 milhões, 500 milhões e 2 bilhões respectivamente, produzido pela Huahuanlian.
Existem apenas dois segredos:
Cientista Chefe de HuaqiangThomas Lobo, resumindo a experiência da equipe no desenvolvimento de pequenos modelos, lançando novas perspectivas e atraindo a atenção da indústria:
Atualmente, os dados sintéticos são úteis apenas em áreas específicasA rede é tão grande e diversificada que o potencial dos dados reais ainda não foi totalmente realizado.
Atualmente, a versão do modelo 360M foi lançada como demonstração e pode ser jogada online (preste atenção ao tráfego).
Chame a GPU local para rodar no navegador, incluindo os pesos do modelo e a interface de usuário do front-end da web, e isso é feito em 400 MB.
Filtre rigorosamente os dados da rede e o desempenho dispara
Para a série de pequenos modelos Microsoft Phi, afirma-se que metade dos dados sintéticos são usados e o efeito é muito bom, mas os dados não são divulgados.
A comunidade de código aberto não aguenta mais porque é muito difícil de suportar:
Crie um grande conjunto de dados sintéticos para benchmarking e abra-o.
Além disso, a equipe deu a entender vagamente que essa medida também testaria os rumores de que a Microsoft estava trapaceando no conjunto de testes e se isso seria considerado.
Hugshuang foi construído usando Mixtral-8-7B, o melhor modelo de código aberto da época.25BDados sintéticos.
O modelo treinado tem um bom desempenho, mas ainda está um pouco abaixo do nível Phi-1 e Phi-1.5.
Eles tentaram fazer com que modelos grandes explicassem vários tópicos no nível do ensino médio e, no final das contas, tiveram um desempenho ruim no teste MMLU, porque MMLU é uma questão de nível de doutorado.
O verdadeiro avanço no desempenho veio de uma tarefa paralela:
Além de gerar dados sintéticos do zero com modelos grandes, tenteFiltrar dados de rede usando filtros de modelos grandes。
Especificamente, um classificador foi desenvolvido utilizando anotações geradas pelo Llama3-70B-Struct.Mantenha apenas as páginas da web mais educativas no conjunto de dados FineWeb。
Usando dados de rede estritamente filtrados, o desempenho dispara e supera todos os outros modelos de tamanho semelhante na maioria dos benchmarks, incluindo Phi-1.5.
A equipe Huahuanglian disse que os resultados deste experimento foram"Agridoce"'s: Embora o desempenho do modelo seja sem precedentes, ele também mostra que os dados sintéticos ainda não são tão bons quanto os dados reais.
Mais tarde, eles usaram a mesma ideia para estender da linguagem natural ao código, e o conjunto de dados de código filtrado também provou ser muito poderoso.
Melhorar diretamente a pontuação do benchmark HumanEval de cerca de 13% para mais de 20%.
No conjunto final de dados mistos que eles construíram, o conjunto de dados filtrados desduplicados representou a grande maioria, e os dados sintéticos puros Cosmopedia v2 representaram apenas 15%.
Então, em resumo, os dados sintéticos ainda são úteis?
A equipe acredita que isso só pode fazer mais sentido em áreas onde há uma falta real de dados reais, como raciocínio e matemática.
Mesmo modelos pequenos requerem trilhões de tokens para treinar
No momento em que eles estavam entusiasmados com essas novas descobertas e resultados, um novo estagiário, Elie Bakouch, juntou-se.
Embora na época ele fosse apenas um estagiário, ele era de fato um especialista em diversas técnicas de treinamento.
Com a ajuda de Elie, a equipe reduziu o tamanho do modelo de 1,7B para 360M ou até 170M, que é o modelo padrão GPT-1, GPT-2 e BERT.
Uma segunda descoberta importante foi feita durante este processo: ao contrário do consenso passado,Mesmo pequenos modelos precisam ser treinados em trilhões de tokens, quanto mais tempo melhor.
tambémRecozimento de dados(Recozimento dos dados) também se mostrou eficaz, ou seja, reter um conjunto especial de dados de alta qualidade para a última parte do treinamento.
A série final de modelos lançados é adequada para implantação em vários dispositivos, de smartphones a laptops. O maior modelo de 1,7B, BF16, ocupa apenas 3G de memória com precisão.
Para referência, a versão básica do iPhone 15 também tem 6G, e os telefones Android têm ainda mais.
Embora o modelo básico treinado desta vez fosse bom o suficiente, a equipe ainda encontrou um problema.
As tecnologias anteriores de alinhamento e ajuste fino, como SFT, DPO, PPO, etc., são muito eficazes para modelos grandes, mas não são ideais para modelos pequenos.
A equipe analisou que o conjunto de dados de alinhamento continha muitos conceitos que eram muito complexos para o modelo pequeno e careciam de tarefas simples e bem projetadas.
O próximo novo poço foi cavado e as equipes interessadas podem começar a trabalhar nele, e podem se tornar os salvadores de pequenos modelos.
Teste on-line:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm
Links de referência:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857