nouvelles

OpenAI lance une bataille sanglante avec les petits modèles !Le DCLM d'Apple fait des débuts en force, écrasant l'open source complet du Mistral 7B

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Tao Zi Qiao Yang

[Introduction à la nouvelle sagesse] L’ère des petits modèles est-elle là ? OpenAI est entré pour la première fois sur le champ de bataille des petits modèles avec GPT-4o mini et HuggingFace a publié des petits modèles l'un après l'autre cette semaine. Aujourd'hui, Apple a également publié un petit modèle DCLM de 7 milliards de paramètres, qui surpasse le Mistral-7B en termes de performances.

Le champ de bataille des petits modèles est sur le point de commencer !

Suite à la sortie du GPT-4o mini et du Mistral NeMo, Apple est également entré dans le jeu.

Le petit modèle DCLM contient deux tailles de paramètres : 7 milliards et 1,4 milliard, et est open source dès sa sortie. Le paramètre maximum de 7 milliards dépasse Mistral-7B et ses performances sont proches de Llama 3 et Gemma.


Selon Vaishaal Shankar, chercheur scientifique au sein de l'équipe ML d'Apple (également développeur DCLM), il s'agit du modèle « véritablement open source » le plus performant à ce jour. Il comporte non seulement des poids et un code de formation, mais est également basé sur l'open source. ensemble de données DCLM-Baseline.


Comparé aux performances du modèle, le modèle « véritable open source » de DCLM est plus accrocheur.

En revanche, la plupart des géants de la technologie ne s'engagent que dans des modèles à source fermée, ou « s'accrochent toujours au pipa et se couvrent à moitié le visage ».


En outre, Shankar a également prédit que les points de contrôle intermédiaires du modèle et l'état de l'optimiseur continueraient d'être en ligne à l'avenir.


Se pourrait-il que ce soit le printemps de la communauté open source LLM ?


La série DCLM est entièrement open source

Actuellement, tous les poids des modèles ont été publiés sur HuggingFace et les cartes de modèles couvrent essentiellement les informations clés.


https://huggingface.co/apple/DCLM-7B

DCLM-7B adopte également une architecture uniquement décodeur et utilise les frameworks PyTorch et OpenLM pour la pré-formation.

L'ensemble de données de base DCLM d'un total de 4T de jetons provient d'un total de 240T DCLM, et le modèle DCLM-7B en filtre en outre 2,5T pour la formation.


La longueur du contexte est de 2048, ce qui est inférieur à la longueur de 8k de Mistral 7B et Gemma 2 9B.

En termes de performances, l'auteur a directement utilisé la suite d'évaluation LLM Foundry pour tester les scores du modèle sur 53 tâches de benchmark.

Lors de la comparaison avec d'autres modèles, en plus du score MMLU, l'auteur a également personnalisé deux indicateurs : « précision de base » (core) et « précision étendue » (étendue).

Le premier correspond à la précision moyenne de 22 centres de tâches, dont HellaSwag et ARC-E, tandis que le second couvre les 53 tâches.

Bien qu’il n’utilise pas le plus de données, par rapport à d’autres modèles de données ouvertes de même taille (les poids et les ensembles de données sont open source), DCLM obtient les meilleures performances dans les trois indicateurs.


Les trois colonnes de scores de référence, de gauche à droite, sont : core, MMLU, extension

Par rapport au modèle SOTA MAP-Neo précédent, la précision des tâches MMLU à 5 tirs du DCLM-7B a atteint 63,7 %, soit une augmentation de 6,6 points de pourcentage, tandis que la quantité de calcul requise pour l'entraînement a été réduite de 40 %.

Cependant, si on le compare aux modèles avec pondérations open source et ensembles de données sources fermées, l’effet n’est pas satisfaisant.

Il existe un grand écart entre DCLM et Phi-3 dans divers indicateurs, et les scores sont à peu près équivalents à ceux de Mistral-7B-v0.3 ou Gemma 8B.


Les chercheurs ont constaté que lors de l'entraînement avec 100 B de données supplémentaires provenant du même ensemble de données et en étendant la longueur du contexte à 8 000 k, les scores du modèle sur les benchmarks de base et étendus se sont encore améliorés, mais les résultats du MMLU n'ont pas changé.


Ce résultat dépasse complètement le score de Mistral 7B-v0.3.

En outre, HuggingFace a également publié une version de réglage fin des instructions du modèle 7B, qui a permis d'améliorer à grande échelle les performances de la tâche de raisonnement mathématique GSM8K, le score passant de 2,1 à 52,5.


https://huggingface.co/apple/DCLM-7B-8k

En plus de la version 7B, la version 1.4B est également en ligne simultanément. Miraculeusement, la quantité de données d'entraînement a augmenté de 0,1T par rapport à la version 7B.


https://huggingface.co/TRI-ML/DCLM-1B

Par rapport au SmolLM récemment publié par HuggingFace, les performances du DCLM-1B sont nettement meilleures, en particulier le score MMLU à 5 coups, qui est 11,9 % plus élevé que celui du SmolLM.

De plus, le score MMLU de 41,9 du DCLM-1B est également supérieur aux 37,87 de Qwen-1.5B et aux 35,90 de Phi-1.5B.


Le modèle 7B a pris du retard, mais le modèle 1,4B l’a dépassé. Comme prévu, les petits modèles sont la spécialité d’Apple.

Il convient de noter que le modèle 7B n'est disponible que sous la licence ASCL (Sample Code License) d'Apple, mais que la version 1.4B est publiée sous Apache 2.0, permettant une utilisation commerciale, une distribution et une modification.

Maintenant que nous parlons des modèles de la série DCLM sortis cette fois, nous devons mentionner leur base importante - le benchmark DataComp.


Adresse papier : https://arxiv.org/pdf/2406.11794

L'article DataComp a été publié pour la première fois le 17 juin. Les co-auteurs Jeffrey Li, Alex Fang et le co-auteur final Vaishaal Shankar sont également les développeurs d'Apple DCLM.

L'article développe non seulement le processus de construction de l'ensemble de données, mais mentionne également du contenu sur le modèle DCLM.

Vaishaal Shankar a déclaré qu'une version mise à jour de ce document serait bientôt publiée pour fournir plus de détails techniques sur la pré-formation des modèles.

Par rapport à la modification du modèle pour le même ensemble de données, l'idée de DataComp est à l'opposé : le modèle utilisé pour l'évaluation est fixe et la tâche consiste à filtrer et traiter les meilleures données d'un total de 240 T de pool de données.

On peut dire que cette approche est très cohérente avec les idées de recherche et développement des géants de la technologie - pour les performances du LLM, les données de pré-formation deviennent un facteur plus important que l'architecture et les pondérations du modèle.

Après tout, une série de modèles « open source » tels que Llama, Gemma et Phi ne font que pondérer et ne publient pas de données.

La loi d'échelle et le SLM sont requis

Pour les géants de la technologie de l’IA, parfois, plus le modèle est grand, mieux c’est.


En fait, les petits modèles n'ont toujours pas manqué dans la communauté de l'IA, comme les multiples itérations des modèles de la série Phi de Microsoft et le Gemma 2 7B qui vient d'être mis à jour par Google fin juin.

Cette semaine, OpenAI a soudainement publié GPT-4o mini, Mistral AI s'est associé à NVIDIA pour publier Mistral NeMo, SmoLLM de HuggingFace et d'autres petits modèles ont été publiés, ajoutant à nouveau le feu au domaine des petits modèles.

Comme l'a déclaré un chercheur d'OpenAI : « Bien que nous préférions entraîner de grands modèles plus que quiconque, OpenAI sait également former de petits modèles. »


Les petits modèles ont l’avantage d’être peu coûteux, rapides et plus professionnels. Ils sont généralement formés en utilisant seulement une petite quantité de données et sont conçus pour des tâches spécifiques.

Réduire la taille des grands modèles, puis étendre leur échelle, pourrait être l'une des tendances du développement futur.


Il y a deux jours, lors de la sortie du GPT-4o mini, Andrej Karpathy a également publié un long tweet exprimant des opinions similaires.


Il estime que la concurrence en matière de taille de modèle « augmentera à l'envers », sans devenir de plus en plus grande, mais en rivalisant pour voir qui est plus petit et plus léger.

La raison pour laquelle le LLM actuel est progressivement devenu un « géant » est que le processus de formation est encore très coûteux. Nous demandons essentiellement au modèle de mémoriser le contenu de l'ensemble de l'Internet (et en fait, la capacité de mémoire du LLM est assez bonne). , et la qualité est meilleure que celle des humains).

Mais pour les petits modèles, les objectifs de formation ont changé. La question clé est de savoir comment les systèmes d’IA peuvent apprendre davantage avec moins de données.

Nous avons besoin que le modèle devienne d'abord plus grand, puis plus petit, car nous avons besoin du « géant » pour reconstruire et façonner les données sous une forme synthétique idéale, obtenir progressivement « l'ensemble d'entraînement parfait », puis le transmettre au petit modèle.

Musk était également d’accord avec ce point de vue. L’échelle d’amélioration du modèle décrite par Karpathy est exactement le chemin emprunté par Tesla en réalité.


En avril 2023, Sam Altman annonçait la fin de l’ère des grands modèles d’IA. Dans une récente interview, il a également confirmé que la qualité des données était un facteur clé de succès pour la formation continue en IA.


Les chercheurs de Microsoft ont fait cette hypothèse lors du développement du modèle Phi. Les chercheurs en IA de Hugging Face ont également récemment confirmé cette hypothèse et publié un ensemble de données de formation de haute qualité.

En prenant GPT-4 comme exemple, le coût de développement et d’utilisation de plus d’un billion de paramètres dépasse 100 millions de dollars.

Un petit modèle, tel qu'un modèle spécifiquement formé sur un ensemble de données juridiques, peut utiliser moins de 10 milliards de paramètres et coûter moins de 10 millions de dollars. Il utilise moins de puissance de calcul pour répondre à chaque requête, le coût est donc inférieur.

Nadella a déclaré que la série de petits modèles Phi ne représente que 1/100 de la taille du modèle gratuit derrière OpenAI et que ses performances sur de nombreuses tâches sont presque aussi bonnes.


En outre, Google et les startups d'IA Mistral, Anthropic et Cohere ont également lancé des modèles plus petits cette année.

En juin, Apple a annoncé sa propre feuille de route de développement de l'IA, prévoyant d'utiliser de petits modèles pour que le logiciel puisse fonctionner entièrement sur le téléphone, le rendant ainsi plus rapide et plus sûr.

Pour de nombreuses tâches, telles que la synthèse de documents ou la génération d’images, les grands modèles peuvent s’avérer excessifs.

Illia Polosukhin, l'auteur du travail pionnier de Transformer, a déclaré que le calcul de 2+2 ne devrait pas nécessiter un quadrillion d'opérations.

Pour autant, les géants de la technologie n’ont pas renoncé aux grands modèles. Lors de la conférence WWDC de cette année, Apple a annoncé l'intégration de ChatGPT dans l'assistant Siri pour effectuer des tâches complexes telles que la rédaction d'e-mails.

Après tout, menant à l’AGI/ASI ultime, l’expansion de l’échelle des paramètres est directement proportionnelle à la croissance de l’intelligence.


Les références:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/