Apple a open source le modèle 7B et a fourni l'ensemble des données du processus de formation en une seule fois. Les internautes ont déclaré : C'est très différent d'Apple

Apple a open source le modèle 7B et a fourni l'ensemble des données du processus de formation en une seule fois. Les internautes ont déclaré : C'est très différent d'Apple.

2024-07-22

Apple est la dernière à entrer sur le champ de bataille des grands modèles open source, et elle est plus ouverte que les autres sociétés.

déroulermodèle 7B, non seulement l'effet est le même que celuiLama 3 8BC'est plutôt bien, et c'est open source à la fois.Tous les processus et ressources de formation。

Vous savez, il n'y a pas si longtemps, Elizabeth Gibney, rédactrice en chef du magazine Nature,Rédaction de critiques：

De nombreux modèles d’IA qui prétendent être open source ne sont en réalité pas transparents en termes de données et de méthodes de formation, et ne peuvent pas répondre aux besoins d’une véritable recherche scientifique.

Et Apple est réellement venu pour de vrai cette fois-ci ! !

Même le scientifique NLP et créateur d'AutoAWQ s'est exclamé :

Apple a sorti un modèle qui bat le Mistral 7B, mais ce qui est encore mieux, c'est qu'ils sont complètement open source,Comprend un ensemble de données de pré-formation

Cela a également attiré les internautes vers le ridicule en ligne :

Quant à l'importance de cet open source, certains internautes enthousiastes ont également contribué à le résumer :

Pour tous ceux qui souhaitent entraîner un modèle à partir de zéro ou affiner un modèle existant,processus de gestion des donnéesIl faut l’étudier.

Bien entendu, outre OpenAI et Apple, Mistral AI et Nvidia ont également publié la semaine dernière un petit modèle à paramètres 12B.

Le fondateur de HuggingFace a déclaré :"Semaine du petit modèle"à venir!

rouler! Continuez à rouler ! Alors quelle est l’efficacité du petit modèle lancé par Apple cette fois-ci ?

L'effet est proche de Llama 3 8B

Ne parlons pas de sa puissance. Jetons un coup d’œil à ce que le directeur technique de Hugging Face vient de « déballer ».Configuration de base du modèle。

Résumer:

Modèle de base 7B, utilisé sur des ensembles de données ouvertes2,5 T de jetonsmener une formation
Données principalement anglaises, avec2048fenêtre contextuelle des jetons
Les ensembles de données incluent DCLM-BASELINE, StarCoder et ProofPile2
Le score MMLU est proche de Llama 3 8B
Formation utilisant le framework PyTorch et OpenLM

Plus précisément, l'équipe de recherche a d'abord proposé un modèle de langageNouveau benchmark pour la comparaison des données——DCLM.

Ce benchmark a été proposé parce que l'équipe a constaté :

à partir d'ensembles de données plus volumineux grâce à des modèles d'apprentissage automatique (ML)Filtrez et sélectionnez automatiquement des données de haute qualité, peut être la clé pour créer un ensemble de formations de haute qualité.

Par conséquent, l’équipe utilise DCLM pour concevoir des ensembles de données de haute qualité afin d’améliorer les performances du modèle, en particulier dans le domaine multimodal.

QueIdéesC'est simple : utilisez un cadre standardisé pour mener des expériences, y compris une architecture de modèle fixe, un code de formation, des hyperparamètres et une évaluation, et découvrez finalement quelle stratégie de gestion des données est la meilleure pour former des modèles hautes performances.

Sur la base des idées ci-dessus, l'équipe a construit unEnsemble de données de haute qualité DCLM-BASELINE, et l'a utilisé pour entraîner un modèle de paramètre 7B-DCLM-7B à partir de zéro.

Quelles sont les performances spécifiques du DCLM-7B ?

Les résultats montrent qu'il est à 5 coups sur le benchmark MMLULe taux de précision atteint 64 %, comparable à Mistral-7B-v0.3 (63 %) et Llama 3 8B (66 %) ; et la performance moyenne sur 53 tâches de compréhension du langage naturel est également comparable à celle de Llama 3 8B, tandis que le calcul requis n'est que de 1. /6 de ce dernier.

Comparé à d'autres modèles de même taille, le score MMLU du DCLM-7B dépasse le Mistral-7B et est proche de celui du Llama 3 8B.

Enfin, pourTester l'effet d'un nouvel ensemble de données, certains initiés ont utilisé llm.c de Kapasi pour entraîner GPT-2 1.5B afin de comparer les deux ensembles de données DCLM-Baseline et FineWeb-Edu.

Les résultats montrent que DCLM-Baseline a atteintnote moyenne plus élevée, et est plus performant dans des tâches telles que ARC (raisonnement scientifique des élèves du primaire), HellaSwag (raisonnement de bon sens) et MMLU.

Les « petits » modèles deviennent une nouvelle tendance

Pour revenir au début, les « petits » modèles sont devenus la nouvelle tendance ces derniers temps.

Tout d'abord, HuggingFace a lancé une famille de petits modèles« PetitLM », qui comprend les modèles 135M, 360M et 1.7B.

Ils surpassent les modèles de taille similaire sur un large éventail de références d’inférence et de bon sens.

Puis soudain, OpenAI est sortiGPT-4o mini, non seulement la capacité est proche du GPT-4, mais le prix a considérablement baissé.

Uniquement dans GPT-4o miniSorti le même jour, Mistral AI et NVIDIA ont publié un petit modèle à paramètres 12B——Mistral NeMo。

En termes de performances globales, Mistral NeMo a battu Gemma 2 9B et Llama 3 8B dans plusieurs tests de référence.

Alors pourquoi tout le monde commence à rouler des petits modèles ?

La raison peut être celle rappelée par le fondateur de smol AI. Bien que le modèle soit devenu plus petit, lorsque les capacités sont similaires, le petit modèle.Coûts considérablement réduits。

Tout comme la photo qu'il a fournie, les petits modèles représentés par le GPT-4o mini sont généralement moins chers que ceux de droite.

À cet égard, j'attends que les gens qui mangent des melons soient comme :

Alors, lequel préférez-vous ?

nouvelles

Apple a open source le modèle 7B et a fourni l'ensemble des données du processus de formation en une seule fois. Les internautes ont déclaré : C'est très différent d'Apple.

Introduction

mes coordonnées