2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mengchen vient du temple Aofei
Qubits | Compte public QbitAI
Le petit modèle SOTA qui peut s'exécuter directement dans le navigateur est ici, gagnant respectivement aux niveaux de 200 millions, 500 millions et 2 milliards, produit par Huahuanlian.
Il n'y a que deux secrets :
Scientifique en chef de HuaqiangThomas Wolf, résumant l’expérience de l’équipe dans le développement de petits modèles, ouvrant de nouvelles perspectives et attirant l’attention de l’industrie :
Les données synthétiques ne sont actuellement utiles que dans des domaines spécifiquesLe réseau est si vaste et si diversifié que le potentiel des données réelles n’a pas encore été pleinement exploité.
Actuellement, la version modèle 360M est disponible en démo et peut être jouée en ligne (faites attention au trafic).
Appelez le GPU local pour qu'il s'exécute dans le navigateur, y compris les poids du modèle et l'interface utilisateur frontale Web, et cela se fait en 400 Mo.
Filtrez strictement les données du réseau et les performances montent en flèche
Pour la série de petits modèles Microsoft Phi, on prétend que la moitié des données synthétiques est utilisée et que l'effet est très bon, mais les données ne sont pas divulguées.
La communauté open source n’en peut plus tellement c’est dur à supporter :
Créez un grand ensemble de données synthétiques pour l’analyse comparative et ouvrez-le en source.
De plus, l'équipe a vaguement laissé entendre que cette décision permettrait également de tester les rumeurs selon lesquelles Microsoft trichait sur l'ensemble de test, et si cela était pris en compte.
Hugshuang a été construit en utilisant Mixtral-8-7B, le meilleur modèle open source de l'époque.25BDonnées synthétiques.
Le modèle entraîné fonctionne bien, mais reste légèrement inférieur au niveau Phi-1 et Phi-1,5.
Ils ont essayé de faire en sorte que de grands modèles expliquent divers sujets au niveau du collège et n'ont finalement obtenu que de mauvais résultats au test MMLU, car MMLU est une question de niveau doctorat.
La véritable avancée en termes de performances est venue d'une tâche secondaire :
En plus de générer des données synthétiques à partir de zéro avec de grands modèles, essayezFiltrer les données du réseau à l'aide de filtres de grand modèle。
Plus précisément, un classificateur a été développé à l'aide d'annotations générées par Llama3-70B-Struct.Conservez uniquement les pages Web les plus éducatives dans l’ensemble de données FineWeb。
En utilisant des données réseau strictement filtrées, les performances montent en flèche et surpassent tous les autres modèles de taille similaire sur la plupart des benchmarks, y compris Phi-1.5.
L'équipe de Huahuanglian a déclaré que les résultats de cette expérience étaient« Doux-amer »: Bien que les performances du modèle soient sans précédent, elles montrent également que les données synthétiques ne sont toujours pas aussi bonnes que les données réelles.
Plus tard, ils ont utilisé la même idée pour étendre le langage naturel au code, et l’ensemble de données de code filtré s’est également révélé très puissant.
Améliorez directement le score de référence HumanEval d’environ 13 % à plus de 20 %.
Dans l'ensemble de données mixtes final qu'ils ont construit, l'ensemble de données filtrées et dédupliquées représentait la grande majorité, et les données synthétiques pures Cosmopedia v2 ne représentaient que 15 %.
Alors en résumé, les données synthétiques sont-elles encore utiles ?
L’équipe estime que cela n’a peut-être plus de sens que dans les domaines où il existe un réel manque de données réelles, comme le raisonnement et les mathématiques.
Même les petits modèles nécessitent des milliards de jetons pour s'entraîner
Alors qu’ils étaient enthousiasmés par ces nouvelles découvertes et résultats, un nouveau stagiaire, Elie Bakouch, les a rejoints.
Même s’il n’était à l’époque qu’un stagiaire, il était bel et bien un expert dans diverses techniques de formation.
Avec l'aide d'Elie, l'équipe a réduit la taille du modèle de 1,7 B à 360 M, voire 170 M, ce qui correspond aux modèles standard GPT-1, GPT-2 et BERT.
Une deuxième découverte importante a été faite au cours de ce processus : contrairement au consensus passé,Même les petits modèles doivent être formés sur des milliards de jetons, plus c'est long, mieux c'est.
aussiRecuit de données(Annuler les données) s'est également révélé efficace, c'est-à-dire qu'il permet de conserver un ensemble spécial de données de haute qualité pour la dernière partie de la formation.
La dernière série de modèles publiés peut être déployée sur divers appareils, des smartphones aux ordinateurs portables. Le plus grand modèle 1,7B, BF16, n'occupe que 3 Go de mémoire avec précision.
Pour référence, la version d’entrée de l’iPhone 15 dispose également de la 6G, et les téléphones Android en ont encore plus.
Bien que le modèle de base formé cette fois soit assez bon, l’équipe a quand même trouvé un problème.
Les anciennes technologies d’alignement et de réglage, telles que SFT, DPO, PPO, etc., sont très efficaces pour les grands modèles, mais ne sont pas idéales pour les petits modèles.
L’équipe a analysé que l’ensemble de données d’alignement contenait de nombreux concepts trop complexes pour le petit modèle et manquait de tâches simples et bien conçues.
La prochaine nouvelle fosse a été creusée et les équipes intéressées peuvent commencer à y travailler, et elles pourraient devenir les sauveurs de petits modèles.
Essai en ligne :
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm
Liens de référence :
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857