Le paramètre Gemma 2 de Google, doté de 2 milliards de paramètres, rattrape GPT-3.5 et fonctionne très vite sur iPhone

2024-08-02

Objets intelligents (compte public :zhidxcom）
compilervanille
modifierLi Shuiqing

La famille de petits modèles open source de Google DeepMind accueille de nouveaux membres !

Zhidongzhi a rapporté le 1er août que tôt ce matin, Google DeepMind a ouvert le modèle léger Gemma 2 2B. Son score dans le domaine des grands modèles a dépassé les modèles avec des paramètres plus grands tels que GPT-3.5 et Llama 2 70B.

▲Gemma 2 2B

Avec seulement 2 milliards de paramètres, Gemma 2 2B peut fonctionner facilement et rapidement sur les téléphones mobiles, les PC et autres terminaux. Selon des tests réels effectués par les développeurs sur Google AI Studio, la vitesse d'inférence atteint 30 à 40 jetons/s.

▲Les développeurs testent Gemma 2 2B

Gemma Scope, un outil permettant d'améliorer l'interprétabilité des modèles, et ShieldGemma, un modèle de classification de sécurité permettant de filtrer les contenus nuisibles, ont été lancés parallèlement à Gemma 2 2B.

Gemma Scope est basé sur l'auto-encodeur clairsemé (SAE) pour amplifier des points spécifiques du modèle et utilise l'architecture JumpReLU pour l'optimiser, aidant ainsi à analyser les informations denses et complexes traitées dans le modèle, permettant aux chercheurs de « voir » le modèle comme un microscope interne.

ShieldGemma est conçu pour quatre domaines nuisibles : les discours de haine, le harcèlement, le contenu pornographique et le contenu dangereux, et dépasse les modèles de référence tels que GPT-4 dans les tests de réponse.

La série de modèles Gemma, initialement lancée en février de cette année, sont des modèles open source construits par Google DeepMind sur la base de l'expérience du modèle Gemini. En juin, Google a lancé le modèle open source de deuxième génération Gemma 2, comprenant deux tailles de paramètres de 9B et 27B. Parmi eux, le modèle 27B est rapidement passé au premier plan des modèles open source dans l'arène des grands modèles LMSYS.

1. Battez un grand modèle avec 35 fois plus de paramètres, pas de problème par rapport à Gemma 2

Gemma 2 2B est raffiné à partir d'un modèle plus grand et est le troisième modèle Gemma 2 lancé par Google après 27B et 9B.

En tant que modèle léger avec seulement 2 milliards de paramètres, le Gemma 2 2B ne sacrifie pas les performances au profit de la portabilité. Dans le classement LMSYS Large Model Arena (Chatbot Arena), Gemma 2 2B a dépassé GPT-3.5 avec un score de 1 126 points, ainsi que ses modèles Mixtral 8x7B et Llama 2 70B avec des dizaines de fois l'échelle de paramètres.

▲Les résultats de Gemma 2 2B dans le domaine des grands modèles

Certains internautes ont testé le problème des ratios 9,9 et 9,11 du "renversement" du Gemma 2 2B sur de nombreux grands modèles, et le Gemma 2 2B a rapidement donné la bonne réponse.

▲Réponses Gemma 2 2B

La vitesse de course est un gros avantage des modèles légers. À quelle vitesse exactement ? Awni Hannun, chercheur en apprentissage automatique chez Apple, a testé Gemma 2 2B sur MLX Swift sur son iPhone 15 pro, et sa vitesse d'inférence était visiblement rapide.

▲ Vitesse de course Gemma 2 2B

Après des tests réels, le développeur Tom Huang a déclaré que sa vitesse d'exécution sur Google AI Studio est d'environ 30 à 40 jetons/s, ce qui est « plus rapide que le modèle d'Apple ».

En termes de déploiement, Gemma 2 2B propose des méthodes de déploiement flexibles et peut fonctionner efficacement sur une variété de matériels, notamment des appareils de périphérie, des ordinateurs portables ou un déploiement cloud basé sur Vertex AI.

Les développeurs peuvent télécharger les poids du modèle Gemma 2 2B à partir de plateformes telles que Hugging Face et Kaggle pour des applications de recherche et commerciales, ou tester ses fonctions dans Google AI Studio.

Adresse open source :

https://huggingface.co/google/gemma-2-2b

deux,Créez un classificateur pour quatre types de contenu, avec un taux de réponse meilleur que GPT-4

Afin d'améliorer la sécurité et l'accessibilité du modèle, Google a lancé ShieldGemma, un ensemble de modèles de classificateurs de contenu sécurisés construits sur Gemma 2, qui est utilisé pour filtrer les entrées et les sorties du modèle d'IA. les modèles existants dans la boîte à outils d'IA responsable de Google. Un ajout à la suite de classificateurs de sécurité.

▲Comment fonctionne ShieldGemma

ShieldGemma est conçu pour quatre domaines de préjudice : les discours de haine, le harcèlement, le contenu pornographique et le contenu dangereux, et propose une variété de tailles de modèles pour répondre à différents besoins, notamment 2B, 9B et 27B. Parmi eux, le modèle paramétrique 2B convient aux tâches de classification en ligne, tandis que les versions 9B et 27B sont utilisées pour offrir des performances plus élevées pour les applications hors ligne.

Dans les résultats de l'évaluation sur les ensembles de données externes, ShieldGemma a surpassé les modèles de base tels que OpenAI Mod et GPT-4.

▲Résultats de l'évaluation ShieldGemma

Le rapport technique de ShieldGemma a également été rendu public simultanément, expliquant la méthode de construction, la source de données et l'efficacité du modèle. Dans le test de réponse de quatre types de contenus préjudiciables, le taux de réponse de ShieldGemma sur trois échelles est meilleur que celui de GPT-4.

▲Test de réponse ShieldGemma

Adresse du rapport technique :

https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf

trois,"Microscope" à l'intérieur de grands modèles pour analyser le comportement du modèle sans code

Afin d'étudier les principes de fonctionnement internes des modèles de langage, Google a lancé Gemma Scope, un auto-encodeur clairsemé complet et ouvert. Il agit comme un microscope, aidant les chercheurs à « voir » l’intérieur du modèle pour mieux comprendre son fonctionnement.

Gemma Scope amplifie des points spécifiques du modèle à l'aide d'encodeurs automatiques clairsemés (SAE). Ces SAE aident à analyser les informations denses et complexes traitées dans le modèle, en les développant sous une forme plus facile à analyser et à comprendre.

▲ Représentation stylisée de l'activation du modèle utilisant l'interprétation SAE

En étudiant ces vues élargies, les chercheurs peuvent comprendre comment Gemma 2 reconnaît les modèles, traite les informations et, finalement, fait des prédictions, explorant ainsi la manière de créer des systèmes d'IA plus faciles à comprendre, plus fiables et plus fiables.

Auparavant, les recherches sur le SAE se concentraient principalement sur l’étude du fonctionnement interne d’une seule couche dans un modèle miniature ou dans un grand modèle. L'avancée de Gemma Scope est qu'il entraîne SAE sur chaque sortie de couche et de sous-couche du modèle Gemma 2. Il a généré plus de 400 SAE et appris plus de 30 millions de fonctionnalités.

▲ Exemple d'activation de la fonction de découverte SAE de Gemma Scope

Gemma Scope utilise également la nouvelle architecture JumpReLU SAE pour la formation. Il est difficile pour l'architecture SAE d'origine d'équilibrer les deux objectifs consistant à détecter les fonctionnalités présentes et à estimer leur force. L'architecture JumpReLU peut atteindre cet équilibre plus facilement, réduisant considérablement les erreurs.

Gemma Scope a ouvert un total de plus de 400 SAE gratuits, couvrant toutes les couches de Gemma 2 2B et 9B, et propose des démonstrations interactives. Les chercheurs peuvent étudier les caractéristiques des SAE et analyser le comportement du modèle sans écrire de code.

▲Démonstration interactive de Gemma Scope

Adresse de démonstration :

https://www.neuronpedia.org/gemma-scope

Adresse du rapport technique :

https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

Conclusion : générativeIALe vent souffle vers le petit modèle etIASécurité

Depuis le développement de l'IA générative, le modèle est passé des paramètres « volume » et de l'échelle « volume » à désormais une sécurité « volume » légère et « volume », ce qui reflète que dans le processus de mise en œuvre de la technologie, il est plus proche des utilisateurs, plus faible. coût et mieux à même de répondre à des besoins spécifiques.

Les PC et téléphones mobiles IA entrent progressivement dans la vie des consommateurs. Dans ce processus, comment « intégrer » de grands modèles dans des terminaux compacts tout en garantissant la confidentialité et la sécurité des utilisateurs est un problème urgent que les grands fabricants d'IA doivent résoudre.

nouvelles

Le paramètre Gemma 2 de Google, doté de 2 milliards de paramètres, rattrape GPT-3.5 et fonctionne très vite sur iPhone

Introduction

mes coordonnées