nouvelles

L'iPhone peut faire fonctionner un petit canon en acier 2B !Google Gemma 2 arrive, le microscope le plus puissant capable de disséquer le cerveau de LLM

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse] Le petit modèle de bombe nucléaire de Google DeepMind est ici. Gemma 2 2B a directement vaincu GPT-3.5 et Mixtral 8x7B, qui avaient des paramètres plusieurs ordres de grandeur plus grands ! Le Gemma Scope sorti au même moment traverse la boîte noire du LLM comme un microscope, nous permettant de voir clairement comment Gemma 2 prend des décisions.

Le petit modèle de Google DeepMind est encore une fois nouveau !

Tout à l'heure, Google DeepMind a publié Gemma 2 2B.



Il est distillé à partir de Gemma 2 27B.

Bien que ses paramètres ne soient que de 2,6B, son score dans l'arène LMSYS a dépassé GPT-3.5 et Mixtral 8x7B !


Dans les benchmarks MMLU et MBPP, il a obtenu d'excellents résultats de 56,1 et 36,6 respectivement, ses performances ont dépassé de plus de 10 % le modèle précédent Gemma 1 2B ;

Le petit modèle a vaincu le grand modèle qui était plusieurs ordres de grandeur plus grand, confirmant une fois de plus la direction des petits modèles pour laquelle l'industrie est très optimiste ces derniers temps.


Aujourd'hui, Google a annoncé un total de trois nouveaux membres de la famille Gemma 2 :

  • Gemma 2 2B :Le modèle 2B léger atteint le meilleur équilibre entre performances et efficacité

  • ShieldGemma :Un modèle de classificateur de contenu sécurisé construit sur Gemma 2 pour filtrer les entrées et les sorties du modèle d'IA afin de garantir la sécurité des utilisateurs

  • Portée de Gemma :Un outil d'interprétabilité qui fournit un aperçu inégalé du fonctionnement interne de votre modèle

En juin, les modèles 27B et 9B Gemma 2 voient le jour.

Depuis sa sortie, le modèle 27B est rapidement devenu l'un des meilleurs modèles open source dans les classements des grands modèles, surpassant même les modèles populaires avec deux fois plus de paramètres dans les conversations réelles.


Gemma 2 2B : disponible instantanément sur votre appareil

Le petit modèle léger Gemma 2 2B est distillé du grand modèle et ses performances ne sont pas inférieures.

Sur la grande arène des modèles LMSYS, le nouveau modèle a obtenu un score impressionnant de 1 130, ce qui est comparable à celui des modèles dotés de paramètres 10 fois supérieurs.

GPT-3.5-Turbo-0613 a obtenu un score de 1117 et Mixtral-8x7b un score de 1114.


Cela montre que Gemma 2 2B est le meilleur modèle de bout en bout.


Certains internautes ont laissé le Gemma 2 2B quantifié fonctionner sur MLX Swift sur iPhone 15 Pro, et la vitesse était étonnamment rapide.



Plus précisément, il peut être déployé sur divers terminaux, notamment les téléphones mobiles, les ordinateurs portables et même le puissant cloud utilisant Vertex AI et Google Kubernetes Engine (GKE).

Afin d'accélérer le modèle, il est optimisé via NVIDIA TensorRT-LLM, également disponible sur la plateforme NVIDIA NIM.


Le modèle optimisé fonctionne sur une variété de déploiements de plates-formes, notamment les centres de données, les cloud, les postes de travail sur site, les PC et les appareils de périphérie.

Il peut également prendre en charge les modules RTX, RTX GPU et Jetson pour compléter le déploiement marginal de l'IA.

De plus, Gemma 2 2B intègre de manière transparente Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp, etc., et sera bientôt intégré à MediaPipe pour simplifier le développement.


Bien entendu, comme Gemma 2, le modèle 2B peut également être utilisé à des fins de recherche et à des fins commerciales.

Même parce que son volume de paramètres est suffisamment faible, il peut fonctionner sur la couche GPU T4 gratuite de Google Colab, abaissant ainsi le seuil de développement.

Actuellement, chaque développeur peut télécharger les poids du modèle de Gemma 2 depuis Kaggle, Hugging Face et Vertex AI Model Garden, et peut également essayer ses fonctions dans Google AI Studio.


Adresse de l'entrepôt : https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma : le classificateur de sécurité de pointe

Comme son nom l'indique, ShieldGemma est le classificateur de sécurité le plus avancé, garantissant que le contenu de sortie de l'IA est attrayant, sûr et inclusif, et détectant et réduisant la sortie de contenu nuisible.

ShieldGemma est conçu pour cibler spécifiquement quatre zones nuisibles clés :

- discours de haine

- Contenu de harcèlement

- Contenu explicite

- Contenu dangereux


Ces classificateurs open source complètent la suite existante de classificateurs de sécurité de Google dans la boîte à outils Responsible AI.

La boîte à outils comprend une méthode permettant de créer des classificateurs spécifiques à une politique basés sur des points de données limités, ainsi que des classificateurs Google Cloud disponibles dans le commerce fournis via l'API.

ShieldGemma est construit sur Gemma 2, le classificateur de sécurité leader du secteur.

Il fournit différentes tailles de paramètres de modèle, notamment 2B, 9B et 27B, qui sont toutes optimisées pour la vitesse NVIDIA et peuvent fonctionner efficacement sur divers matériels.

Parmi elles, 2B est très adaptée aux tâches de classification en ligne, tandis que les versions 9B et 27B offrent des performances plus élevées pour les applications hors ligne avec des exigences de latence plus faibles.


Gemma Scope : Révéler le processus de prise de décision de l'IA grâce à des auto-encodeurs open source clairsemés

Un autre point fort publié au même moment est l'auto-encodeur open source clairsemé-Gemma Scope.

Que se passe-t-il à l’intérieur du modèle de langage ? Ce problème a longtemps intrigué les chercheurs et les développeurs.

Le fonctionnement interne des modèles linguistiques reste souvent un mystère, même pour les chercheurs qui les forment.


Le Gemma Scope est comme un microscope puissant qui grossit des points spécifiques du modèle grâce à des auto-encodeurs clairsemés (SAE), facilitant ainsi l'interprétation du fonctionnement interne du modèle.

Avec Gemma Scope, les chercheurs et les développeurs bénéficient d'une transparence sans précédent dans le processus décisionnel du modèle Gemma 2.

Gemma Scope est une collection de centaines d'auto-encodeurs clairsemés (SAE) gratuits et ouverts pour Gemma 2 9B et Gemma 2 2B.

Ces SAE sont des réseaux neuronaux spécialement conçus qui nous aident à interpréter les informations denses et complexes traitées par Gemma 2 et à les développer sous une forme plus facile à analyser et à comprendre.

En étudiant ces vues élargies, les chercheurs peuvent obtenir des informations précieuses sur la manière dont Gemma 2 reconnaît les modèles, traite les informations et fait des prédictions.

Avec Gemma Scope, la communauté IA peut plus facilement créer des systèmes d'IA plus compréhensibles, responsables et fiables.

Parallèlement, Google DeepMind a également publié un rapport technique de 20 pages.


Rapport technique : https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

En résumé, Gemma Scope présente les trois innovations suivantes -

  • SAE Open Source : plus de 400 SAE disponibles gratuitement couvrant tous les niveaux de Gemma 2 2B et 9B

  • Démo interactive : explorez les fonctionnalités SAE et analysez le comportement du modèle sur Neuronpedia sans écrire de code

  • Bibliothèque de ressources facile à utiliser : fournit du code et des exemples pour interagir avec les SAE et Gemma 2

Interpréter le fonctionnement interne des modèles de langage

Pourquoi le problème d’interprétabilité des modèles linguistiques est-il si difficile ?

Cela commence par le principe de fonctionnement du LLM.

Lorsque vous posez une question à LLM, il convertit votre saisie de texte en une série d'« activations ». Ces activations cartographient les relations entre les mots que vous saisissez, aidant le modèle à établir des liens entre différents mots et à générer des réponses en conséquence.

Au fur et à mesure que le modèle traite la saisie de texte, les activations des différentes couches du réseau neuronal du modèle représentent plusieurs concepts de niveau progressivement supérieur, appelés « fonctionnalités ».


Par exemple, les premières couches du modèle pourraient apprendre des faits tels que Jordan joue au basket-ball, tandis que les couches ultérieures pourraient identifier des concepts plus complexes, tels que l'authenticité d'un texte.


Exemple d'interprétation des activations du modèle à l'aide d'auto-encodeurs clairsemés - comment le modèle rappelle le fait que "la ville lumière est Paris".On voit que des concepts liés au français existent, mais des concepts sans rapport n'existent pas.

Cependant, les chercheurs en interprétabilité sont confrontés à un problème clé : l’activation du modèle est un mélange de nombreuses fonctionnalités différentes.

Au début de la recherche, les chercheurs espéraient que les caractéristiques des activations des réseaux neuronaux pourraient être alignées sur des neurones individuels ou des nœuds d’information.

Mais malheureusement, dans la pratique, les neurones sont actifs pour de nombreuses fonctionnalités non pertinentes.

Cela signifie qu’il n’existe aucun moyen évident de savoir quelles fonctionnalités font partie de l’activation.

Et c’est exactement là qu’interviennent les auto-encodeurs clairsemés.

Sachez qu'une activation particulière ne sera qu'un mélange de quelques fonctionnalités, même si un modèle de langage peut être capable de détecter des millions, voire des milliards de fonctionnalités (c'est-à-dire que le modèle utilise les fonctionnalités avec parcimonie).

Par exemple, un modèle de langage peut penser à la relativité lorsqu’il répond à une question sur Einstein, mais peut ne pas penser à la relativité lorsqu’il écrit sur une omelette.


Les auto-encodeurs clairsemés exploitent ce fait pour découvrir un ensemble de fonctionnalités latentes et décomposer chaque activation en une poignée de fonctionnalités.

Les chercheurs espèrent que le meilleur moyen pour les auto-encodeurs clairsemés d’accomplir cette tâche est de trouver les fonctionnalités essentielles que les modèles de langage utilisent réellement.

Il est important de noter qu’au cours de ce processus, les chercheurs n’ont pas indiqué à l’auto-encodeur clairsemé quelles fonctionnalités rechercher.

En conséquence, ils ont pu découvrir des structures riches et inattendues.


Cependant, comme ils ne connaissent pas immédiatement la signification exacte de ces fonctionnalités découvertes, ils recherchent des modèles significatifs dans les exemples de texte que l'auto-encodeur clairsemé considère comme "déclencheurs".


Voici un exemple où les jetons déclenchés par une fonctionnalité sont mis en évidence avec un dégradé bleu en fonction de la force du déclencheur de la fonctionnalité :


Exemple de découverte d'activations de fonctionnalités avec des encodeurs automatiques clairsemés. Chaque bulle représente un Jeton (mot ou fragment de mot), et la couleur bleue variable illustre la force de cette fonctionnalité.Dans ce cas, la caractéristique est clairement liée à l'idiome

Qu’est-ce qui rend Gemma Scope unique ?

Par rapport aux encodeurs automatiques clairsemés précédents, Gemma Scope possède de nombreuses fonctionnalités uniques.

Le premier se concentre principalement sur l’étude du fonctionnement interne de petits modèles ou de couches uniques de grands modèles.


Mais si vous souhaitez approfondir la recherche sur l’interprétabilité, cela implique de décoder les algorithmes complexes en couches dans de grands modèles.

Cette fois, les chercheurs de Google DeepMind ont formé des auto-encodeurs clairsemés sur la sortie de chaque couche et sous-couche de Gemma 2 2B et 9B.

Le Gemma Scope construit de cette manière a généré un total de plus de 400 auto-encodeurs clairsemés et a obtenu plus de 30 millions de fonctionnalités (bien que de nombreuses fonctionnalités puissent se chevaucher).

Cela permet aux chercheurs d’étudier comment les fonctionnalités évoluent tout au long du modèle et comment elles interagissent et se combinent pour former des fonctionnalités plus complexes.

De plus, Gemma Scope est formé à l’aide de l’architecture JumpReLU SAE la plus récente et la plus avancée.

L'architecture d'origine de l'auto-encodeur clairsemé présente souvent un équilibre difficile entre les deux objectifs de détection de la présence de caractéristiques et d'estimation de l'intensité. L'architecture JumpReLU peut plus facilement atteindre un équilibre entre les deux et réduire considérablement les erreurs.


Bien entendu, la formation d’un si grand nombre d’auto-encodeurs clairsemés constitue également un défi d’ingénierie majeur et nécessite beaucoup de ressources informatiques.

Dans ce processus, les chercheurs ont utilisé environ 15 % des calculs d'entraînement du Gemma 2 9B (à l'exclusion des calculs requis pour générer des étiquettes distillées) et ont enregistré environ 20 PiB d'activations sur le disque (à peu près l'équivalent d'un million de copies du contenu de l'encyclopédie Wiki anglaise). , générant un total de centaines de milliards de paramètres d'auto-encodeur clairsemés.

Les références:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/