nouvelles

La boîte noire est ouverte ! Outil d'interprétation visuelle Transformer, exécutant GPT-2 localement

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nous sommes en 2024, y a-t-il quelqu’un qui ne comprend toujours pas comment fonctionne Transformer ? Venez essayer cet outil interactif.

En 2017, Google a proposé Transformer dans l'article « Attention is all you need », qui est devenu une avancée majeure dans le domaine de l'apprentissage profond. Le nombre de citations de cet article a atteint près de 130 000. Tous les modèles ultérieurs de la famille GPT sont également basés sur l'architecture Transformer, ce qui montre sa large influence.

En tant qu'architecture de réseau neuronal, Transformer est populaire dans une variété de tâches allant du texte à la vision, en particulier dans le domaine actuellement brûlant des chatbots IA.

Cependant, pour de nombreux non-experts, le fonctionnement interne de Transformer reste opaque, ce qui entrave leur compréhension et leur participation. Il est donc particulièrement nécessaire de démystifier cette architecture. Cependant, de nombreux blogs, didacticiels vidéo et visualisations 3D mettent souvent l’accent sur la complexité des mathématiques et de la mise en œuvre des modèles, ce qui peut dérouter les débutants. Dans le même temps, le travail de visualisation conçu pour les praticiens de l’IA se concentre sur l’interprétabilité neuronale et hiérarchique et constitue un défi pour les non-experts.

Ainsi, plusieurs chercheurs de Georgia Tech et IBM Research ont développéUn outil de visualisation interactif open source basé sur le Web « Transformer Explainer » pour aider les non-professionnels à comprendre la structure de modèle avancée de Transformer et les opérations mathématiques de bas niveau.. Comme le montre la figure 1 ci-dessous.

Transformer Explainer explique le fonctionnement interne de Transformer via la génération de texte, en utilisantConception de visualisation du diagramme de Sankey, inspiré de travaux récents traitant les Transformers comme des systèmes dynamiques, mettant l'accent sur la manière dont les données d'entrée circulent à travers les composants du modèle. À partir des résultats, le diagramme de Sankey illustre efficacement comment les informations sont transférées dans le modèle et montre comment l'entrée est traitée et transformée via les opérations Transformer.

En termes de contenu, Transformer Explainer intègre étroitement un aperçu du modèle qui résume la structure du Transformer et permet aux utilisateurs de passer en douceur entre plusieurs niveaux d'abstraction pour visualiser l'interaction entre les opérations mathématiques de bas niveau et les structures de modèle de haut niveau pour les aider à comprendre pleinement les concepts complexes. dans Transformateur.

En termes de fonctionnalités, Transformer Explainer fournit non seulement une implémentation basée sur le Web, mais dispose également de capacités de raisonnement en temps réel. Contrairement à de nombreux outils existants qui nécessitent l'installation d'un logiciel personnalisé ou manquent de capacités d'inférence, il intègre un modèle GPT-2 en temps réel qui s'exécute de manière native dans le navigateur à l'aide d'un framework frontal moderne. Les utilisateurs peuvent expérimenter de manière interactive le texte saisi et observer en temps réel comment les composants et paramètres internes du Transformer fonctionnent ensemble pour prédire le prochain jeton.

Transformer Explainer étend l'accès aux technologies modernes d'IA générative sans nécessiter de ressources informatiques avancées, de compétences d'installation ou de programmation. La raison pour laquelle GPT-2 a été choisi est que le modèle est bien connu, a une vitesse d'inférence rapide et est similaire en termes d'architecture à des modèles plus avancés tels que GPT-3 et GPT-4.

Adresse papier : https://arxiv.org/pdf/2408.04619

Adresse GitHub : http://poloclub.github.io/transformer-explainer/

Adresse de l'expérience en ligne : https://t.co/jyBlJTMa7m



Description du produit :https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c64dda2ea3c6626&chksm=84e43ed9b393b7cf17741 4848deaed70ac2a5b1522a12e3399920d4862e398c113b96af7b76e&token=522918026⟨=zh_CN#rd

Puisqu'il prend en charge la saisie automatique, Machine Heart a également essayé "quelle belle journée", et les résultats en cours sont présentés dans la figure ci-dessous.

De nombreux internautes ont fait l'éloge de Transformer Explainer. Certaines personnes disent que c'est un outil interactif très sympa.

Certaines personnes disent qu'elles attendaient un outil intuitif pour expliquer l'attention personnelle et l'encodage positionnel, à savoir Transformer Explainer. Ce sera un outil qui changera la donne.

Quelqu'un d'autre a fait une traduction chinoise.

Adresse d'affichage : http://llm-viz-cn.iiiai.com/llm

Ici, je ne peux m'empêcher de penser à Karpathy, une autre grande figure de la science populaire. Il a déjà écrit de nombreux tutoriels sur la reproduction de GPT-2, notamment « GPT-2 en langage C pur, le nouveau projet des anciens OpenAI et Tesla. les dirigeants sont populaires." ", "Le dernier didacticiel vidéo de quatre heures de Karpathy : reproduisez GPT-2 à partir de zéro, exécutez-le pendant la nuit et faites-le", etc. Maintenant qu'il existe un outil de visualisation des principes internes de Transformer, il semble que l'effet d'apprentissage sera meilleur lorsque les deux seront utilisés ensemble.

Conception et mise en œuvre du système Transformer Explainer

Transformer Explainer visualise comment un modèle GPT-2 basé sur Transformer est formé pour traiter la saisie de texte et prédire le prochain jeton. Le front-end utilise Svelte et D3 pour implémenter la visualisation interactive, et le back-end utilise le runtime ONNX et la bibliothèque Transformers de HuggingFace pour exécuter le modèle GPT-2 dans le navigateur.

L'un des défis majeurs lors de la conception de Transformer Explainer consistait à gérer la complexité de l'architecture sous-jacente, car afficher tous les détails en même temps détournerait l'attention du sujet. Pour résoudre ce problème, les chercheurs ont accordé une grande attention à deux principes de conception clés.

Premièrement, les chercheurs réduisent la complexité grâce à plusieurs niveaux d’abstraction. Ils structurent leurs outils pour présenter des informations à différents niveaux d'abstraction. Cela évite la surcharge d'informations en permettant aux utilisateurs de commencer avec une vue d'ensemble de haut niveau et d'accéder aux détails selon leurs besoins. Au plus haut niveau, l'outil affiche le flux de traitement complet : depuis la réception du texte fourni par l'utilisateur en entrée (Figure 1A), son intégration, son traitement via plusieurs blocs Transformer et l'utilisation des données traitées pour prédire la prochaine prédiction de jeton la plus probable. est trié.

Les opérations intermédiaires, telles que le calcul de la matrice d'attention (Figure 1C), qui sont réduites par défaut pour afficher visuellement l'importance des résultats du calcul, l'utilisateur peut choisir de développer et de visualiser son processus de dérivation à travers une séquence animée. Les chercheurs ont adopté un langage visuel cohérent, tel que l'empilement des têtes d'attention et la réduction des blocs Transformer répétés, pour aider les utilisateurs à identifier les modèles répétitifs dans l'architecture tout en maintenant un flux de données de bout en bout.

Deuxièmement, les chercheurs améliorent la compréhension et l’engagement grâce à l’interactivité. Le paramètre de température est crucial pour contrôler la distribution de probabilité de sortie du transformateur. Il affectera la certitude (à basses températures) ou le caractère aléatoire (à hautes températures) de la prochaine prédiction du jeton. Mais les ressources pédagogiques existantes sur Transformers ignorent souvent cet aspect. Les utilisateurs peuvent désormais utiliser ce nouvel outil pour ajuster les paramètres de température en temps réel (Figure 1B) et visualiser leur rôle essentiel dans le contrôle de la certitude des prévisions (Figure 2).

De plus, les utilisateurs peuvent choisir parmi les exemples fournis ou saisir leur propre texte (Figure 1A). La prise en charge du texte de saisie personnalisé peut permettre aux utilisateurs de participer plus profondément. En analysant le comportement du modèle dans différentes conditions et en testant de manière interactive leurs propres hypothèses basées sur différentes saisies de texte, le sentiment de participation de l'utilisateur est amélioré.

Alors, quels sont les scénarios d’application pratiques ?

Le professeur Rousseau modernise le contenu du cours de traitement du langage naturel pour mettre en valeur les avancées récentes en IA générative. Elle a remarqué que certains étudiants considéraient les modèles basés sur Transformer comme une « magie » insaisissable, tandis que d'autres voulaient comprendre comment ces modèles fonctionnaient mais ne savaient pas par où commencer.

Pour résoudre ce problème, elle a guidé les étudiants à utiliser Transformer Explainer, qui fournit un aperçu interactif de Transformer (Figure 1) et encourage les étudiants à expérimenter et à apprendre activement. Sa classe compte plus de 300 étudiants, et la capacité de Transformer Explainer à fonctionner entièrement dans les navigateurs des étudiants, sans avoir besoin d'installer de logiciel ou de matériel spécial, constitue un avantage significatif et élimine les soucis des étudiants concernant la gestion de la configuration logicielle ou matérielle.

Cet outil présente aux étudiants des opérations mathématiques complexes, telles que les calculs attentionnels, à travers des abstractions réversibles animées et interactives (Figure 1C). Cette approche aide les étudiants à acquérir à la fois une compréhension de haut niveau des opérations et une compréhension approfondie des détails sous-jacents qui produisent ces résultats.

Le professeur Rousseau a également reconnu que les capacités et limites techniques du transformateur étaient parfois personnifiées (par exemple, considérer les paramètres de température comme des contrôles de « créativité »). En encourageant les élèves à expérimenter avec le curseur de température (Figure 1B), elle leur a montré comment la température modifie réellement la distribution de probabilité du prochain jeton (Figure 2), contrôlant ainsi le caractère aléatoire des prédictions de manière déterministe et plus créative. Trouver un équilibre entre sorties.

De plus, lorsque le système visualise le processus de traitement des jetons, les étudiants peuvent voir qu'il n'y a pas de soi-disant « magie » ici : quel que soit le texte saisi (Figure 1A), le modèle suit une séquence d'opérations bien définie, en utilisant l'architecture Transformer. Échantillonnez un jeton à la fois et répétez le processus.

travaux futurs

Les chercheurs améliorent les explications interactives de l'outil pour améliorer l'expérience d'apprentissage. Dans le même temps, ils améliorent également la vitesse d’inférence grâce au WebGPU et réduisent la taille du modèle grâce à la technologie de compression. Ils prévoient également de mener des recherches sur les utilisateurs pour évaluer l'efficacité et la convivialité de Transformer Explainer, d'observer comment les débutants en IA, les étudiants, les éducateurs et les praticiens utilisent l'outil et de recueillir des commentaires sur les fonctionnalités supplémentaires qu'ils aimeraient voir prises en charge.

Qu'attendez-vous ? Commencez et faites l'expérience, brisez l'illusion « magique » de Transformer et comprenez vraiment les principes qui le sous-tendent.