nouvelles

Le grand modèle a sa propre compréhension du langage ! Un article du MIT révèle le processus de réflexion sur un grand modèle |

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Crécy vient du temple Aofei
    Qubits | Compte public QbitAI

Les grands modèles peuvent former votre propre compréhension du monde réel !

Une étude du MIT a révélé qu’à mesure qu’un modèle devient plus performant, sa compréhension de la réalité peut aller au-delà de la simple imitation.

Par exemple, si le grand modèle n’a jamais senti d’odeur, cela veut-il dire qu’il ne peut pas comprendre les odeurs ?

Des recherches ont montré qu’il peut simuler spontanément certains concepts pour en faciliter la compréhension.

Cette recherche signifie queLes grands modèles devraient permettre à l’avenir de mieux comprendre le langage et le monde., le document a été accepté par ICML 24.



Les auteurs de cet article sont le doctorant chinois Charles Jin et son superviseur, le professeur Martin Rinard du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL).

Au cours de l'étude, l'auteur a demandé au grand modèle d'apprendre uniquement le texte du code et a constaté que le modèle en comprenait progressivement le sens.

Le professeur Rinard a déclaré que cette recherche cible directement une question centrale de l'intelligence artificielle moderne——

Les capacités des grands modèles découlent-elles simplement de corrélations statistiques à grande échelle, ou génèrent-elles une compréhension significative des problèmes du monde réel qu’ils sont censés résoudre ?


△Source : site officiel du MIT

Dans le même temps, cette recherche a également suscité de nombreuses discussions.

Certains internautes ont déclaré que même si les grands modèles peuvent comprendre le langage différemment des humains, cette étude montre au moins que le modèle fait plus que simplement mémoriser les données d'entraînement.



Laissez les grands modèles apprendre le code pur

Afin de déterminer si les grands modèles peuvent produire une compréhension au niveau sémantique, l'auteur a construit uneCode du programme et ses entrées et sorties correspondantesensemble de données synthétiques.

Ces programmes de code sont écrits à l'aide d'un programme appeléKarelIl est écrit dans un langage pédagogique et est principalement utilisé pour réaliser la tâche de navigation d'un robot dans un monde en grille 2D.

Ce monde en grille se compose de grilles 8x8, chaque grille peut contenir des obstacles, des marqueurs ou des espaces ouverts. Le robot peut se déplacer entre les grilles et effectuer des opérations telles que placer/ramasser des marqueurs.

Le langage Karel contient cinq opérations primitives : move (un pas en avant), turnLeft (tourner à gauche de 90 degrés), turnRight (tourner à droite de 90 degrés), pickMarker (ramasser un marqueur), putMarker (placer un marqueur). opérations primitives. Une séquence d’opérations.



Les auteurs ont généré de manière aléatoire un ensemble de formation contenant 500 000 programmes Karel, chaque programme ayant une durée comprise entre 6 et 10.

Chaque échantillon de formation se compose de trois parties : 5 états d'entrée, 5 états de sortie et un code de programme complet. Les états d'entrée et de sortie sont codés en chaînes dans un format spécifique.

À l'aide de ces données, les auteurs ont formé une variante du modèle CodeGen de l'architecture standard de Transformer.

Pendant le processus de formation, le modèle peut accéder aux informations d'entrée et de sortie et au préfixe de programme dans chaque échantillon, maisImpossible de voir la trajectoire complète et les états intermédiaires d'exécution du programme

En plus de l'ensemble de formation, l'auteur a également construit un ensemble de tests contenant 10 000 échantillons pour évaluer les performances de généralisation du modèle.

Afin d'étudier si le modèle de langage saisit la sémantique derrière le code et en même temps comprend profondément le « processus de réflexion » du modèle, l'auteur a conçu une combinaison de détecteurs comprenant un classificateur linéaire et un MLP à couche cachée simple/double.

L'entrée du détecteur est l'état caché du modèle de langage dans le processus de génération de jetons de programme, et la cible de prédiction est l'état intermédiaire d'exécution du programme, y compris l'orientation du robot, son décalage par rapport à la position initiale et s'il fait face. vers l'avant. Vers l'obstacle (obstacle) ces trois caractéristiques.

Au cours du processus de formation du modèle génératif, l'auteur a enregistré les trois caractéristiques ci-dessus toutes les 4 000 étapes, et a également enregistré l'état caché du modèle génératif pour former un ensemble de données de formation pour le détecteur.



Trois étapes d'apprentissage de grands modèles

En observant comment la diversité, la perplexité et d'autres indicateurs des programmes générés par le modèle linguistique évoluent avec le processus de formation, l'auteur divise le processus de formation en trois étapes -

  • Étape de babillage : le programme de sortie est très répétitif et la précision du détecteur est instable.
  • Étape d'acquisition de la grammaire : la diversité du programme augmente rapidement, la précision de la génération augmente légèrement et la confusion diminue, indiquant que le modèle de langage a acquis la structure syntaxique du programme.
  • Étape d'acquisition sémantique : le degré de diversité du programme et la maîtrise de la structure syntaxique sont stables, mais la précision de la génération et les performances du détecteur sont grandement améliorées, indiquant que le modèle de langage a acquis la sémantique du programme.

Plus précisément, l'étape Babbling occupe les premiers 50 % de l'ensemble du processus de formation. Par exemple, lorsque la formation atteint environ 20 %, quelle que soit la spécification saisie, le modèle ne générera qu'un programme fixe - "pickMarker" répété 9 fois.

L'étape d'acquisition de la grammaire représente 50 à 75 % du processus de formation. La perplexité du modèle sur le programme Karel a considérablement diminué, ce qui indique que le modèle linguistique a commencé à mieux s'adapter aux caractéristiques statistiques du programme Karel, mais la précision de le programme généré ne s'est pas amélioré de manière significative (d'environ 10 % à environ 25 %), il ne peut toujours pas accomplir la tâche avec précision.

L'étape d'acquisition sémantique représente les derniers 25 %. La précision du programme s'est fortement améliorée, passant d'environ 25 % à plus de 90 %. Le programme généré peut accomplir avec précision la tâche donnée.



D'autres expériences ont montré que le détecteur peut non seulement prédire le pas de temps de synchronisation au temps t, mais égalementPrédire l'état d'exécution du programme aux pas de temps suivants

Par exemple, supposons que le modèle génératif génère le jeton « move » au temps t et génère « turnLeft » au temps t+1.

Dans le même temps, l'état du programme au temps t est que le robot est face au nord et est situé aux coordonnées (0,0), tandis que le robot au temps t+1 sera que le robot sera face à l'ouest, avec la position inchangé.

Si le détecteur peut prédire avec succès à partir de l'état caché du modèle de langage au temps t que le robot fera face à l'ouest au temps t+1, cela signifie qu'avant de générer "turnLeft", l'état caché contient déjà le changement d'état provoqué par ce informations sur le fonctionnement.

Ce phénomène montre que le modèle n'a pas seulement une compréhension sémantique de la partie de programme générée, mais qu'à chaque étape de génération, il a déjà anticipé et planifié le contenu à générer ensuite, montrant un aperçu préliminaireCapacités de raisonnement tournées vers l’avenir

Mais cette découverte a posé de nouvelles questions à cette recherche——

L’amélioration de la précision observée dans l’expérience est-elle réellement une amélioration du modèle génératif, ou est-ce le résultat de la propre inférence du détecteur ?

Afin de lever ce doute, l'auteur a ajoutéExpérience d'intervention de détection sémantique



L'idée de base de l'expérience est de changer les règles d'interprétation sémantique des opérations du programme, qui sont divisées en deux méthodes : « flip » et « contradictoire ».

« Flip » est une inversion forcée du sens de l'instruction. Par exemple, « turnRight » est interprété de force comme « tourner à gauche ». Cependant, seuls « turnLeft » et « turnRight » peuvent effectuer ce type d'inversion ;

"adversarial" brouille de manière aléatoire la sémantique correspondant à toutes les instructions. La méthode spécifique est présentée dans le tableau ci-dessous.



Si l'état caché du modèle génératif code uniquement la structure syntaxique du programme plutôt que les informations sémantiques, alors le détecteur devrait toujours être capable d'extraire les informations sémantiques modifiées de l'état caché avec des performances équivalentes.

Au contraire, si les performances du détecteur diminuent de manière significative, cela signifie que l’amélioration des performances montrée par le détecteur est bien due au fait que l’état caché du modèle génératif code la sémantique réelle.

Les résultats expérimentaux montrent que les performances du détecteur chutent considérablement sous les deux nouvelles sémantiques.

Cela est particulièrement évident dans le mode « contradictoire », ce qui est également cohérent avec la particularité que la sémantique de ce mode est significativement différente de la sémantique d'origine.



Ces résultats excluent fortement la possibilité que le détecteur « apprenne tout seul le mappage sémantique » et confirment en outre que le modèle génératif saisit bien le sens du code.

Adresse papier :
https://icml.cc/virtual/2024/poster/34849
Liens de référence :
[1]https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814
[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_develop_their_own_understanding_of_reality/