nouvelles

Le modèle mondial se rapproche à nouveau ? Recherche étonnante du MIT : LLM a simulé le monde réel et n’est plus un perroquet aléatoire !

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse]Des chercheurs du MIT CSAIL ont découvert que LLM avait développé une simulation de la réalité « au plus profond de son cœur », et que la compréhension du langage et du monde par le modèle était bien plus qu'un simple « perroquet ». En d’autres termes, à l’avenir, le LLM comprendra le langage plus profondément qu’aujourd’hui.

Quelle est la distance entre LLM et le modèle mondial ?

L’année dernière, un article du MIT aboutissait à une conclusion surprenante : au sein du LLM, il existe un modèle mondial.

LLM apprend non seulement les statistiques de surface, mais apprend également un modèle mondial incluant les latitudes de base telles que l'espace et le temps.


De plus, le MIT a récemment découvert qu'au plus profond du LLM, une simulation de la réalité s'est développée, et que leur compréhension du langage va bien au-delà de la simple imitation !


Adresse papier : https://arxiv.org/abs/2305.11169

Plus précisément, deux chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT ont découvert que :

Même si LLM est formé pour apprendre un langage de programmation en utilisant uniquement l'objectif de « prédire le prochain jeton », qui semble n'inclure que de pures probabilités statistiques, le modèle peut toujours apprendre la sémantique formelle du programme.

Cela suggère que les modèles linguistiques peuvent développer leur propre compréhension de la réalité comme moyen d’améliorer leurs capacités génératives.


Par conséquent, le LLM pourrait un jour comprendre le langage à un niveau plus profond qu’aujourd’hui.

Cet article a été accepté par ICML 2024 et le code utilisé dans l'expérience a été publié sur GitHub.


Adresse de l'entrepôt : https://github.com/charlesjin/emergent-semantics

Sans yeux, LLM ne serait-il pas capable de « voir » ?

Demandez à GPT-4 de sentir un camping détrempé par la pluie et il refusera poliment.


Pourtant, cela vous donnera une description poétique : il y a un arôme frais de terre et une odeur rafraîchissante de pluie, avec des notes de pin ou de feuilles mouillées.

GPT-4 n'a jamais vu la pluie et n'a pas de nez, mais il peut imiter le texte qui existe dans de grandes quantités de données d'entraînement.

L'absence d'une paire d'yeux signifie-t-elle que le modèle de langage ne pourra jamais comprendre « un lion est plus gros qu'un chat domestique » ?


Le LLM peut-il comprendre le monde réel et divers concepts abstraits ? Ou êtes-vous simplement en train de « répéter » et de vous fier uniquement à la probabilité statistique pour prédire le prochain jeton ?

Le principe de fonctionnement du LLM reste un mystère non résolu. Les grands du cercle de l’IA lanceront de temps en temps un débat sur cette question.

LeCun croit fermement que l'intelligence de LLM est définitivement surestimée ! Son affirmation la plus célèbre est qu '«un grand modèle de langage n'est pas aussi bon qu'un chat à la maison».

"Les chats peuvent se souvenir, ils peuvent comprendre le monde physique, ils peuvent planifier des actions complexes et ils peuvent raisonner dans une certaine mesure. C'est en fait mieux que les plus grands modèles. Cela signifie que nous avons des lacunes importantes au niveau conceptuel et que nous ne pouvons pas les combler. des machines comme des animaux. Aussi intelligentes que les humains.


Beaucoup de gens expliquent cela comme un phénomène purement statistique. Le LLM ne fait que « répéter » et imiter le texte qui existe dans un grand nombre de corpus de formation. Il n'a pas le même niveau d'intelligence ou de perception que les humains.

Mais voilà, les recherches du MIT prouvent que ce n’est pas le cas !

Au sein du LLM, il y a définitivement une compréhension du monde réel.

LLM résout le puzzle de Karel, qu'est-ce que cela signifie

Afin d'explorer ce mystère, des chercheurs du MIT CSAIL ont développé un ensemble de petits puzzles Karel.


Présentez brièvement ce qu'est le puzzle de Karel

Cela implique que le modèle utilise des instructions pour contrôler les actions du robot dans un environnement simulé.


Spécification de la grammaire Karel

Ils forment ensuite le LLM à apprendre une solution spécifique sans démontrer son fonctionnement.

Enfin, l'auteur propose une technique d'apprentissage automatique appelée « sondage » pour acquérir une compréhension approfondie du « processus de réflexion » lorsque le modèle génère de nouvelles solutions.


Le chercheur construit des exemples de formation en échantillonnant un programme de référence aléatoire, puis échantillonne 5 entrées aléatoires et exécute le programme pour obtenir les 5 sorties correspondantes. Le LM est entraîné pour la prédiction du prochain jeton sur un corpus d'exemples constitué d'entrées et de sorties entrelacées, suivi de la procédure de référence. Au moment du test, les chercheurs fournissent au LM des spécifications d'entrée et de sortie invisibles et utilisent un décodage glouton pour prédire le programme.

Après s'être entraînés sur plus d'un million d'énigmes aléatoires, les chercheurs ont découvert que le modèle formait spontanément un concept de l'environnement simulé sous-jacent ! Bien qu'ils n'aient pas été exposés à ces informations pendant la formation.

Ce résultat remet non seulement en question notre impression inhérente du LLM, mais remet également en question notre compréhension de la nature du processus de réflexion——

Quels types d’informations sont nécessaires dans le processus d’apprentissage de la sémantique ?


Au début de l'expérience, les instructions aléatoires générées par le modèle étaient presque impossibles à exécuter, mais une fois la formation terminée, la précision des instructions atteignait 92,4 % ;

Jin, le premier auteur de l'article, a déclaré : « C'est un moment très excitant car nous pensons que si le modèle linguistique peut accomplir la tâche avec cette précision, nous nous attendons également à ce qu'il puisse comprendre le sens du langage. »

"Cela nous a donné un point de départ pour explorer si LLM peut effectivement comprendre le texte, et nous voyons maintenant que le modèle est capable de bien plus que simplement assembler aveuglément des mots."

Ouvrez le cerveau de LLM

Au cours de cette expérience, Jin a été témoin de ces progrès.

Pourquoi LLM pense-t-il que ces instructions signifient cela ?

Il a découvert que LLM avait développé sa propre simulation interne de la façon dont le robot se déplacerait en réponse à chaque commande.

À mesure que la capacité du modèle à résoudre des problèmes difficiles devient de plus en plus élevée, ces concepts deviennent de plus en plus précis, ce qui montre que LM commence à comprendre les instructions.

En peu de temps, le LLM a réussi à rassembler correctement les pièces dans les instructions de travail.


Contenu sémantique mesuré par différents classificateurs de sondes (vert)

sonde de réflexion

La principale contribution aux découvertes mentionnées ci-dessus est une « sonde pensante ».

Il s'agit d'un outil efficace pour intervenir dans le processus de réflexion LLM. L'article l'appelle « sondage ».


Plus précisément, l'état du LM contient des enregistrements purement syntaxiques des programmes d'entrée et générés, mais la sonde semble être capable d'apprendre à comprendre les interprétations abstraites.

Dans l'expérience réelle, l'auteur a d'abord construit l'ensemble de données de suivi d'état de LLM, puis a utilisé des méthodes d'apprentissage supervisé standard pour former un petit modèle en tant que sonde, tel qu'un classificateur linéaire ou un MLP à 2 couches.


Contenu sémantique des deux états abstraits actuels et suivants dans la seconde moitié de la formation (MLP 1 couche)

Cependant, un problème important est que la sonde doit être séparée du processus de réflexion réel du modèle ou des instructions générées.

Bien que le seul objectif de la sonde soit « d’entrer dans le cerveau de LLM », et si elle réfléchissait également pour le modèle ?

Ce que les chercheurs doivent garantir, c'est que le LLM puisse comprendre les instructions indépendamment de la sonde, plutôt que de laisser la sonde déduire les actions du robot en fonction de la compréhension de la syntaxe par le LLM.

Imaginez qu'il y ait un ensemble de données codant pour le processus de réflexion du LLM, où le rôle de la sonde ressemble à celui d'un analyste médico-légal.

Nous avons donné cette pile de données à l'analyste et lui avons dit : « C'est le mouvement du robot. Essayez de découvrir comment le robot se déplace dans cette pile de données. L'analyste a dit qu'il connaissait le robot dans cette pile de données. » . Que se passe-t-il.


Mais que se passerait-il si cette pile de données codait simplement des instructions brutes et que les analystes avaient trouvé un moyen astucieux d’extraire les instructions et d’agir en conséquence ?

Dans ce cas, LLM ne comprend pas vraiment le sens de ces instructions.

À cette fin, les chercheurs ont élaboré une conception ingénieuse : ils ont créé un « monde étrange » pour le modèle.

Dans ce monde, la signification de la commande sonde est inversée, par exemple « haut » signifie en fait « bas ».


Par exemple, exec(turnRight,·) dans la sémantique d'origine fera tourner le robot de 90 degrés dans le sens des aiguilles d'une montre, tandis que exec adversarial(turnRight,·) poussera le robot dans un espace.

Cela garantit que la sonde n'est pas « opportuniste » et apprend et comprend directement comment LLM code les instructions.

Un auteur Jin l'a présenté de cette façon——

Si la sonde doit traduire des instructions vers l'emplacement du robot, elle doit également être capable de traduire des instructions ayant une signification étrange.

Mais si la sonde recherche réellement l’encodage des mouvements originaux du robot dans le processus de pensée du modèle de langage, elle devrait alors avoir du mal à extraire les mouvements étranges du robot des processus de pensée originaux.

Il a été constaté que la sonde comportait des erreurs de traduction et était incapable d'interpréter des modèles de langage avec des significations d'instructions différentes.

Cela signifie que la sémantique d'origine est intégrée dans le modèle de langage, indiquant que le LLM est capable de comprendre les instructions requises indépendamment du classificateur de détection d'origine.


La première moitié décrit comment les deux conditions ont abouti à un contenu sémantique élevé des mesures avant l'intervention. La partie inférieure montre pourquoi les deux hypothèses sont séparées : si la représentation LM ne contient que de la grammaire (en bas à gauche), alors il devrait être possible d'entraîner la sonde alt pour apprendre à interpréter les enregistrements en termes d'état alternatif prog (résultat en gras rouge) cependant, si la représentation LM contient un état abstrait d'origine codé (en bas à droite), alors la détection de alt nécessite l'extraction de l'état alternatif « prog » de l'état d'origine prog, ce qui entraîne un contenu sémantique inférieur (résultat en gris gras)


LLM comprend le langage, comme un enfant

Il est intéressant de noter que Jin a découvert que la compréhension du langage en LLM se développe par étapes, tout comme les enfants apprennent une langue en plusieurs étapes.

Au début, il babillera comme un bébé, et ses mots seront répétitifs et la plupart d'entre eux seront difficiles à comprendre.


LLM commence alors à récupérer les règles de grammaire ou de langage afin de pouvoir générer des instructions qui ressemblent à de vraies solutions, mais elles ne fonctionnent toujours pas.

Cependant, les instructions LLM s'amélioreront progressivement.


Une fois que le modèle acquiert un sens, il commence à générer des instructions pour la mise en œuvre correcte de la spécification requise, un peu comme un enfant construisant des phrases.

Les résultats sont présentés dans la figure 2. On peut voir que la compréhension du langage par LLM est grossièrement divisée en trois étapes, tout comme les enfants qui apprennent une langue.

  • Babbling (partie grise) : occupe environ 50 % de l'ensemble du processus d'entraînement, génère des programmes très répétitifs et la précision est stable autour de 10 %

  • Acquisition de syntaxe (partie orange) : 50 % à 75 % du processus de formation, la diversité des résultats générés augmente fortement, les attributs syntaxiques changent de manière significative, et le modèle commence à modéliser le token du programme, mais la précision de la génération est la l'amélioration n'est pas évidente

  • Acquisition sémantique (partie jaune) : 75 % du processus de formation se termine, la diversité est presque inchangée, mais la précision de la génération augmente considérablement, indiquant l'émergence d'une compréhension sémantique


L’expérience a utilisé trois architectures de sondes différentes à des fins de comparaison, à savoir le classificateur linéaire, le MLP monocouche et le MLP à 2 couches.

Lors de la prévision avec 2 étapes d'avance, la valeur absolue de la précision de la prédiction MLP à 2 couches est supérieure à la prédiction du modèle de base avec l'état actuel. Il est peut-être possible de supposer qu'avant que LLM ne génère des instructions, son processus de réflexion et « l'intention » de générer des instructions ont été stockés à l'intérieur du modèle.


LLM = modèle mondial ?

Cette étude explique comment LLM réfléchit à la signification de chaque instruction dans les données d'entraînement et simule la réponse du robot aux instructions dans son état interne.

Tout cela renvoie à une question centrale dans la recherche actuelle en IA : les capacités surprenantes des LLM sont-elles simplement dues à des corrélations statistiques à grande échelle, ou aboutissent-elles à une compréhension significative de leur réalité ?

La recherche montre que LLM a développé un modèle interne qui simulait la réalité, même s'il n'a jamais été formé pour développer ce modèle.


De plus, les modèles linguistiques peuvent approfondir davantage la compréhension du langage.

Cependant, un seul article ne peut à lui seul répondre pleinement à cette question.

L'auteur Jin a également admis que cette recherche présente certaines limites : ils n'ont utilisé qu'un langage de programmation Karel très simple et une architecture de modèle de sonde très simple.

Les travaux futurs se concentreront sur des contextes expérimentaux plus généraux et exploiteront également pleinement les connaissances sur le « processus de pensée » du LLM pour améliorer les méthodes de formation.

Rinard, un autre auteur de cet article, a déclaré : « Une question ouverte intéressante est la suivante : lors de la résolution de problèmes de navigation de robot, LLM utilise-t-il un modèle de réalité interne pour raisonner sur la réalité ?

Bien que les résultats présentés dans l’article puissent étayer cette conclusion, l’expérience n’a pas été conçue pour répondre à cette question.

Ellie Pavlick, professeur adjoint au Département d'informatique et de linguistique de l'Université Brown, a hautement apprécié la recherche.

Elle a déclaré que comprendre le fonctionnement du LLM nous permet d’avoir des attentes plus raisonnables quant aux possibilités et aux limites inhérentes à cette technologie. Cette étude explore exactement cette question dans un environnement contrôlé.

Le code informatique, comme le langage naturel, possède à la fois une syntaxe et une sémantique ; mais contrairement au langage naturel, la sémantique du code est plus intuitive et peut être directement contrôlée en fonction des besoins expérimentaux.

"La conception expérimentale est élégante et leurs résultats sont prometteurs, ce qui suggère que le LLM peut peut-être fournir une compréhension plus profonde de la "signification" du langage."

Présentation de l'auteur

Le premier auteur de cet article, Charles Jin, est doctorant au département EECS du MIT et au laboratoire CSAIL. Son superviseur, Martin Rinard, est un autre auteur de cet article. Ses recherches portent sur l'apprentissage automatique robuste et la synthèse de programmes.


Jin est diplômé de l'Université de Yale avec un baccalauréat et une maîtrise en informatique et en mathématiques. Il a déjà travaillé comme analyste chez Weiss Asset Management et comme stagiaire de recherche chez Google Brain pendant son doctorat.

Références :

https://the-decoder.com/training-langage-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-lingual-abilities-improve-0814