nouvelles

Les deux petits modèles peuvent-ils se vérifier et se comparer directement avec le grand modèle ? Le rStar de Microsoft n'utilise même pas CoT

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Rapport sur le cœur de la machine

Editeur : Panda

Enregistrez-vous les uns avec les autres pour que les petits modèles puissent résoudre de gros problèmes.

Le LLM est connu pour être puissant, mais pas assez puissant pour effectuer un raisonnement complexe.

Par exemple, sur l'ensemble de données GSM8K, Mistral-7B ne peut atteindre qu'une précision de 36,5 %, même en utilisant des technologies telles que Chain of Thought (CoT). Bien que le réglage fin puisse effectivement améliorer efficacement les capacités de raisonnement, la plupart des LLM reposent sur des données de réglage fin qui ont été distillées par des modèles plus puissants tels que GPT-4, ou peuvent même avoir été synthétisées par ces modèles puissants.

Dans le même temps, les chercheurs développent également activement une méthode auxiliaire mais plus difficile : utiliser un meilleur LLM de l'enseignant pour améliorer la capacité de raisonnement.

Afin d’améliorer la capacité de raisonnement sans un meilleur modèle, un paradigme prometteur consiste à utiliser les connaissances du LLM lui-même. Par exemple, une méthode appelée RAP adopte une solution d’auto-exploration, c’est-à-dire qu’elle améliore de manière itérative les performances de raisonnement du LLM grâce à un feedback auto-récompensant. Malheureusement, les recherches montrent que ce paradigme pose deux problèmes fondamentaux.

Premièrement, LLM a souvent du mal à explorer efficacement l’espace des solutions lors de l’inférence. Cette approche auto-exploratoire reste souvent bloquée dans un espace de solutions en raison d’étapes de raisonnement de mauvaise qualité, même après plusieurs tentatives.

Deuxièmement, même si l'auto-exploration trouve des étapes d'inférence de haute qualité, il est difficile pour une petite version du grand modèle de langage (SLM) de discerner quelles étapes d'inférence sont de meilleure qualité et de déterminer si la réponse finale est correcte, ce qui la rend difficile de guider efficacement l’auto-exploration. La recherche montre que l’auto-exploration guidée basée sur des récompenses régulières de base ne donne pas de meilleurs résultats qu’une estimation aléatoire.

Ce qui est encore plus gênant, c'est que les petites versions de grands modèles de langage (SLM) sont plus sujettes aux deux problèmes ci-dessus car elles sont moins performantes. Par exemple, GPT-4 peut améliorer les résultats de sortie grâce à l'auto-optimisation, mais il est difficile pour SLM de le faire et peut même entraîner une diminution de la qualité des résultats de sortie. Cela entravera sérieusement la vulgarisation et l’application des modèles de langage neuronal.

En réponse à ces problèmes, une équipe de recherche de Microsoft Research Asia et de l’Université Harvard a proposé le Self-play muTuAl Reasoning, ou rStar en abrégé. En termes simples, cette méthode revient à demander à deux étudiants médiocres de vérifier mutuellement leurs réponses aux copies d'examen et, finalement, d'améliorer leurs scores au point de pouvoir même rivaliser avec les meilleurs universitaires. L'équipe affirme que rStar "peut améliorer les capacités d'inférence de SLM sans ajustement ni amélioration des modèles".



  • Titre de l'article : Le raisonnement mutuel permet aux petits LLM de mieux résoudre les problèmes
  • Adresse papier : https://arxiv.org/pdf/2408.06195
  • Adresse du code : https://github.com/zhentingqi/rStar (pas encore publié)

méthode

Afin de résoudre les problèmes ci-dessus, rStar divise le processus de raisonnement en deux parties : la génération de solutions et la vérification mutuelle, comme le montre la figure 2.



Pour relever le premier défi, l’équipe a introduit une collection d’actions de raisonnement riches, semblables à celles des humains, qui explorent en profondeur un espace diversifié de tâches de raisonnement.

Pour le deuxième problème, ils ont conçu une fonction de récompense spécifiquement pour la SLM, capable d'évaluer les étapes intermédiaires, évitant ainsi de s'appuyer sur leur auto-évaluation, souvent peu fiable.

De plus, l’équipe a également utilisé un autre SLM comme discriminateur pour améliorer le processus MCTS, en vérifiant mutuellement l’exactitude de chaque trajectoire avec le discriminateur SLM.

Utilisez MCTS Rollout pour générer vous-même des trajectoires d'inférence

Une riche collection d’actions de raisonnement de type humain. Le cœur de la génération MCTS réside dans l’espace d’action, qui définit la portée de l’exploration des arbres. La plupart des méthodes basées sur MCTS utilisent un seul type d'action lors de la construction de l'arborescence. Par exemple, l'action dans RAP consiste à poser la sous-question suivante, tandis que l'action dans AlphaMath et MindStar consiste à générer l'étape de raisonnement suivante. Cependant, s’appuyer sur un seul type d’action peut facilement conduire à une mauvaise exploration spatiale.

Pour résoudre ce problème, l’équipe s’est penchée sur la façon dont les humains raisonnent. Différentes personnes résolvent les problèmes de différentes manières : certaines personnes divisent le problème en sous-problèmes, d'autres résolvent le problème directement et d'autres encore reformulent le problème sous un autre angle. De plus, les gens ajusteront également leurs méthodes en fonction de l'état actuel et choisiront différentes actions en fonction des besoins.

Inspirée par le processus de raisonnement humain, l'équipe a construit un ensemble de données plus riche contenant 5 types d'actions pour maximiser le potentiel de la SLM à résoudre correctement des problèmes de raisonnement complexes.

Action 1 : Proposer une étape de réflexion. Pour un problème donné, cette action amènera LLM à générer l'étape suivante d'idées basée sur les étapes de raisonnement existantes.

Action 2 : Suggérez les étapes de réflexion restantes. Cette action, comme le CoT standard, permet une « réflexion rapide » pour résoudre des problèmes simples en quelques étapes seulement. Compte tenu des étapes d'inférence générées, cela permettra à LLM de générer directement les étapes restantes jusqu'à ce que la réponse finale soit obtenue.

Action 3 : Proposer la sous-question suivante et sa réponse.

Action 4 : Répondez à nouveau à cette sous-question. Considérant que l’action 3 peut ne pas répondre correctement à la sous-question correspondante, le rôle de cette action est d’y répondre à nouveau.

Action 5 : Reformuler le problème/sous-problème. Cette nouvelle démarche consiste à reformuler le problème de manière plus simple. Plus précisément, l'objectif ici est que le LLM répertorie clairement toutes les conditions dans l'énoncé du problème.

Les cinq actions ci-dessus définissent un espace d'action très diversifié {A1, A2, A3, A4, A5}.

A chaque étape i, MCTS sélectionne une action a_i dans cet espace. Ensuite, en fonction de l'état actuel (c'est-à-dire la trajectoire générée précédemment x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}), utilisez cette action a_i pour laisser LLM générer la prochaine étape d'inférence s_i. Veuillez noter que certaines actions doivent être effectuées dans l'ordre. La figure 3 donne un exemple.



Comme le montre le tableau 1, chaque action joue un rôle important dans l'amélioration de la précision de l'inférence finale.



  • fonction de récompense

Un autre élément clé de MCTS est la fonction de récompense, qui évalue la valeur de chaque action et fournit des instructions pour l'expansion de l'arbre. Pour SLM, l’équipe a conçu une fonction de récompense simple mais efficace. Leur approche, inspirée d'AlphaGo, note chaque nœud intermédiaire en fonction de sa contribution à la bonne réponse finale. De cette façon, les actions qui conduisent souvent à des réponses correctes recevront des récompenses plus élevées et auront plus de chances d'être sélectionnées dans les futures extensions de l'arborescence MCTS.

Ici, la valeur de récompense du nœud s générée après l'exécution de l'action a est définie comme Q (s, a). Initialement, tous les nœuds inexplorés se voient attribuer Q (s_i, a_i) = 0, réalisant ainsi une expansion aléatoire de l'arbre. Lorsque vous atteignez le premier nœud final n_d, un score de récompense Q (s_d, a_d) est calculé selon qu'il obtient la bonne réponse.

Ce score est ensuite rétropropagé à chaque nœud intermédiaire le long de la trajectoire t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. Plus précisément, pour chaque s_i, sa valeur Q est mise à jour comme suit : Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Pour calculer Q(s_d, a_d) pour un nœud final, la valeur de récompense utilisée ici est la probabilité (confiance) d'un vote majoritaire cohérent.

  • Utiliser le déploiement MCTS pour générer des solutions

Ce qui suit décrit la manière dont MCTS génère des trajectoires d'inférence candidates. À partir du nœud racine initial s_0, diverses recherches, notamment la sélection, l'expansion, la simulation et la rétropropagation, sont effectuées. Plus précisément, la simulation utilise la stratégie de déploiement par défaut. Afin d'obtenir une estimation plus précise des récompenses, l'équipe effectuera plusieurs déploiements. Pour équilibrer l'exploration et l'exploitation, ils utilisent la célèbre UCT (limite supérieure de confiance de l'arbre) pour sélectionner chaque nœud. La forme mathématique de ce processus de sélection est la suivante :

Où N (s, a) est le nombre de visites au nœud s dans l'itération précédente, et N_parent (s) représente le nombre de visites au nœud parent de s. Q (s, a) est la valeur de récompense estimée, qui est mise à jour lors de la rétropropagation. c’est une constante qui équilibre l’exploration et l’exploitation.

Une fois que la recherche atteint un nœud final (qui peut être un état terminal, ou elle peut atteindre une profondeur d'arbre maximale prédéfinie d), une trajectoire de la racine au nœud final peut être obtenue. Toutes les trajectoires obtenues par itération de déploiement sont collectées en tant que solutions candidates. Ensuite, ils doivent être vérifiés.

Utiliser la réciprocité pour sélectionner des trajectoires d'inférence

Sur la base de l’ensemble des trajectoires collectées, l’équipe a proposé d’utiliser la cohérence inférentielle pour sélectionner les réponses.

  • Atteindre la cohérence des inférences grâce au discriminateur SLM

Comme le montre la figure 2, en plus du SLM cible, l'équipe a également introduit un discriminateur SLM, dont le rôle est de fournir un retour externe non supervisé pour chaque trajectoire candidate.

Plus précisément, pour t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d, masquez les étapes d'inférence commençant à une étape i échantillonnée de manière aléatoire. Ensuite, la trajectoire d'inférence précédente t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} est fournie au discriminateur SLM comme une invite pour le laisser terminer les étapes restantes. Puisque les étapes de raisonnement i-1 précédentes sont utilisées comme indices, la difficulté est réduite et le discriminateur SLM est plus susceptible de donner la bonne réponse.

La figure 4 compare si la réponse d'achèvement du discriminateur SLM correspond à la trajectoire d'origine t. Si les deux sont cohérents, t est considéré comme une trajectoire vérifiée qui peut être finalement sélectionnée.



La trajectoire finale est sélectionnée par le SLM cible. Après avoir appliqué la cohérence d'inférence à toutes les trajectoires candidates, revenez au SLM cible et laissez-le sélectionner la trajectoire finale parmi les trajectoires vérifiées. Pour calculer le score final de chaque trajectoire, l'équipe a multiplié sa récompense par le score de confiance de son nœud final obtenu grâce au déploiement. La trajectoire avec le score final le plus élevé est sélectionnée comme solution.

expérience

Configuration expérimentale

rStar convient à une variété de tâches LLM et d'inférence. L'équipe a évalué 5 SLM : Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.

Il y a 5 tâches de raisonnement testées, dont 4 tâches mathématiques (GSM8K, GSM-Hard, MATH, SVAMP) et 1 tâche de bon sens (StrategyQA).

Veuillez visiter l'article original pour les détails expérimentaux.

Principaux résultats

L'équipe a d'abord évalué l'efficacité de rStar sur des critères d'inférence généraux. Le tableau 2 compare la précision de rStar et d'autres méthodes de pointe sur différents ensembles de données SLM et d'inférence. Pour démontrer l'efficacité du nouveau générateur, l'équipe fournit également la précision de rStar (générateur @maj), qui n'utilise pas de discriminateur et utilise uniquement le vote majoritaire pour vérifier la réponse.



L’équipe a noté trois résultats clés :

1. SLM optimisé par rStar a de plus fortes capacités de résolution de problèmes. Par exemple, sur l'ensemble de données GSM8K, la précision de LLaMA2-7B utilisant CoT sur quelques échantillons n'est que de 12,51 %. Mais avec l'aide de rStar, sa précision a augmenté jusqu'à 63,91 %, ce qui est proche de la précision obtenue par réglage fin, comme le montre la figure 1. De même, les performances de Mistral utilisant rStar sont même 4,18 % supérieures à celles de la version affinée de MetaMath. Une telle amélioration montre que le SLM lui-même possède déjà de fortes capacités de raisonnement, mais qu’il a besoin de conseils pour générer et sélectionner les bonnes réponses.



2. rStar peut améliorer de manière stable la précision d'inférence de divers SLM évalués sur différentes tâches jusqu'au meilleur niveau actuel. En comparaison, d’autres méthodes de comparaison ne peuvent pas obtenir systématiquement de bonnes performances sur les quatre critères de référence. Par exemple, bien que SC (auto-cohérence) soit bon dans trois tâches mathématiques, il ne peut pas résoudre efficacement la tâche de raisonnement logique de StrategyQA.

3. Même sans le discriminateur nouvellement proposé pour vérifier les trajectoires d'inférence, le générateur MCTS nouvellement proposé fonctionne toujours bien pour améliorer la précision d'inférence du SLM. Par exemple, sur l'ensemble de données GSM8K, la précision de rStar (générateur @maj) est de 2,88 % à 16,39 % supérieure à celle de RAP, de 10,60 % à 38,37 % supérieure à celle de ToT et de 1,69 % à 7,34 % supérieure à celle de SC.

  • Résultats sur des ensembles de données mathématiques difficiles

L'équipe a également évalué rStar sur un ensemble de données mathématiques plus difficiles. À cette fin, ils ont sélectionné les ensembles de données GSM-Hard et MATH. Suivant la convention d'études similaires, ils ont utilisé MATH-500, un sous-ensemble de problèmes représentatifs de l'ensemble de données MATH. Ceci est fait pour améliorer la vitesse d’évaluation. Comme le montrent les tableaux 2 et 3, rStar peut améliorer considérablement la précision d'inférence de SLM sur ces ensembles de données mathématiques difficiles.



étude d'ablation

  • Efficacité des différents déploiements

rStar utilise la stratégie de déploiement pour effectuer l'expansion de l'arborescence MCTS. Un plus grand nombre de déploiements générera davantage de trajectoires de solutions candidates, mais augmentera également le coût de l'inférence. La figure 5 compare la précision de SC, RAP et rStar lors de l'utilisation de différents déploiements sur GSM8K.



Deux observations clés sont faites ici :

1. Même avec seulement 2 déploiements, rStar peut améliorer considérablement la précision d'inférence de SLM, ce qui montre son efficacité ;

2. Un plus grand nombre de déploiements est bénéfique à la fois pour rStar et SC, tandis que le RAP a tendance à être saturé ou même à décliner après 4 déploiements. L'une des raisons est que l'espace d'action de type unique du RAP limitera l'efficacité de l'exploration des SCTM.

  • Efficacité du générateur MCTS

L'équipe a comparé les performances du générateur MCTS avec celles de trois autres générateurs. Comme le montre le tableau 4, le générateur MCTS nouvellement proposé surpasse largement les autres générateurs. De plus, l'efficacité des fonctions de récompense adaptées à la SLM est démontrée, car l'auto-évaluation réduit la précision des nouveaux générateurs.



  • L'efficacité du discriminateur

L'équipe a mis en place deux expériences d'évaluation.

La première expérience compare la méthode discriminante aux méthodes de vote majoritaire et d’autovalidation. Les résultats sont présentés dans le tableau 5 (à gauche). On constate que les avantages de la méthode de discrimination sont très significatifs.



La deuxième expérience consiste à étudier l’impact de différents modèles discriminateurs. Les résultats sont présentés dans le tableau 5 (à droite). On peut voir que le choix de différents modèles de discriminateur n'affecte généralement pas l'effet de la méthode de cohérence d'inférence pour vérifier la réponse. Il convient de noter que même en utilisant le puissant GPT-4 comme discriminateur, les performances ne s'améliorent que légèrement (de 91,13 % à 92,57 %). Cela montre que la méthode de cohérence inférentielle peut utiliser efficacement la SLM pour vérifier les réponses.