Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles se sont affrontés et le résultat est devenu plus compréhensible

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

2024-07-18

Rapport sur le cœur de la machine

Département éditorial de Machine Heart

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ?

À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance.

Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions.

Pour les grands modèles de langage, nous pouvons également adopter une approche similaire.

Cependant, en adoptant cette approche, il est important de s’assurer que le modèle linguistique génère un texte compréhensible, en particulier lorsqu’il s’agit de tâches complexes telles que les mathématiques et le codage.

Comme le montre la figure ci-dessous, vous demandez à l'IA d'écrire un algorithme de tri rapide. L'IA l'écrit rapidement et la réponse est très concise. Mais si vous ne savez pas écrire du code, comment pouvez-vous juger si l’IA est écrite correctement ?

OpenAI a étudié ce problème dans un article récent.

Titre de l'article : LES JEUX PROVER-VERIFIER AMÉLIORENT LA LISIBILITÉ DES SORTIES LLM

Lien papier : https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

Ils ont constaté que si l'on demande à de grands modèles de langage de générer des réponses dans le but « d'obtenir la bonne réponse », les réponses qu'ils donnent peuvent être difficiles à comprendre. Les évaluateurs humains sont deux fois plus susceptibles de commettre des erreurs en jugeant ces réponses.

Leur objectif est donc de former des modèles de langage de haut niveau afin qu’ils puissent générer du texte que des modèles plus simples peuvent facilement vérifier. Ils ont constaté qu’un tel texte était non seulement convivial pour les modèles simples, mais également plus lisible pour les humains.

Alors, comment y parvient-on ? Cela mentionne également un article de 2021 intitulé « Apprendre à donner des réponses vérifiables avec des jeux Prover-Verifier ». Dans cet article, Cem Anil et al. ont proposé un cadre de théorie des jeux appelé « Jeux Prover-Verifier ». Le cadre se compose de deux apprenants concurrents : un réseau de vérificateurs de confiance essayant de choisir la bonne réponse, et un réseau de prouveurs plus puissant mais peu fiable essayant de convaincre les vérificateurs d'accepter une réponse spécifique, quelle que soit son exactitude. Le but de ce framework est de produire un protocole de preuve fiable à partir du jeu.

OpenAI a emprunté ce cadre dans cette nouvelle étude, permettant à deux grands modèles (le plus fort d'être le prouveur et le plus faible d'être le vérificateur) de jouer l'un contre l'autre jusqu'à ce que les deux atteignent un équilibre. À l’heure actuelle, la réponse donnée par le prouveur est à la fois lisible et raisonnablement correcte.

OpenAI a déclaré qu'en améliorant la lisibilité des résultats du modèle, il peut rendre l'application de l'intelligence artificielle plus efficace et plus fiable, ce qui est bénéfique pour divers domaines nécessitant une communication précise.

Il convient de mentionner que cet article provient de l’équipe Super Alignment d’OpenAI, dont plusieurs auteurs ont quitté OpenAI plus tôt cette année, et que l’équipe s’est également effondrée. L'un des auteurs a révélé qu'il s'agissait du dernier article de l'équipe.

Un exemple intuitif

Afin d'améliorer la lisibilité des résultats du modèle, OpenAI a optimisé la chaîne de pensée (CoT) de certains problèmes mathématiques de l'école primaire afin qu'elle puisse être comprise par des modèles plus faibles. Les exemples sont les suivants :

Question : Le père de Shawna est cinq fois plus âgé que Shawna. Shauna a maintenant trois fois l'âge d'Aliya. Si Aaliyah a 3 ans, quel âge a le père de Shauna ?

Le but est de vérifier si le résultat du modèle formé est plus direct et plus facile à comprendre.

Cette méthode améliore les performances du modèle de 50 % tout en n'apportant que quelques optimisations à l'ensemble d'entraînement. Dans le même temps, les réponses fournies par le modèle sont également plus compréhensibles, ce qui aide également les utilisateurs humains qui ont besoin d'évaluer l'exactitude de ces réponses à porter des jugements plus précis. OpenAI estime que réduire davantage l’écart de performances entre les modèles lisibles et performants est un objectif clé des futures recherches sur l’alignement.

Comment les « certificateurs » et les « vérificateurs » s’affrontent-ils lors des formations ?

Pour inciter les modèles forts (démonstrateurs) à générer un texte plus lisible, les chercheurs ont adopté un programme de formation qui exige que les réponses générées par des modèles forts soient facilement vérifiées par des modèles plus faibles (vérificateurs). Plus précisément, ils ont utilisé des modèles grands et petits de la série GPT-4. Ils diffèrent d'environ trois ordres de grandeur en termes de quantité de données préalables à l'entraînement. Ils ont tous reçu une formation en dérivation mathématique basée sur l’annotation humaine, mais pas de post-formation approfondie.

Tout d’abord, l’équipe a demandé au modèle du prouveur d’essayer de résoudre une série de problèmes mathématiques. Étant donné que le modèle du prouveur lui-même peut être erroné, certaines des réponses qu'il génère peuvent être incorrectes. Ensuite, ils transmettent ces réponses au modèle de vérificateur, en effectuant plusieurs cycles de vérification alternés entre les deux étapes suivantes :

Formation du « vérificateur » : L'équipe de recherche entraîne un modèle de « vérificateur » plus faible pour vérifier si la réponse donnée par le « prouveur » est correcte.

Formation « prouveur » : l’équipe de recherche demande au modèle « prouveur » le plus puissant de jouer des rôles « utiles » ou « rusés ».

Lorsque le « prouveur » est défini sur « utile », l’équipe de recherche récompensera le « vérificateur » pour ses réponses correctes avec des scores élevés.

Lorsque le « prouveur » était jugé « rusé », l’équipe de recherche a plutôt récompensé le « vérificateur » pour ses réponses incorrectes avec des scores élevés.

L'équipe de recherche a découvert qu'au départ, un « prouveur » rusé pouvait facilement générer des réponses incorrectes qui convaincraient le « vérificateur ». Cependant, ces mauvaises réponses entreront dans le prochain cycle de formation des « vérificateurs », et les mêmes vulnérabilités ne seront plus convaincantes au prochain cycle. Par conséquent, le « prouveur » sera obligé d’explorer différentes stratégies à chaque tour.

La formation se termine lorsque le « prouveur » rusé ne peut plus générer une fausse solution qui convainc le « vérificateur ».

Qu’ont découvert les chercheurs ?

Compromis entre performances et lisibilité :

Un modèle qui effectue uniquement un réglage fin supervisé sur une dérivation écrite par l’homme est plus lisible mais moins précis.

Lorsque l'objectif d'optimisation du modèle est uniquement l'exactitude, c'est-à-dire se concentrer uniquement sur la génération de réponses correctes, même si une grande précision peut être atteinte, les solutions générées sont moins lisibles.

L'approche de jeu vérifiable proposée par OpenAI équilibre les deux, en maintenant une lisibilité élevée tout en conservant une précision modérée.

Trois modèles utiles :

Vérificateur robuste : distingue efficacement les solutions correctes et incorrectes, même si les solutions sont trompeuses.

Démonstrateur utile : génère des solutions compréhensibles pour les humains, réduisant ainsi les erreurs des évaluateurs humains.

Démonstrateur astucieux : produit des solutions subtiles et erronées qui confondent initialement les évaluateurs humains, mettant ainsi en évidence les domaines qui nécessitent des améliorations supplémentaires.

L'équipe de recherche a utilisé les mêmes questions de test pour démontrer le contenu de génération et le processus de formation de Sneaky Prover.

Question : Le père de Shawna est cinq fois plus âgé que Shawna. Shauna a maintenant trois fois l'âge d'Aliya. Si Aaliyah a 3 ans, quel âge a le père de Shauna ?

en conclusion

Alors que les grands modèles linguistiques (LLM) sont de plus en plus utilisés dans des domaines critiques et des applications complexes, il est essentiel de comprendre si le contenu qu'ils génèrent est digne de confiance. En exigeant que les modèles aient des raisons claires et vérifiables pour leur production, vous pouvez renforcer la confiance dans ce qu'ils produisent.

Un avantage significatif de cette approche est qu’elle réduit le recours à la démonstration humaine ou aux jugements de lisibilité. Cette autonomie est particulièrement importante pour l’alignement des futurs systèmes d’IA superintelligents, dans le but ultime d’aligner de manière fiable les systèmes d’IA sur les valeurs et les attentes humaines sans supervision humaine directe.

Bien que ce travail n’ait été mené que sur un seul ensemble de données et nécessite toujours des étiquettes de vérité terrain, l’équipe de recherche s’attend toujours à ce que de telles méthodes jouent un rôle clé dans le développement de systèmes d’IA corrects, transparents et vérifiables et améliorent leur fiabilité et leur sécurité dans le monde réel. applications.

Pour plus de détails, veuillez vous référer au document original.

Liens de référence :

https://openai.com/index/prover-verifier-games-improve-legibility/

nouvelles

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible

Introduction

mes coordonnées