Le dernier article d'OpenAI permet aux modèles super puissants de s'expliquer

Texte/AI Future Guide, auteur Hao Boyang

Editeur/Zhou Xiaoyan

Aujourd'hui, OpenAI a publié un nouvel article, qui est le « travail posthume » de la défunte équipe OpenAI Super Alignment. Il propose une nouvelle façon d’améliorer l’interprétabilité du modèle, qui consiste à laisser le modèle expliquer sa propre logique, et plus il est facile à expliquer, mieux c’est.

Cette idée n’est en fait pas nouvelle, mais tout le monde a déjà utilisé le mot-clé projet pour le faire. Utilisez des invites telles que des chaînes de pensée pour forcer l'IA à expliquer ses réponses. Mais ne serait-il pas préférable que le modèle soit mieux à même d’expliquer dès le départ ? Ensuite, vous devez faire quelques ajustements pendant le processus de formation du modèle. Pour atteindre cet objectif, OpenAI a proposé une méthode appelée « formation à l'inspectabilité ». Une méthode appelée « jeu certificateur-vérificateur » est utilisée pour améliorer la capacité du modèle à s’expliquer. J'ai finalement constaté que cette méthode est effectivement utile.

Comment ont-ils fait exactement ?

Nous voulons former une IA très intelligente (appelons-la un « prouveur ») pour résoudre des problèmes mathématiques. Nous espérons que cette IA pourra non seulement donner la bonne réponse, mais aussi l’expliquer clairement et la rendre facile à comprendre pour les gens. Cependant, si nous laissons simplement l’IA rechercher la bonne réponse, elle peut développer une manière très complexe et difficile à comprendre de résoudre les problèmes.

Par exemple, dans l'exemple ci-dessous, la réponse donnée par le modèle est correcte, mais la méthode de preuve est très indescriptible. Il est donc difficile pour les utilisateurs ordinaires, y compris les clients des secteurs exigeant une haute précision, de juger si leurs idées sont correctes.

Alors pour éviter cette situation, les chercheurs ont mis au point une méthode astucieuse :

1. Ils créent une IA « arbitre » (appelée « validateur »). Cet arbitre n'est pas aussi intelligent que l'IA de résolution de problèmes, mais son travail consiste à juger si la réponse de l'IA de résolution de problèmes est correcte et claire.

2. Ensuite, ils ont demandé à l'IA chargée de résoudre les problèmes de jouer deux rôles : un « bon élève » (IA utile), essayant de donner des réponses correctes et claires ; et un « élève méchant » (IA rusée), essayant de donner des réponses correctes ; semblent corrects mais sont en réalité subtilement faux.

3. Les deux « étudiants » tentent de convaincre l’IA arbitre que leur réponse est correcte.

4. Au fil du temps, l'IA de l'arbitre devient de plus en plus performante pour identifier les réponses correctes et incorrectes. Dans le même temps, l’IA du « bon élève » a appris à expliquer les problèmes plus clairement, tandis que l’IA du « méchant élève » a appris à commettre des erreurs plus subtiles.

5. Le processus se répète comme un jeu en cours.

Ce processus est le « jeu du certificateur-vérificateur ». Ainsi, après plusieurs cycles de formation, les explications du modèle deviennent de plus en plus claires. Par exemple, après un cycle de formation de ce type, l’interprétation du modèle est bien meilleure.

(Les résultats du premier cycle de formation sont déjà détaillés)

Après cinq tours, le modèle peut vous expliquer le sujet sur le ton d'un enseignant du primaire.

(Résultats du cinquième cycle de formation)

Et ce « vérificateur » d’arbitre IA a également évolué sous la pression de l’IA rusée. Devenir meilleur pour discerner si les réponses sont vraies ou fausses. Même si l’IA rusée fait des affirmations fantastiques, il sera plus facile d’y trouver des failles.

(C'est la réponse de Cunning AI, elle a l'air tout à fait correcte)

(Au fil du temps, le niveau de l'IA rusée s'améliore également)

Ce faisant, les chercheurs d'OpenAI ont également découvert une méthode appeléeLe phénomène de la « taxe de compréhension » selon lequel plus le résultat de l'IA est compréhensible, plus il est probable qu'elle sacrifie un certain niveau de performance ou de précision.

Ils ont réalisé un schéma pour représenter ce phénomène.

Sur la photo, Axe X : représente la précision du générateur de modèle, Axe Y : représente la précision des évaluateurs humains, utilisée ici comme mesure de lisibilité. Un modèle qui effectue directement un apprentissage par renforcement (RL) sans « formation à l'inspectabilité » a de fortes capacités mais une faible interprétabilité. Les modèles qui ont suivi une « formation à l'inspectabilité » peuvent améliorer la précision tout en conservant la même interprétabilité. Mais il y a une limite. La « taxe d’intelligibilité » marquée par une flèche rouge sur la figure est la performance qui doit être sacrifiée sans perdre en interprétabilité.

À quoi sert exactement cette recherche ? Nous pouvons également voir à partir des exemples ci-dessus qu’une méthode d’explication plus facile à comprendre pour l’IA de l’arbitre est également plus facile à comprendre pour nous, les humains.ce Cela montre que nous pouvons utiliser des modèles plus petits et plus faciles à entraîner pour remplacer les commentaires d'annotations humaines (tels que RHLF) afin d'améliorer la compréhensibilité des sorties de grands modèles. Le document accorde de grandes attentes à cette méthode. Ils soutiennent qu’« une telle autonomie sera particulièrement importante pour l’alignement des futurs systèmes d’IA superintelligents, dans le but de garantir que les systèmes d’IA s’alignent de manière fiable sur les valeurs et les attentes humaines sans surveillance humaine directe ».

Rappelons que le travail pionnier de l'équipe Super Alignment était l'idée d'utiliser des modèles faibles pour superviser des modèles forts. Il semble que, face à l'idéal originel du super alignement, ils essaient en réalité d'utiliser diverses méthodes pour y parvenir. C'est dommage que les choses aient changé, l'équipe est partie et on n'entend plus que la dernière réverbération.

nouvelles

Le dernier article d'OpenAI permet aux modèles super puissants de s'expliquer

Le dernier article d'OpenAI permet aux modèles super puissants de s'expliquer

Introduction

mes coordonnées