nouvelles

Le "dernier" papier de super-alignement d'OpenAI : jeu de grands et petits modèles, lisibilité de sortie améliorée

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Crécy vient du temple Aofei
Qubits | Compte public QbitAI

laisserLes grands et petits modèles se font concurrence, vous pouvez améliorer la lisibilité du contenu généré !

Il s'agit d'une recherche sérieuse d'OpenAI. L'objectif est de rendre les résultats du modèle plus faciles à comprendre tout en garantissant leur précision.

Après la formation avec cette méthode, la précision du jugement humain sur la sortie du modèle a considérablement augmenté et la vitesse est également devenue plus rapide.



La recherche, menée par la défunte équipe « Hyper-Alignment » d’OpenAI, imite une étude réalisée en 2021 par des universitaires de l’Université de Toronto.Jeu "Prouveur-Vérificateur"

Pendant le processus de formation, OpenAI laisse le grand modèle servir de « certificateur » et le petit modèle de « vérificateur », permettant à ces deux identités de se faire concurrence.

En fin de compte, les résultats du grand modèle ne sont pas seulementC’est plus facile à comprendre et il n’y a pas de perte évidente de précision., le niveau de jugement du petit modèle s'est également amélioré.

Même l'un des auteurs de l'article, Yining Chen, chercheur à OpenAI, a déclaré que cette approche "a le potentiel de rendre les futurs modèles plus intelligents que les humains".

Il est à noter que l'ancien chef de la Super Alignment Team et auteur de RLHFJan LeikeIl a également participé à cette recherche. Lorsqu'il a quitté son emploi, il a critiqué OpenAI pour ne pas prêter attention à la sécurité.

Cependant, à la fin du tweet de Jan Leike présentant ce journal, il faisait une publicité pour Anthropic (fabricant Claude) où il doit désormais recruter du personnel.



Un autre auteur de l'article, le chercheur d'OpenAI Nat McAleese, a révélé dans un tweet qu'il s'agirait du dernier (final) article de super alignement d'OpenAI.



Cette nouvelle a rendu certains internautes très excités, disant que cela ne devait pas être le dernier article Nat, vous continuerez à faire du super alignement, n'est-ce pas ?



Laissez les modèles jouer les uns contre les autres

La recherche OpenAI a révélé que le contenu généré par les grands modèles présente certains freins et contrepoids dans les deux dimensions de précision et de lisibilité——

Si vous optimisez avec votre propre précision comme objectif, cela entraînera une diminution de la lisibilité ; si vous prenez la lisibilité comme objectif, votre propre précision sera perdue.

Même pour des tâches simples de niveau mathématique à l'école primaire, il est facile de constater l'écart, qu'OpenAI appelle la « taxe de compréhensibilité ».



Cependant, la capacité des humains à comprendre le contenu généré par le modèle constitue une condition préalable importante pour pouvoir porter des jugements précis et a donc également un impact important sur la sécurité.

Même en mettant cela de côté, la compréhensibilité du contenu détermine directement si le modèle peut apporter une aide utile aux humains.

Cette recherche s'est inspirée du jeu « certificateur-vérificateur » proposé par des chercheurs de l'Université de Toronto en 2021 et a entraîné le modèle à travers le jeu.

prouveurPossédant une puissante puissance de calcul et la capacité d’effectuer des calculs complexes et de générer des preuves, la tâche consiste à tenter de convaincre le vérificateur qu’une certaine affirmation est correcte.

validateurSeuls des calculs relativement simples peuvent alors être effectués, et un processus interactif est nécessaire pour déterminer si la preuve fournie par le prouveur est crédible.

Par exemple, il existe un problème mathématique qui nécessite de résoudre l’expression d’une fonction. Le prouveur connaît l’expression (mais pas nécessairement correcte) et veut faire croire au vérificateur que sa réponse est correcte.

Le vérificateur connaît les valeurs de fonction correspondant à certaines variables indépendantes et peut utiliser ces informations pour tester le prouveur et juger s'il connaît la fonction correcte en fonction de l'exactitude de sa réponse.

De cette manière, OpenAI s’efforce d’atteindre un équilibre entre précision et lisibilité, en échangeant relativement peu de perte de précision contre une plus grande lisibilité.

Dans ce projet, l'équipe OpenAI a utilisé un ensemble de données contenant des problèmes mathématiques, des solutions et des réponses correctes à l'école primaire.

Pour le modèle, des modèles de la série GPT-4 de différentes tailles ont été sélectionnés, les plus grands servant de prouveurs et les plus petits servant de vérificateurs.

L'ensemble de données est divisé de manière aléatoire en deux sous-ensembles de taille égale, qui sont utilisés respectivement pour la formation du prouveur et du vérificateur.

Le prouveur se voit attribuer deux rôles : respectivement utile et sournois, générant respectivement des solutions correctes et incorrectes.

Mais ce qu’ils ont en commun, c’est qu’ils ont tous deux besoin que leurs solutions reçoivent des notes élevées de la part du vérificateur.


△L'évolution du prouveur rusé au cours de plusieurs cycles de formation

Ces deux rôles ne sont pas figés et le prouveur a besoinÀ tour de rôle, sont récompensés lorsque les comportements sont cohérents avec le rôle joué.

La formation est divisée en plusieurs tours. À chaque tour, l'équipe extraira un lot d'échantillons corrects et incorrects des solutions générées par les deux prouveurs du tour précédent.

Ces échantillons seront utilisés comme données de formation du validateur pour le cycle en cours. Le validateur est formé par apprentissage supervisé pour améliorer l'exactitude de son jugement et permettre au validateur d'obtenir des scores plus élevés pour les solutions correctes que pour les solutions incorrectes.

Dans ce processus, le prouveur rusé exhorte constamment le vérificateur à améliorer la précision de son jugement, et le vérificateur rend également le contenu généré par le prouveur plus cohérent avec les préférences de notation. Les deux réalisent des progrès communs grâce à des jeux mutuels.



Une condition préalable importante pour obtenir des scores élevés est que le contenu généré puisse être compris par le vérificateur. De cette manière, tant que les préférences humaines sont introduites dans le vérificateur, l'interprétabilité du contenu de sortie du modèle peut être améliorée.

Équilibre entre précision et lisibilité

En fin de compte, une telle méthode de formation basée sur le jeu permet d’atteindre un bon équilibre entre une grande précision et une grande compréhensibilité.

La méthode de formation traditionnelle se concentre uniquement sur la précision du modèle lui-même. À mesure que le processus de formation progresse, la précision des réponses augmente, mais les jugements portés par les humains deviennent de plus en plus inexacts et plus lents.



Depuis que l’équipe OpenAI a introduit les préférences humaines dans le vérificateur, la précision du jugement du vérificateur est dans une certaine mesure liée à l’humain.

Les résultats finaux ont également confirmé que le modèle (prouveur) formé à l'aide de cette méthode de jeu permet aux humains de formuler des jugements plus rapides et plus précis à mesure que le nombre de cycles d'entraînement augmente sans perte significative de précision.

Après avoir comparé la méthode de base, il n'est pas difficile de constater que la précision du jugement humain dépasse 82 % après 5 tours, mais que la ligne de base est inférieure à 75 % après 7 000 étapes d'entraînement ;

En termes de temps, le temps de base du jugement humain est proche de 27 secondes, et la nouvelle méthode n'est que d'un peu plus de 26 secondes.



De plus, pour le vérificateur, au fur et à mesure de la formation, sa robustesse augmente progressivement, et il peut identifier plus précisément les mauvaises réponses.



En plus de l'évaluation de l'efficacité de cette méthode de formation basée sur le jeu, l'équipe OpenAI a également fait d'autres découvertes au cours du processus de recherche :

  • L'impact de la taille du validateur : trop petit conduira à une formation instable, et trop grand rendra difficile l'amélioration de la robustesse au cours de plusieurs cycles de formation. Un millième à un centième du prouveur a le meilleur effet.
  • Les erreurs dans les solutions malveillantes deviennent de plus en plus subtiles et localisées avec la formation, ce qui indique que le validateur pousse le prouveur perfide à générer des exemples contradictoires plus proches de la vraie solution.
  • À mesure que le nombre d’époques de formation augmente, la précision des évaluateurs humains sur le prouveur perfide diminue.
Encore une chose

Depuis que l'équipe Super Alignment qui a produit cette recherche a été dissoute et est désormais responsable des problèmes de sécurité, la stratégie de sécurité d'OpenAI a de nouveau retenu l'attention.

Concernant cette question, Mira Murati, CTO d'OpenAI, a accepté une interview exclusive à l'Université Johns Hopkins au début du mois.

Mira a déclaré au cours de cette période qu'OpenAI n'avait pas « mis le produit (priorité) avant la sécurité », comme l'a accusé Jan Leike, l'ancien chef de l'équipe Super Alignment.

Dans le même temps, elle a également déclaré que bien que l'équipe Super Alignment ait été dissoute, Super Alignment n'est en fait que l'une des multiples équipes de sécurité d'OpenAI, et de nombreuses personnes dans l'entreprise sont toujours engagées dans des travaux de sécurité.



Liens de référence :
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542