OpenAI publie PVG : utilisez de petits modèles pour vérifier les sorties de grands modèles afin de résoudre le problème de la « boîte noire »

OpenAI publie PVG : utilisez de petits modèles pour vérifier la sortie de grands modèles afin de résoudre le problème de la « boîte noire »

2024-07-18

Tôt le matin du 18 juillet, OpenAI a publié la dernière recherche technologique - Prover-Verifier - sur son site officiel.Jeux。

Comme ChatGPT est largement utilisé dans des domaines tels que le droit, la finance et le marketing, il est très important de garantir que le résultat du modèle est sûr, précis et bien compris. Cependant, en raison de la complexité et de la variabilité des réseaux neuronaux, nous ne pouvons tout simplement pas vérifier l'exactitude du contenu qu'ils génèrent, ce qui entraînera une sortie « boîte noire ».

Afin de résoudre ce problème, OpenAI a proposé un nouveau cadre de formation Prover-Verifier Games (« PVG » en abrégé). Par exemple, de petits modèles tels que GPT-3 sont utilisés pour vérifier et superviser la sortie du grand modèle GPT-4. , améliorant ainsi la précision et la contrôlabilité de la sortie.

En fait, le concept de technologie PVG a été proposé dès août 2021 dans un article , OpenAI s'est également inspiré de cette inspiration. Il s'agit d'une méthode de formation basée sur la théorie des jeux qui améliore la qualité de sortie du modèle en simulant l'interaction entre le prouveur et le vérificateur.

Dans ce mécanisme, la tâche du prouveur est de générer du contenu et la tâche du vérificateur est de déterminer si le contenu est correct.

L'idée principale du module PVG est d'améliorer les performances globales du prouveur et du vérificateur grâce à plusieurs cycles de formation itérative. À chaque cycle de formation, le vérificateur utilise d’abord l’apprentissage supervisé pour prédire l’exactitude du contenu échantillonné auprès des prouveurs du cycle précédent.

Le but est de permettre au vérificateur d’apprendre à identifier la bonne réponse parmi une grande quantité de contenu. Le prouveur utilise ensuite l’apprentissage par renforcement pour optimiser son contenu généré afin qu’il soit non seulement correct mais également convaincant pour le vérificateur.

Dans le processus de vérification, les rôles du prouveur et du vérificateur sont interdépendants.Le prouveur doit générer un contenu qui convainc le vérificateur, et le vérificateur doit avoir suffisamment de jugement pour identifier le contenu correct.。

Afin d'améliorer encore l'efficacité, OpenAI a conçu deux types améliorés de prouveurs sur cette base, Helpiveprover et Sneaky prouver.

L’objectif d’un prouveur utile est de générer un contenu correct et convaincant. Il optimise le contenu qu'il génère afin qu'il puisse être accepté par les validateurs.

Et les prouveurs astucieux tentent de tromper les vérificateurs en générant un contenu incorrect mais tout aussi convaincant. Cette conception augmente non seulement la difficulté de la formation, mais exige également du vérificateur qu'il fasse preuve d'un jugement et d'une robustesse plus élevés.

Lors de la formation PVG, chaque cycle de formation comprend l'optimisation du vérificateur et du prouveur. À chaque tour, le vérificateur utilise d'abord l'apprentissage supervisé pour prédire l'exactitude du contenu, l'aidant ainsi à apprendre à identifier la bonne réponse parmi une grande quantité de contenu. Permet aux prouveurs d’optimiser leur contenu généré grâce à l’apprentissage par renforcement.

Par exemple, lorsqu'un utilisateur pose la question "Le père de Shauna a 5 fois l'âge de Shauna. Shauna a actuellement 3 fois l'âge d'Aaliyah. Si Aaliyah a 3 ans, quel âge a le père de Shauna ?"

La sortie de GPT-4 a 45 ans.

Le modèle de vérification GPT-3 doit déterminer l'âge d'Alya, puis calculer l'âge de Shauna en fonction de l'âge d'Alya, et enfin calculer l'âge du père de Shauna en fonction de l'âge de Shauna. L'ensemble du processus nécessite plusieurs cycles de vérification.

De plus, au cours du processus de formation, OpenAI a également introduit une méthode appelée « formation à la vérifiabilité ».

Vérifiez l'exactitude de l'utilisation de l'apprentissage supervisé pour prédire les solutions échantillonnées auprès des prouveurs des cycles précédents en entraînant alternativement les modèles de vérificateur et de prouveur. Le prouveur utilise l'apprentissage par renforcement pour optimiser en permanence en fonction de l'acceptation de la série actuelle de validateurs et de l'exactitude de la solution.

Les chercheurs disent , à mesure que le nombre de cycles de formation augmente, la solidité du vérificateur s'améliore progressivement, se manifestant par une résistance accrue aux solutions incorrectes générées par des manifestants rusés. Dans le même temps, les solutions générées par des arguments utiles deviennent plus claires et plus faciles à comprendre pour les humains.

Cependant, il convient de noter que lors de la formation du modèle de vérificateur, une grande quantité de données d'étiquette réelles et précises est nécessaire pour améliorer sa capacité à distinguer le vrai du faux. En d’autres termes, si le modèle de vérification utilisé est biaisé, le contenu de la vérification peut toujours être produit illégalement.

Le contenu de cet article provient du site Web officiel et des documents d'OpenAI. En cas d'infraction, veuillez nous contacter pour la supprimer.

nouvelles

OpenAI publie PVG : utilisez de petits modèles pour vérifier la sortie de grands modèles afin de résoudre le problème de la « boîte noire »

Introduction

mes coordonnées