OpenAI lanza PVG: utilice modelos pequeños para verificar los resultados de los modelos grandes y resolver el problema de la "caja negra"

OpenAI lanza PVG: utilice modelos pequeños para verificar la salida del modelo grande para resolver el problema de la "caja negra"

2024-07-18

En la madrugada del 18 de julio, OpenAI publicó la última investigación tecnológica, Prover-Verifier, en su sitio web oficial.Juegos。

Dado que ChatGPT se utiliza ampliamente en campos como el derecho, las finanzas y el marketing, es muy importante garantizar que el resultado del modelo sea seguro, preciso y bien comprendido. Sin embargo, debido a la complejidad y variabilidad de las redes neuronales, simplemente no podemos verificar la precisión del contenido que generan, lo que resultará en una salida de "caja negra".

Para resolver este problema, OpenAI propuso un nuevo marco de entrenamiento Prover-Verifier Games ("PVG" para abreviar. Por ejemplo, se utilizan modelos pequeños como GPT-3 para verificar y supervisar la salida del modelo grande GPT-4). , mejorando así la precisión y controlabilidad de la salida.

De hecho, el concepto de tecnología PVG se propuso ya en agosto de 2021 en un artículo. OpenAI también se inspiró en esta inspiración. Este es un método de entrenamiento basado en la teoría de juegos que mejora la calidad de salida del modelo al simular la interacción entre el probador y el verificador.

En este mecanismo, la tarea del Prover es generar contenido y la tarea del Verificador es determinar si el contenido es correcto.

La idea central del módulo PVG es mejorar el rendimiento general del probador y del verificador mediante múltiples rondas de capacitación iterativa. En cada ronda de capacitación, el verificador primero utiliza el aprendizaje supervisado para predecir la exactitud del contenido muestreado de los probadores de la ronda anterior.

El propósito de esto es permitir que el verificador aprenda a identificar la respuesta correcta entre una gran cantidad de contenido. Luego, el probador utiliza el aprendizaje por refuerzo para optimizar el contenido generado de modo que no solo sea correcto sino también convincente para el verificador.

En el proceso de verificación, los roles del probador y del verificador son interdependientes.El probador debe generar contenido que convenza al verificador, y el verificador debe tener suficiente criterio para identificar el contenido correcto.。

Para mejorar aún más la eficiencia, OpenAI ha diseñado dos tipos mejorados de probadores sobre esta base, el probador útil y el probador furtivo.

El objetivo de un prover útil es generar contenido que sea correcto y persuasivo. Optimiza el contenido que genera para que pueda ser aceptado por los validadores.

Los probadores astutos intentan engañar a los verificadores generando contenido incorrecto pero igualmente convincente. Este diseño no solo aumenta la dificultad del entrenamiento, sino que también requiere que el verificador tenga mayor criterio y solidez.

Al entrenar PVG, cada ronda de entrenamiento incluye la optimización del verificador y del probador. En cada ronda, el verificador utiliza primero el aprendizaje supervisado para predecir la exactitud del contenido, lo que le ayuda a aprender a identificar la respuesta correcta entre una gran cantidad de contenido. Permite a los probadores optimizar el contenido generado mediante el aprendizaje por refuerzo.

Por ejemplo, cuando un usuario hace la pregunta "El padre de Shauna tiene 5 veces la edad de Shauna. Shauna tiene actualmente 3 veces la edad de Aaliyah. Si Aaliyah tiene 3 años, ¿cuántos años tiene el padre de Shauna?"

La producción de GPT-4 tiene 45 años.

El modelo de verificación GPT-3 necesita determinar la edad de Alya, luego calcular la edad de Shauna en función de la edad de Alya y, finalmente, calcular la edad del padre de Shauna en función de la edad de Shauna. Todo el proceso requiere múltiples rondas de verificación.

Además, durante el proceso de formación, OpenAI también introdujo un método llamado "entrenamiento de verificabilidad".

Verifique la exactitud del uso del aprendizaje supervisado para predecir soluciones muestreadas de rondas anteriores de probadores entrenando alternativamente los modelos de verificador y probador. El probador utiliza el aprendizaje por refuerzo para optimizar continuamente en función de la aceptación de la ronda actual de validadores y la corrección de la solución.

Los investigadores dicen , a medida que aumenta el número de rondas de entrenamiento, la solidez del verificador mejora gradualmente, lo que se manifiesta en una mayor resistencia a las soluciones incorrectas generadas por astutos manifestantes. Al mismo tiempo, las soluciones generadas por argumentadores útiles se vuelven más claras y fáciles de entender para los humanos.

Sin embargo, cabe señalar que al entrenar el modelo de verificación, se necesita una gran cantidad de datos de etiquetas reales y precisos para mejorar su capacidad de distinguir lo verdadero de lo falso. En otras palabras, si el modelo de verificación utilizado está sesgado, el contenido de la verificación aún puede generarse ilegalmente.

El material de este artículo proviene del sitio web y los documentos oficiales de OpenAI. Si hay alguna infracción, contáctenos para eliminarla.

noticias

OpenAI lanza PVG: utilice modelos pequeños para verificar la salida del modelo grande para resolver el problema de la "caja negra"

Introducción

Mi informacion de contacto