noticias

El "último" documento de súper alineación de OpenAI: juego de modelos grandes y pequeños, legibilidad de salida aumentada

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Crecy proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

dejarLos modelos grandes y pequeños compiten entre sí, ¡puedes mejorar la legibilidad del contenido generado!

Esta es una investigación seria de OpenAI. El objetivo es hacer que el resultado del modelo sea más fácil de entender y al mismo tiempo garantizar la precisión.

Después del entrenamiento con este método, la precisión del juicio humano sobre la salida del modelo ha aumentado significativamente y la velocidad también se ha vuelto más rápida.



La investigación, del extinto equipo "Hyper-Alignment" de OpenAI, imita un estudio de 2021 realizado por académicos de la Universidad de Toronto.Juego "Proverificador-Verificador"

Durante el proceso de capacitación, OpenAI permite que el modelo grande sirva como "certificador" y el modelo pequeño como "verificador", lo que permite que estas dos identidades compitan entre sí.

Al final, los resultados de salida del modelo grande no son soloEs más fácil de entender y no hay una pérdida obvia de precisión., el nivel de juicio del modelo pequeño también ha mejorado.

Incluso uno de los autores del artículo, el investigador de OpenAI Yining Chen, dijo que este enfoque "tiene el potencial de hacer que los modelos futuros sean más inteligentes que los humanos".

Cabe mencionar que el exjefe del Super Alignment Team y autor de RLHFJan LeikeTambién participó en esta investigación. Cuando dejó su trabajo, criticó a OpenAI por no prestar atención a la seguridad.

Sin embargo, al final del tweet de Jan Leike al presentar este artículo, estaba anunciando Anthropic (fabricante de Claude), donde ahora está reclutando personas.



Otro autor del artículo, el investigador de OpenAI Nat McAleese, reveló en un tweet que este será el último (final) artículo de súper alineación de OpenAI.



Esta noticia emocionó mucho a algunos internautas, diciendo que este no debe ser el último artículo, Nat, seguirás haciendo súper alineación, ¿verdad?



Deja que los modelos jueguen unos contra otros.

La investigación de OpenAI encontró que el contenido generado por modelos grandes tiene algunos controles y equilibrios en las dos dimensiones de precisión y legibilidad——

Si optimiza con su propia precisión como objetivo, conducirá a una disminución en la legibilidad; si toma la legibilidad como objetivo, su propia precisión se perderá.

Incluso en tareas simples de matemáticas de la escuela primaria, es fácil ver la brecha, que OpenAI llama el "impuesto de comprensibilidad".



Sin embargo, si los humanos pueden comprender el contenido generado por el modelo es un requisito previo importante para emitir juicios precisos y, por lo tanto, también tiene un impacto importante en la seguridad.

Incluso dejando esto de lado, la comprensibilidad del contenido determina directamente si el modelo puede aportar ayuda útil a los humanos.

Esta investigación se inspiró en el juego "certificador-verificador" propuesto por académicos de la Universidad de Toronto en 2021 y entrenó el modelo a través del juego.

tirador de pruebasAl poseer una poderosa potencia informática y la capacidad de realizar cálculos complejos y generar pruebas, la tarea consiste en intentar convencer al verificador de que una determinada afirmación es correcta.

validadorEntonces sólo se pueden realizar cálculos relativamente simples y se requiere un proceso interactivo para determinar si la prueba proporcionada por el demostrador es creíble.

Por ejemplo, hay un problema matemático que requiere resolver la expresión de una función. El probador conoce la expresión (pero no necesariamente es correcta) y quiere que el verificador crea que su respuesta es correcta.

El verificador conoce los valores de la función correspondientes a algunas variables independientes y puede usar esta información para probar al probador y juzgar si conoce la función correcta en función de si su respuesta es precisa.

De esta manera, OpenAI se esfuerza por lograr un equilibrio entre precisión y legibilidad, intercambiando una pérdida de precisión relativamente pequeña por una mayor legibilidad.

En este proyecto, el equipo de OpenAI utilizó un conjunto de datos que contenía problemas, soluciones y respuestas correctas de matemáticas de la escuela primaria.

Para el modelo se seleccionaron modelos de la serie GPT-4 de diferentes tamaños, sirviendo los más grandes como probadores y los más pequeños como verificadores.

El conjunto de datos se divide aleatoriamente en dos subconjuntos de igual tamaño, que se utilizan para el entrenamiento del probador y del verificador respectivamente.

Al demostrador se le asignan dos roles: útil y astuto respectivamente, generando soluciones correctas e incorrectas respectivamente.

Pero lo que tienen en común es que ambos necesitan que el verificador les dé altas puntuaciones a sus soluciones.


△La evolución del astuto demostrador en múltiples rondas de entrenamiento.

Estos dos roles no son fijos y el probador necesitaTurnarse, son recompensados ​​cuando los comportamientos son consistentes con el rol desempeñado.

El entrenamiento se divide en varias rondas. En cada ronda, el equipo extraerá un lote de muestras correctas e incorrectas de las soluciones generadas por los dos probadores en la ronda anterior.

Estas muestras se utilizarán como datos de entrenamiento del validador para la ronda actual. El validador se entrena mediante aprendizaje supervisado para mejorar la exactitud de su juicio y permitirle puntuar las soluciones correctas más que las incorrectas.

En este proceso, el astuto probador insta constantemente al verificador a mejorar la precisión de su juicio, y el verificador también hace que el contenido generado por el probador sea más consistente con las preferencias de puntuación. Los dos logran un progreso común a través de juegos mutuos.



Un requisito previo importante para obtener puntuaciones altas es que el verificador pueda entender el contenido generado. De esta manera, siempre que se introduzcan las preferencias humanas en el verificador, se puede mejorar la interpretabilidad del contenido de salida del modelo.

Equilibrio entre precisión y legibilidad

En última instancia, un método de entrenamiento basado en juegos logra un buen equilibrio entre alta precisión y alta comprensibilidad.

El método de entrenamiento tradicional solo se centra en la precisión del modelo en sí. A medida que avanza el proceso de entrenamiento, la precisión de las respuestas aumenta, pero los juicios hechos por los humanos se vuelven cada vez más inexactos y más lentos.



Desde que el equipo de OpenAI introdujo las preferencias humanas en el verificador, la precisión del juicio del verificador está relacionada con los humanos hasta cierto punto.

Los resultados finales también confirmaron que el modelo (probador) entrenado con este método de juego permite a los humanos tomar decisiones más rápidas y precisas a medida que aumenta el número de rondas de entrenamiento sin una pérdida significativa de precisión.

Después de comparar el método de referencia, no es difícil encontrar que la precisión del juicio humano supera el 82% después de 5 rondas, pero la línea de base es inferior al 75% después de 7000 pasos de entrenamiento;

En términos de tiempo, el tiempo de referencia del juicio humano es cercano a los 27 segundos, y el nuevo método es sólo un poco más de 26 segundos.



Además, para el verificador, a medida que continúa la capacitación, su solidez aumenta gradualmente y puede identificar con mayor precisión las respuestas incorrectas.



Además de la evaluación de la eficacia de este método de entrenamiento basado en juegos, el equipo de OpenAI también realizó otros hallazgos durante el proceso de investigación:

  • El impacto del tamaño del validador: demasiado pequeño provocará un entrenamiento inestable y demasiado grande dificultará la mejora de la robustez en múltiples rondas de entrenamiento. Entre una milésima y una centésima parte del probador tiene el mejor efecto.
  • Los errores en las soluciones maliciosas se vuelven cada vez más sutiles y localizados con el entrenamiento, lo que indica que el validador empuja al traicionero probador a generar ejemplos contradictorios que se acerquen más a la verdadera solución.
  • A medida que aumenta el número de épocas de entrenamiento, disminuye la precisión de los evaluadores humanos en el traicionero probador.
Una cosa más

Dado que el equipo de Super Alignment que produjo esta investigación se disolvió y ahora es responsable de los problemas de seguridad, la estrategia de seguridad de OpenAI ha vuelto a recibir una atención generalizada.

Con respecto a este tema, la CTO de OpenAI, Mira Murati, aceptó una entrevista exclusiva en la Universidad Johns Hopkins a principios de este mes.

Mira dijo durante este período que OpenAI no "antepuso el producto (prioridad) a la seguridad", como acusó Jan Leike, exjefe del Super Alignment Team.

Al mismo tiempo, también dijo que aunque el equipo de Super Alignment se ha disuelto, Super Alignment es en realidad solo uno de los múltiples equipos de seguridad de OpenAI, y muchas personas en la empresa todavía están involucradas en trabajos de seguridad.



Enlaces de referencia:
[1]https://openai.com/index/prover-verifier-games-mejora-la-legibilidad/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542