Trabajo póstumo del OpenAI Super Alignment Team: dos grandes modelos compitieron y el resultado se volvió más comprensible

Trabajo póstumo del OpenAI Super Alignment Team: dos modelos grandes juegan un juego y el resultado se vuelve más comprensible

2024-07-18

Informe del corazón de la máquina

Departamento editorial de Machine Heart

Si la respuesta dada por el modelo de IA es incomprensible en absoluto, ¿te atreverías a utilizarla?

A medida que los sistemas de aprendizaje automático se utilizan en áreas más importantes, se vuelve cada vez más importante demostrar por qué podemos confiar en sus resultados y cuándo no.

Una forma posible de ganar confianza en la salida de un sistema complejo es exigir que el sistema produzca una interpretación de su salida que sea legible por un ser humano u otro sistema confiable, es decir, completamente comprensible hasta el punto de que cualquier posible error pueda corregirse. encontró. Por ejemplo, para generar confianza en el sistema judicial, exigimos que los tribunales proporcionen opiniones escritas claras y legibles que expliquen y respalden sus decisiones.

Para modelos de lenguaje grandes, también podemos adoptar un enfoque similar.

Sin embargo, al adoptar este enfoque, es importante garantizar que el modelo de lenguaje genere texto comprensible, especialmente cuando se trata de tareas complejas como matemáticas y codificación.

Como se muestra en la figura siguiente, le pide a AI que escriba un algoritmo de clasificación rápida. AI lo escribe rápidamente y la respuesta es muy concisa. Pero si no sabes escribir código, ¿cómo puedes juzgar si la IA está escrita correctamente?

OpenAI estudió este problema en un artículo reciente.

Título del artículo: LOS JUEGOS PROVER-VERIFICADOR MEJORAN LA LEGIBILIDAD DE LOS RESULTADOS DEL LLM

Enlace del artículo: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

Descubrieron que si se pide a modelos de lenguaje grandes que generen respuestas con el objetivo de "obtener la respuesta correcta", las respuestas que dan pueden ser difíciles de entender. Los evaluadores humanos tienen el doble de probabilidades de cometer errores al juzgar estas respuestas.

Entonces, su objetivo es entrenar modelos de lenguaje de alto nivel para que puedan generar texto que los modelos más simples puedan verificar fácilmente. Descubrieron que dicho texto no sólo era amigable con modelos simples sino también más legible para los humanos.

Entonces, ¿cómo se logra? Esto también menciona un artículo de 2021: "Aprender a dar respuestas comprobables con juegos Prover-Verifier". En este artículo, Cem Anil et al. propusieron un marco de teoría de juegos llamado "Juegos Prover-Verifier". El marco consta de dos alumnos que compiten: una red de verificadores confiables que intentan elegir la respuesta correcta y una red más poderosa pero no confiable de probadores que intentan convencer a los verificadores de que acepten una respuesta específica, independientemente de su exactitud. El objetivo de este marco es producir un protocolo de prueba confiable a partir del juego.

OpenAI tomó prestado este marco en este nuevo estudio, permitiendo que dos modelos grandes (el más fuerte sea el probador y el más débil sea el verificador) jueguen entre sí hasta que los dos alcancen un equilibrio. En este momento, la respuesta dada por el probador es legible y razonablemente correcta.

OpenAI dijo que al mejorar la legibilidad de la salida del modelo, puede hacer que la aplicación de la inteligencia artificial sea más efectiva y confiable, lo cual es beneficioso para diversos campos que requieren una comunicación precisa.

Vale la pena mencionar que este artículo proviene del equipo Super Alignment de OpenAI, varios de cuyos autores abandonaron OpenAI a principios de este año, y el equipo también se desmoronó. Uno de los autores reveló que este fue el último artículo del equipo.

Un ejemplo intuitivo

Para mejorar la legibilidad del resultado del modelo, OpenAI optimizó la cadena de pensamiento (CoT) de algunos problemas matemáticos de la escuela primaria para que pueda ser entendida por modelos más débiles. Los ejemplos son los siguientes:

Pregunta: El padre de Shawna es cinco veces mayor que Shawna. Shauna tiene ahora tres veces la edad de Aliya. Si Aaliyah tiene 3 años, ¿cuántos años tiene el padre de Shauna?

El propósito de esto es verificar si el resultado del modelo entrenado es más directo y fácil de entender.

Este método mejora el rendimiento del modelo en un 50% y solo realiza algunas optimizaciones en el conjunto de entrenamiento. Al mismo tiempo, las respuestas generadas por el modelo también son más comprensibles, lo que también ayuda a los usuarios humanos que necesitan evaluar la exactitud de estas respuestas a emitir juicios más precisos. OpenAI cree que reducir aún más la brecha de rendimiento entre modelos más legibles y más capaces es un objetivo clave en futuras investigaciones de alineación.

¿Cómo compiten los "certificadores" y los "verificadores" durante la formación?

Para incentivar a los modelos fuertes (probadores) a generar texto más legible, los investigadores adoptaron un esquema de capacitación que requiere que las respuestas generadas por modelos fuertes sean fácilmente verificadas por modelos más débiles (verificadores). En concreto, utilizaron modelos grandes y pequeños de la serie GPT-4. Se diferencian en aproximadamente tres órdenes de magnitud en la cantidad de datos previos al entrenamiento. Todos reciben cierta formación en derivación matemática basada en anotaciones humanas, pero no una formación posterior exhaustiva.

Primero, el equipo hizo que el modelo probador intentara resolver una serie de problemas matemáticos. Debido a que el modelo de prueba en sí puede estar equivocado, algunas de las respuestas que genera pueden ser incorrectas. Luego, pasaron estas respuestas al modelo de verificación, realizando múltiples rondas de verificación alterna entre las dos etapas siguientes:

Entrenamiento de "verificador": el equipo de investigación entrena un modelo de "verificador" más débil para verificar si la respuesta dada por el "probador" es correcta.

Entrenamiento de "probador": el equipo de investigación instruye al modelo "probador" más poderoso para que desempeñe roles "útiles" o "astutos".

Cuando el "probador" se establece en "útil", el equipo de investigación recompensará al "verificador" por las respuestas correctas con puntuaciones altas.

Cuando se estableció que el "probador" era "astuto", el equipo de investigación recompensó al "verificador" por las respuestas incorrectas con puntuaciones altas.

El equipo de investigación descubrió que inicialmente un "probador" astuto podía generar fácilmente respuestas incorrectas que convencieran al "verificador". Sin embargo, estas respuestas incorrectas pasarán a la siguiente ronda de capacitación de "verificadores", y las mismas vulnerabilidades ya no serán convincentes en la siguiente ronda. Por lo tanto, el "probador" se verá obligado a explorar diferentes estrategias en cada ronda.

El entrenamiento termina cuando el astuto "probador" ya no puede generar una solución falsa que convenza al "verificador".

¿Qué descubrieron los investigadores?

Compensación entre rendimiento y legibilidad:

Un modelo que solo realiza ajustes supervisados en la derivación escrita por humanos es más legible pero menos preciso.

Cuando el objetivo de optimización del modelo es únicamente la corrección, es decir, centrarse únicamente en generar respuestas correctas, aunque se puede lograr una alta precisión, las soluciones generadas son menos legibles.

El enfoque de juego comprobable propuesto por OpenAI equilibra los dos, manteniendo una alta legibilidad y una precisión moderada.

Tres modelos útiles:

Verificador robusto: distingue eficazmente entre soluciones correctas e incorrectas incluso si las soluciones son engañosas.

Probador útil: genera soluciones que son comprensibles para los humanos, reduciendo así los errores de los evaluadores humanos.

Probador astuto: Produce soluciones sutiles y erróneas que inicialmente confunden a los evaluadores humanos, destacando así áreas que requieren mejoras adicionales.

El equipo de investigación utilizó las mismas preguntas de la prueba para demostrar el contenido de generación y el proceso de capacitación de Sneaky Prover.

Pregunta: El padre de Shawna es cinco veces mayor que Shawna. Shauna tiene ahora tres veces la edad de Aliya. Si Aaliyah tiene 3 años, ¿cuántos años tiene el padre de Shauna?

en conclusión

A medida que los modelos de lenguaje grande (LLM) se utilizan cada vez más en dominios críticos y aplicaciones complejas, es fundamental comprender si el contenido que generan es confiable. Al exigir que los modelos tengan motivos claros y verificables para su producción, se puede aumentar la confianza en lo que producen.

Una ventaja significativa de este enfoque es que reduce la dependencia de la demostración humana o de los juicios de legibilidad. Esta autonomía es particularmente importante para la alineación de futuros sistemas de IA superinteligentes, con el objetivo final de alinear de manera confiable los sistemas de IA con los valores y expectativas humanos sin supervisión humana directa.

Aunque este trabajo solo se realizó en un conjunto de datos y aún requiere etiquetas de verdad sobre el terreno, el equipo de investigación todavía espera que dichos métodos desempeñen un papel clave en el desarrollo de sistemas de IA correctos, transparentes y verificables y mejoren su confiabilidad y seguridad en el mundo real. aplicaciones.

Para obtener más detalles, consulte el artículo original.

Enlaces de referencia:

https://openai.com/index/prover-verifier-games-improve-legibility/

noticias

Trabajo póstumo del OpenAI Super Alignment Team: dos modelos grandes juegan un juego y el resultado se vuelve más comprensible

Introducción

Mi informacion de contacto