noticias

El último artículo de OpenAI permite que modelos superpoderosos se expliquen por sí solos

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

El último artículo de OpenAI permite que modelos superpoderosos se expliquen por sí solos

Autor de la guía futura de texto/IA, Hao Boyang

Editor/Zhou Xiaoyan

Hoy OpenAI publicó un nuevo artículo, que es el "trabajo póstumo" del extinto equipo OpenAI Super Alignment. Propone una nueva forma de mejorar la interpretabilidad del modelo, que consiste en dejar que el modelo explique su propia lógica, y cuanto más fácil de explicar, mejor.

En realidad, esta idea no es nueva, pero todos usaron la palabra clave proyecto para hacerlo antes. Utilice indicaciones como cadenas de pensamiento para obligar a la IA a explicar sus respuestas. ¿Pero no sería mejor si el modelo explicara mejor desde un principio? Luego hay que hacer algunos ajustes durante el proceso de formación del modelo. Para lograr este objetivo, OpenAI propuso un método llamado "entrenamiento de inspeccionabilidad". Se utiliza un método llamado "juego certificador-verificador" para mejorar la capacidad del modelo para explicarse a sí mismo. Finalmente descubrí que este método es realmente útil.

¿Cómo lo hicieron exactamente?

Queremos entrenar una IA muy inteligente (llamémosla "probadora") para resolver problemas matemáticos. Esperamos que esta IA no solo pueda dar la respuesta correcta, sino también explicarla claramente y facilitar su comprensión para las personas. Sin embargo, si dejamos que la IA busque la respuesta correcta, puede desarrollar una forma muy compleja y difícil de entender de resolver problemas.

Por ejemplo, en el siguiente ejemplo, la respuesta dada por el modelo es correcta, pero el método de prueba es indescriptible. Esto dificulta que los usuarios comunes, incluidos los clientes de industrias que requieren alta precisión, juzguen si sus ideas son correctas.

Entonces, para evitar esta situación, los investigadores idearon un método inteligente:

1. Crean una IA "árbitro" (llamada "validador"). Este árbitro no es tan inteligente como la IA que resuelve problemas, pero su trabajo es juzgar si la respuesta de la IA que resuelve problemas es correcta y clara.

2. Luego, le pidieron a la IA que resuelve problemas que desempeñara dos roles: un "buen estudiante" (IA útil), que intenta dar respuestas correctas y claras, y un "estudiante travieso" (IA astuta), que intenta dar respuestas que; parecen correctos pero en realidad son sutilmente incorrectos.

3. Ambos "estudiantes" intentan convencer al árbitro AI de que su respuesta es correcta.

4. Con el tiempo, la IA del árbitro mejora cada vez más en la identificación de respuestas correctas e incorrectas. Al mismo tiempo, la IA del "buen estudiante" aprendió a explicar los problemas con mayor claridad, mientras que la IA del "estudiante travieso" aprendió a cometer errores más sutiles.

5. El proceso se repite como un juego en curso.

Este proceso es el "juego certificador-verificador". De esta manera, después de múltiples rondas de entrenamiento, las explicaciones del modelo se vuelven cada vez más claras. Por ejemplo, después de una ronda de este tipo de entrenamiento, la interpretación del modelo es mucho mejor.

(Ya están detallados los resultados de la primera ronda de capacitación)

Después de cinco rondas, el modelo básicamente puede explicarle el tema en el tono de un maestro de escuela primaria.

(Resultados de la quinta ronda de entrenamiento)

Y este árbitro "verificador" de IA también ha evolucionado bajo la presión de la astuta IA. Mejorar en discernir si las respuestas son verdaderas o falsas. Incluso si la astuta IA hace afirmaciones fantásticas, será más fácil encontrar lagunas en ellas.

(Esta es la respuesta de Cunning AI, parece bastante decente)

(A medida que pasa el tiempo, el nivel de astucia de la IA también mejora)

En el proceso, los investigadores de OpenAI también descubrieron un método llamadoEl fenómeno del "impuesto de comprensibilidad", según el cual cuanto más comprensible es el resultado de la IA, más probable es que sacrifique un cierto nivel de rendimiento o precisión.

Hicieron un diagrama para representar este fenómeno.

En la imagen, Eje X: representa la precisión del generador de modelos, Eje Y: representa la precisión de los evaluadores humanos, aquí utilizada como medida de legibilidad. Un modelo que realiza directamente el aprendizaje por refuerzo (RL) sin "entrenamiento de inspeccionabilidad" tiene capacidades sólidas pero poca interpretabilidad. Los modelos que han sido sometidos a un "entrenamiento en inspeccionabilidad" pueden mejorar la precisión manteniendo la misma interpretabilidad. Pero hay un límite. El "impuesto de comprensibilidad" marcado con una flecha roja en la figura es el rendimiento que debe sacrificarse sin perder interpretabilidad.

¿Qué hace exactamente esta investigación? También podemos ver en los ejemplos anteriores que un método de explicación que es más fácil de entender para la IA del árbitro también es más fácil de entender para nosotros, los humanos.este Muestra que podemos utilizar modelos más pequeños y más fáciles de entrenar para reemplazar la retroalimentación de anotaciones humanas (como RHLF) para mejorar la comprensibilidad de los resultados de modelos grandes. El artículo da grandes expectativas a este método. Sostienen que “dicha autonomía será particularmente importante para la alineación de futuros sistemas de IA superinteligentes, con el objetivo de garantizar que los sistemas de IA se alineen de manera confiable con los valores y expectativas humanos sin supervisión humana directa”.

Recordemos que el trabajo pionero del equipo de Super Alignment fue la idea de utilizar modelos débiles para supervisar modelos fuertes. Parece que, frente al ideal original de súper alineación, realmente están tratando de utilizar varios métodos para lograrlo. Es una pena que las cosas hayan cambiado, el equipo se haya ido y lo único que podemos escuchar ahora son los últimos ecos.