noticias

google deepmind demuestra la tecnología genrm: perfeccionando los llm como modelos de recompensa para mejorar las capacidades de razonamiento generativo de la ia

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house informó el 3 de septiembre que el equipo de google deepmind publicó un artículo sobre arxiv el 27 de agosto, presentando y demostrando el verificador generativo genrm y proponiendo creativamente un modelo de recompensa para mejorar las capacidades de razonamiento generativo de la ia.

en la industria de la ia, el enfoque principal actual para mejorar los modelos de lenguajes grandes (llm) es el modo best-of-n, es decir, el verificador clasifica las n soluciones candidatas generadas por el llm y se selecciona la mejor solución. .

estos validadores basados ​​en llm suelen estar capacitados como clasificadores discriminativos para calificar soluciones, pero no pueden aprovechar las capacidades de generación de texto de los llm previamente capacitados.

para superar esta limitación, el equipo de deepmind intentó utilizar el siguiente objetivo de predicción de token para entrenar al verificador mientras realizaba la verificación y la generación de soluciones.

el verificador generativo (genrm) del equipo de deepmind incluye principalmente las siguientes ventajas respecto a los verificadores tradicionales:

integración perfecta de ajustes de comando

cadena de apoyo al razonamiento del pensamiento.

aprovechar cálculos de tiempo de inferencia adicionales mediante votación mayoritaria

cuando se utilizan validadores basados ​​en gemma en tareas algorítmicas y de razonamiento matemático de la escuela primaria, genrm supera a los validadores discriminativos y llm como juez, mejorando el porcentaje de problemas resueltos utilizando best-of-n entre un 16% y un 64%.

como informó google deepmind, la ventaja de genrm sobre los modelos de recompensa categóricos marca una evolución crítica en los sistemas de recompensa de inteligencia artificial, particularmente en términos de su capacidad para prevenir el fraude aprendido por nuevos modelos. este progreso pone de relieve la urgente necesidad de mejorar los modelos de recompensa para alinear los resultados de la ia con los estándares de responsabilidad social.