¿Pueden los dos modelos pequeños verificarse entre sí y compararse directamente con el modelo grande? rStar de Microsoft ni siquiera usa CoT

2024-08-16

Informe del corazón de la máquina

Editor: Panda

Consulten entre sí para que los modelos pequeños puedan resolver grandes problemas.

Se sabe que LLM es poderoso, pero no lo suficientemente poderoso como para realizar razonamientos complejos.

Por ejemplo, en el conjunto de datos GSM8K, Mistral-7B sólo puede alcanzar una precisión del 36,5% incluso utilizando tecnologías como Chain of Thought (CoT). Aunque el ajuste puede mejorar efectivamente las capacidades de razonamiento, la mayoría de los LLM se basan en datos de ajuste que han sido destilados por modelos más poderosos como GPT-4, o incluso pueden haber sido sintetizados por estos poderosos modelos.

Al mismo tiempo, los investigadores también están desarrollando activamente un método auxiliar pero más difícil: utilizar un mejor LLM docente para mejorar la capacidad de razonamiento.

Para mejorar la capacidad de razonamiento sin un modelo mejor, un paradigma prometedor es utilizar el conocimiento del propio LLM. Por ejemplo, un método llamado RAP adopta una solución de autoexploración, es decir, mejora iterativamente el rendimiento del razonamiento de LLM a través de comentarios autocompensantes. Desafortunadamente, las investigaciones muestran que este paradigma tiene dos problemas fundamentales.

En primer lugar, LLM a menudo tiene dificultades para explorar de manera eficiente el espacio de la solución cuando realiza inferencias. Este enfoque de autoexploración a menudo se queda atascado en un espacio de solución debido a pasos de razonamiento de mala calidad, incluso después de múltiples intentos.

En segundo lugar, incluso si la autoexploración encuentra pasos de inferencia de alta calidad, es difícil para una versión pequeña del modelo de lenguaje grande (SLM) discernir qué pasos de inferencia son de mayor calidad y determinar si la respuesta final es correcta, por lo que difícil guiar eficazmente la autoexploración. Las investigaciones muestran que la autoexploración guiada basada en recompensas básicas regulares no produce resultados mejores que las conjeturas aleatorias.

Aún más problemático es que las versiones pequeñas de los modelos de lenguaje grandes (SLM) son más propensas a sufrir los dos problemas anteriores porque son menos capaces. Por ejemplo, GPT-4 puede mejorar los resultados de salida mediante la autooptimización, pero a SLM le resulta difícil hacerlo e incluso puede hacer que la calidad de los resultados de salida disminuya. Esto obstaculizará seriamente la popularización y aplicación de modelos de lenguaje neuronal.

En respuesta a estos problemas, un equipo de investigación de Microsoft Research Asia y la Universidad de Harvard propuso Self-play muTuAl Reasoning, o rStar para abreviar. En pocas palabras, este método es similar a pedir a dos estudiantes mediocres que verifiquen las respuestas de los demás en los exámenes y, en última instancia, mejoren sus puntajes hasta el punto de que incluso puedan competir con los mejores académicos. El equipo afirma que rStar "puede mejorar las capacidades de inferencia de SLM sin necesidad de realizar ajustes ni mejores modelos".

Título del artículo: El razonamiento mutuo hace que los LLM más pequeños sean mejores solucionadores de problemas
Dirección del artículo: https://arxiv.org/pdf/2408.06195
Dirección del código: https://github.com/zhentingqi/rStar (aún por publicar)

método

Para resolver los problemas anteriores, rStar divide el proceso de razonamiento en dos partes: generación de soluciones y verificación mutua, como se muestra en la Figura 2.

Al abordar el primer desafío, el equipo presentó una colección de ricas acciones de razonamiento similares a las de los humanos que exploran a fondo un espacio diverso de tareas de razonamiento.

Para el segundo problema, diseñaron una función de recompensa específica para SLM, que puede evaluar pasos intermedios, evitando así depender de su autoevaluación, a menudo poco confiable.

Además, el equipo también utilizó otro SLM como discriminador para mejorar el proceso MCTS, verificando mutuamente la corrección de cada trayectoria con el discriminador SLM.

Utilice MCTS Rollout para generar trayectorias de inferencia usted mismo

Una rica colección de acciones de razonamiento similares a las de los humanos. El núcleo de la generación MCTS radica en el espacio de acción, que define el alcance de la exploración del árbol. La mayoría de los métodos basados en MCTS utilizan un único tipo de acción al crear el árbol. Por ejemplo, la acción en RAP es formular la siguiente subpregunta, mientras que la acción en AlphaMath y MindStar es generar el siguiente paso de razonamiento. Sin embargo, depender de un solo tipo de acción puede conducir fácilmente a una exploración espacial deficiente.

Para resolver este problema, el equipo analizó la forma en que los humanos realizan el razonamiento. Diferentes personas resuelven problemas de diferentes maneras: algunas personas dividen el problema en subproblemas, otras resuelven el problema directamente y otras reformulan el problema desde otra perspectiva. Además, las personas también ajustarán sus métodos según el estado actual y elegirán diferentes acciones según las necesidades.

Inspirándose en el proceso de razonamiento humano, el equipo construyó un conjunto de datos más rico que contiene cinco tipos de acciones para maximizar el potencial de SLM para resolver correctamente problemas de razonamiento complejos.

Acción 1: Sugiera un paso de reflexión. Para un problema determinado, esta acción hará que LLM genere el siguiente paso de ideas basado en los pasos de razonamiento existentes.

Acción 2: Sugiera los pasos de pensamiento restantes. Esta acción, al igual que el CoT estándar, permite "pensar rápidamente" para resolver problemas simples con sólo unos pocos pasos. Dados los pasos de inferencia generados, permitirá que LLM genere directamente los pasos restantes hasta que se obtenga la respuesta final.

Acción 3: Proponer la siguiente subpregunta y su respuesta.

Acción 4: Responda esta subpregunta nuevamente. Teniendo en cuenta que la acción 3 puede no responder correctamente a la subpregunta correspondiente, la función de esta acción es responderla nuevamente.

Acción 5: Reformular el problema/subproblema. Este nuevo movimiento pretende reformular el problema de una manera más sencilla. Específicamente, el objetivo aquí es que el LLM enumere claramente todas las condiciones en el planteamiento del problema.

Las cinco acciones anteriores definen un espacio de acción muy diverso {A1, A2, A3, A4, A5}.

En cada paso i, MCTS selecciona una acción a_i de este espacio. Luego, según el estado actual (es decir, la trayectoria generada previamente x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}), use esta acción a_i para permitir que LLM genere el siguiente paso de inferencia s_i. Tenga en cuenta que algunas acciones deben realizarse en orden. La figura 3 da un ejemplo.

Como se muestra en la Tabla 1, cada acción juega un papel importante en la mejora de la precisión de la inferencia final.

función de recompensa

Otro componente clave de MCTS es la función de recompensa, que evalúa el valor de cada acción y proporciona instrucciones para la expansión del árbol. Para SLM, el equipo diseñó una función de recompensa sencilla pero eficaz. Su enfoque, inspirado en AlphaGo, califica cada nodo intermedio según su contribución a la respuesta correcta final. De esta manera, las acciones que a menudo conducen a respuestas correctas recibirán mayores recompensas y será más probable que sean seleccionadas en futuras expansiones del árbol MCTS.

Aquí, el valor de recompensa de los nodos generados después de ejecutar la acción a se define como Q (s, a). Inicialmente, a todos los nodos inexplorados se les asigna Q (s_i, a_i) = 0, logrando así una expansión aleatoria del árbol. Al llegar al primer nodo final n_d, se calcula una puntuación de recompensa Q (s_d, a_d) en función de si obtiene la respuesta correcta.

Luego, esta puntuación se propaga hacia atrás a cada nodo intermedio a lo largo de la trayectoria t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. En concreto, para cada s_i, su valor Q se actualiza de la siguiente manera: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Para calcular Q(s_d, a_d) para el nodo final, el valor de recompensa utilizado aquí es la probabilidad (confianza) del voto mayoritario autoconsistente.

Utilice MCTS Rollout para generar soluciones

A continuación se describe la forma en que MCTS genera trayectorias de inferencia candidatas. A partir del nodo raíz inicial s_0, se realizan varias búsquedas que incluyen selección, expansión, simulación y retropropagación. Específicamente, la simulación utiliza la estrategia de implementación predeterminada. Para obtener una estimación de recompensa más precisa, el equipo realizará múltiples implementaciones. Para equilibrar la exploración y la explotación, utilizaron el conocido UCT (límite superior de confianza del árbol) para seleccionar cada nodo. La forma matemática de este proceso de selección es:

Donde N (s, a) es el número de visitas al nodo s en la iteración anterior, y N_parent (s) representa el número de visitas al nodo padre de s. Q (s, a) es el valor de recompensa estimado, que se actualiza durante la retropropagación. c es una constante que equilibra la exploración y la explotación.

Una vez que la búsqueda llega a un nodo final (que puede ser un estado terminal o puede alcanzar una profundidad de árbol máxima predefinida d), se puede obtener una trayectoria desde la raíz hasta el nodo final. Todas las trayectorias obtenidas mediante la iteración de Rollout se recopilan como soluciones candidatas. A continuación es necesario verificarlos.

Usar la reciprocidad para seleccionar trayectorias de inferencia

A partir de todas las trayectorias recopiladas, el equipo propuso utilizar la coherencia inferencial para seleccionar las respuestas.

Lograr coherencia de inferencia a través del discriminador SLM

Como se muestra en la Figura 2, además del SLM objetivo, el equipo también introdujo un SLM discriminador, cuya función es proporcionar retroalimentación externa no supervisada para cada trayectoria candidata.

Específicamente, para t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d, enmascare los pasos de inferencia comenzando en algún paso i muestreado aleatoriamente. Luego, la trayectoria de inferencia anterior t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} se proporciona al discriminador SLM como un mensaje para permitirle completar los pasos restantes. Dado que los pasos de razonamiento i-1 anteriores se utilizan como sugerencias, la dificultad se reduce y es más probable que el discriminador SLM dé la respuesta correcta.

La Figura 4 compara si la respuesta de finalización del discriminador SLM coincide con la trayectoria original t. Si los dos son consistentes, se considera que t es una trayectoria verificada que finalmente se puede seleccionar.

La trayectoria final es seleccionada por el SLM objetivo. Después de aplicar coherencia de inferencia a todas las trayectorias candidatas, regrese al SLM objetivo y déjelo seleccionar la trayectoria final entre las trayectorias verificadas. Para calcular la puntuación final de cada trayectoria, el equipo multiplicó su recompensa por la puntuación de confianza de su nodo final obtenida mediante Rollout. Se selecciona como solución la trayectoria con mayor puntuación final.

experimento

Configuración experimental

rStar es adecuado para una variedad de tareas de inferencia y LLM. El equipo evaluó cinco SLM: Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.

Se prueban 5 tareas de razonamiento, incluidas 4 tareas matemáticas (GSM8K, GSM-Hard, MATH, SVAMP) y 1 tarea de sentido común (StrategyQA).

Visite el artículo original para obtener detalles experimentales.

Resultados principales

El equipo evaluó primero la eficacia de rStar en puntos de referencia de inferencia general. La Tabla 2 compara la precisión de rStar y otros métodos de última generación en diferentes conjuntos de datos de inferencia y SLM. Para demostrar la eficacia del nuevo generador, el equipo también proporciona la precisión de rStar (generador @maj), que no utiliza un discriminador y solo utiliza la votación por mayoría para verificar la respuesta.

El equipo observó tres resultados clave:

1. SLM impulsado por rStar tiene mayores capacidades de resolución de problemas. Por ejemplo, en el conjunto de datos GSM8K, la precisión de LLaMA2-7B utilizando CoT de pocas muestras es solo del 12,51%. Pero con la ayuda de rStar, su precisión aumentó al 63,91%, lo que se acerca a la precisión obtenida mediante el ajuste fino, como se muestra en la Figura 1. De manera similar, el rendimiento de Mistral usando rStar es incluso un 4,18% mayor que el de la versión optimizada de MetaMath. Esta mejora muestra que el propio SLM ya tiene fuertes capacidades de razonamiento, pero necesita orientación para generar y seleccionar respuestas correctas.

2. rStar puede mejorar de manera estable la precisión de la inferencia de varios SLM evaluados en diferentes tareas hasta el mejor nivel actual. En comparación, otros métodos de comparación no pueden lograr un buen rendimiento de manera consistente en los cuatro puntos de referencia. Por ejemplo, aunque SC (autoconsistencia) es bueno en tres tareas matemáticas, no puede resolver eficazmente la tarea de razonamiento lógico de StrategyQA.

3. Incluso sin el discriminador recientemente propuesto para verificar las trayectorias de inferencia, el generador MCTS recientemente propuesto todavía funciona bien para mejorar la precisión de la inferencia de SLM. Por ejemplo, en el conjunto de datos GSM8K, la precisión de rStar (generador @maj) es 2,88% -16,39% mayor que RAP, 10,60% -38,37% mayor que ToT y 1,69% -7,34% mayor que SC.

Resultados sobre conjuntos de datos matemáticos difíciles

El equipo también evaluó rStar en un conjunto de datos matemáticos más complicados. Para ello seleccionaron conjuntos de datos GSM-Hard y MATH. Siguiendo la convención de estudios similares, utilizaron MATH-500, un subconjunto de problemas representativos del conjunto de datos MATH. Esto se hace para mejorar la velocidad de evaluación. Como se muestra en las Tablas 2 y 3, rStar puede mejorar significativamente la precisión de la inferencia de SLM en estos difíciles conjuntos de datos matemáticos.

estudio de ablación

Efectividad de diferentes implementaciones

rStar utiliza la estrategia Rollout para realizar la expansión del árbol MCTS. Más implementaciones generarán más trayectorias de soluciones candidatas, pero también aumentarán el costo de la inferencia. La Figura 5 compara la precisión de SC, RAP y rStar cuando se utilizan diferentes implementaciones en GSM8K.

Aquí se hacen dos observaciones clave:

1. Incluso con solo 2 implementaciones, rStar puede mejorar significativamente la precisión de la inferencia de SLM, lo que demuestra su eficacia;

2. Más implementaciones son beneficiosas tanto para rStar como para SC, mientras que RAP tiende a saturarse o incluso disminuir después de 4 implementaciones. Una razón es que el espacio de acción de tipo único de RAP limitará la efectividad de la exploración MCTS.

Efectividad del generador MCTS

El equipo comparó el rendimiento del generador MCTS con el de otros tres generadores. Como se muestra en la Tabla 4, el generador MCTS recientemente propuesto supera ampliamente a otros generadores. Además, se demuestra la eficacia de las funciones de recompensa adaptadas a SLM, ya que la autoevaluación reduce la precisión de los nuevos generadores.

La eficacia del discriminador.

El equipo organizó dos experimentos de evaluación.

El primer experimento compara el método discriminativo con el voto mayoritario y los métodos de autovalidación. Los resultados se muestran en la Tabla 5 (izquierda). Se puede observar que las ventajas del método de discriminación son muy significativas.

El segundo experimento consiste en estudiar el impacto de diferentes modelos discriminadores. Los resultados se muestran en la Tabla 5 (derecha). Se puede ver que la elección de diferentes modelos discriminadores generalmente no afecta el efecto del método de coherencia de inferencia para verificar la respuesta. Vale la pena señalar que incluso utilizando el potente GPT-4 como discriminador, el rendimiento sólo mejora ligeramente (del 91,13% al 92,57%). Esto muestra que el método de coherencia inferencial puede utilizar SLM de forma eficaz para verificar las respuestas.

noticias

¿Pueden los dos modelos pequeños verificarse entre sí y compararse directamente con el modelo grande? rStar de Microsoft ni siquiera usa CoT

Introducción

Mi información de contacto