Artículo de alta puntuación de COLM, la primera gran conferencia sobre modelos: el algoritmo de búsqueda de preferencias hace que la evaluación de modelos grandes sea más eficiente

2024-08-05

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

Los autores del artículo son todos del Laboratorio de Tecnología del Lenguaje de la Universidad de Cambridge. Uno es el estudiante de doctorado de tercer año Liu Yinhong y sus supervisores son los profesores Nigel Collier y Ehsan Shareghi. Sus intereses de investigación son la evaluación de textos y modelos grandes, la generación de datos, etc. Zhou Han, estudiante de doctorado de segundo año en Tongyi, cuenta con la tutoría de los profesores Anna Korhonen e Ivan Vulić. Su interés de investigación son los modelos grandes eficientes.

Los modelos grandes exhiben excelentes capacidades de seguimiento de comandos y generalización de tareas. Esta habilidad única proviene del uso de datos de seguimiento de comandos y aprendizaje reforzado con retroalimentación humana (RLHF) por parte de los LLM en el entrenamiento. En el paradigma de entrenamiento RLHF, el modelo de recompensa está alineado con las preferencias humanas basándose en datos de comparación de clasificación. Esto mejora la alineación de los LLM con los valores humanos, generando así respuestas que ayudan mejor a los humanos y se adhieren a los valores humanos.

Recientemente, la primera gran conferencia modelo COLM acaba de anunciar los resultados de aceptación. Uno de los trabajos de alta puntuación analizó el problema del sesgo de puntuación que es difícil de evitar y corregir cuando se utiliza LLM como evaluador de texto y propuso convertir el problema de evaluación. en un problema de clasificación de preferencias, por lo tanto, se diseñó el algoritmo PairS, un algoritmo que puede buscar y ordenar a partir de preferencias por pares. Al utilizar los supuestos de incertidumbre y transitividad LLM, PairS puede brindar clasificaciones de preferencias eficientes y precisas y demostrar una mayor coherencia con el juicio humano en múltiples conjuntos de pruebas.

Enlace del artículo: https://arxiv.org/abs/2403.16950

Título del artículo: Alineación con el juicio humano: el papel de la preferencia por pares en los evaluadores de modelos de lenguaje de gran tamaño

Dirección de Github: https://github.com/cambridgeltl/PairS

¿Cuáles son los problemas con el uso de modelos grandes para la evaluación?

Una gran cantidad de trabajos recientes han demostrado el excelente desempeño de los LLM en la evaluación de la calidad del texto, formando un nuevo paradigma para la evaluación sin referencias de tareas generativas, evitando costosos costos de anotación humana. Sin embargo, los evaluadores de LLM son muy sensibles al diseño rápido e incluso pueden verse afectados por múltiples sesgos, incluido el sesgo posicional, el sesgo de verbosidad y el sesgo de contexto. Estos sesgos impiden que los evaluadores de LLM sean justos y dignos de confianza, lo que genera inconsistencias y desalineaciones con el juicio humano.

Para reducir las predicciones sesgadas de los LLM, trabajos anteriores desarrollaron técnicas de calibración para reducir el sesgo en las predicciones de los LLM. Primero realizamos un análisis sistemático de la efectividad de las técnicas de calibración para alinear estimadores LLM puntuales. Como se muestra en la Figura 2 anterior, los métodos de calibración existentes aún no pueden alinear bien el estimador LLM incluso cuando se proporcionan datos de supervisión.

Como se muestra en la Ecuación 1, creemos que la razón principal de la desalineación de la evaluación no es el sesgo previo sobre la distribución de la puntuación de la evaluación de LLM, sino la desalineación del estándar de evaluación, es decir, la similitud del evaluador de LLM. Creemos que los evaluadores de LLM tendrán criterios de evaluación más consistentes con los humanos cuando realicen evaluaciones por pares, por lo que exploramos un nuevo paradigma de evaluación de LLM para promover juicios más alineados.

Inspirado en RLHF

Como se muestra en la Figura 1 a continuación, inspirados en la alineación de modelos de recompensa a través de datos de preferencia en RLHF, creemos que el evaluador de LLM puede obtener predicciones que estén más alineadas con los humanos al generar clasificaciones de preferencias. Recientemente, algunos trabajos han comenzado a obtener clasificaciones de preferencia permitiendo que LLM realice comparaciones por pares. Sin embargo, en gran medida se ha pasado por alto la evaluación de la complejidad y escalabilidad de las clasificaciones de preferencias. Ignoran el supuesto de transitividad, lo que hace que la complejidad del número de comparaciones sea O (N^2), lo que hace que el proceso de evaluación sea costoso e inviable.

PairS: algoritmo de búsqueda de preferencias eficiente

En este trabajo, proponemos dos algoritmos de búsqueda de preferencias por pares (PairS-greedy y PairS-beam). PairS-greedy es un algoritmo basado en el supuesto de transitividad completa y clasificación por fusión, y puede obtener clasificación de preferencia global con solo complejidad O (NlogN). El supuesto de transitividad significa que, por ejemplo, para tres candidatos, LLM siempre tiene si A≻B y B≻C, entonces A≻C. Bajo este supuesto, podemos utilizar directamente algoritmos de clasificación tradicionales para obtener clasificaciones de preferencias a partir de preferencias por pares.

Sin embargo, LLM no tiene una transitividad perfecta, por lo que diseñamos el algoritmo PairS-beam. Bajo el supuesto de transitividad más flexible, derivamos y simplificamos la función de verosimilitud para la clasificación de preferencias. PairS-beam es un método de búsqueda que realiza una búsqueda de haz basada en el valor de probabilidad en cada operación de fusión del algoritmo de clasificación de fusión y reduce el espacio de comparación por pares a través de la incertidumbre de las preferencias. PairS-beam puede ajustar la complejidad del contraste y la calidad de la clasificación, y proporcionar de manera eficiente la estimación de máxima verosimilitud (MLE) de la clasificación de preferencias. En la Figura 3 a continuación, mostramos un ejemplo de cómo PairS-beam realiza una operación de fusión.

Resultados experimentales

Probamos en múltiples conjuntos de datos representativos, incluidas las tareas de abreviatura cerrada NewsRoom y SummEval, y la tarea abierta de generación de historias HANNA, y comparamos múltiples métodos de referencia de evaluación de un solo punto de LLM, incluida la puntuación directa sin supervisión, G-Eval, GPTScore. y UniEval y BARTScore entrenados y supervisados. Como se muestra en la Tabla 1 a continuación, PairS tiene mayor coherencia con las calificaciones humanas que ellos en cada tarea. GPT-4-turbo puede incluso lograr efectos SOTA.

En el artículo, también comparamos dos métodos básicos para la clasificación de preferencias, la tasa de victorias y la calificación ELO. Los pares pueden lograr su clasificación de preferencias de la misma calidad con sólo alrededor del 30% del número de comparaciones. El artículo también proporciona más información sobre cómo se pueden utilizar las preferencias por pares para calcular cuantitativamente la transitividad de los estimadores LLM y cómo los estimadores por pares pueden beneficiarse de la calibración.

Para obtener más detalles de la investigación, consulte el artículo original.

noticias

Artículo de alta puntuación de COLM, la primera gran conferencia sobre modelos: el algoritmo de búsqueda de preferencias hace que la evaluación de modelos grandes sea más eficiente

Introducción

Mi informacion de contacto