El rendimiento de inferencia de LLM se ve afectado por el formato de salida, JSON es el más serio

El rendimiento de inferencia de LLM se ve afectado por el formato de salida, JSON es el más grave

2024-08-16

¿Los diferentes formatos de salida pueden realmente afectar el rendimiento de modelos grandes? !

Deje que los modelos de lenguaje grande (LLM) resuelvan el mismo problema matemático bajo dos indicaciones. El problema es el siguiente:

El salario por hora de Eliza durante las primeras 40 horas de trabajo por semana es de $10 y el pago de horas extras es de x1,2 por hora. Si Eliza trabajó 45 horas esta semana, ¿cuánto ganó esta semana?

Mensaje de cadena de pensamiento: "Proporcione resultados, razonamiento paso a paso, en el siguiente formato: ... Respuesta: La respuesta final es ...".

Mensaje de restricción de formato: "Proporcione resultados en el siguiente formato JSON válido: ... (consulte la figura para conocer el formato JSON específico)".

La respuesta correcta es460Se puede ver que la cadena de pensamiento (dejar que el modelo piense paso a paso) funciona, pero la restricción de formato ("salida en formato JSON") falla. !

Esta es una escena de un nuevo estudio realizado por la Universidad Nacional de Taiwán y Appier AI Research. Descubrieron que——

Las restricciones de formato reducirán la capacidad de razonamiento de los LLM y cuanto más estrictas sean las restricciones, peor será el razonamiento. (con un personaje rebelde)

Pero la buena noticia es que se puede tratar.

Ellos encontraron,mejor soluciónEs una "conversión secundaria" (así es), es decir, los LLM primero responden preguntas en lenguaje natural y luego convierten las respuestas al formato de destino.

En el proceso, compararon las diferencias de rendimiento de diferentes modelos como GPT-3.5 Turbo, Claude 3 Haiku, Gemini 1.5 Flash, etc. al generar datos en diferentes formatos.Resultó que：

A GPT le gusta YAML, a Claude le gusta XML y a Gemini/Gemma le gusta JSON. (Principalmente cada uno tiene sus propias preferencias)

Después de leer la investigación, algunos internautas señalaron que esEquilibrando la generación estructurada y el razonamiento de tareasSignificado:

Las restricciones de formato reducen la capacidad de razonamiento de los LLM

La investigación mencionada anteriormente se publicó en arXiv. El artículo revela principalmente que bajo restricciones de formato, la capacidad de razonamiento de los LLM disminuye significativamente.Especialmente en modo JSON。

Todo el tiempo,Incorporación de LLM en aplicaciones industrialesUn obstáculo importante es su falta de cumplimiento de los formatos de salida estandarizados.

Una solución común es la generación estructurada, donde las restricciones de formato permiten a los LLM proporcionar resultados en un formato estandarizado como JSON o XML.

Pero dicho esto, aunque hay muchas formas de lograr esta restricción, los efectos posteriores no han sido estudiados. (¿La restricción afecta el rendimiento del modelo?)

Simplemente hazlo, los investigadores adoptan3 métodos comunesPara evaluar el impacto de diferentes restricciones de formato en el rendimiento descendente:

Modo JSON: limite la salida de LLM mediante un espacio de etiquetas predefinido
FRI: guía a los LLM para generar respuestas en formato estandarizado que se ajusten a patrones específicos
NL-to-Format: un proceso de dos pasos que primero responde preguntas en lenguaje natural y luego convierte al formato de destino

Por cierto, tengo que añadirLenguaje Natural (NL), que es el formato menos restringido y permite a los modelos responder preguntas libremente en lenguaje natural.

Los objetos de evaluación son GSM8K (que contiene problemas matemáticos en un entorno de lenguaje natural) y Last Letter Concatenation (la tarea de conexión de la última letra), dos conjuntos de datos que requieren respuestas coincidentes exactas, así como Shuffled Objects (tarea de seguimiento de objetos mezclados).

Descubrieron que las señales más flexibles generalmente daban mejores resultados en estas tareas que implicaban razonamiento.

al mismo tiempo,El esquema JSON funciona peor en la mayoría de los casos, seguido de Instrucciones de restricción de formato (FRI), luego conversión de lenguaje natural a formato (NL a formato) y mensajes de lenguaje natural (NL).

El estudio también encontró que diferentes LLM responden a diferentes formatos de datos.mostrar diferentes preferencias。

Por ejemplo, GPT prefiere el formato YAML, Claude prefiere el formato XML y Gemini/Gemma prefiere el formato JSON.

Sin embargo, en las tareas de clasificación,Las restricciones de formato pueden haber mejorado la precisión, porque reduce las posibles opciones de respuesta, reduciendo así la tasa de error.

Además, llegaron a la conclusión de que las restricciones de formato pueden reducir las capacidades de inferencia del modelo.razón, incluyendo principalmente:

Limita la capacidad del modelo para generar los pasos de inferencia intermedios necesarios.
Los requisitos de formato impuestos pueden ser incompatibles con la forma en que el modelo genera respuestas de forma natural.
Los errores de formato pueden hacer que la respuesta se considere incorrecta debido a problemas de formato, incluso si el razonamiento es correcto.

Buenas noticias: se puede curar

En respuesta a este problema, propusieron varias contramedidas:

Primero, como se mencionó anteriormente, el modo JSON tiene el peor rendimiento en la mayoría de los casos y, finalmente, la conversión de lenguaje natural a formato (NL a formato).

Entonces a la inversa,La mejor solución para solucionar las limitaciones de formato es NL to Format, es decir, los LLM primero responden preguntas en lenguaje natural y luego convierten las respuestas al formato de destino. Este enfoque permite un mejor rendimiento al desacoplar el razonamiento del cumplimiento del formato.

Además, la salida estructuradaorden de clavesTener un impacto importante en cómo responden los LLM.

Por ejemplo, al usar GPT-3.5 Turbo, el 100% de las respuestas en modo JSON colocaron incorrectamente la clave "respuesta" antes de "razonamiento", lo que provocó que el modelo diera directamente la respuesta en lugar de mostrar el proceso de pensamiento.

Las investigaciones también muestran que las limitaciones de formato conducen aerror de análisisNo es la razón principal de la diferencia de rendimiento.

Por ejemplo, en el modelo LLaMA 3 8B, la tasa de error de análisis del formato JSON para la tarea Última letra es solo del 0,15%, pero en comparación con la respuesta en lenguaje natural, la brecha de rendimiento alcanza el 38,15%.

y puedeMitigue estos errores con consejos correctivos, por ejemplo, para el modelo Claude-3-Haiku, en la tarea Última letra, a través del paso de corrección, la precisión de los formatos JSON y YAML aumentó en un +2,8% y un +44,8% respectivamente.

Lo anterior también significa que al aplicar LLM, se debe encontrar un equilibrio entre un formato fácilmente analizable y conservar las capacidades de razonamiento inherentes.

Finalmente, los investigadores recordaron en el artículo:

En comparación con las expresiones regulares, los LLM como analizadores de respuestas pueden proporcionar una comprensión del texto más profunda y precisa. No se limitan a la coincidencia de patrones superficiales, sino que pueden comprender verdaderamente el significado y el contexto de la respuesta.

noticias

El rendimiento de inferencia de LLM se ve afectado por el formato de salida, JSON es el más grave

Introducción

Mi información de contacto