ACL2024: Se presenta el motor Yuntian Lifei SPACE, el razonamiento de modelos grandes puede entrar en una nueva etapa

2024-08-14

Del 11 al 16 de agosto se celebró en Bangkok, Tailandia, la 62ª Reunión Anual de la Asociación de Lingüística Computacional (ACL).

El artículo "La generación se encuentra con la verificación: acelerar la inferencia de modelos de lenguaje grande con decodificación automática de corrección paralela inteligente" del gran equipo de modelos de Yuntian Lifei fue aceptado como el artículo extenso de ACL24 Findings. Esta es una muestra por fases de algunos de los resultados de la investigación del modelo grande de Yuntian Lifei.

La Conferencia Anual de ACL es la conferencia académica más importante del mundo en el campo de la lingüística computacional y el procesamiento del lenguaje natural. Está organizada por la Asociación Internacional de Lingüística Computacional y se lleva a cabo anualmente. Está catalogada como una conferencia de Clase A en la conferencia recomendada. Lista de la Federación de Computación de China (CCF).

El artículo seleccionado de Yuntian Lifei propuso el motor SPACE, una solución innovadora para lograr una aceleración sin pérdidas de la inferencia de modelos grandes. Los resultados de las pruebas en diferentes tipos de modelos grandes muestran queDespués de usar el motor SPACE, la velocidad de inferencia del modelo en el conjunto de pruebas HumanEval aumentó entre un 270% y un 400%., la calidad de los resultados de la inferencia permanece sin cambios y puede lograr tanto "cálculos rápidos" como "cálculos precisos".

Artículos seleccionados del equipo de modelos grandes de Yuntian Lifei

Es difícil que las soluciones de razonamiento convencionales logren “tanto las necesidades como los deseos”.

EL ESPACIO esSmercadoPAGaraleloAuto-docorrecto DmiLa abreviatura de codificación significa "decodificación inteligente de corrección automática de errores en paralelo".

Este esquema de razonamiento tiene dos características principales: primero, adoptasemiautoregresivomodelo de razonamiento, que acelera enormemente el razonamiento; el segundo es agregar;verificarEste método puede mejorar la velocidad del razonamiento y al mismo tiempo garantizar la precisión del razonamiento.

¿Qué es "semiautoregresivo"? ¿Por qué deberíamos agregar verificación? Antes de explicar estos problemas, primero debemos comprender cómo "funciona" el gran modelo actual.

Abra la aplicación del modelo de lenguaje grande, ingresamos "¿Qué es el modelo grande?" en el cuadro de diálogo, y el modelo grande generará su respuesta palabra por palabra: "El modelo grande es un modelo de aprendizaje profundo con decenas de millones de parámetros." El proceso de esta respuesta se puede ver Parece muy simple. Pero, de hecho, los modelos grandes han experimentado múltiples ciclos "autoregresivos" entre bastidores.

Primero, el modelo grande primero predecirá la primera palabra de la salida: "grande" según el contenido que ingresamos, luego traerá la palabra "grande" al final de la entrada y predecirá cuál debería ser la siguiente palabra según el palabra "grande". Por supuesto, esta "predicción" no es una "suposición a ciegas" de la nada, pero el modelo hará un juicio integral basado en los datos vistos en el proceso de entrenamiento anterior y seleccionará la palabra con mayor probabilidad como la siguiente palabra de salida. .

En este caso, la segunda palabra de salida es "módulo". Después de generar la segunda palabra, el modelo grande traerá las palabras "módulo grande" nuevamente al terminal de entrada y predecirá la tercera palabra generada. Este ciclo continúa hasta que termina la oración completa.

Este proceso es "autorregresión".

Actualmente, la autorregresión es la solución principal utilizada para la inferencia de modelos grandes.Ya sea ChatGPT, Llama de código abierto o muchos modelos nacionales grandes, utilizan principalmente soluciones de inferencia autorregresivas.

Diagrama esquemático del esquema autorregresivo.

Las ventajas y desventajas del esquema autorregresivo también son muy obvias. La ventaja es que garantiza que el contenido generado sea preciso, significativo y contextualmente coherente. Las desventajas son el alto costo computacional y el largo retraso en la inferencia.

Para superar estos problemas, las soluciones propuestas por la industria son"Semi-autoregresivo"y"Decodificación de especulaciones"。

"Semi-autoregresivo" es un compromiso entre "autoregresivo" y "no autorregresivo". mencionado anteriormente,"Autoregresivo"Utiliza las palabras generadas para predecir la siguiente palabra;"No autorregresivo"Es lo opuesto a "autoregresivo", prediciendo la oración completa a la vez."No autorregresivo"La solución puede mejorar la eficiencia del razonamiento, pero la precisión del resultado se reduce considerablemente. La solución "semi-autoregresiva" considera de manera integral las ventajas y desventajas de "autoregresivo" y "no autorregresivo" para equilibrar los requisitos de velocidad y precisión del razonamiento de modelos grandes.

Sin embargo, el uso de la solución "semiautoregresiva" ha causado nuevos problemas: en primer lugar, la mayoría de los modelos grandes no se pueden utilizar y, en segundo lugar, la precisión no puede cumplir con los requisitos de la industria.Los modelos grandes convencionales se construyen de acuerdo con el modo de inferencia autorregresivo. Si desea utilizar una solución semiautoregresiva, debe volver a entrenar el modelo grande desde cero. Entrenar un modelo grande requiere mucha electricidad, potencia informática y mano de obra. Casi nadie derrocará el modelo grande que finalmente fue entrenado y comenzará de nuevo para cambiar el esquema de inferencia.

Otra opción es la "decodificación especulativa".Este plan se basa en"Borrador - Validar"Para el trabajo del proceso, primero debe introducir un modelo auxiliar con una cantidad relativamente pequeña de parámetros. El modelo pequeño primero "borra" las respuestas del candidato y luego el modelo grande verifica si las respuestas del candidato son correctas o no. Gracias al hecho de que los modelos pequeños son más rápidos en el razonamiento que los modelos grandes, y los modelos grandes pueden verificar las respuestas de múltiples candidatos al mismo tiempo, este método de decodificación no solo puede garantizar la precisión de los resultados de salida, sino también acelerar el razonamiento.

Pero esta solución también tiene inconvenientes. En primer lugar, es necesario hacer un modelo pequeño muy "confiable" y poder "redactar" la respuesta de forma rápida y precisa, lo cual ya de por sí es difícil. En segundo lugar, los dos modelos deben tener "el mismo texto, la misma pista y el mismo sistema" entre los dos modelos. Sólo logrando un alto grado de coherencia en términos de segmentadores de palabras y listas de palabras se pueden garantizar los resultados de la verificación.

Motor de inferencia SPACE: pequeñas modificaciones, gran aceleración

Dado que varias soluciones no pueden satisfacer "tanto las necesidades como los deseos", ¿existe una solución que solo pueda conservar sus ventajas y evitar sus deficiencias? Este es el motor de inferencia SPACE propuesto por el gran equipo de modelos de Yuntian Lifei. SPACE combina las dos soluciones de "ajuste fino supervisado semiautoregresivo" y "decodificación de corrección automática" para permitir que modelos grandes generen múltiples resultados en una inferencia y completen la verificación de resultados simultáneamente para garantizar la calidad de los resultados generados. al mismo tiempo,Este motor de inferencia es adecuado para cualquier modelo grande.. Mediante el ajuste y la optimización del modelo, cuando cualquier modelo grande adopta este motor de inferencia, no solo no necesita entrenar modelos auxiliares adicionales, sino que también mejora la eficiencia de la inferencia y aprovecha al máximo los recursos informáticos paralelos como la GPU. logra una alta utilización de la potencia informática.

La diferencia entre el esquema autorregresivo (izquierda) y el esquema SPACE (derecha)

Como se mencionó anteriormente, la mayoría de los modelos de lenguaje grandes tienen sus propias propiedades "autoregresivas" y no pueden aplicar directamente la solución "semi-autoregresiva". En este sentido, SPACE adopta el método de "ajuste fino supervisado semiautoregresivo". A través del entrenamiento supervisado, el modelo aprende a proponer una serie de posibles palabras candidatas cuando encuentra la marca especial [MASCARA] (como se muestra en la figura anterior). . Esto permite que el modelo realice operaciones similares a "adivinar" durante el razonamiento y genere varias palabras candidatas con mayor probabilidad de ser correctas, teniendo así la capacidad de razonamiento semiautorregresivo.

En pocas palabras, con el apoyo del esquema de "ajuste fino supervisado semiautoregresivo", el modelo grande puede hacer "conjeturas" por sí mismo durante el razonamiento y generar múltiples palabras que probablemente sean correctas como respuestas candidatas.

Sin embargo, al igual que el examen, se puede enumerar una gran cantidad de contenido en el borrador, pero las respuestas correctas deben completarse en el examen. ¿Cómo garantizar que sea correcto? Esto requiere verificación de los resultados, y esto es lo que hace la "decodificación de corrección automática".

Específicamente, durante el razonamiento, también ingresamos en el modelo las palabras candidatas generadas por el modelo grande en el paso anterior del razonamiento, lo que permite que el modelo autoverifique y determine si estas respuestas candidatas son correctas.

El método de juicio también es muy simple. Si la palabra generada por el modelo coincide con la respuesta del candidato anterior, la palabra candidata se considera correcta. Para revisar, en el razonamiento autorregresivo tradicional, si una palabra es correcta, entonces es necesario volver a ingresarla en el modelo de lenguaje para inferir la siguiente palabra.

Pero esto no es necesario aquí en SPACE. Dado que hemos ingresado la palabra candidata en el modelo con anticipación y se ha verificado que la palabra candidata es correcta, podemos obtener directamente la nueva respuesta de la palabra candidata correcta en este momento, ahorrando así la necesidad de volver a ingresar la respuesta. en el modelo y luego proceder a un tiempo de razonamiento. Por lo tanto, la ventaja de este mecanismo es que cuando se verifica que una palabra candidata es correcta, no es necesario devolverla al modelo para generar la siguiente respuesta, lo que reduce el tiempo de razonamiento.

Como analogía, el razonamiento autorregresivo tradicional se puede comparar con una carrera de relevos de 4×100 metros: en una competición normal, cuatro atletas deben tomar el testigo uno por uno para completar toda la carrera. Esto es como un esquema autorregresivo. y requiere un razonamiento palabra por palabra. En el plan de SPACE, los cuatro atletas comenzaron a correr simultáneamente. Cuando el primer atleta corrió 100 metros y llegó al punto final, los otros atletas también llegaron al punto final de su respectiva etapa de 100 metros. Sin embargo, el primer atleta debe ser verificado después de llegar a la línea de meta. Si se pasa la verificación, se puede confirmar la puntuación del segundo atleta, luego se puede verificar el segundo atleta, y así sucesivamente.

Si un atleta no pasa la verificación, deberá regresar a su línea de salida de 100 metros y comenzar de nuevo para completar la carrera. En el mejor de los casos, si cada uno de los cuatro atletas puede pasar la verificación, entonces este grupo solo necesita pasar 1/4 del tiempo en un juego regular para completar el juego, logrando así un efecto de aceleración en el peor de los casos; Si cada atleta no pasa la verificación, el tiempo requerido será el mismo que en una competición regular. Que pueda pasar la verificación depende principalmente de la precisión de las respuestas del candidato.

Al mismo tiempo, durante el proceso de inferencia del modelo SPACE, también insertamos un identificador [MASK] especial en la entrada para guiar al modelo grande a generar una versión actualizada de la respuesta candidata. Según este mecanismo, cada ronda del modelo de razonamiento no solo verifica la precisión de las palabras candidatas generadas en la ronda anterior, sino que también proporciona nuevas palabras candidatas para el siguiente razonamiento.

Este diseño tiene como objetivoMejorar la precisión de las palabras candidatas, porque cada vez que aparece una nueva respuesta, las palabras candidatas originales serán más precisas mediante la actualización. Este proceso es como el pronóstico del tiempo: hacemos predicciones sobre las condiciones climáticas para la próxima semana todos los días y, a medida que pasa el tiempo, la precisión de las predicciones climáticas para un día específico en el futuro aumenta gradualmente. Esto se debe a que acumulamos más datos de sensores con el tiempo, lo que nos permite proporcionar predicciones meteorológicas más precisas.

El método tradicional de verificación y corrección es la "decodificación especulativa" mencionada anteriormente, lo que significa que primero debe entrenar un modelo pequeño confiable y luego usar un modelo grande para verificarlo. La calidad de generación del modelo pequeño afecta en gran medida el resultado final.

Sin embargo, SPACE propuso una nueva solución que puede lograr el propósito de generación y verificación sin utilizar modelos pequeños, y el trabajo de verificación y generación se puede realizar simultáneamente. De esta forma, se puede mejorar enormemente la eficiencia y precisión del razonamiento.

Volvamos al ejemplo inicial. Cuando ingresamos "¿Qué es un modelo grande?", En el modo de inferencia ESPACIO, el modelo grande primero generará las palabras "Los modelos grandes tienen decenas de millones de parámetros" al mismo tiempo, y automáticamente. corríjalos al mismo tiempo, el algoritmo de decodificación verificará inmediatamente las palabras generadas una por una y solo retendrá las palabras con resultados de verificación correctos como respuesta final, logrando así el efecto de generar múltiples palabras en el proceso de razonamiento directo de un. Modelo grande, logrando el propósito de aceleración.

Finalmente, echemos un vistazo a los efectos del ESPACIO.

Realizamos experimentos en varios modelos de lenguajes grandes de código abierto, cubriendo modelos de lenguajes grandes convencionales con diferentes tamaños de parámetros, desde 6 mil millones hasta 70 mil millones.Como se puede ver en la siguiente tabla, SPACE tiene efectos de aceleración más obvios en modelos con parámetros más grandes.。

Además, SPACE también se puede utilizar junto con otras tecnologías de aceleración de inferencia, como procesamiento por lotes continuo, atención flash, caché KV, cuantificación, etc., para lograr una velocidad de inferencia más rápida.

Para verificar este punto de vista, implementamos SPACE en un marco de inferencia convencional TGI. Los experimentos han demostrado que cuando se combina con otras tecnologías de aceleración de inferencia, el efecto de aceleración generado por SPACE también es sobresaliente.

Los modelos grandes han entrado en miles de industrias y el "razonamiento" es crucial

La capacitación y la inferencia son las dos etapas centrales del ciclo de vida de los modelos grandes. La capacitación resuelve el problema de "crear un modelo grande desde cero", mientras que la inferencia resuelve el problema de cómo aplicar modelos grandes a miles de industrias.

Si el año pasado se define como el primer año de la explosión de modelos grandes, este año es el primer año de implementación de aplicaciones de modelos grandes. Por lo tanto, las capacidades de razonamiento de los modelos grandes han recibido una atención cada vez mayor.

Yuntian Lifei ha hecho muchos esfuerzos para acelerar la aplicación de modelos grandes. En términos de potencia informática, el año pasado la compañía lanzó DeepEdge10, un chip de inferencia de borde de modelo grande, y recientemente lanzó la tarjeta aceleradora IPU-X6000, que se puede aplicar a la aceleración de inferencia de varios modelos grandes, como lenguaje, visión y multi- modalidad.

En términos de algoritmos, Yuntian Lifei propuso el motor de inferencia SPACE, que mejora enormemente la velocidad de la inferencia de modelos grandes. En términos de aplicación, el modelo a gran escala desarrollado por Yuntian Lifei, Yuntian Tianshu, se ha aplicado en muchas industrias, como asuntos gubernamentales inteligentes, gobernanza urbana, seguridad inteligente, transporte inteligente, negocios inteligentes, educación inteligente, etc., explorando y creando industrias. puntos de referencia.

En el futuro, Yuntian Lifei continuará trabajando duro y haciendo mayores contribuciones a la investigación y el desarrollo, la aplicación y la promoción de grandes tecnologías relacionadas con modelos.

Informe/Comentarios

noticias

ACL2024: Se presenta el motor Yuntian Lifei SPACE, el razonamiento de modelos grandes puede entrar en una nueva etapa

Introducción

Mi información de contacto