Primera serie de blogs del ex científico de Google Yi Tay de "La historia de LLM": ¿Por qué desapareció BERT?

2024-07-21

Nuevo informe de sabiduría

Editor: Yongyong Qiao Yang

[Introducción a la Nueva Sabiduría]El ex científico de Google Yi Tay lanzó la serie de blogs "Arquitectura modelo en la era LLM". La primera publicación del blog trata sobre: Cómo BERT basado en la arquitectura solo codificador fue reemplazado por T5 basado en la arquitectura codificador-decodificador y analizó. extinción de BERT Toda la historia y las ventajas y desventajas de los diferentes modelos arquitectónicos Tomar la historia como lección es de gran importancia para la innovación futura.

Yi Tay, un ex científico de Google aficionado a los blogs, estaba demasiado aburrido para volar recientemente, por lo que escribió un artículo en profundidad sobre un tema que preocupa a muchas personas actualmente: el flujo y reflujo de las arquitecturas modelo en la era LLM. .

Esta vez Yi Tay intentó desentrañar todo lo que está sucediendo en la nueva era LLM, sobre "¿Qué pasó con BERT y T5"? También sobre el ascenso y caída del codificador Transformer, PrefixLM y objetivos de eliminación de ruido.

Dirección del blog: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

¿Por qué el modelo de sólo codificador “ya no es popular”? ¿Por qué BERT es tan poderoso pero no puede "escalarlo"?

Es difícil ver el panorama completo cuando estás en él. Con respecto a estos temas que hacen que la gente de la industria se rasque la cabeza, Yi Tay compartió sus observaciones y pensamientos.

Y Yi Tay también dijo que esta es solo la primera de una serie de publicaciones de blog, y que pueden esperar más contenido suyo sobre el tema "Arquitectura modelo en la era LLM".

Decidió iniciar una nueva serie de blogs con actualizaciones sobre arquitectura de modelos en la era LLM. A continuación se muestra la Parte 1, que cubre la arquitectura más amplia de codificadores/codificadores-decodificadores de transformadores, PrefixLM y objetivos de eliminación de ruido. Una pregunta que mucha gente se hará es: "Las personas que se dedicaban a la investigación del lenguaje y la PNL hace unos cinco años se estaban rascando la cabeza y preguntándose dónde se habían ido los modelos de codificador. Si BERT es tan eficaz, ¿por qué no ampliar su escala?" Además, ¿qué pasó con el modelo codificador-decodificador o codificador puro? ¿Es bueno el objetivo de eliminación de ruido? Comparto mis pensamientos en esta publicación de blog.

Yi Tay es todo un "narrador" en la era LLM. En su blog, resumió de manera concisa el desarrollo de la arquitectura modelo en los últimos años y presentó sus propias ideas.

fondo

Para facilitar la lectura a las personas que no están tan cercanas a la tecnología, Yi Tay explicó primero el trasfondo de la historia.

En los últimos años, ha habido tres paradigmas importantes en la arquitectura de modelos.

modelos solo codificador (como BERT), modelos codificador-decodificador (como T5) y modelos solo decodificador (como la serie GPT).

Pero la gente está muy confundida acerca de esta división y hay muchos malentendidos, por lo que este es el propósito de Yi Tay al escribir esta publicación de blog. Espera ayudar a todos a establecer una comprensión más clara.

Lo primero que hay que dejar claro es que el modelo codificador-decodificador sigue siendo en realidad un modelo autorregresivo. El decodificador en el modelo codificador-decodificador sigue siendo un decodificador causal, tanto literal como esencialmente.

El texto primero se pasa al codificador y luego se envía al decodificador a través del mecanismo de atención cruzada en lugar de completar previamente el modelo del decodificador.

Por lo tanto, ¡el modelo T5 también es un modelo de lenguaje!

Una variante es el modelo de lenguaje Prefix, o arquitectura PrefixLM, que hace casi lo mismo excepto por el mecanismo de atención cruzada. (Y algunos otros pequeños detalles, como el peso compartido entre codificador/decodificador y la ausencia de cuellos de botella en el codificador)

PrefixLM a veces se denomina decodificador no causal. En resumen, codificador-decodificador, solo codificador y PrefixLM no son tan diferentes.

Si todavía tiene dudas al respecto, Yi Tay también dio una referencia: el maravilloso discurso de Hyung Won en Stanford en abril de este año, en el que explicó hábilmente la relación entre estos modelos.

Dirección de la conferencia: https://www.youtube.com/watch?v=orDKvo8h71o

Al mismo tiempo, el método de eliminación de ruido de los modelos de solo codificador como BERT es diferente (es decir, in situ) y depende hasta cierto punto del "cabezal de tarea" adicional agregado para realizar con el modelo base previamente entrenado. operaciones.

El objetivo de eliminación de ruido de BERT se aplicó posteriormente a modelos como el T5, pero con ciertas modificaciones y un formato de secuencia a secuencia.

Dicho esto, vale la pena señalar que la eliminación de ruido en T5 en sí no es exactamente una nueva función objetivo (en el sentido del aprendizaje automático), sino más bien una transformación de datos entre entradas, es decir, también puede En el decodificador de causa y efecto abarca el objetivo de corrupción ¡entrenar!

La gente siempre piensa que el modelo codificador-decodificador debe ser un modelo de eliminación de ruido, y parte de la razón de esta ilusión es que el modelo T5 es demasiado representativo.

Sin embargo, este no es siempre el caso.

Puede utilizar una tarea de modelado de lenguaje normal (es decir, CLM) para entrenar el codificador-decodificador, o puede utilizar una tarea de corrupción de intervalo para entrenar el decodificador causal.

Como se indicó anteriormente, se trata principalmente de una transformación de datos.

También se debe tener en cuenta que, en general, un codificador-decodificador de 2N parámetros tiene el mismo costo computacional que un modelo de solo decodificador de N parámetros, por lo que su relación FLOP/parámetro es diferente.

Según nuestra comprensión de los antecedentes anteriores, ahora ingresaremos el texto——

Con respecto a los objetivos de eliminación de ruido (¿es inútil? ¿No se escala? ¿Es demasiado simple?)

Para ser claros, el objetivo de eliminación de ruido mencionado por Yi Tay se refiere a cualquier variante de corrupción de tramos.

A veces también se le llama llenar o llenar el espacio en blanco. Hay muchas formas de expresarlo (así como longitud del intervalo, aleatoriedad, tokens centinela, etc.).

Aunque los objetivos de eliminación de ruido en los modelos de estilo BERT están en su mayoría vigentes, un enfoque un poco más moderno es el "estilo T5", que es la transformación de datos manejada por modelos codificadores/ecodificadores o solo decodificadores.

En esta transformación de datos, el token de máscara simplemente se "mueve hacia atrás" para que el modelo haga predicciones.

El objetivo principal de la capacitación previa es crear representaciones internas útiles que se alineen con las tareas posteriores de la manera más eficiente y efectiva.

Cuanto mejores sean las representaciones internas, más fácil será utilizar estas representaciones aprendidas para algo útil más adelante.

Como todos sabemos, el simple objetivo del "modelado de lenguaje causal" (CLM) de predecir los próximos tokens funciona bien y se ha convertido en la base de la revolución LLM. La pregunta ahora es si el objetivo de eliminación de ruido es igualmente bueno.

A partir de información pública, sabemos que el T5-11B funciona muy bien incluso después de alineación/SFT (el Flan-T5 XXL tiene una puntuación MMLU de 55+, lo cual es bastante bueno para un modelo de este tamaño en ese momento).

Por lo tanto, podemos sacar algunas conclusiones: la transferencia de la capacidad de eliminar el ruido de los objetivos desde el preentrenamiento hasta la alineación puede ayudar a que el modelo funcione mejor en la escala 11B.

La opinión de Yi Tay es que los objetivos de eliminación de ruido son excelentes, pero no suficientes como objetivo independiente.

Podemos describir su desventaja como una menor "exposición a pérdidas". En el objetivo de eliminación de ruido, solo una pequeña cantidad de tokens se enmascaran y se utilizan en el proceso de aprendizaje (es decir, actualizando el valor de pérdida).

Por el contrario, en el modelado de lenguaje convencional, la utilización de tokens es cercana al 100%.

Esta característica del objetivo de eliminación de ruido hace que la eficiencia de muestreo por FLOP sea bastante baja y, por lo tanto, lo coloca en una desventaja en las comparaciones basadas en FLOP.

Otro inconveniente es que los objetivos de eliminación de ruido son menos naturales que el modelado de lenguaje normal porque reformatea la entrada/salida de una manera extraña, lo que los hace un poco incómodos para el aprendizaje en pocas oportunidades. (Sin embargo, estos modelos aún se pueden ajustar para que funcionen razonablemente bien en tareas de pocas tomas)

Por lo tanto, Yi Tay cree que los objetivos de eliminación de ruido casi sólo pueden usarse como complemento al modelado del lenguaje convencional en lugar de como un objetivo de entrenamiento independiente.

Los primeros días de la unidad y por qué se extinguió xBERT

La eliminación gradual de modelos tipo BERT es una fase interesante, pero hoy en día no mucha gente habla de ella, es sutil.

Esto también puede explicar por qué ya no vemos ningún modelo BERT muy grande en ejecución. ¿Cuál es la razón?

Se trata principalmente de una cuestión de unificación y transformación de paradigmas de tarea/modelado.

Los modelos de estilo BERT eran torpes, pero realmente estaban en desuso porque la gente quería usar un modelo para todas las tareas, por lo que se introdujo una mejor manera de eliminar el ruido: usar modelos autorregresivos.

Entre 2018 y 2021, se ha producido un cambio de paradigma oculto desde el ajuste fino de una sola tarea a modelos multitarea a gran escala.

Poco a poco, la atención de todos se centró en el modelo unificado de SFT, que también es el modelo general unificado que vemos hoy.

Es demasiado difícil hacer esto con BERT.

Sin embargo, esta "torpeza" de BERT tiene poco que ver con la tarea de "eliminar ruido". Si aún desea utilizar este tipo de modelo, puede expresar la tarea de "reducción de ruido" de otra manera (como T5).

Por lo tanto, los modelos de estilo BERT están casi en desuso en este momento a medida que emerge una alternativa estrictamente mejor.

Más específicamente, los modelos codificador-decodificador y solo decodificador pueden expresar múltiples tareas simultáneamente sin requerir encabezados de clasificación específicos de la tarea.

Al mismo tiempo, investigadores e ingenieros han descubierto que para el modelo codificador-decodificador, si simplemente se retira el codificador y solo queda el decodificador, su rendimiento será tan competitivo como el codificador de BERT.

No solo eso, dejar solo el decodificador también conserva la ventaja de la atención bidireccional que hace que BERT sea superior a los modelos GPT en tareas de pequeña escala (generalmente de producción).

El valor del objetivo de eliminación de ruido.

De manera similar a cómo funciona el modelado del lenguaje normal, el objetivo de preentrenamiento de eliminación de ruido también aprende a predecir la siguiente palabra.

Sin embargo, a diferencia del CLM convencional, este último realiza una transformación de datos en la secuencia para aprender a "completar los espacios en blanco" en lugar de simplemente predecir el texto que aparece naturalmente de izquierda a derecha.

Vale la pena señalar que los objetivos de eliminación de ruido a veces se denominan "tareas de llenado" y, a veces, se combinan con tareas habituales de modelado del lenguaje para la capacitación previa.

Si bien los detalles específicos de configuración e implementación pueden variar, es probable que el LLM actual utilice alguna combinación de modelado y relleno de lenguaje.

Y, curiosamente, el híbrido de modelado de lenguaje y relleno parece haberse extendido casi al mismo tiempo (por ejemplo, UL2, FIM, GLM, CM3), y muchos equipos aportaron su propio "sabor" al híbrido de alguna manera.

Por cierto, el modelo más grande divulgado y reportado públicamente entrenado de esta manera es PaLM-2.

Vale la pena señalar que el entrenamiento mixto no necesariamente tiene que realizarse al mismo tiempo, sino que se puede acumular de forma secuencial.

Por ejemplo, Flan-T5 se entrenó inicialmente en tokens de corrupción de 1Tspan y luego cambió a la tarea de modelado de lenguaje de prefijo de tokens de 100B antes de realizar el ajuste fino de la instrucción.

En cierto modo, se puede decir que se trata de un modelo híbrido de eliminación de ruido/modelado de lenguaje.

Yi Tay también compartió una experiencia no oficial: las representaciones aprendidas mediante objetivos de eliminación de ruido funcionan mejor en ciertas categorías de tareas y, a veces, se muestrean de una manera más eficiente.

Los modelos ajustados entrenados con este objetivo generalmente producen mejores modelos SFT, especialmente a escalas más pequeñas.

Hablando de ajuste fino de una sola tarea, podemos ver que el modelo PaLM-1 62B es derrotado por el T5 más pequeño.

¡La atención bidireccional + objetivos de eliminación de ruido pueden desempeñar un papel muy importante en un rango relativamente pequeño! Creo que muchos profesionales han visto esta situación ahora, especialmente en producción.

Ventajas y desventajas de la arquitectura codificador/decodificador

La arquitectura codificador-decodificador en realidad tiene algunas ventajas sobre el modelo normal de solo decodificador.

El lado del codificador no está limitado por máscaras causales, hasta el punto de que puedes acumular capas de atención como loco con agrupación agresiva o cualquier forma de atención lineal sin preocuparte por las limitaciones de los diseños autorregresivos.

Esta es una buena manera de pasar un "contexto" menos importante al codificador. También puedes hacer el codificador más pequeño, lo cual también es bueno.

Un ejemplo en Charformer ilustra la necesidad de la arquitectura codificador-decodificador. Podemos hacer un gran escándalo con el codificador para aliviar los defectos de velocidad al codificar a nivel de bytes.

Pero al mismo tiempo, una desventaja del codificador-decodificador en comparación con PrefixLM es que la entrada y el destino deben tener longitudes de asignación fijas.

Por ejemplo, si la longitud de entrada predeterminada es 1024 tokens, el lado del codificador debe rellenarse con este valor, lo que puede causar una gran cantidad de desperdicio computacional.

Por el contrario, en PrefixLM, las entradas y los destinos se pueden conectar directamente, aliviando así este problema.

Relevancia para los modelos actuales y conclusiones clave

Ya sea desde una perspectiva de arquitectura modelo o desde una perspectiva previa a la capacitación, para convertirse en un investigador y profesional de LLM competente, la capacidad de utilizar sesgos inductivos para el razonamiento es esencial. Y comprender los matices fundamentales entre las diferentes arquitecturas de modelos puede ayudar con la innovación futura.

Yi Tay compartió sus conclusiones clave:

Tanto el modelo codificador-decodificador como el modelo solo decodificador son modelos autorregresivos, pero existen diferencias a nivel de implementación, cada uno con ventajas y desventajas. Sus sesgos inductivos son sutilmente diferentes y el uso óptimo realmente depende del caso de uso posterior y de las considerables limitaciones de la aplicación. Para la mayoría de las aplicaciones LLM y casos de uso especializados, los modelos de solo codificador estilo BERT se consideran en su mayoría obsoletos.
El objetivo de eliminación de ruido es principalmente un complemento del CLM. Como "objetivo auxiliar" en el preentrenamiento, suele aportar algo de ayuda. Si bien esto sucede a menudo con los modelos de código (es decir, relleno de código), en los modelos de propósito general actuales no es raro usar un CLM con algún objetivo de eliminación de ruido para el entrenamiento previo (aunque esto no es un requisito).
Los mecanismos de atención bidireccional ayudan mucho en escalas más pequeñas, pero a menudo son sólo una opción en modelos a mayor escala. Yi Tay cree que la atención bidireccional tiene un sesgo inductivo, como muchos otros tipos de modificaciones en la arquitectura Transformer.

Finalmente, para resumir, no hemos visto ningún escalamiento exitoso de xBERT: el modelo BERT ha quedado obsoleto en favor del modelo T5 de eliminación de ruido (autoregresivo) más flexible.

Esto se debe principalmente a la unificación de paradigmas y todo el mundo quiere utilizar modelos generales en lugar de modelos de tareas específicas.

Al mismo tiempo, la eliminación de ruido autorregresiva a veces se incluye en CLM como un objetivo de entrenamiento incidental.

Sobre el Autor

Yi Tay es actualmente el cofundador y científico jefe de la startup de inteligencia artificial Reka. Reka se dedica a construir modelos generativos de última generación y a promover la investigación en inteligencia artificial.

Antes de eso, fue científico investigador senior en Google Brain, participó en LLM y trabajos relacionados con la IA, y también se desempeñó como director técnico del equipo de investigación de EE. UU. en Google Research, trabajando en extensiones y arquitectura de Transformer.

Mientras estuvo en Google, Yi Tay contribuyó a aproximadamente 20 lanzamientos de productos.

Durante el mandato de Yi Tay como científico investigador en Google, la mayoría de sus trabajos publicados giraban en torno a Transformer, especialmente los relacionados con la eficiencia, la escalabilidad y la investigación arquitectónica.

Además de escribir blogs, a Yi Tay también le encanta la música clásica. Dijo: "Si no me hubiera convertido en investigador, tal vez habría querido convertirme en músico profesional". Curiosamente, recibió un diploma a ese respecto.

Espero con ansias que Yi Tay vuelva a tomar un vuelo de larga distancia para poder verlo actualizar su blog nuevamente.

Referencias:

https://x.com/YiTayML/status/1813262126162845772

noticias

Primera serie de blogs del ex científico de Google Yi Tay de "La historia de LLM": ¿Por qué desapareció BERT?

Introducción

Mi informacion de contacto