Nuevo trabajo del equipo de Tang Jie en la Universidad de Tsinghua: generar 20.000 palabras de una sola vez, modelo grande de libro abierto y salida larga

2024-08-15

Mingmin viene del templo de Aofei.
Qubits | Cuenta pública QbitAI

Genere 20.000 palabras de una vez y la salida del modelo grande también se acumulará.

La última investigación de Tsinghua & Zhipu AI ha aumentado con éxito la longitud de salida de GLM-4 y Llama-3.1.

Bajo el mismo problema, el resultado de salida aumentó directamente de 1800 palabras a 7800 palabras.4 veces。

Debes saber que la longitud de la generación actual de modelos grandes es generalmente inferior a 2k. Esto tiene un impacto en la creación de contenido, la respuesta a preguntas, etc., lo que puede dar lugar a respuestas incompletas a las preguntas por parte del modelo y a una reducción de la creatividad.

La investigación fue codirigida por Li Juanzi y Tang Jie, fundadores de Zhipu AI y profesores de la Universidad de Tsinghua.

El documento y el código son de código abierto en GitHub.

Algunos internautas ya lo han experimentado por primera vez. LongWriter-llama3.1-8b puede generar un texto de 10.000 palabras "La historia de la decadencia del Imperio Romano", que se puede ejecutar en MacBook Pro 2018 (32 GB).

El contenido resultante es muy preciso y se le puede otorgar A++.

El modelo 9B maneja una salida de 10,000 palabras

Esta investigación incluye principalmente tres aspectos del trabajo.

Analizar los factores limitantes de la longitud de la generación de texto
propuestaAgenteEscribir
Ampliar el tamaño de la ventana de salida de LLM

Primero, los investigadores crearon una herramienta de prueba, LongWrite-Ruler. Al probar múltiples modelos grandes, encontraron que todos los modelos generabanMás de 2000 palabrasdificultades con el texto.

Al analizar más a fondo los registros de interacción de los usuarios con modelos grandes, los investigadores encontraron que poco más del 1% de las solicitudes de los usuarios mencionaban explícitamentePara generar más de 2000 palabras.texto.

Para ello, cambiaron el modelo utilizado en la etapa de ajuste fino supervisado (SFT)La longitud máxima de salida del conjunto de datos.。

Se descubrió que la longitud máxima de salida del modelo era consistente con la longitud máxima de salida en el conjunto de datos SFT.correlación positiva significativa。

Por lo tanto, se concluye que los modelos existentes están limitados en longitud de salida principalmente porqueFaltan muestras de salida largas en el conjunto de datos SFT。

Incluso si el modelo ha visto secuencias más largas en la etapa de preentrenamiento, la falta de muestras de texto largas en la etapa SFT seguirá afectando la longitud de salida.

Para superar esta limitación, los investigadores propusieronAgente de escritura。

Esta es una canalización basada en agentes.

Permite descomponer tareas de generación de texto muy largas en múltiples subtareas, cada una de las cuales maneja una sección del mismo.

El proceso específico es que AgentWrite primero desarrolla un plan de redacción detallado basado en las instrucciones del usuario. El plan incluye los puntos principales del contenido y el número objetivo de palabras para cada párrafo. Según el plan, AgentWrite solicita secuencialmente al modelo que genere el contenido de cada párrafo.

Basado en AgentWrite, el equipo utilizó GPT-4o para generar 6000 datos SFT de salida largos, con una longitud de salida que oscila entre 2k y 32k palabras, formando el conjunto de datos LongWriter-6k. y agregar estos datos al proceso de capacitación.

Para verificar la eficacia del método, el equipo también propuso un LongBench-Write. Contiene una variedad de instrucciones de escritura para el usuario y las especificaciones de longitud de salida son de 0 a 500 palabras, de 500 a 2000 palabras, de 2000 a 4000 palabras y más de 4000 palabras.

Los resultados de la evaluación muestran que la longitud de salida del modelo aumenta significativamente después de usar AgentWrite.

A través de la optimización de preferencia directa (DPO), GLM-4-9B logra el mejor rendimiento entre los modelos.

Los internautas con manos rápidas ya han tomado la iniciativa en probarlo.

Un internauta en Reddit pidió a LongWriter-llama3.1-8b que generara la historia del declive del Imperio Romano. Tomó 22 minutos en total (dependiendo del hardware) y generó un promedio de 3,34 tokens por segundo.

El contenido generado es relativamente formulado y la estructura y el ritmo para responder diferentes preguntas son similares.

De todos modos, es un buen comienzo y las mejoras son obvias.

El equipo de investigación también afirmó que ampliará aún más la duración y la calidad de la producción del modelo en el futuro, y también comenzará a estudiar cómo mejorar la eficiencia sin sacrificar la calidad de la generación.

Enlaces de referencia:
https://github.com/THUDM/LongWriter

noticias

Nuevo trabajo del equipo de Tang Jie en la Universidad de Tsinghua: generar 20.000 palabras de una sola vez, modelo grande de libro abierto y salida larga

Introducción

Mi información de contacto