Novo trabalho da equipe de Tang Jie na Universidade de Tsinghua: Gere 20.000 palavras de uma só vez, modelo grande de livro aberto e produção longa

2024-08-15

Mingmin vem do Templo Aofei
Qubits | Conta pública QbitAI

Gere 20.000 palavras de uma só vez e a grande saída do modelo também será acumulada!

A pesquisa mais recente da Tsinghua & Zhipu AI aumentou com sucesso o comprimento de saída do GLM-4 e do Llama-3.1.

No mesmo problema, o resultado da saída aumentou diretamente de 1.800 palavras para 7.800 palavras.4 vezes。

Você deve saber que a duração atual da geração de modelos grandes é geralmente inferior a 2k. Isso tem impacto na criação de conteúdo, resposta a perguntas, etc., o que pode levar a respostas incompletas às perguntas do modelo e à redução da criatividade.

A pesquisa foi co-liderada por Li Juanzi e Tang Jie, fundadores da Zhipu AI e professores da Universidade Tsinghua.

O artigo e o código foram de código aberto no GitHub.

Alguns internautas já experimentaram isso primeiro. LongWriter-llama3.1-8b pode gerar um texto de 10.000 palavras "A História do Declínio do Império Romano", que pode ser executado no MacBook Pro 2018 (32 GB).

O conteúdo de saída é muito preciso e pode receber A++.

O modelo 9B lida com saída de 10.000 palavras

Esta pesquisa inclui principalmente três aspectos do trabalho.

Analise os fatores limitantes do comprimento da geração de texto
propostoAgentWrite
Estender o tamanho da janela de saída LLM

Primeiro, os pesquisadores construíram uma ferramenta de teste, LongWrite-Ruler. Ao testar vários modelos grandes, eles descobriram que todos os modelos estavam gerandoMais de 2.000 palavrasdificuldades com o texto.

Analisando ainda mais os registros de interação do usuário com modelos grandes, os pesquisadores descobriram que pouco mais de 1% das solicitações dos usuários mencionavam explicitamentePara gerar mais de 2.000 palavrastexto.

Para isso, alteraram o modelo utilizado na etapa de ajuste fino supervisionado (SFT)O comprimento máximo de saída do conjunto de dados。

Verificou-se que o comprimento máximo de saída do modelo é consistente com o comprimento máximo de saída no conjunto de dados SFT.correlação positiva significativa。

Portanto, conclui-se que os modelos existentes são limitados em comprimento de produção principalmente porqueFaltam amostras de saída longas no conjunto de dados SFT。

Mesmo que o modelo tenha visto sequências mais longas no estágio de pré-treinamento, a falta de amostras de texto longas no estágio SFT ainda afetará o comprimento da saída.

Para superar essa limitação, os pesquisadores propuseramAgenteWrite。

Este é um pipeline baseado em agente.

Ele permite decompor tarefas de geração de texto muito longas em múltiplas subtarefas, cada uma das quais lida com uma seção delas.

O processo específico é que o AgentWrite primeiro desenvolva um plano de redação detalhado com base nas instruções do usuário. O plano inclui os principais pontos de conteúdo e o número alvo de palavras para cada parágrafo. De acordo com o plano, AgentWrite solicita sequencialmente ao modelo para gerar o conteúdo de cada parágrafo.

Com base no AgentWrite, a equipe usou GPT-4o para gerar 6.000 dados SFT de saída longa, com comprimento de saída variando de 2k a 32k palavras, formando o conjunto de dados LongWriter-6k. e adicione esses dados ao processo de treinamento.

Para verificar a eficácia do método, a equipe também propôs um LongBench-Write. Ele contém uma variedade de instruções de escrita do usuário e as especificações de comprimento de saída são de 0 a 500 palavras, 500 a 2.000 palavras, 2.000 a 4.000 palavras e mais de 4.000 palavras.

Os resultados da avaliação mostram que o comprimento da saída do modelo aumenta significativamente após o uso do AgentWrite.

Através da otimização de preferência direta (DPO), o GLM-4-9B atinge o melhor desempenho entre os modelos.

Internautas com mãos rápidas já assumiram a liderança em testá-lo.

Um internauta do Reddit pediu ao LongWriter-llama3.1-8b para gerar a história do declínio do Império Romano. Demorou 22 minutos (dependendo do hardware) e gerou uma média de 3,34 tokens por segundo.

O conteúdo gerado é relativamente estereotipado e a estrutura e o ritmo de resposta às diferentes perguntas são semelhantes.

Independentemente disso, é um bom começo e as melhorias são óbvias.

A equipe de pesquisa também afirmou que expandirá ainda mais o comprimento e a qualidade da produção do modelo no futuro e também começará a estudar como melhorar a eficiência sem sacrificar a qualidade da geração.

Links de referência:
https://github.com/THUDM/LongWriter

notícias

Novo trabalho da equipe de Tang Jie na Universidade de Tsinghua: Gere 20.000 palavras de uma só vez, modelo grande de livro aberto e produção longa

Introdução

Minhas informações de contato