Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mingmin vem do Templo Aofei
Qubits | Conta pública QbitAI
Gere 20.000 palavras de uma só vez e a grande saída do modelo também será acumulada!
A pesquisa mais recente da Tsinghua & Zhipu AI aumentou com sucesso o comprimento de saída do GLM-4 e do Llama-3.1.
No mesmo problema, o resultado da saída aumentou diretamente de 1.800 palavras para 7.800 palavras.4 vezes。
Você deve saber que a duração atual da geração de modelos grandes é geralmente inferior a 2k. Isso tem impacto na criação de conteúdo, resposta a perguntas, etc., o que pode levar a respostas incompletas às perguntas do modelo e à redução da criatividade.
A pesquisa foi co-liderada por Li Juanzi e Tang Jie, fundadores da Zhipu AI e professores da Universidade Tsinghua.
O artigo e o código foram de código aberto no GitHub.
Alguns internautas já experimentaram isso primeiro. LongWriter-llama3.1-8b pode gerar um texto de 10.000 palavras "A História do Declínio do Império Romano", que pode ser executado no MacBook Pro 2018 (32 GB).
O conteúdo de saída é muito preciso e pode receber A++.
O modelo 9B lida com saída de 10.000 palavras
Esta pesquisa inclui principalmente três aspectos do trabalho.
Primeiro, os pesquisadores construíram uma ferramenta de teste, LongWrite-Ruler. Ao testar vários modelos grandes, eles descobriram que todos os modelos estavam gerandoMais de 2.000 palavrasdificuldades com o texto.
Analisando ainda mais os registros de interação do usuário com modelos grandes, os pesquisadores descobriram que pouco mais de 1% das solicitações dos usuários mencionavam explicitamentePara gerar mais de 2.000 palavrastexto.
Para isso, alteraram o modelo utilizado na etapa de ajuste fino supervisionado (SFT)O comprimento máximo de saída do conjunto de dados。
Verificou-se que o comprimento máximo de saída do modelo é consistente com o comprimento máximo de saída no conjunto de dados SFT.correlação positiva significativa。
Portanto, conclui-se que os modelos existentes são limitados em comprimento de produção principalmente porqueFaltam amostras de saída longas no conjunto de dados SFT。
Mesmo que o modelo tenha visto sequências mais longas no estágio de pré-treinamento, a falta de amostras de texto longas no estágio SFT ainda afetará o comprimento da saída.
Para superar essa limitação, os pesquisadores propuseramAgenteWrite。
Este é um pipeline baseado em agente.
Ele permite decompor tarefas de geração de texto muito longas em múltiplas subtarefas, cada uma das quais lida com uma seção delas.
O processo específico é que o AgentWrite primeiro desenvolva um plano de redação detalhado com base nas instruções do usuário. O plano inclui os principais pontos de conteúdo e o número alvo de palavras para cada parágrafo. De acordo com o plano, AgentWrite solicita sequencialmente ao modelo para gerar o conteúdo de cada parágrafo.
Com base no AgentWrite, a equipe usou GPT-4o para gerar 6.000 dados SFT de saída longa, com comprimento de saída variando de 2k a 32k palavras, formando o conjunto de dados LongWriter-6k. e adicione esses dados ao processo de treinamento.
Para verificar a eficácia do método, a equipe também propôs um LongBench-Write. Ele contém uma variedade de instruções de escrita do usuário e as especificações de comprimento de saída são de 0 a 500 palavras, 500 a 2.000 palavras, 2.000 a 4.000 palavras e mais de 4.000 palavras.
Os resultados da avaliação mostram que o comprimento da saída do modelo aumenta significativamente após o uso do AgentWrite.
Através da otimização de preferência direta (DPO), o GLM-4-9B atinge o melhor desempenho entre os modelos.
Internautas com mãos rápidas já assumiram a liderança em testá-lo.
Um internauta do Reddit pediu ao LongWriter-llama3.1-8b para gerar a história do declínio do Império Romano. Demorou 22 minutos (dependendo do hardware) e gerou uma média de 3,34 tokens por segundo.
O conteúdo gerado é relativamente estereotipado e a estrutura e o ritmo de resposta às diferentes perguntas são semelhantes.
Independentemente disso, é um bom começo e as melhorias são óbvias.
A equipe de pesquisa também afirmou que expandirá ainda mais o comprimento e a qualidade da produção do modelo no futuro e também começará a estudar como melhorar a eficiência sem sacrificar a qualidade da geração.
Links de referência:
https://github.com/THUDM/LongWriter