Nuovo lavoro del team di Tang Jie presso l'Università di Tsinghua: generare 20.000 parole in una volta sola, modello di libro aperto di grandi dimensioni e output

Nuovo lavoro del team di Tang Jie presso l'Università di Tsinghua: generare 20.000 parole in una volta sola, modello di libro aperto di grandi dimensioni e output lungo

2024-08-15

Mingmin viene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Genera 20.000 parole in un fiato e anche l'output del modello di grandi dimensioni verrà arrotolato!

L'ultima ricerca di Tsinghua e Zhipu AI ha aumentato con successo la lunghezza di output di GLM-4 e Llama-3.1.

Con lo stesso problema, il risultato dell'output è aumentato direttamente da 1800 parole a 7800 parole.4 volte。

Dovresti sapere che la lunghezza dell'attuale generazione di modelli di grandi dimensioni è generalmente inferiore a 2k. Ciò ha un impatto sulla creazione di contenuti, sulla risposta alle domande, ecc., che può portare a risposte incomplete alle domande da parte del modello e a una ridotta creatività.

La ricerca è stata co-guidata da Li Juanzi e Tang Jie, fondatori di Zhipu AI e professori della Tsinghua University.

Il documento e il codice sono stati resi open source su GitHub.

Alcuni netizen l'hanno già sperimentato per primi. LongWriter-llama3.1-8b può generare un testo di 10.000 parole "La storia del declino dell'Impero Romano", che può essere eseguito su MacBook Pro 2018 (32 GB).

Il contenuto di output è molto accurato e può essere premiato con A++.

Il modello 9B gestisce un output di 10.000 parole

Questa ricerca comprende principalmente tre aspetti del lavoro.

Analizzare i fattori limitanti la lunghezza della generazione del testo
propostoAgentWrite
Estendi le dimensioni della finestra di output LLM

Innanzitutto, i ricercatori hanno creato uno strumento di test, LongWrite-Ruler. Testando più modelli di grandi dimensioni, hanno scoperto che tutti i modelli generavanoPiù di 2000 paroledifficoltà con il testo.

Analizzando ulteriormente i registri di interazione degli utenti con modelli di grandi dimensioni, i ricercatori hanno scoperto che poco più dell'1% delle richieste degli utenti vengono menzionate esplicitamentePer generare più di 2000 paroletesto.

Per fare ciò, hanno modificato il modello utilizzato nella fase di fine tuning supervisionato (SFT).La lunghezza massima di output del set di dati。

È stato riscontrato che la lunghezza massima dell’output del modello era coerente con la lunghezza massima dell’output nel set di dati SFT.correlazione positiva significativa。

Pertanto, si conclude che i modelli esistenti sono limitati nella lunghezza di uscita principalmente perchéNel set di dati SFT mancano campioni di output lunghi。

Anche se il modello ha visto sequenze più lunghe nella fase di pre-addestramento, la mancanza di campioni di testo lunghi nella fase SFT influenzerà comunque la lunghezza dell'output.

Per superare questa limitazione, i ricercatori hanno propostoAgenteScrivi。

Questa è una pipeline basata su agenti.

Consente di scomporre attività di generazione di testo molto lunghe in più sottoattività, ognuna delle quali ne gestisce una sezione.

Il processo specifico prevede che AgentWrite sviluppi prima un piano di scrittura dettagliato basato sulle istruzioni dell'utente. Il piano include i punti del contenuto principale e il numero di parole target per ciascun paragrafo. Secondo il piano, AgentWrite richiede in sequenza al modello di generare il contenuto di ciascun paragrafo.

Basandosi su AgentWrite, il team ha utilizzato GPT-4o per generare 6.000 dati SFT di output lunghi, con una lunghezza di output compresa tra 2k e 32k parole, formando il set di dati LongWriter-6k. e aggiungere questi dati al processo di formazione.

Per verificare l'efficacia del metodo, il team ha proposto anche una LongBench-Write. Contiene una varietà di istruzioni di scrittura per l'utente e le specifiche della lunghezza di output sono 0-500 parole, 500-2000 parole, 2000-4000 parole e più di 4000 parole.

I risultati della valutazione mostrano che la lunghezza dell'output del modello aumenta in modo significativo dopo l'utilizzo di AgentWrite.

Attraverso l'ottimizzazione delle preferenze dirette (DPO), GLM-4-9B raggiunge le migliori prestazioni tra i modelli.

Gli utenti della rete con le mani veloci hanno già preso l'iniziativa di testarlo.

Un netizen su Reddit ha chiesto a LongWriter-llama3.1-8b di generare la storia del declino dell'Impero Romano. Ci sono voluti complessivamente 22 minuti (a seconda dell'hardware) e hanno generato una media di 3,34 token al secondo.

Il contenuto generato è relativamente stereotipato e la struttura e il ritmo di risposta alle diverse domande sono simili.

In ogni caso, è un buon inizio e i miglioramenti sono evidenti.

Il gruppo di ricerca ha inoltre affermato che in futuro amplierà ulteriormente la lunghezza e la qualità dell'output del modello e inizierà anche a studiare come migliorare l'efficienza senza sacrificare la qualità della generazione.

Link di riferimento:
https://github.com/THUDM/LongWriter

notizia

Nuovo lavoro del team di Tang Jie presso l'Università di Tsinghua: generare 20.000 parole in una volta sola, modello di libro aperto di grandi dimensioni e output lungo

Introduzione

Le mie informazioni di contatto