Nachricht

Neue Arbeit von Tang Jies Team an der Tsinghua-Universität: Generieren Sie 20.000 Wörter auf einmal, großes offenes Buchmodell und lange Ausgabe

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Generieren Sie 20.000 Wörter auf einmal, und die große Modellausgabe wird ebenfalls aufgerollt!

Die neueste Forschung von Tsinghua & Zhipu AI hat die Ausgabelänge von GLM-4 und Llama-3.1 erfolgreich erhöht.

Bei demselben Problem stieg das Ausgabeergebnis direkt von 1800 Wörtern auf 7800 Wörter.4 mal



Sie sollten wissen, dass die aktuelle Generationslänge großer Modelle im Allgemeinen unter 2 KB liegt. Dies wirkt sich auf die Erstellung von Inhalten, die Beantwortung von Fragen usw. aus, was zu unvollständigen Antworten auf Fragen durch das Modell und einer verringerten Kreativität führen kann.

Die Forschung wurde gemeinsam von Li Juanzi und Tang Jie, den Gründern von Zhipu AI und Professoren an der Tsinghua-Universität, geleitet.



Das Papier und der Code wurden als Open Source auf GitHub bereitgestellt.

Einige Internetnutzer haben es bereits als Erste erlebt. LongWriter-llama3.1-8b kann einen Text mit 10.000 Wörtern „Die Geschichte des Untergangs des Römischen Reiches“ generieren, der auf dem MacBook Pro 2018 (32 GB) ausgeführt werden kann.

Der ausgegebene Inhalt ist sehr genau und kann mit A++ bewertet werden.



Das 9B-Modell verarbeitet eine Ausgabe mit 10.000 Wörtern

Diese Forschung umfasst hauptsächlich drei Aspekte der Arbeit.

  • Analysieren Sie die Faktoren, die die Länge der Textgenerierung begrenzen
  • vorgeschlagenAgentWrite
  • Erweitern Sie die Größe des LLM-Ausgabefensters

Zunächst entwickelten die Forscher ein Testtool, LongWrite-Ruler. Durch das Testen mehrerer großer Modelle stellten sie fest, dass alle Modelle generiertenMehr als 2000 WörterSchwierigkeiten mit dem Text.

Bei einer weiteren Analyse der Benutzerinteraktionsprotokolle mit großen Modellen stellten die Forscher fest, dass etwas mehr als 1 % der Benutzeranfragen explizit erwähnt wurdenUm mehr als 2000 Wörter zu generierenText.

Zu diesem Zweck änderten sie das Modell, das in der Phase des überwachten Feintunings (SFT) verwendet wurdeDie maximale Ausgabelänge des Datensatzes

Es wurde festgestellt, dass die maximale Ausgabelänge des Modells mit der maximalen Ausgabelänge im SFT-Datensatz übereinstimmt.signifikante positive Korrelation

Daher wird der Schluss gezogen, dass die Ausgabelänge der vorhandenen Modelle vor allem deshalb begrenzt istIm SFT-Datensatz fehlen lange Ausgabebeispiele

Auch wenn das Modell in der Vortrainingsphase längere Sequenzen gesehen hat, wirkt sich das Fehlen langer Textbeispiele in der SFT-Phase dennoch auf die Ausgabelänge aus.



Um diese Einschränkung zu überwinden, schlugen Forscher vorAgentWrite

Dies ist eine agentenbasierte Pipeline.



Es ermöglicht die Zerlegung sehr langer Textgenerierungsaufgaben in mehrere Unteraufgaben, von denen jede einen Abschnitt davon bearbeitet.

Der spezifische Prozess besteht darin, dass AgentWrite zunächst einen detaillierten Schreibplan auf der Grundlage der Benutzeranweisungen entwickelt. Der Plan enthält die Hauptinhaltspunkte und die Zielanzahl der Wörter für jeden Absatz. Gemäß dem Plan fordert AgentWrite das Modell nacheinander auf, den Inhalt jedes Absatzes zu generieren.



Basierend auf AgentWrite verwendete das Team GPT-4o, um 6.000 SFT-Daten mit langer Ausgabe zu generieren, wobei die Ausgabelänge zwischen 2.000 und 32.000 Wörtern lag und den Datensatz LongWriter-6k bildete. und fügen Sie diese Daten dem Trainingsprozess hinzu.

Um die Wirksamkeit der Methode zu überprüfen, schlug das Team außerdem ein LongBench-Write vor. Es enthält eine Vielzahl von Schreibanweisungen für Benutzer und die Spezifikationen für die Ausgabelänge sind 0–500 Wörter, 500–2000 Wörter, 2000–4000 Wörter und mehr als 4000 Wörter.

Die Auswertungsergebnisse zeigen, dass die Modellausgabelänge nach Verwendung von AgentWrite deutlich zunimmt.



Durch direkte Präferenzoptimierung (DPO) erreicht GLM-4-9B die beste Leistung unter den Modellen.



Netizens mit schnellen Händen haben beim Testen bereits die Führung übernommen.

Ein Internetnutzer auf Reddit hat LongWriter-llama3.1-8b gebeten, die Geschichte des Untergangs des Römischen Reiches zu erstellen. Dies dauerte 22 Minuten (abhängig von der Hardware) und generierte durchschnittlich 3,34 Token pro Sekunde.



Der generierte Inhalt ist relativ formelhaft und die Struktur und der Rhythmus der Beantwortung verschiedener Fragen sind ähnlich.

Unabhängig davon ist es ein guter Anfang und die Verbesserungen sind offensichtlich.



Das Forschungsteam gab außerdem an, dass es die Ausgabelänge und Ausgabequalität des Modells in Zukunft weiter ausbauen wird und auch mit der Untersuchung beginnen wird, wie die Effizienz verbessert werden kann, ohne die Erzeugungsqualität zu beeinträchtigen.

Referenzlinks:
https://github.com/THUDM/LongWriter