ニュース

清華大学の Tang Jie チームによる新作: 一度に 20,000 語を生成、大きなモデルのオープンブックと長い出力

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ミンミンはアオフェイ寺院の出身です
パブリックアカウント QbitAI

一度に 20,000 語を生成し、大規模なモデル出力もロールアップします。

Tsinghua & Zhipu AI による最新の研究により、GLM-4 と Llama-3.1 の出力長を延長することに成功しました。

同じ問題で、出力結果は 1800 ワードから 7800 ワードに直接増加しました。4回



大規模モデルの現在の世代の長さは、通常 2k 未満であることを知っておく必要があります。これはコンテンツ作成や質問応答などに影響を及ぼし、モデルによる質問に対する回答が不完全になったり、創造性が低下したりする可能性があります。

この研究は、Zhipu AIの創設者で清華大学の教授であるLi Juanzi氏とTang Jie氏が共同で主導した。



論文とコードは GitHub でオープンソース化されています。

一部のネチズンはすでにそれを最初に経験しています。 LongWriter-llama3.1-8b は、MacBook Pro 2018 (32GB) で実行できる 10,000 ワードのテキスト「ローマ帝国衰退の歴史」を生成できます。

出力内容は非常に正確であり、A++ を獲得できます。



9B モデルは 10,000 ワードの出力を処理します

この研究には主に仕事の 3 つの側面が含まれます。

  • テキスト生成の長さの制限要因を分析する
  • 提案されたエージェント書き込み
  • LLM 出力ウィンドウ サイズを拡張する

まず、研究者らはテスト ツール LongWrite-Ruler を構築しました。複数の大規模モデルをテストしたところ、すべてのモデルが生成していることがわかりました。2000語以上テキストの難しさ。

研究者らは、大規模モデルを使用したユーザー インタラクション ログをさらに分析したところ、ユーザー リクエストの 1% 強が明示的に言及されていることがわかりました。2000 語を超える単語を生成するには文章。

これを行うために、教師あり微調整 (SFT) 段階で使用されるモデルを変更しました。データセットの最大出力長

モデルの最大出力長は、SFT データセットの最大出力長と一致していることがわかりました。有意な正の相関

したがって、既存のモデルは出力長に制限があることが主な理由であると結論付けられます。SFT データセットに長い出力サンプルがありません

たとえモデルが事前トレーニング段階でより長いシーケンスを検出したとしても、SFT 段階で長いテキスト サンプルが不足していると、依然として出力の長さに影響します。



この限界を克服するために、研究者たちは提案しました。エージェント書き込み

これはエージェントベースのパイプラインです。



これにより、非常に長いテキスト生成タスクを複数のサブタスクに分解し、それぞれがそのセクションを処理することができます。

具体的なプロセスとしては、AgentWrite が最初にユーザーの指示に基づいて詳細な執筆計画を作成します。この計画には、主要なコンテンツのポイントと各段落の目標単語数が含まれます。計画に従って、AgentWrite はモデルに各段落のコンテンツを生成するよう順次指示します。



AgentWrite に基づいて、チームは GPT-4o を使用して、出力長が 2k から 32k ワードの範囲の 6,000 個の長い出力 SFT データを生成し、データ セット LongWriter-6k を形成しました。このデータをトレーニング プロセスに追加します。

この手法の有効性を検証するために、チームは LongBench-Write も提案しました。さまざまなユーザー記述命令が含まれており、出力長の仕様は 0 ~ 500 ワード、500 ~ 2000 ワード、2000 ~ 4000 ワード、および 4000 ワード以上です。

評価結果は、AgentWrite を使用した後、モデル出力の長さが大幅に増加することを示しています。



GLM-4-9B は、ダイレクト プリファレンス最適化 (DPO) により、モデル間で最高のパフォーマンスを実現します。



手の早いネチズンはすでに率先してテストを行っています。

Reddit のネチズンは、LongWriter-llama3.1-8b にローマ帝国の衰退の歴史を生成するよう依頼しました。所要時間は全体で 22 分 (ハードウェアによって異なります)、1 秒あたり平均 3.34 トークンが生成されました。



生成されるコンテンツは比較的定型的で、さまざまな質問に答える構造とリズムは似ています。

いずれにせよ、これは良いスタートであり、改善は明らかです。



研究チームはまた、将来的にモデルの出力長と出力品質をさらに拡大し、発電品質を犠牲にすることなく効率を向上させる方法の検討も開始すると述べた。

参考リンク:
https://github.com/THUDM/LongWriter