berita

Karya baru tim Tang Jie di Universitas Tsinghua: Hasilkan 20.000 kata sekaligus, buku terbuka model besar dan keluaran panjang

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Hasilkan 20.000 kata sekaligus, dan keluaran model yang besar juga digulung!

Penelitian terbaru yang dilakukan Tsinghua & Zhipu AI berhasil meningkatkan panjang keluaran GLM-4 dan Llama-3.1.

Dengan soal yang sama, hasil keluaran langsung meningkat dari 1800 kata menjadi 7800 kata.4 kali



Perlu Anda ketahui bahwa panjang generasi model besar saat ini umumnya di bawah 2k. Hal ini berdampak pada pembuatan konten, menjawab pertanyaan, dan lain-lain, yang dapat menyebabkan jawaban pertanyaan model tidak lengkap dan berkurangnya kreativitas.

Penelitian ini dipimpin bersama oleh Li Juanzi dan Tang Jie, pendiri Zhipu AI dan profesor di Universitas Tsinghua.



Makalah dan kodenya bersumber terbuka di GitHub.

Beberapa netizen sudah terlebih dahulu mengalaminya. LongWriter-llama3.1-8b dapat menghasilkan teks 10.000 kata "Sejarah Kemunduran Kekaisaran Romawi", yang dapat dijalankan di MacBook Pro 2018 (32 GB).

Konten keluarannya sangat akurat dan dapat mendapat penghargaan A++.



Model 9B menangani keluaran 10.000 kata

Penelitian ini terutama mencakup tiga aspek pekerjaan.

  • Analisis faktor pembatas panjang pembuatan teks
  • diusulkanAgentWrite
  • Perluas ukuran jendela keluaran LLM

Pertama, para peneliti membuat alat pengujian, LongWrite-Ruler. Dengan menguji beberapa model besar, mereka menemukan bahwa semua model menghasilkanLebih dari 2000 katakesulitan dengan teks.

Menganalisis lebih lanjut log interaksi pengguna dengan model besar, para peneliti menemukan bahwa lebih dari 1% permintaan pengguna disebutkan secara eksplisitUntuk menghasilkan lebih dari 2000 katateks.

Untuk melakukan hal ini, mereka mengubah model yang digunakan dalam tahap penyempurnaan terawasi (SFT).Panjang keluaran maksimum kumpulan data

Ditemukan bahwa panjang keluaran maksimum model konsisten dengan panjang keluaran maksimum dalam kumpulan data SFT.korelasi positif yang signifikan

Oleh karena itu, dapat disimpulkan bahwa model yang ada memiliki keterbatasan dalam panjang keluaran terutama karenaSampel keluaran panjang tidak ada dalam kumpulan data SFT

Meskipun model telah melihat urutan yang lebih panjang pada tahap pra-pelatihan, kurangnya sampel teks yang panjang pada tahap SFT masih akan memengaruhi panjang keluaran.



Untuk mengatasi keterbatasan ini, peneliti mengusulkanAgenTulis

Ini adalah saluran berbasis Agen.



Hal ini memungkinkan penguraian tugas pembuatan teks yang sangat panjang menjadi beberapa subtugas, yang masing-masing menangani satu bagian darinya.

Proses spesifiknya adalah AgentWrite pertama-tama mengembangkan rencana penulisan terperinci berdasarkan instruksi pengguna. Rencana tersebut mencakup poin konten utama dan jumlah kata target untuk setiap paragraf. Rencananya, AgentWrite secara berurutan meminta model untuk menghasilkan konten setiap paragraf.



Berdasarkan AgentWrite, tim menggunakan GPT-4o untuk menghasilkan 6.000 data SFT keluaran panjang, dengan panjang keluaran berkisar antara 2 ribu hingga 32 ribu kata, sehingga membentuk kumpulan data LongWriter-6k. dan menambahkan data ini ke proses pelatihan.

Untuk memverifikasi efektivitas metode ini, tim juga mengusulkan LongBench-Write. Ini berisi berbagai instruksi penulisan pengguna, dan spesifikasi panjang keluaran adalah 0-500 kata, 500-2000 kata, 2000-4000 kata dan lebih dari 4000 kata.

Hasil evaluasi menunjukkan bahwa panjang keluaran model meningkat secara signifikan setelah menggunakan AgentWrite.



Melalui optimasi preferensi langsung (DPO), GLM-4-9B mencapai performa terbaik di antara model.



Netizen yang cepat telah memimpin dalam mengujinya.

Seorang netizen di Reddit meminta LongWriter-llama3.1-8b untuk menghasilkan sejarah kemunduran Kekaisaran Romawi. Butuh waktu 22 menit (tergantung perangkat kerasnya) dan menghasilkan rata-rata 3,34 token per detik.



Konten yang dihasilkan relatif dirumuskan, dan struktur serta ritme menjawab berbagai pertanyaan serupa.

Terlepas dari itu, ini adalah awal yang baik, dan kemajuannya terlihat jelas.



Tim peneliti juga menyatakan bahwa mereka akan memperluas panjang keluaran dan kualitas keluaran model di masa depan, dan juga akan mulai mempelajari cara meningkatkan efisiensi tanpa mengorbankan kualitas pembangkitan.

Tautan referensi:
https://github.com/THUDM/LongWriter