berita

Pembuatan video tanpa batas, perencanaan dan pengambilan keputusan, integrasi paksa difusi dari prediksi token berikutnya dan difusi urutan penuh

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Jantung Mesin

Editor: Panda W

Saat ini, model bahasa autoregresif berskala besar yang menggunakan paradigma prediksi token berikutnya telah menjadi populer di seluruh dunia. Pada saat yang sama, sejumlah besar gambar dan video sintetik di Internet telah menunjukkan kepada kita kekuatan model difusi.

Baru-baru ini, tim peneliti di MIT CSAIL (salah satunya adalah Chen Boyuan, seorang mahasiswa PhD di MIT) berhasil mengintegrasikan kemampuan yang kuat dari model difusi urutan penuh dan model token berikutnya, dan mengusulkan paradigma pelatihan dan pengambilan sampel: Diffusion Forcing ( DF).



  • Judul makalah: Pemaksaan Difusi: Prediksi Token Berikutnya Memenuhi Difusi Urutan Penuh
  • Alamat makalah: https://arxiv.org/pdf/2407.01392
  • Situs web proyek: https://boyuan.space/diffusion-forcing
  • Alamat kode: https://github.com/buoyancy99/diffusion-forcing

Seperti yang ditunjukkan di bawah ini, pemaksaan difusi secara signifikan mengungguli difusi urutan penuh dan pemaksaan guru dalam hal konsistensi dan stabilitas.



Dalam kerangka kerja ini, setiap token dikaitkan dengan tingkat kebisingan yang acak dan independen, dan model prediksi token berikutnya yang dibagikan atau model prediksi token berikutnya dapat digunakan sesuai dengan skema per token yang sewenang-wenang dan independen untuk denoising.

Metode ini terinspirasi oleh pengamatan bahwa proses penambahan noise ke token merupakan bentuk penyembunyian parsial - noise nol berarti token tidak di-mask, sedangkan noise total menutupi token sepenuhnya. Oleh karena itu, DF memaksa model untuk mempelajari masker yang menghilangkan kumpulan variabel token yang berisik (Gambar 2).



Pada saat yang sama, dengan membuat parameter metode prediksi sebagai kombinasi dari beberapa model prediksi token berikutnya, sistem dapat secara fleksibel menghasilkan urutan dengan panjang yang berbeda dan menggeneralisasi lintasan baru dengan cara kombinatorial (Gambar 1).



Tim menerapkan DF untuk pembuatan urutan ke dalam Causal Diffusion Forcing (CDF), di mana token masa depan bergantung pada token masa lalu melalui arsitektur kausal. Mereka melatih model untuk menolak semua token dalam suatu urutan sekaligus (di mana setiap token memiliki tingkat kebisingan independen).

Selama pengambilan sampel, CDF secara bertahap melakukan denoise pada rangkaian frame derau Gaussian menjadi sampel yang bersih, dengan frame yang berbeda mungkin memiliki tingkat derau yang berbeda pada setiap langkah denoising. Mirip dengan model prediksi token berikutnya, CDF dapat menghasilkan rangkaian dengan panjang variabel; tidak seperti prediksi token berikutnya, kinerja CDF sangat stabil - baik dalam memprediksi token berikutnya, ribuan token di masa depan, atau bahkan token berkelanjutan.

Selain itu, mirip dengan difusi urutan penuh, ia juga dapat menerima panduan, memungkinkan perolehan imbalan yang tinggi. Dengan secara kolaboratif memanfaatkan kausalitas, cakupan fleksibel, dan penjadwalan kebisingan yang bervariasi, CDF mengaktifkan fitur baru: Monte Carlo Tree Guidance (MCTG). Dibandingkan dengan model difusi urutan penuh non-kausal, MCTG dapat sangat meningkatkan laju pengambilan sampel untuk menghasilkan imbalan yang tinggi. Gambar 1 memberikan gambaran umum tentang kemampuan ini.











percobaan

Tim mengevaluasi keunggulan pemaksaan difusi sebagai model urutan generatif dalam berbagai aplikasi termasuk prediksi video dan deret waktu, perencanaan, dan pembelajaran imitasi.

Prediksi video: pembuatan urutan yang konsisten dan stabil serta ekspansi tanpa batas

Untuk tugas pemodelan generatif video, mereka melatih implementasi RNN konvolusional untuk difusi sebab akibat berdasarkan video game Minecraft dan navigasi DMLab.

Gambar 3 menunjukkan hasil kualitatif dari pemaksaan difusi versus baseline.



Dapat dilihat bahwa pemaksaan difusi dapat berkembang secara stabil, bahkan melampaui jangkauan pelatihannya, sementara pemaksaan guru dan tolok ukur difusi rangkaian penuh akan berbeda dengan cepat.

Perencanaan difusi: MCTG, ketidakpastian sebab akibat, kendali ruang lingkup yang fleksibel

Kemampuan untuk meredakan paksaan membawa manfaat unik dalam pengambilan keputusan. Tim mengevaluasi kerangka pengambilan keputusan yang baru diusulkan menggunakan D4RL, kerangka pembelajaran penguatan offline standar.



Tabel 1 menyajikan hasil evaluasi kualitatif dan kuantitatif. Seperti yang dapat dilihat, pemaksaan difusi mengungguli Diffuser dan semua garis dasar di 6 lingkungan.

Pembuatan kombinasi urutan yang dapat dikontrol

Tim menemukan bahwa dimungkinkan untuk secara fleksibel menggabungkan urutan-urutan yang diamati pada waktu pelatihan hanya dengan memodifikasi skema pengambilan sampel.

Mereka melakukan eksperimen menggunakan kumpulan data lintasan 2D: pada bidang persegi, semua lintasan dimulai dari satu sudut dan berakhir di sudut yang berlawanan, membentuk semacam bentuk salib.

Seperti yang ditunjukkan pada Gambar 1 di atas, ketika perilaku kombinasi tidak diperlukan, DF dapat mempertahankan memori lengkap dan mereplikasi distribusi berbentuk silang. Ketika kombinasi diperlukan, model dapat digunakan untuk menghasilkan rencana yang lebih pendek tanpa memori menggunakan MPC, sehingga menggabungkan sub-lintasan berbentuk silang untuk mendapatkan lintasan berbentuk V.

Robotika: Pembelajaran imitasi jarak jauh dan kontrol visuomotor yang kuat

Pemaksaan difusi juga membawa peluang baru untuk kontrol gerak visual robot sungguhan.

Pembelajaran imitasi adalah teknik manipulasi robot yang umum digunakan untuk mempelajari pemetaan tindakan yang diamati yang ditunjukkan oleh para ahli. Namun, kurangnya memori sering kali membuat pembelajaran imitasi menjadi sulit untuk tugas-tugas jangka panjang. DF tidak hanya dapat mengatasi kekurangan ini, namun juga membuat pembelajaran imitasi menjadi lebih kuat.

Menggunakan memori untuk pembelajaran imitasi. Dengan mengendalikan robot Franka dari jarak jauh, tim mengumpulkan kumpulan data video dan gerakan. Seperti terlihat pada Gambar 4, tugasnya adalah menggunakan posisi ketiga untuk menukar posisi apel dan jeruk. Posisi awal buah bersifat acak, sehingga ada dua kemungkinan keadaan tujuan.



Lebih jauh lagi, ketika terdapat buah di posisi ketiga, hasil yang diinginkan tidak dapat disimpulkan dari pengamatan saat ini - kebijakan harus mengingat konfigurasi awal untuk memutuskan buah mana yang akan dipindahkan. Tidak seperti metode kloning perilaku yang umum digunakan, DF secara alami dapat mengintegrasikan ingatan ke dalam keadaan tersembunyinya. Ditemukan bahwa DF dapat mencapai tingkat keberhasilan 80%, sedangkan strategi difusi (saat ini merupakan algoritma pembelajaran imitasi tanpa memori terbaik) gagal.

Selain itu, DF bisa lebih tahan terhadap kebisingan dan memfasilitasi pra-pelatihan robot.

Peramalan deret waktu: Pemaksaan difusi adalah model urutan umum yang sangat baik

Untuk tugas peramalan deret waktu multivariat, penelitian tim menunjukkan bahwa DF sebanding dengan model difusi sebelumnya dan model berbasis Transformer.

Silakan merujuk ke makalah asli untuk detail teknis lebih lanjut dan hasil eksperimen.