Informasi kontak saya
Surat[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Laporan Kebijaksanaan Baru
Editor: Alan
[Pengantar Kebijaksanaan Baru]Baru-baru ini, para peneliti dari Universitas California, Irvine, dan institusi lain telah mengurangi biaya pelatihan model difusi menjadi US$1.890 dengan menggunakan strategi seperti penundaan penyembunyian, MoE, dan perluasan hierarki.
Berapa biaya untuk melatih model difusi?
Metode termurah sebelumnya (Wuerstchen) berharga $28.400, dan model seperti Difusi Stabil jauh lebih mahal.
Di era model besar, kebanyakan orang tidak mampu bermain-main dengan mereka. Jika Anda menginginkan semua jenis wanita Vinsensian, Anda harus bergantung pada produsen untuk memajukan bobotnya.
Untuk mengurangi biaya yang sangat besar ini, para peneliti telah mencoba berbagai solusi.
Misalnya, model difusi asli memerlukan sekitar 1.000 langkah untuk beralih dari noise ke gambar, namun telah dikurangi menjadi sekitar 20 langkah atau bahkan kurang.
Ketika modul dasar model difusi secara bertahap digantikan oleh DiT (Transformer) dari Unet (CNN), beberapa optimasi berdasarkan karakteristik Transformer juga diikuti.
Misalnya kuantifikasi, seperti melewatkan beberapa penghitungan redundan di Attention, seperti pipeline.
Baru-baru ini, para peneliti dari Universitas California, Irvine, dan institusi lain telah mengambil langkah maju yang besar dalam tujuan "menghemat uang":
Alamat makalah: https://arxiv.org/abs/2407.15811
——Latih model difusi 1,16 miliar parameter dari awal hanya dengan $1.890!
Dibandingkan dengan SOTA, ini telah ditingkatkan dengan urutan besarnya, memungkinkan orang awam melihat harapan untuk merasakan pra-pelatihan.
Lebih penting lagi, teknologi pengurangan biaya tidak mempengaruhi kinerja model. 1,16 miliar parameter memberikan hasil yang sangat baik berikut ini.
Selain tampilan dan nuansa, indikator data model juga sangat baik. Misalnya, skor FID yang diberikan pada tabel di bawah ini sangat mendekati Difusi Stabil 1.5 dan DALL·E 2.
Sebaliknya, rencana pemotongan biaya Wuerstchen menghasilkan nilai ujian yang kurang ideal.
Kiat untuk menghemat uang
Dengan tujuan “Meregangkan Setiap Dolar”, para peneliti memulai dengan DiT, modul dasar model difusi.
Pertama-tama, panjang urutan adalah musuh biaya komputasi Transformer dan perlu dihilangkan.
Untuk gambar, penting untuk meminimalkan jumlah patch yang berpartisipasi dalam perhitungan (dan juga mengurangi overhead memori) tanpa mempengaruhi kinerja.
Ada dua cara untuk mengurangi jumlah ubin gambar. Yang pertama adalah dengan menambah ukuran setiap blok, dan yang lainnya adalah dengan menghapus sebagian patch (mask).
Karena metode pertama akan mengurangi performa model secara signifikan, kami mempertimbangkan metode masking.
Masker yang paling naif (Naive token masking) mirip dengan pelatihan yang dipotong secara acak di UNet konvolusional, tetapi memungkinkan pelatihan pada area gambar yang tidak bersebelahan.
Metode paling canggih sebelumnya (MaskDiT) menambahkan struktur restorasi dan rekonstruksi sebelum keluaran, dan melatihnya melalui fungsi kerugian tambahan, dengan harapan dapat mengganti informasi yang hilang melalui pembelajaran.
Kedua topeng membuang sebagian besar tambalan di awal untuk mengurangi biaya komputasi. Hilangnya informasi secara signifikan mengurangi kinerja Transformer secara keseluruhan. Bahkan jika MaskDiT mencoba untuk menebusnya, itu hanya menghasilkan sedikit peningkatan.
——Tidak disarankan kehilangan informasi, jadi bagaimana kita bisa mengurangi masukan tanpa kehilangan informasi?
topeng penundaan
Makalah ini mengusulkan strategi penangguhan masking, yang menggunakan patch-mixer untuk pra-pemrosesan sebelum mask, dan menyematkan informasi dari patch yang dibuang ke dalam patch yang masih ada, sehingga secara signifikan mengurangi dampak penurunan kinerja masker yang tinggi.
Dalam arsitektur ini, patch-mixer diimplementasikan melalui kombinasi lapisan perhatian dan lapisan feed-forward. Binary mask digunakan untuk masking. Fungsi kerugian dari keseluruhan model adalah:
Dibandingkan dengan MaskDiT, tidak diperlukan fungsi kerugian tambahan di sini, dan keseluruhan desain serta pelatihan lebih sederhana.
Mixer itu sendiri memiliki struktur yang sangat ringan dan memenuhi kriteria penghematan uang.
penyesuaian
Karena rasio masking yang sangat tinggi akan secara signifikan mengurangi kemampuan model difusi untuk mempelajari struktur global dalam gambar dan memperkenalkan pergeseran distribusi dari pelatihan ke pengujian, penulis melakukan sedikit penyesuaian (membuka kedok) setelah pra-pelatihan (masker) ).
Selain itu, penyesuaian dapat mengurangi artefak generasi yang tidak diinginkan yang disebabkan oleh penggunaan masker.
MoE dan ekstensi berlapis
MoE dapat meningkatkan parameter dan kemampuan ekspresif model tanpa meningkatkan biaya pelatihan secara signifikan.
Penulis menggunakan lapisan MoE yang disederhanakan berdasarkan perutean yang dipilih pakar, dengan masing-masing pakar menentukan rute ke tokennya tanpa memerlukan fungsi kerugian tambahan apa pun untuk menyeimbangkan beban antar pakar.
Selain itu, penulis juga mempertimbangkan metode penskalaan hierarki yang meningkatkan lebar blok Transformer secara linier (yaitu, ukuran lapisan tersembunyi di lapisan perhatian dan lapisan umpan-maju).
Karena lapisan yang lebih dalam pada model visi cenderung mempelajari fitur yang lebih kompleks, menggunakan lebih banyak parameter pada lapisan yang lebih dalam akan menghasilkan performa yang lebih baik.
Pengaturan eksperimental
Penulis menggunakan dua varian DiT: DiT-Tiny/2 dan DiT-Xl/2, dengan ukuran patch 2.
Semua model dilatih menggunakan pengoptimal AdamW dengan peluruhan kecepatan pembelajaran kosinus dan peluruhan bobot tinggi.
Front-end model menggunakan autoencoder variasional empat saluran (VAE) dalam model Stable-Diffusion-XL untuk mengekstrak fitur gambar. Selain itu, kinerja VAE 16 saluran terbaru dalam pelatihan skala besar (versi hemat ) juga diuji.
Penulis menggunakan kerangka EDM sebagai pengaturan pelatihan terpadu untuk semua model difusi, dan menggunakan skor FID serta CLIP untuk mengukur kinerja model pembuatan gambar.
Model CLIP yang paling umum digunakan dipilih untuk pembuat enkode teks. Meskipun model yang lebih besar seperti T5-xxl berkinerja lebih baik pada tugas-tugas menantang seperti sintesis teks, model tersebut tidak digunakan di sini untuk tujuan menghemat uang.
kumpulan data pelatihan
Tiga kumpulan data gambar nyata (Keterangan Konseptual, Segmen Apa Pun, TextCaps) digunakan, berisi 22 juta pasangan gambar-teks.
Karena SA1B tidak menyediakan subtitle asli, subtitle sintetis yang dihasilkan oleh model LLaVA digunakan di sini. Penulis juga menambahkan dua kumpulan data gambar sintetis yang berisi 15 juta pasangan gambar-teks ke pelatihan skala besar: JourneyDB dan DiffusionDB.
Untuk ablasi skala kecil, para peneliti membuat kumpulan data teks-ke-gambar yang disebut cifar-captions dengan mengambil sampel gambar 10 kelas CIFAR-10 dari kumpulan data COYO-700M yang lebih besar.
Mengevaluasi
Semua percobaan evaluasi dilakukan menggunakan model DiT-Tiny/2 dan kumpulan data cifar-captions (resolusi 256 × 256).
Setiap model dilatih untuk 60 ribu langkah pengoptimalan menggunakan pengoptimal AdamW dan rata-rata pergerakan eksponensial (koefisien penghalusan 0,995 untuk 10 ribu langkah terakhir).
topeng penundaan
Dasar percobaan memilih Naive masking yang kami sebutkan di atas, sedangkan penundaan masking dalam artikel ini menambahkan patch-mixer ringan, dengan jumlah parameter kurang dari 10% dari jaringan backbone.
Secara umum, semakin banyak patch yang hilang (rasio masking tinggi), performa model akan semakin buruk. Misalnya, performa MaskDiT turun secara signifikan setelah melebihi 50%.
Eksperimen perbandingan di sini menggunakan hyperparameter default (kecepatan pembelajaran 1,6×10e-4, peluruhan bobot 0,01, dan kecepatan pembelajaran kosinus) untuk melatih dua model.
Hasil pada gambar di atas menunjukkan bahwa metode delay masking mengalami peningkatan pada ketiga indikator FID, Clip-FID dan Clip score.
Selain itu, kesenjangan kinerja dengan data dasar semakin melebar seiring dengan meningkatnya tingkat penyembunyian. Ketika tingkat masking adalah 75%, masking naif akan mengurangi skor FID menjadi 16,5, sedangkan metode kami mencapai 5,03, yang mendekati skor FID tanpa masking (3,79).
hyperparameter
Mengikuti gambaran umum pelatihan LLM, di sini kami membandingkan pemilihan hyperparameter dari kedua tugas tersebut.
Pertama, pada lapisan feedforward, fungsi aktivasi SwiGLU lebih baik dibandingkan GELU. Kedua, redaman bobot yang lebih tinggi menghasilkan performa pembuatan gambar yang lebih baik.
Selain itu, tidak seperti pelatihan LLM, model difusi dalam artikel ini dapat mencapai kinerja yang lebih baik bila menggunakan koefisien rata-rata berjalan yang lebih tinggi untuk momen orde kedua (β) AdamW.
Terakhir, penulis menemukan bahwa menggunakan sejumlah kecil langkah pelatihan sambil meningkatkan kecepatan pembelajaran ke nilai semaksimal mungkin (hingga pelatihan menjadi tidak stabil) juga meningkatkan performa pembuatan gambar secara signifikan.
Desain pengaduk
Bekerja keras untuk mencapai keajaiban biasanya merupakan hal yang benar, dan penulis juga mengamati bahwa performa model terus meningkat setelah menggunakan patch-mixer yang lebih besar.
Namun untuk menghemat uang, mixer kecil tetap dipilih di sini.
Penulis memodifikasi distribusi noise menjadi (−0.6, 1.2), yang meningkatkan keselarasan antara subtitle dan gambar yang dihasilkan.
Seperti yang ditunjukkan pada gambar di bawah, di bawah rasio masking 75%, penulis juga mempelajari dampak penggunaan ukuran patch yang berbeda.
Ketika jumlah wilayah kontinu menjadi lebih besar (tambalan menjadi lebih besar), kinerja model akan menurun, sehingga strategi awal yang menutupi setiap tambalan secara acak tetap dipertahankan.
penskalaan berlapis
Eksperimen ini melatih dua varian arsitektur DiT-Tiny, satu dengan lebar konstan dan lainnya dengan struktur berskala hierarki.
Kedua metode tersebut menggunakan Naive masking dan menyesuaikan ukuran Transformer untuk memastikan bahwa daya komputasi model dalam kedua kasus tersebut sama, sekaligus melakukan langkah pelatihan dan waktu pelatihan yang sama.
Dari hasil tabel di atas terlihat bahwa metode hierarchical scaling lebih baik dibandingkan metode baseline Constant width pada ketiga indikator kinerja, hal ini menunjukkan bahwa metode hierarchical scaling lebih cocok untuk masking pelatihan DiT.
Referensi:
https://arxiv.org/abs/2407.15811