berita

Mampu memahami berbagai modalitas dan bertindak sesuai situasi, Meta mengusulkan gabungan ahli yang sadar modalitas

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Jantung Mesin

Pakar campuran juga memiliki spesialisasi dalam profesinya.

Untuk model dasar modalitas campuran saat ini, desain arsitektur yang umum adalah menggabungkan encoder atau decoder dari modalitas tertentu. Namun, metode ini memiliki keterbatasan: metode ini tidak dapat mengintegrasikan informasi dari modalitas yang berbeda, dan sulit untuk menghasilkan konten yang berisi banyak modalitas.

Untuk mengatasi keterbatasan ini, tim Chameleon Meta FAIR mengusulkan arsitektur Transformer tunggal baru dalam makalah terbaru "Chameleon: Model fondasi fusi awal modal campuran", yang dapat memprediksi token berikutnya berdasarkan target yang diprediksi terdiri dari token gambar dan teks terpisah yang dimodelkan untuk memungkinkan penalaran dan pembangkitan yang mulus antara modalitas yang berbeda.



Setelah menyelesaikan pra-pelatihan pada sekitar 10 triliun token modal campuran, Chameleon telah menunjukkan kemampuan untuk beradaptasi dengan berbagai visi dan bahasa, dan dapat menangani berbagai tugas hilir dengan baik. Performa Chameleon sangat mengesankan dalam tugas menghasilkan jawaban panjang dengan modal campuran. Ia bahkan mengalahkan model komersial seperti Gemini 1.0 Pro dan GPT-4V. Namun, untuk model seperti Chameleon yang menggabungkan berbagai modalitas pada tahap awal pelatihan model, perluasan kemampuannya memerlukan investasi daya komputasi yang besar.

Berdasarkan permasalahan di atas, tim Meta FAIR melakukan beberapa penelitian dan eksplorasi pada arsitektur routing sparse dan mengusulkan MoMa: arsitektur hybrid ahli yang sadar modalitas.



Judul makalah: MoMa: Pra-pelatihan Penggabungan Awal yang Efisien dengan Campuran Pakar Sadar Modalitas

Alamat makalah: https://arxiv.org/pdf/2407.21770

Penelitian sebelumnya menunjukkan bahwa jenis arsitektur ini dapat secara efektif memperluas kemampuan model dasar modal tunggal dan juga meningkatkan kinerja model pembelajaran kontrastif multimodal. Namun, penggunaannya untuk pelatihan model awal yang mengintegrasikan berbagai modalitas masih menjadi topik yang memiliki peluang dan tantangan, dan hanya sedikit orang yang mempelajarinya.

Penelitian tim ini didasarkan pada pemahaman bahwa modalitas yang berbeda pada dasarnya heterogen—token teks dan gambar memiliki kepadatan informasi dan pola redundansi yang berbeda.

Saat mengintegrasikan token ini ke dalam arsitektur fusi terpadu, tim juga mengusulkan untuk lebih mengoptimalkan kerangka kerja dengan mengintegrasikan modul untuk modalitas tertentu. Tim menyebut konsep ini sebagai ketersebaran sadar modalitas, atau disingkat MaS; konsep ini memungkinkan model untuk menangkap karakteristik setiap modalitas dengan lebih baik sambil juga menggunakan mekanisme pembagian parameter dan perhatian parsial.

Penelitian sebelumnya seperti VLMo, BEiT-3 dan VL-MoE telah mengadopsi metode pakar modalitas campuran (MoME/mixture-of-modality-experts) untuk melatih encoder bahasa visual dan pemodelan bahasa bertopeng, dari FAIR Tim peneliti telah mengambil cakupan MoE yang dapat digunakan selangkah lebih maju.

Arsitektur model

fusi awal

Model baru yang diusulkan dalam artikel ini didasarkan pada arsitektur fusi awal Chameleon, yang mewakili gambar dan teks sebagai serangkaian token diskrit dalam Transformer terpadu. Inti dari Chameleon adalah model berbasis Transformer yang menerapkan mekanisme perhatian mandiri pada rangkaian gabungan token gambar dan teks. Hal ini memungkinkan model untuk menangkap korelasi kompleks di dalam dan antar modalitas. Model ini dilatih dengan tujuan prediksi token berikutnya, menghasilkan token teks dan gambar secara autoregresif.

Di Chameleon, skema tokenisasi gambar menggunakan tokenizer gambar pembelajaran, yang mengkodekan gambar 512 × 512 menjadi 1024 token diskrit berdasarkan buku kode berukuran 8192. Untuk segmentasi teks akan digunakan tokenizer BPE dengan ukuran kosakata 65.536 yang berisi token gambar. Metode segmentasi kata terpadu ini memungkinkan model menangani urutan gambar dan token teks yang saling terkait dengan lancar.

Dengan metode ini, model baru mewarisi keunggulan representasi terpadu, fleksibilitas yang baik, skalabilitas tinggi, dan dukungan pembelajaran end-to-end.

Atas dasar ini (Gambar 1a), untuk lebih meningkatkan efisiensi dan kinerja model fusi awal, tim juga memperkenalkan teknologi ketersebaran yang sadar modalitas.



Perluasan lebar: Pakar hibrid yang sadar akan modalitas

Tim ini mengusulkan pendekatan berskala luas: memperluas arsitektur standar pakar campuran (MoE) dengan mengintegrasikan ketersebaran modul yang sadar modalitas ke dalam modul maju.

Metode ini didasarkan pada pemahaman bahwa token dari mode yang berbeda memiliki karakteristik dan kepadatan informasi yang berbeda.

Dengan membangun kelompok ahli yang berbeda untuk setiap modalitas, model dapat mengembangkan jalur pemrosesan khusus sambil mempertahankan kemampuan untuk mengintegrasikan informasi antar modalitas.

Gambar 1b mengilustrasikan komponen kunci dari campuran ahli sadar modalitas (MoMa) ini. Sederhananya, para ahli dari masing-masing modalitas tertentu dikelompokkan terlebih dahulu, kemudian perutean hierarkis diterapkan (dibagi menjadi perutean sadar modalitas dan perutean intra-modal), dan akhirnya para ahli dipilih. Silakan merujuk ke kertas asli untuk proses detailnya.

Secara umum, untuk token masukan x, definisi formal modul MoMa adalah:



Setelah perhitungan MoMa, tim selanjutnya menggunakan koneksi sisa dan normalisasi Swin Transformer.

Campuran Kedalaman (MoD)

Peneliti sebelumnya juga telah mengeksplorasi pengenalan ketersebaran ke dalam dimensi kedalaman. Pendekatan mereka adalah dengan membuang lapisan tertentu secara acak atau menggunakan router yang dapat dipelajari.

Pendekatan tim didasarkan pada pendekatan kedua, sambil mengintegrasikan teknologi Hybrid Depth (MoD) yang baru-baru ini diusulkan. Untuk informasi lebih lanjut tentang Kementerian Pertahanan, silakan merujuk ke laporan Heart of Machine "DeepMind meningkatkan Transformer, FLOP forward pass dapat dikurangi hingga setengahnya."

Secara khusus, seperti yang ditunjukkan pada gambar di bawah, pendekatan tim adalah dengan mengintegrasikan Kementerian Pertahanan sebelum perutean hybrid expert (MoE) di setiap lapisan Kementerian Pertahanan, sehingga memastikan bahwa Kementerian Pertahanan dapat diterapkan ke seluruh kumpulan data sebelum pemisahan modal.



pemikiran

Pada tahap inferensi, kita tidak dapat secara langsung menggunakan perutean pemilihan ahli dari Kementerian Pendidikan atau perutean pemilihan lapisan dari Kementerian Pertahanan, karena pemilihan top-k (memilih k teratas) dalam kumpulan data akan menghancurkan hubungan sebab akibat.

Untuk memastikan hubungan sebab akibat, terinspirasi oleh makalah Kementerian Pertahanan yang disebutkan di atas, tim peneliti memperkenalkan router tambahan, yang berperan untuk memprediksi kemungkinan token dipilih oleh pakar atau lapisan tertentu hanya berdasarkan pada yang tersembunyi. representasi token.

Daur ulang

Terdapat kesulitan unik bagi arsitektur Kementerian Lingkungan Hidup yang dilatih dari awal dalam hal mengoptimalkan ruang representasi dan mekanisme perutean. Tim menemukan bahwa router MoE bertanggung jawab untuk membagi ruang representasi untuk setiap pakar. Namun pada tahap awal pelatihan model, ruang representasi ini belum optimal sehingga menyebabkan fungsi routing yang diperoleh dari pelatihan menjadi kurang optimal.

Untuk mengatasi keterbatasan ini, mereka mengusulkan metode peningkatan berdasarkan makalah "Sparse upcycling: Pelatihan campuran ahli dari pos pemeriksaan padat" oleh Komatsuzaki dkk.



Secara khusus, arsitektur dengan satu pakar FFN untuk setiap modalitas dilatih terlebih dahulu. Setelah beberapa langkah yang telah ditetapkan, model ditingkatkan dan diubah. Metode spesifiknya adalah: mengubah FFN dari setiap modalitas tertentu menjadi modul MoE yang dipilih oleh pakar, dan menginisialisasi setiap pakar ke tahap pertama pelatihan pakar. Tindakan ini akan mengatur ulang penjadwal kecepatan pembelajaran sambil mempertahankan status pemuat data pada tahap sebelumnya untuk memastikan bahwa data yang di-refresh dapat digunakan pada pelatihan tahap kedua.

Untuk mempromosikan pakar agar lebih terspesialisasi, tim juga menggunakan noise Gumbel untuk meningkatkan fungsi perutean MoE, sehingga router baru dapat mengambil sampel pakar dengan cara yang berbeda.

Metode peningkatan ini ditambah dengan teknologi Gumbel-Sigmoid dapat mengatasi keterbatasan router yang dipelajari dan dengan demikian meningkatkan kinerja arsitektur sparse yang sadar modalitas yang baru diusulkan.

Optimalisasi efisiensi

Untuk memfasilitasi pelatihan terdistribusi MoMa, tim mengadopsi Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel). Namun, dibandingkan dengan KLH konvensional, metode ini memiliki beberapa masalah efisiensi yang unik, termasuk masalah penyeimbangan beban dan masalah efisiensi eksekusi ahli.

Untuk masalah penyeimbangan beban, tim mengembangkan metode pencampuran data seimbang yang menjaga rasio data teks-ke-gambar di setiap GPU tetap konsisten dengan rasio ahli.

Mengenai efisiensi eksekusi pakar, tim telah menjajaki beberapa strategi yang dapat membantu meningkatkan efisiensi eksekusi pakar dalam berbagai modalitas:

Batasi pakar di setiap modalitas hanya pada pakar isomorfik dan larang perutean token teks ke pakar gambar dan sebaliknya;

Gunakan ketersebaran blok untuk meningkatkan efisiensi eksekusi;

Ketika jumlah modalitas terbatas, para ahli di berbagai modalitas dijalankan secara berurutan.

Karena setiap GPU dalam percobaan memproses cukup banyak token, pemanfaatan perangkat keras tidak menjadi masalah besar meskipun beberapa perkalian matriks batch digunakan. Oleh karena itu, tim percaya bahwa metode eksekusi sekuensial adalah pilihan yang lebih baik untuk skala lingkungan eksperimental saat ini.

Pengoptimalan lainnya

Untuk lebih meningkatkan throughput, tim juga menggunakan beberapa teknik optimasi lainnya.

Ini termasuk operasi pengoptimalan umum seperti pengurangan volume komunikasi gradien dan fusi inti GPU otomatis. Tim peneliti juga menerapkan pengoptimalan grafik melalui torch.compile.

Selain itu, mereka telah mengembangkan beberapa teknik pengoptimalan untuk MoMa, termasuk multiplexing indeks token modal di berbagai lapisan untuk menyinkronkan perangkat antara CPU dan GPU dengan paling efisien.

percobaan

mendirikan

Kumpulan data pra-pelatihan dan proses pra-pemrosesan yang digunakan dalam eksperimen sama dengan Bunglon. Untuk mengevaluasi performa penskalaan, mereka melatih model menggunakan lebih dari 1 triliun token.



Tabel 1 memberikan konfigurasi rinci model padat dan jarang.

Menskalakan kinerja pada tingkat komputasi yang berbeda

Tim menganalisis kinerja penskalaan model yang berbeda pada tingkat komputasi yang berbeda (FLOP) yang setara dengan tiga ukuran model padat: 90M, 435M, dan 1,4B.

Hasil eksperimen menunjukkan bahwa model renggang yang hanya menggunakan 1/η dari total FLOP dapat menyamai kerugian pra-pelatihan dari model padat FLOP yang setara (η mewakili faktor percepatan pra-pelatihan).

Pembongkaran modal

Memperkenalkan pengelompokan ahli khusus modalitas dapat meningkatkan efisiensi pra-pelatihan model dengan ukuran berbeda, yang sangat bermanfaat untuk modalitas gambar. Seperti yang ditunjukkan pada Gambar 3, konfigurasi moe_1t1i yang menggunakan 1 pakar gambar dan 1 pakar teks secara signifikan mengungguli model padat terkait.



Memperluas jumlah ahli per kelompok modal dapat lebih meningkatkan kinerja model.

Campurkan kedalaman dan keahlian

Tim mengamati bahwa kecepatan konvergensi dari kerugian pelatihan ditingkatkan ketika menggunakan MoE, MoD, dan kombinasi keduanya. Seperti yang ditunjukkan pada Gambar 4, menambahkan MoD (mod_moe_1t1i) ke arsitektur moe_1t1i dapat meningkatkan performa model secara signifikan di berbagai ukuran model.



Selain itu, mod_moe_1t1i dapat menyamai atau bahkan melampaui moe_4t4i dalam berbagai ukuran dan mode model, yang menunjukkan bahwa memperkenalkan ketersebaran dalam dimensi kedalaman juga dapat secara efektif meningkatkan efisiensi pelatihan.

Di sisi lain, Anda juga dapat melihat bahwa manfaat penumpukan MoD dan MoE akan berkurang secara bertahap.

Perbanyak jumlah pakar

Untuk mempelajari dampak penambahan jumlah ahli, tim melakukan eksperimen ablasi lebih lanjut. Mereka mengeksplorasi dua skenario: menugaskan jumlah ahli yang sama untuk setiap modalitas (seimbang) dan menugaskan jumlah ahli yang berbeda untuk setiap modalitas (tidak seimbang). Hasilnya ditunjukkan pada Gambar 5.



Untuk setting seimbang dapat dilihat dari Gambar 5a bahwa dengan bertambahnya jumlah ahli maka kerugian pelatihan akan berkurang secara signifikan. Namun hilangnya teks dan gambar menunjukkan pola penskalaan yang berbeda. Hal ini menunjukkan bahwa karakteristik yang melekat pada masing-masing modalitas mengarah pada perilaku pemodelan renggang yang berbeda.

Untuk pengaturan tidak seimbang, Gambar 5b membandingkan tiga konfigurasi berbeda dengan jumlah ahli yang setara (8). Dapat dilihat bahwa semakin banyak ahli dalam suatu modalitas, semakin baik kinerja model secara umum pada modalitas tersebut.

Meningkatkan

Tim secara alami juga memverifikasi efek dari peningkatan yang disebutkan di atas. Gambar 6 membandingkan kurva pelatihan varian model yang berbeda.



Hasilnya menunjukkan bahwa pemutakhiran memang dapat lebih meningkatkan pelatihan model: ketika tahap pertama memiliki 10 ribu langkah, pemutakhiran dapat memberikan manfaat FLOP sebesar 1,2 kali lipat; dan ketika jumlah langkahnya 20 ribu, terdapat juga manfaat FLOP sebesar 1,16 kali lipat.

Selain itu, dapat diamati bahwa seiring berjalannya pelatihan, kesenjangan performa antara model yang ditingkatkan dan model yang dilatih dari awal semakin meningkat.

Analisis keluaran

Model renggang sering kali tidak langsung memberikan peningkatan performa karena model renggang meningkatkan dinamika dan masalah penyeimbangan data terkait. Untuk mengukur dampak metode baru yang diusulkan terhadap efisiensi pelatihan, tim membandingkan hasil pelatihan dari berbagai arsitektur dalam eksperimen dengan variabel yang biasanya dikontrol. Hasilnya ditunjukkan pada Tabel 2.



Dapat dilihat bahwa dibandingkan dengan model padat, kinerja sparse berbasis modalitas menghasilkan trade-off kualitas-throughput yang lebih baik dan dapat menunjukkan skalabilitas yang wajar seiring dengan bertambahnya jumlah pakar. Di sisi lain, meskipun varian Kementerian Pertahanan mencapai kerugian absolut terbaik, varian tersebut juga cenderung lebih mahal secara komputasi karena adanya dinamika dan ketidakseimbangan tambahan.

Kinerja waktu inferensi

Tim juga mengevaluasi performa model pada data pemodelan bahasa yang disimpan dan tugas hilir. Hasilnya ditunjukkan pada Tabel 3 dan 4.



Seperti yang ditunjukkan pada Tabel 3, dengan menggunakan beberapa pakar gambar, model 1.4B MoMa 1t1i mengungguli model padat yang sesuai pada sebagian besar metrik, dengan pengecualian metrik kebingungan bersyarat gambar-ke-teks pada COCO dan Flickr. Memperluas lebih lanjut jumlah pakar juga dapat meningkatkan kinerja, dengan 1,4B MoE 8x mencapai kinerja gambar-ke-teks terbaik.

Selain itu, seperti yang ditunjukkan pada Tabel 4, model 1.4B MoE 8x juga sangat baik dalam tugas teks-ke-teks. 1.4B MoMa 4t4i memiliki performa terbaik pada semua metrik kebingungan gambar bersyarat, sementara kebingungan teksnya pada sebagian besar tolok ukur juga sangat mendekati 1.4B MoE 8x.

Secara keseluruhan, model 1.4B MoMa 4t4i memiliki hasil pemodelan terbaik pada modalitas teks campuran dan gambar.

Untuk lebih jelasnya silakan baca makalah aslinya.