Satu artikel untuk memahami Mamba, pesaing terkuat Transformer

2024-08-19

Laporan Jantung Mesin

Penyunting: Panda

Mamba memang bagus, tapi perkembangannya masih awal.

Ada banyak arsitektur pembelajaran mendalam, namun yang paling sukses dalam beberapa tahun terakhir adalah Transformer, yang telah membangun dominasinya di berbagai bidang aplikasi.

Pendorong utama keberhasilan ini adalah mekanisme perhatian, yang memungkinkan model berbasis Transformer untuk fokus pada bagian-bagian yang relevan dari urutan masukan, sehingga mencapai pemahaman kontekstual yang lebih baik. Namun, kelemahan mekanisme perhatian adalah overhead komputasi yang tinggi, yang meningkat secara kuadrat seiring dengan ukuran input, sehingga menyulitkan pemrosesan teks yang sangat panjang.

Untungnya, arsitektur baru dengan potensi besar telah lahir beberapa waktu lalu: model urutan ruang keadaan terstruktur (SSM). Arsitektur ini dapat secara efisien menangkap ketergantungan kompleks dalam data sekuens, menjadikannya lawan yang kuat dari Transformer.

Desain model jenis ini terinspirasi oleh model ruang keadaan klasik - kita dapat menganggapnya sebagai model perpaduan jaringan saraf berulang dan jaringan saraf konvolusional. Mereka dapat dihitung secara efisien menggunakan operasi loop atau konvolusi, sehingga overhead komputasi dapat diskalakan secara linier atau hampir linier dengan panjang urutan, sehingga mengurangi biaya komputasi secara signifikan.

Lebih khusus lagi, Mamba, salah satu varian SSM yang paling sukses, memiliki kemampuan pemodelan yang sebanding dengan Transformer, dengan tetap mempertahankan skalabilitas linier dengan panjang urutan.

Mamba pertama kali memperkenalkan mekanisme pemilihan sederhana namun efektif yang melakukan parameterisasi ulang SSM berdasarkan masukan, memungkinkan model untuk menyimpan data yang diperlukan dan relevan tanpa batas waktu sambil menyaring informasi yang tidak relevan. Kemudian, Mamba juga menyertakan algoritme sadar perangkat keras yang menggunakan pemindaian, bukan konvolusi, untuk menghitung model secara iteratif, yang dapat meningkatkan kecepatan penghitungan sebanyak 3 kali lipat pada GPU A100.

Seperti yang ditunjukkan pada Gambar 1, dengan kemampuannya yang kuat untuk memodelkan data rangkaian panjang yang kompleks dan skalabilitas mendekati linier, Mamba telah muncul sebagai model dasar dan diharapkan merevolusi berbagai bidang penelitian dan pengembangan seperti visi komputer, pemrosesan bahasa alami, dan medis. peduli. Area aplikasi.

Oleh karena itu, literatur tentang penelitian dan penerapan Mamba berkembang pesat dan memusingkan, dan laporan tinjauan yang komprehensif akan sangat bermanfaat. Baru-baru ini, tim peneliti dari Universitas Politeknik Hong Kong mempublikasikan kontribusi mereka di arXiv.

Judul makalah: Survei Mamba
Alamat makalah: https://arxiv.org/pdf/2408.01129

Laporan tinjauan ini merangkum Mamba dari berbagai perspektif, yang tidak hanya membantu pemula mempelajari mekanisme kerja dasar Mamba, tetapi juga membantu praktisi berpengalaman memahami kemajuan terkini.

Mamba adalah arah penelitian yang populer, dan oleh karena itu banyak tim yang mencoba menulis laporan tinjauan. Selain yang diperkenalkan dalam artikel ini, ada ulasan lain yang berfokus pada model ruang negara atau visual Mamba :

Mamba-360: Survei model ruang keadaan sebagai alternatif transformator untuk pemodelan urutan panjang: Metode, aplikasi, dan tantangan. arXiv:2404.16112
Model ruang keadaan untuk alternatif jaringan generasi baru untuk transformator: Sebuah survei. arXiv:2404.09516
Vision Mamba: Survei dan Taksonomi Komprehensif. arXiv:2405.04404
Survei tentang visi mamba: Model, aplikasi, dan tantangan. arXiv:2404.18861
Survei tentang visual mamba. arXiv:2404.15956

Pengetahuan awal

Mamba menggabungkan kerangka siklik Recurrent Neural Network (RNN), komputasi paralel dan mekanisme perhatian Transformer, dan karakteristik linier State Space Model (SSM). Oleh karena itu, untuk memahami Mamba secara utuh, Anda harus memahami ketiga arsitektur tersebut terlebih dahulu.

jaringan saraf berulang

Jaringan saraf berulang (RNN) pandai memproses data urutan karena kemampuannya menyimpan memori internal.

Secara khusus, pada setiap langkah waktu diskrit k, RNN standar memproses sebuah vektor bersama dengan keadaan tersembunyi dari langkah waktu sebelumnya, dan kemudian mengeluarkan vektor lain dan memperbarui keadaan tersembunyi tersebut. Keadaan tersembunyi ini dapat digunakan sebagai memori RNN, yang dapat menyimpan informasi masukan yang telah dilihat di masa lalu. Memori dinamis ini memungkinkan RNN menangani urutan dengan panjang berbeda.

Artinya, RNN adalah model berulang nonlinier yang secara efektif menangkap pola temporal dengan menggunakan pengetahuan sejarah yang disimpan dalam keadaan tersembunyi.

Transformator

Mekanisme perhatian mandiri Transformer membantu menangkap ketergantungan global di antara masukan. Hal ini dilakukan dengan memberikan bobot pada setiap posisi berdasarkan kepentingannya relatif terhadap posisi lain. Lebih khusus lagi, masukan asli pertama-tama ditransformasikan secara linier untuk mengubah barisan x vektor masukan menjadi tiga jenis vektor: kueri Q, kunci K, dan nilai V.

Kemudian dihitung skor perhatian S yang dinormalisasi dan dihitung bobot perhatiannya.

Selain dapat melakukan fungsi atensi tunggal, kita juga dapat melakukan atensi multi-kepala. Hal ini memungkinkan model untuk menangkap berbagai jenis hubungan dan memahami urutan masukan dari berbagai perspektif. Perhatian multi-kepala menggunakan beberapa set modul perhatian mandiri untuk memproses urutan masukan secara paralel. Masing-masing kepala ini beroperasi secara independen dan melakukan perhitungan yang sama seperti mekanisme perhatian diri standar.

Setelah itu, bobot perhatian masing-masing kepala dikumpulkan dan digabungkan untuk mendapatkan jumlah bobot vektor nilai. Langkah agregasi ini memungkinkan model untuk menggunakan informasi dari beberapa kepala dan menangkap banyak pola dan hubungan berbeda dalam urutan masukan.

ruang negara

Model ruang keadaan (SSM) adalah kerangka matematika tradisional yang dapat digunakan untuk menggambarkan perilaku dinamis suatu sistem dari waktu ke waktu. Dalam beberapa tahun terakhir, SSM telah banyak digunakan di berbagai bidang seperti sibernetika, robotika, dan ekonomi.

Pada intinya, SSM mencerminkan perilaku sistem melalui serangkaian variabel tersembunyi yang disebut “status”, yang memungkinkannya menangkap ketergantungan data waktu secara efektif. Berbeda dengan RNN, SSM merupakan model linier dengan sifat asosiatif. Secara khusus, model ruang keadaan klasik membangun dua persamaan kunci (persamaan keadaan dan persamaan observasi) untuk memodelkan hubungan antara masukan x dan keluaran y pada waktu saat ini t melalui keadaan tersembunyi berdimensi-N h (t) .

diskritisasi

Untuk memenuhi kebutuhan pembelajaran mesin, SSM harus menjalani proses diskritisasi yang mengubah parameter kontinu menjadi parameter diskrit. Secara umum, tujuan metode diskritisasi adalah membagi waktu kontinu menjadi K interval diskrit dengan luas integral yang sama besarnya. Untuk mencapai tujuan ini, salah satu solusi paling representatif yang diadopsi oleh SSM adalah Zero-Order Hold (ZOH), yang mengasumsikan bahwa nilai fungsi pada interval Δ = [_{−1}, _ ] tetap konstan. SSM diskrit memiliki struktur yang mirip dengan jaringan saraf berulang, sehingga SSM diskrit dapat melakukan proses inferensi lebih efisien dibandingkan model berbasis Transformer.

Perhitungan konvolusi

SSM diskrit adalah sistem linier dengan sifat asosiatif sehingga dapat diintegrasikan secara mulus dengan komputasi konvolusional.

Hubungan antara RNN, Transformer dan SSM

Gambar 2 menunjukkan algoritma perhitungan RNN, Transformer dan SSM.

Di satu sisi, RNN konvensional beroperasi berdasarkan kerangka berulang non-linier, di mana setiap perhitungan hanya bergantung pada keadaan tersembunyi sebelumnya dan masukan saat ini.

Meskipun bentuk ini memungkinkan RNN menghasilkan keluaran dengan cepat selama inferensi autoregresif, hal ini juga mempersulit RNN untuk sepenuhnya memanfaatkan daya komputasi paralel GPU, sehingga pelatihan model menjadi lebih lambat.

Arsitektur Transformer, di sisi lain, melakukan perkalian matriks pada beberapa pasangan kunci kueri secara paralel, dan perkalian matriks dapat dialokasikan secara efisien ke sumber daya perangkat keras, memungkinkan pelatihan model berbasis perhatian lebih cepat. Namun, jika Anda ingin model berbasis Transformer menghasilkan respons atau prediksi, proses inferensi bisa sangat memakan waktu.

Berbeda dengan RNN dan Transformer yang hanya mendukung satu jenis penghitungan, SSM diskrit sangat fleksibel karena sifatnya yang linier, sehingga dapat mendukung penghitungan loop dan penghitungan konvolusi; Fitur ini memungkinkan SSM tidak hanya mencapai inferensi yang efisien tetapi juga pelatihan paralel. Namun, harus diperhatikan bahwa SSM yang paling konvensional adalah invarian waktu, yaitu A, B, C, dan Δ-nya tidak bergantung pada masukan model x. Hal ini akan membatasi kemampuan pemodelan kontekstualnya, menyebabkan SSM berkinerja buruk pada beberapa tugas tertentu seperti penyalinan selektif.

Burung Mamba

Untuk mengatasi kekurangan SSM tradisional di atas dan mencapai pemodelan sadar konteks, Albert Gu dan Tri Dao mengusulkan Mamba, yang dapat digunakan sebagai jaringan tulang punggung model dasar urutan universal. Lihat laporan Machine Heart "Lima kali throughput, kinerja secara komprehensif mengelilingi Transformer: Arsitektur baru Mamba meledakkan lingkaran AI".

Setelah itu, keduanya selanjutnya mengusulkan Mamba-2, di mana Dualitas Ruang-Negara Terstruktur (SSD/Structured Space-State Duality) membangun kerangka teoritis yang kuat yang menghubungkan SSM terstruktur dengan berbagai bentuk perhatian algoritme dan teknologi pengoptimalan sistem yang awalnya dikembangkan untuk Transformer hingga SSM. Anda juga dapat merujuk ke laporan Heart of the Machine "Fighting Transformer Again!" Mamba 2, dipimpin oleh penulis asli, telah hadir, dan efisiensi pelatihan arsitektur baru telah meningkat pesat."

Mamba-1: Model ruang keadaan selektif menggunakan algoritma yang sadar perangkat keras

Mamba-1 memperkenalkan tiga teknologi inovatif utama berdasarkan model ruang keadaan terstruktur, yaitu inisialisasi memori, mekanisme seleksi, dan komputasi sadar perangkat keras berdasarkan operator proyeksi polinomial orde tinggi (HiPPO). Seperti yang ditunjukkan pada Gambar 3. Tujuan dari teknik ini adalah untuk meningkatkan kemampuan pemodelan deret waktu linier jangka panjang SSM.

Secara khusus, strategi inisialisasi membangun matriks keadaan tersembunyi yang koheren untuk secara efektif meningkatkan memori jangka panjang.

Mekanisme seleksi kemudian memungkinkan SSM memperoleh representasi konten yang dapat dilihat.

Terakhir, untuk meningkatkan efisiensi pelatihan, Mamba juga menyertakan dua algoritma komputasi yang sadar perangkat keras: Parallel Associative Scan dan Memory Recomputation.

Mamba-2: dualitas ruang negara

Transformer telah menginspirasi pengembangan berbagai teknologi, seperti penyesuaian parameter yang efisien, mitigasi lupa bencana, dan kuantisasi model. Agar model ruang negara juga mendapatkan manfaat dari teknologi yang awalnya dikembangkan untuk Transformer, Mamba-2 memperkenalkan kerangka kerja baru: Structured State Space Duality (SSD). Kerangka kerja ini secara teoritis menghubungkan SSM dan berbagai bentuk perhatian.

Pada dasarnya, SSD menunjukkan bahwa mekanisme perhatian yang digunakan oleh Transformer dan sistem invarian waktu linier yang digunakan dalam SSM dapat dipandang sebagai transformasi matriks semi-terpisah.

Selain itu, Albert Gu dan Tri Dao juga membuktikan bahwa SSM selektif setara dengan mekanisme perhatian linier terstruktur yang diimplementasikan menggunakan matriks topeng semi-separable.

Mamba-2 merancang metode komputasi berbasis SSD yang menggunakan perangkat keras secara lebih efisien, menggunakan algoritma perkalian matriks dekomposisi blok.

Secara khusus, dengan memperlakukan model ruang keadaan sebagai matriks semi-terpisah melalui transformasi matriks ini, Mamba-2 mampu menguraikan komputasi ini menjadi blok-blok matriks, di mana blok diagonal mewakili komputasi intra-blok. Sedangkan blok off-diagonal mewakili komputasi antar blok melalui dekomposisi keadaan tersembunyi SSM. Metode ini memungkinkan kecepatan pelatihan Mamba-2 menjadi 2-8 kali lebih cepat dibandingkan pemindaian korelasi paralel Mamba-1, sementara kinerjanya sebanding dengan Transformer.

Blok Mamba

Mari kita lihat desain blok Mamba-1 dan Mamba-2. Gambar 4 membandingkan kedua arsitektur tersebut.

Desain Mamba-1 adalah SSM-centric, dimana tugas lapisan SSM selektif adalah melakukan pemetaan dari urutan input X ke Y. Dalam desain ini, setelah awalnya membuat proyeksi linier X, digunakan proyeksi linier (A, B, C). Kemudian token masukan dan matriks keadaan dipindai melalui unit SSM selektif menggunakan korelasi paralel untuk mendapatkan keluaran Y. Setelah itu, Mamba-1 mengadopsi koneksi lewati untuk mendorong penggunaan kembali fitur dan mengatasi masalah penurunan kinerja yang sering terjadi selama pelatihan model. Terakhir, model Mamba dibangun dengan menumpuk modul ini secara bergantian dengan normalisasi standar dan koneksi sisa.

Sedangkan untuk Mamba-2, lapisan SSD diperkenalkan untuk membuat pemetaan dari [X, A, B, C] ke Y. Hal ini dicapai dengan menggunakan proyeksi tunggal di awal blok untuk memproses [X, A, B, C] secara bersamaan, mirip dengan bagaimana arsitektur perhatian standar menghasilkan proyeksi Q, K, V secara paralel.

Artinya, blok Mamba-2 disederhanakan berdasarkan blok Mamba-1 dengan menghilangkan proyeksi linier dari barisan tersebut. Hal ini memungkinkan arsitektur SSD melakukan penghitungan lebih cepat dibandingkan pemindaian selektif paralel Mamba-1. Selain itu, untuk meningkatkan stabilitas pelatihan, Mamba-2 juga menambahkan lapisan normalisasi setelah koneksi lewati.

Model Mamba sedang berkembang

Model ruang negara dan Mamba telah berkembang pesat akhir-akhir ini dan telah menjadi pilihan jaringan tulang punggung model dasar dengan potensi besar. Meskipun Mamba berkinerja baik dalam tugas-tugas pemrosesan bahasa alami, ia masih memiliki beberapa masalah, seperti kehilangan memori, kesulitan dalam menggeneralisasi tugas-tugas yang berbeda, dan kinerja yang buruk dalam pola-pola kompleks dibandingkan dengan model bahasa berbasis Transformer. Untuk mengatasi masalah ini, komunitas riset telah mengusulkan banyak perbaikan pada arsitektur Mamba. Penelitian yang ada terutama berfokus pada desain blok modifikasi, pola pemindaian, dan manajemen memori. Tabel 1 merangkum penelitian yang relevan berdasarkan kategori.

desain blok

Desain dan struktur blok Mamba mempunyai dampak besar terhadap kinerja model Mamba secara keseluruhan, dan oleh karena itu hal ini menjadi fokus penelitian utama.

Seperti yang ditunjukkan pada Gambar 5, penelitian yang ada dapat dibagi menjadi tiga kategori berdasarkan metode berbeda dalam membangun modul Mamba baru:

Metode integrasi: Integrasikan blok Mamba dengan model lain untuk mencapai keseimbangan antara efek dan efisiensi;
Metode penggantian: Gunakan blok Mamba untuk mengganti lapisan utama dalam kerangka model lainnya;
Metode modifikasi: Memodifikasi komponen dalam blok Mamba klasik.

Modus pemindaian

Pemindaian korelasi paralel adalah komponen kunci dalam model Mamba. Tujuannya adalah untuk memecahkan masalah komputasi yang disebabkan oleh mekanisme seleksi, meningkatkan kecepatan proses pelatihan, dan mengurangi kebutuhan memori. Hal ini dicapai dengan memanfaatkan sifat linier SSM yang bervariasi terhadap waktu untuk merancang fusi inti dan komputasi ulang pada tingkat perangkat keras. Namun, paradigma pemodelan urutan satu arah Mamba tidak kondusif untuk pembelajaran komprehensif beragam data, seperti gambar dan video.

Untuk mengatasi masalah ini, beberapa peneliti telah mengeksplorasi metode pemindaian baru yang efisien untuk meningkatkan kinerja model Mamba dan memfasilitasi proses pelatihannya. Seperti terlihat pada Gambar 6, dalam hal pengembangan mode pemindaian, hasil penelitian yang ada dapat dibagi menjadi dua kategori:

Metode pemindaian yang diratakan: Lihat urutan token dari perspektif yang diratakan dan proses masukan model berdasarkan ini;
Metode pemindaian stereoskopis: pemindaian masukan model melintasi dimensi, saluran, atau skala, yang selanjutnya dapat dibagi menjadi tiga kategori: pemindaian hierarki, pemindaian spatiotemporal, dan pemindaian hibrid.

manajemen memori

Mirip dengan RNN, dalam model ruang keadaan, memori keadaan tersembunyi secara efektif menyimpan informasi dari langkah-langkah sebelumnya dan oleh karena itu memiliki dampak penting pada kinerja SSM secara keseluruhan. Meskipun Mamba memperkenalkan metode berbasis HiPPO untuk inisialisasi memori, masih sulit untuk mengelola memori di unit SSM, termasuk mentransfer informasi tersembunyi sebelum lapisan dan mencapai kompresi memori lossless.

Untuk mencapai tujuan ini, beberapa penelitian perintis telah mengusulkan sejumlah solusi berbeda, termasuk inisialisasi memori, kompresi, dan penggabungan.

Sesuaikan Mamba dengan beragam data

Arsitektur Mamba merupakan perpanjangan dari model ruang keadaan selektif. Ia memiliki karakteristik dasar model siklik dan oleh karena itu sangat cocok sebagai model dasar umum untuk memproses data urutan seperti teks, deret waktu, dan ucapan.

Tidak hanya itu, beberapa penelitian rintisan baru-baru ini telah memperluas skenario penerapan arsitektur Mamba, sehingga tidak hanya dapat memproses data urutan, tetapi juga dapat digunakan dalam bidang seperti gambar dan peta, seperti yang ditunjukkan pada Gambar 7.

Tujuan dari penelitian ini adalah untuk memanfaatkan sepenuhnya kemampuan luar biasa Mamba dalam memperoleh ketergantungan jangka panjang, dan memanfaatkan efisiensinya dalam proses pembelajaran dan penalaran. Tabel 2 merangkum secara singkat hasil penelitian tersebut.

data urutan

Urutan data mengacu pada data yang dikumpulkan dan disusun dalam urutan tertentu, di mana urutan titik datanya penting. Laporan tinjauan ini merangkum secara komprehensif penerapan Mamba pada berbagai data sekuens, termasuk data bahasa alami, video, deret waktu, ucapan, dan gerakan manusia. Lihat kertas asli untuk detailnya.

data yang tidak berurutan

Berbeda dengan data sekuensial, data non-sekuensial tidak mengikuti urutan tertentu. Titik datanya dapat diatur dalam urutan apa pun tanpa mempengaruhi makna data secara signifikan. Kurangnya urutan bawaan ini mungkin sulit ditangani untuk model berulang (RNN, SSM, dll.) yang dirancang khusus untuk menangkap ketergantungan temporal dalam data.

Yang mengejutkan, beberapa penelitian terbaru berhasil memungkinkan Mamba (SSM perwakilan) memproses data non-sekuensial secara efisien, termasuk gambar, peta, dan data point cloud.

data multimoda

Untuk meningkatkan kemampuan persepsi dan pemahaman pemandangan AI, data dari berbagai modalitas dapat diintegrasikan, seperti bahasa (data sekuensial) dan gambar (data non-sekuensial). Integrasi tersebut dapat memberikan informasi yang sangat berharga dan saling melengkapi.

Dalam beberapa tahun terakhir, model bahasa besar multimodal (MLLM) telah menjadi fokus penelitian paling populer. Model jenis ini mewarisi kemampuan yang kuat dari model bahasa besar (LLM), termasuk ekspresi bahasa yang kuat dan kemampuan penalaran logis. Meskipun Transformer telah menjadi metode yang dominan di lapangan, Mamba juga muncul sebagai pesaing yang kuat. Kinerjanya dalam menyelaraskan data sumber campuran dan mencapai penskalaan kompleksitas linier dengan panjang urutan membuat Mamba menjanjikan dalam pembelajaran multimodal.

aplikasi

Beberapa aplikasi penting dari model berbasis Mamba diperkenalkan di bawah ini. Tim membagi aplikasi ini ke dalam kategori berikut: pemrosesan bahasa alami, visi komputer, analisis ucapan, penemuan obat, sistem rekomendasi, serta sistem robotika dan otonom.

Kami tidak akan memperkenalkannya terlalu banyak di sini, lihat makalah aslinya untuk detailnya.

Tantangan dan Peluang

Meskipun Mamba telah mencapai kinerja luar biasa di beberapa bidang, secara keseluruhan, penelitian Mamba masih dalam tahap awal, dan masih ada beberapa tantangan yang harus diatasi ke depan. Tentu saja tantangan-tantangan ini juga merupakan peluang.

Bagaimana mengembangkan dan meningkatkan model dasar berdasarkan Mamba;
Cara mewujudkan komputasi sadar perangkat keras sepenuhnya untuk memanfaatkan sepenuhnya perangkat keras seperti GPU dan TPU guna meningkatkan efisiensi model;
Bagaimana meningkatkan kredibilitas model Mamba, yang memerlukan penelitian lebih lanjut mengenai keamanan dan ketahanan, keadilan, penjelasan, dan privasi;
Cara menggunakan teknologi baru di bidang Transformer untuk Mamba, seperti penyesuaian parameter yang efisien, mitigasi bencana lupa, dan pengambilan-augmented generation (RAG).

berita

Satu artikel untuk memahami Mamba, pesaing terkuat Transformer

Perkenalan

Informasi kontak saya