Mamba benar-benar melampaui Transformer dalam menulis kode! Makalah asli dipilih untuk berita

Mamba benar-benar melampaui Transformer dalam menulis kode!Makalah asli dipilih untuk konferensi baru teratas

2024-07-17

Angin barat datang dari Kuil Aofei
Qubit |. Akun publik QbitAI

"European OpenAI" dan "Transformer Challenger" telah bergabung!

Mistral AI baru saja meluncurkan berbasis AI pertamanyaMamba2Model sumber terbuka untuk arsitektur -Kodestral Mamba(7B), yang mengkhususkan diri dalam pembuatan kode.

Berbeda dengan arsitektur Transformer, arsitektur Mamba dapat melakukan "penalaran waktu linier" dan secara teoritis dapat mendukung masukan dengan panjang tak terbatas.

Mistral AI: Inilah sebabnya kami menggunakan model penalaran kode yang diluncurkan oleh arsitektur Mamba untuk menahan serangan tersebut.

Mistral AI mengatakan ia memiliki yang paling banyakKonteks token 256kCodestral Mamba diuji di .

Dalam uji benchmark, performa Codestral Mamba secara keseluruhan mengungguli CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B, dan CodeLlama 34B.

Beberapa netizen mengatakan bahwa gelombang ini adalah kecepatan dimana Mistral AI akan memajukan arsitektur Mamba.

Salah satu penulis arsitektur Mamba, asisten profesor di CMUAlbert Gucepat:

Modalitas atau format data yang berbeda dengan "tokenisasi" yang lebih lemah (misalnya kode, pemodelan tingkat byte) akan semakin mendapat manfaat dari model terkompresi seperti SSM.

Selain Codestral Mamba, Mistral AI juga merilis yang barumodel matematika——Matematika(7B)。

Menariknya, netizen membuat model-model berukuran besar kerap terguling dalam beberapa hari terakhir.Mana yang lebih besar, 9.11 atau 9.9?" pertanyaannya, Mathstral terlebih dahulu membandingkan bilangan bulatnya, lalu membandingkan bagian desimalnya, dan akhirnya berhasil melakukannya dengan benar.

Performa 7B mendekati 22BTransformer

Hasil benchmark Codestral Mamba selengkapnya adalah sebagai berikut:

Di semua tolok ukur seperti HumanEval C++/Java/JavaScript/Bash, Codestral Mamba melampaui CodeGemma-1.1 7B, CodeLlama 7B, dan melampaui CodeLlama 34B yang lebih besar.

Model pemrograman open source terkuat sebelumnya dari Mistral AIKodestral 22BTidak ada kesenjangan besar antara itu dan Codestral Mamba.

Selain itu, DeepSeek v1.5 7B juga menonjol dalam benchmark, dan bersaing dengan Codestral Mamba.

DeepSeek v1.5 7B lebih baik daripada Codestral Mamba di Spider (analisis semantik lintas domain yang kompleks dan tugas text-to-SQL), HumanEval Java, HumanEval Bash, MBPP, dll.

Selain hasil benchmark, hal yang paling menarik dari Codestral Mamba adalah model arsitektur Mamba2 batch pertama.

Arsitektur Mamba oleh penulis FlashAttentionTri-Daodan asisten profesor CMU, salah satu pendiri dan kepala ilmuwan Cartesia AIAlbert Gudiusulkan pada akhir tahun lalu.

Sebelumnya, model arsitektur Transformer besar seperti ChatGPT memiliki masalah besar: pemrosesan teks panjang menghabiskan daya komputasi dalam jumlah besar. Alasan dibalik hal ini juga karena kompleksitas kuadrat dari mekanisme perhatian dalam arsitektur Transformer.

Mamba adalah orang pertama yang benar-benar menyamai performa TransformerModel deret waktu linier, juga merupakan model ruang negara (SSM, State Space Model).

Mamba dibangun di atas SSM Terstruktur (S4, SSM Terstruktur) yang lebih modern yang cocok untuk pembelajaran mendalam dan memiliki kemiripan dengan arsitektur klasik RNN.

Ada tiga inovasi utama: pemrosesan informasi masukan yang selektif, algoritma yang sadar perangkat keras, dan arsitektur yang lebih sederhana.

Arsitektur Mamba menarik perhatian luas di industri segera setelah diluncurkan. Pendiri Stability AI dan ilmuwan NVIDIA Jim Fan dan lainnya sangat antusias dengan kemunculannya.

Makalah asli Mamba ditolak oleh ICLR pada awal tahun, yang menyebabkan diskusi hangat di kalangan.

Namun, baru-baru ini telah diterima oleh CoLM2024, konferensi teratas generasi baru.

Mamba2 adalah generasi kedua, dengan ruang negara diperluas 8 kali lipat dan kecepatan pelatihan meningkat 50%.

Pada makalah Mamba2 ditemukan bahwa mekanisme perhatian pada Transformer memiliki hubungan matematis yang sangat erat dengan SSM, dan makalah tersebut berhasil dipilih untuk ICML 2024.

Model matematika juga dirilis

Selain Codestral Mamba, Mistral AI juga meluncurkan model matematika open source——Matematika(7B), sebagai peringatan 2311 tahun kelahiran Archimedes.

Mathstral didasarkan pada Mistral 7B, dengan fokus pada STEM (Sains, Teknologi, Teknik, Matematika), dengan jendela konteks 32k.

Pada tes benchmark, Mathstral MATH memperoleh skor 56,6% dan MMLU mencapai 63,47%.

Intinya adalah, Mathstral juga dapat mencapai hasil yang lebih baik dengan perhitungan waktu inferensi yang lebih banyak:

Saat menggunakan mekanisme pemungutan suara terbanyak, Mathstral 7B memperoleh skor 68,37% dalam tes MATEMATIKA, dan ketika menerapkan model penghargaan yang kuat di antara 64 model kandidat, skor tersebut meningkat menjadi 74,59%.

Berikut perbedaan performa Mathstral 7B dan Mistral 7B pada berbagai mata pelajaran MMLU:

Tautan referensi:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/berita/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569

berita

Mamba benar-benar melampaui Transformer dalam menulis kode!Makalah asli dipilih untuk konferensi baru teratas

Performa 7B mendekati 22BTransformer

Model matematika juga dirilis

Perkenalan

informasi kontak saya