Karya aslinya akan berakhir secara langsung! Model Mamba 7B open source pertama Mistral "Cleopatra" memiliki efek

Karya aslinya akan berakhir secara langsung! Model Mamba 7B open source pertama Mistral "Cleopatra" memiliki efek yang menakjubkan

2024-07-17

Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru] Baru-baru ini, model kecil 7B telah menjadi tren yang harus diikuti oleh raksasa AI. Mengikuti Gemma2 7B dari Google, Mistral hari ini merilis dua model 7B lagi, yaitu Mathstral untuk mata pelajaran STEM, dan Codestral Mamba, model kode yang menggunakan arsitektur Mamaba.

Mistral punya kejutan lain!

Baru hari ini Mistral merilis dua model kecil: Mathstral 7B dan Codestral Mamba 7B.

Yang pertama adalah Mathstral 7B, dirancang untuk penalaran matematika dan penemuan ilmiah.

Dalam tes benchmark MATH, ia memperoleh skor 56,6% pass@1, 20% lebih tinggi dibandingkan Minerva 540B. Mathstral mendapat skor 68,4% pada MATEMATIKA dan 74,6% menggunakan model penghargaan.

Model kode Codestral Mamba adalah salah satu model sumber terbuka pertama yang mengadopsi arsitektur Mamba 2.

Ini adalah model kode 7B terbaik yang tersedia, dilatih menggunakan panjang konteks 256 ribu token.

Kedua model dirilis di bawah lisensi Apache 2.0, dan bobotnya saat ini diunggah ke gudang HuggingFace.

Alamat Wajah Pelukan: https://huggingface.co/mistralai

Matematika

Menariknya, menurut pengumuman resminya, perilisan Mathstral terjadi untuk merayakan 2311 tahun kelahiran Archimedes.

Mathstral dirancang untuk mata pelajaran STEM untuk memecahkan masalah matematika tingkat lanjut yang memerlukan penalaran multi-langkah yang kompleks. Parameternya hanya 7B dan jendela konteksnya 32k.

Selain itu, penelitian dan pengembangan Mathstral juga memiliki mitra kelas berat—Numina, yang baru saja memenangkan kejuaraan di kompetisi AI Mathematical Olympiad pertama Kaggle minggu lalu.

Selain itu, beberapa pengguna Twitter menemukan bahwa Mathstral dapat menjawab pertanyaan "Mana yang lebih besar, 9.·11 atau 9.9?" Pertanyaan ini telah membingungkan banyak model besar.

Bilangan bulat dan desimal dibandingkan secara terpisah, dan rantai pemikirannya jelas. Dapat dikatakan sebagai model karya model matematika yang sangat baik.

Berdasarkan kemampuan bahasa Mistral 7B, Mathstral selanjutnya berfokus pada mata pelajaran STEM. Berdasarkan hasil rincian mata pelajaran MMLU, matematika, fisika, biologi, kimia, statistika, ilmu komputer dan bidang lainnya merupakan keunggulan mutlak Mathstral.

Menurut postingan blog resmi, Mathstral tampaknya mengorbankan beberapa kecepatan inferensi demi kinerja model, namun dilihat dari hasil evaluasi, pengorbanan ini sepadan.

Dalam berbagai tes benchmark di bidang matematika dan penalaran, Mathstral mengalahkan model kecil populer seperti Llama 3 8B dan Gemma2 9B, terutama mencapai SOTA pada soal kompetisi matematika seperti AMC 2023 dan AIME 2024.

Selain itu, waktu inferensi dapat ditingkatkan lebih lanjut untuk mencapai hasil model yang lebih baik.

Jika suara mayoritas digunakan untuk 64 kandidat, skor Mathstral pada MATEMATIKA dapat mencapai 68,37%. Ditambah lagi dengan menambahkan model penghargaan tambahan, skor tinggi dapat dicapai sebesar 74,59%.

Selain platform HuggingFace dan la Plateforme, Anda juga dapat menghubungi dua SDK open source Mistral-finetune dan Mistral Inference yang dirilis secara resmi untuk menggunakan atau menyempurnakan model.

Kodestral Mamba

Menyusul peluncuran seri Mixtral yang mengikuti arsitektur Transformer, Codestral Mamba, model pembuatan kode pertama yang menggunakan arsitektur Mamba2, juga telah dirilis.

Apalagi proses penelitian dan pengembangannya juga dibantu oleh penulis asli Mamba, Albert Gu dan Tri Dao.

Menariknya, artikel pengumuman resmi tersebut secara khusus mengutip terkait "Cleopatra" Cleopatra VII, yang secara dramatis mengakhiri hidupnya dengan ular berbisa.

Setelah arsitektur Mamba dirilis, performa eksperimentalnya yang unggul mendapat perhatian dan optimisme luas. Namun, karena seluruh komunitas AI telah menginvestasikan terlalu banyak uang pada Transformer, kami jarang melihat model industri yang benar-benar menggunakan Mamba.

Saat ini, Codestral Mamba dapat memberi kita perspektif baru dalam mempelajari arsitektur baru.

Arsitektur Mamba pertama kali diluncurkan pada bulan Desember 2023, dan kedua penulis meluncurkan versi terbaru Mamba-2 pada bulan Mei tahun ini.

Berbeda dengan Transformer, model Mamba memiliki keunggulan penalaran waktu linier dan secara teoritis mampu memodelkan barisan dengan panjang tak terhingga.

Keduanya adalah model 7B. Meskipun jendela konteks Mathstral hanya 32k, Codestral Mamba dapat diperluas hingga 256k.

Keunggulan efisiensi dalam waktu inferensi dan panjang konteks, serta potensi respons yang cepat, sangat penting dalam skenario praktis untuk meningkatkan efisiensi pengkodean.

Tim Mistral melihat keunggulan model Mamba ini dan memimpin dalam mencobanya. Dari pengujian benchmark, parameter 7B Codestral Mamba tidak hanya memiliki keunggulan nyata dibandingkan model 7B lainnya, namun bahkan dapat bersaing dengan model berskala lebih besar.

Dalam 8 pengujian benchmark, Codestral Mamba pada dasarnya menyamai Code Llama 34B, dan bahkan melampaui performa dalam 6 pengujian.

Namun, dibandingkan dengan kakaknya Codestral 22B, kelemahan parameter Codestral Mamba tercermin, dan tampaknya masih kurang dalam kemampuan.

Perlu disebutkan bahwa Codestral 22B adalah model baru yang dirilis kurang dari dua bulan lalu. Sekali lagi saya menyesalkan Mistral, yang berkantor pusat di Paris, begitu populer.

Codestral Mamba juga dapat diterapkan menggunakan inferensi Mistral, atau API penerapan cepat TensorRL-LLM yang dirilis oleh NVIDIA.

Alamat GitHub: https://github.com/NVIDIA/TensorRT-LLM

Untuk operasi lokal, blog resmi menyatakan bahwa Anda dapat memperhatikan dukungan selanjutnya dari llama.cpp. Tapi ollama bertindak cepat dan menambahkan Mathstral ke perpustakaan model.

Dihadapkan pada desakan netizen untuk mengupdate codetral mamba, ollama pun berkata dengan sangat tegas: "Kami sudah mengerjakannya, mohon jangan tidak sabar."

Referensi:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generasi/

berita

Karya aslinya akan berakhir secara langsung! Model Mamba 7B open source pertama Mistral "Cleopatra" memiliki efek yang menakjubkan

Perkenalan

informasi kontak saya