berita

Star AI unicorn Mistral AI mengungkap raja baru model besar, dengan kemampuan pengkodean dan matematika yang unggul

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhidixi (akun publik: zhidxcom)

Disusun |. Luo Tianjin

Penyunting |.Yunpeng

Zhidongzhi News pada 17 Juli, menurut VentureBeat kemarin, startup AI Perancis Mistral AI baru-baru ini meluncurkan dua model AI baru. Salah satunya adalah Codestral Mamba 7B, model pembuatan kode untuk pemrogram dan pengembang, dan yang lainnya dirancang untuk matematika Model AI dirancang untuk penalaran dan penemuan ilmiah yang relevan.

Codestral Mamba 7B menghadirkan inferensi yang lebih cepat dan konteks yang lebih panjang, memberikan waktu respons yang cepat bahkan dengan teks masukan yang panjang. Pada saat yang sama, model ini dapat menangani masukan hingga 256.000 token, dua kali lebih banyak dari GPT-4o.

Mathstral 7B memiliki jendela konteks 32K dan akan menggunakan lisensi open source Apache 2.0. Model ini dapat mencapai hasil yang lebih baik daripada model penalaran matematis lainnya pada benchmark dengan perhitungan waktu inferensi yang lebih banyak.

1. Model pembuatan kode dapat menangani konteks yang lebih panjang

Startup AI Perancis yang memiliki pendanaan besar, Mistral AI, yang terkenal dengan model AI open source yang kuat, hari ini meluncurkan dua entri baru dalam rangkaian model bahasa besar (LLM) yang sedang berkembang: model berbasis matematika dan satu untuk pemrogram serta model pembuatan kode untuk pengembang berdasarkan Mamba, arsitektur baru yang dikembangkan oleh peneliti lain akhir tahun lalu.

Mamba berupaya meningkatkan efisiensi arsitektur transformator yang digunakan oleh sebagian besar LLM terkemuka dengan menyederhanakan mekanisme perhatiannya. Model berbasis Mamba berbeda dari model berbasis Transformer pada umumnya karena model tersebut mungkin memiliki kecepatan inferensi yang lebih cepat dan jendela konteks yang lebih besar. Perusahaan dan pengembang lain, termasuk AI21, telah merilis model AI baru berdasarkan AI21.

Sekarang, dengan arsitektur baru ini, Mistral AI dengan tepat menamakannyaKodestral Mamba 7B , yang memberikan waktu respons cepat meskipun teks masukan panjang. Codestral Mamba cocok untuk kasus penggunaan produktivitas kode, terutama untuk proyek pengkodean lokal lainnya.

Mistral AI menguji model tersebut, yang akan tersedia secara gratis di API Plateforme Mistral AI, memproses input hingga 256,000 token, dua kali lebih cepat dari GPT-4o OpenAI.

Mistral AI menunjukkan bahwa Codestral Mamba berkinerja lebih baik dibandingkan model open source pesaing CodeLlama 7B, CodeGemma-1.17B, dan DeepSeek pada benchmark seperti HumanEval.

Pengembang dapat memodifikasi dan menerapkan Codestral Mamba dari repositori GitHub dan HuggingFace. Ini akan tersedia di bawah lisensi open source Apache 2.0.

Mistral AI mengklaim bahwa versi awal Codestral lebih unggul daripada pembuat kode lain seperti CodeLlama 70B dan DeepSeek Coder 33B.

Pembuatan kode dan asisten pengkodean telah menjadi aplikasi yang banyak digunakan untuk model AI, dengan platform seperti Copilot dari GitHub, CodeWhisperer dari Amazon, dan Codenium yang didukung oleh OpenAI yang semakin populer.

2. Model penalaran matematis mempunyai kemampuan yang sangat baik dan juga memiliki kemampuan fine tuning.

Model kedua yang diluncurkan oleh Mistral AI adalahMatematika 7B , model AI yang dirancang untuk penalaran terkait matematika dan penemuan ilmiah. Mistral AI mengembangkan Mathstral melalui Project Numina.

Mathstral memiliki jendela konteks 32K dan akan menggunakan lisensi open source Apache 2.0. Mistral AI mengatakan model tersebut mengungguli semua model yang dirancang untuk penalaran matematis. Hal ini dapat mencapai "hasil yang jauh lebih baik" pada benchmark dengan perhitungan waktu inferensi yang lebih banyak. Pengguna dapat menggunakannya apa adanya atau menyempurnakan modelnya.

Mistral AI mengatakan dalam sebuah posting blog: "Mathstral adalah contoh lain dari pencapaian kinerja luar biasa ketika membangun model untuk tujuan tertentu - sebuah filosofi pengembangan yang kami promosikan secara aktif ala Plateforme, terutama dengan fungsi Fine-tuning yang baru.”

Mathstral dapat diakses melalui Mistral AI ala Plataforme dan HuggingFace.

Mistral AI lebih memilih untuk membuat modelnya tersedia pada sistem sumber terbuka, dan perusahaan tersebut telah bersaing dengan pengembang AI lainnya seperti OpenAI dan Anthropic.

Perusahaan baru-baru ini mengumpulkan $640 juta dalam pendanaan Seri B, dengan nilai hampir $6 miliar. Perusahaan juga telah menerima investasi dari raksasa teknologi seperti Microsoft dan IBM.

Kesimpulan: Pertarungan performa model-model besar mencapai tingkatan baru

Dari perspektif industri, model baru Mistral AI menyoroti tren alat AI yang menjadi lebih profesional. Dengan menyediakan model yang kuat dan mudah diakses seperti Mistral 7B dan Codestral Mamba 7B, Mistral AI menjadi pemain penting di bidang AI pengembangan aplikasi yang inovatif dan praktis.

Model-model ini juga menekankan pentingnya AI open source, mendorong kolaborasi dan transparansi yang lebih besar dalam komunitas teknologi. Dengan menyediakan alat AI yang canggih kepada khalayak yang lebih luas, kami akan semakin memajukan iterasi cepat dan pengembangan bidang model besar AI.

Sumber: VentureBeat