berita

Arsitektur non-Transformer telah berdiri! Model besar pertama yang benar-benar tidak diperhatikan, melampaui Llama 3.1

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Laporan Jantung Mesin

Editor: Du Wei, Chen Chen

Model arsitektur Mamba yang besar sekali lagi menantang Transformer.

Apakah model arsitektur Mamba akhirnya akan “berdiri” kali ini? Sejak pertama kali diluncurkan pada Desember 2023, Mamba telah menjadi pesaing kuat Transformer.

Sejak itu, model yang menggunakan arsitektur Mamba terus bermunculan, seperti Codestral 7B, model besar open source pertama berdasarkan arsitektur Mamba yang dirilis oleh Mistral.

Hari ini, Institut Inovasi Teknologi (TII) Abu Dhabi merilis aModel Mamba sumber terbuka baru – Falcon Mamba 7B



Pertama-tama, mari kita rangkum keunggulan Falcon Mamba 7B: ia dapat memproses urutan berapa pun panjangnya tanpa menambah penyimpanan memori, dan dapat berjalan pada satu GPU A10 24 GB.

Saat ini tersedia untuk dilihat dan digunakan di Hugging Face, Falcon Mamba 7B adalah model khusus dekoder kausal yang menggunakan novelArsitektur Model Bahasa Ruang Negara Mamba (SSLM).untuk menangani berbagai tugas pembuatan teks.

Dilihat dari hasilnya, Falcon Mamba 7B mengungguli model terkemuka di kelas ukurannya pada beberapa benchmark, termasuk Llama 3 8B dari Meta, Llama 3.1 8B, dan Mistral 7B.



Falcon Mamba 7B terbagi menjadi empat model varian yaitu versi dasar, versi perintah fine-tuned, versi 4bit dan versi perintah fine-tuned 4bit.



Sebagai model open source, Falcon Mamba 7B mengadopsi lisensi berbasis Apache 2.0 “Falcon License 2.0” untuk mendukung tujuan penelitian dan aplikasi.



Alamat Wajah Pelukan: https://huggingface.co/tiiuae/falcon-mamba-7b

Falcon Mamba 7B juga menjadi model keempat yang bersumber terbuka oleh TII setelah Falcon 180B, Falcon 40B dan Falcon 2, dan merupakanModel arsitektur Mamba SSLM pertama



Model Mamba murni skala besar universal pertama

Model berbasis transformator telah lama mendominasi AI generatif. Namun, para peneliti menyadari bahwa arsitektur Transformer mungkin mengalami kesulitan saat memproses informasi teks yang lebih panjang.

Pada dasarnya, mekanisme perhatian di Transformer memahami konteks dengan membandingkan setiap kata (atau token) dengan setiap kata dalam teks, yang memerlukan lebih banyak daya komputasi dan kebutuhan memori untuk menangani jendela konteks yang berkembang.

Namun jika sumber daya komputasi tidak diskalakan dengan tepat, inferensi model akan melambat dan teks yang melebihi panjang tertentu tidak dapat diproses. Untuk mengatasi kendala tersebut, arsitektur State Space Language Model (SSLM), yang bekerja dengan terus memperbarui keadaan saat memproses kata, telah muncul sebagai alternatif yang menjanjikan dan diterapkan oleh banyak institusi termasuk TII.

Falcon Mamba 7B menggunakan arsitektur Mamba SSM yang awalnya diusulkan dalam makalah Desember 2023 oleh para peneliti di Universitas Carnegie Mellon dan Universitas Princeton.

Arsitekturnya menggunakan mekanisme pemilihan yang memungkinkan model menyesuaikan parameternya secara dinamis berdasarkan masukan. Dengan cara ini, model dapat memfokuskan atau mengabaikan masukan tertentu, mirip dengan cara kerja mekanisme perhatian di Transformer, sekaligus memberikan kemampuan untuk memproses rangkaian teks yang panjang (seperti seluruh buku) tanpa memerlukan memori tambahan atau sumber daya komputasi.

TII mencatat bahwa pendekatan ini membuat model ini cocok untuk tugas-tugas seperti terjemahan mesin tingkat perusahaan, peringkasan teks, tugas visi komputer dan pemrosesan audio, serta estimasi dan prediksi.

data pelatihan

Falcon Mamba 7BData pelatihan hingga 5500GT, terutama terdiri dari kumpulan data RefinedWeb, ditambah dengan data teknis berkualitas tinggi, data kode, dan data matematika dari sumber publik. Semua data diberi token melalui tokenizer Falcon-7B/11B.

Mirip dengan model seri Falcon lainnya, Falcon Mamba 7B menggunakan strategi pelatihan multi-tahap untuk pelatihan.Panjang konteks bertambah dari 2048 menjadi 8192. Selain itu, terinspirasi oleh konsep pembelajaran kursus, TII dengan cermat memilih data campuran sepanjang fase pelatihan, dengan mempertimbangkan sepenuhnya keragaman dan kompleksitas data.

Pada fase pelatihan akhir, TII menggunakan sekumpulan kecil data kurasi berkualitas tinggi (yaitu sampel dari Fineweb-edu) untuk lebih meningkatkan kinerja.

Proses pelatihan, hyperparameter

Sebagian besar pelatihan untuk Falcon Mamba 7B adalahDilakukan pada 256 GPU H100 80GB, strategi yang menggabungkan paralelisme 3D (TP=1, PP=1, DP=256) dan ZeRO diadopsi. Gambar di bawah menunjukkan detail hyperparameter model, termasuk akurasi, pengoptimal, kecepatan pembelajaran maksimum, peluruhan bobot, dan ukuran batch.



Secara khusus, Falcon Mamba 7B dilatih dengan pengoptimal AdamW, jadwal kecepatan pembelajaran WSD (warm-stabilize-decay), dan ukuran batch ditingkatkan dari b_min=128 menjadi b_max=2048 selama pelatihan 50 GT pertama.

Dalam fase stabil, TII menggunakan kecepatan pemelajaran maksimum η_max=6.4×10^−4, lalu memecahnya ke minimum menggunakan jadwal eksponensial di atas 500GT. Pada saat yang sama, TII menggunakan BatchScaling dalam fase akselerasi untuk menyesuaikan kembali eta kecepatan pembelajaran sehingga suhu kebisingan Adam tetap konstan.





Seluruh pelatihan model memakan waktu sekitar dua bulan

Evaluasi model

Untuk memahami perbandingan Falcon Mamba 7B dengan model Transformer terkemuka di kelas ukurannya, penelitian ini melakukan pengujian untuk menentukan panjang konteks maksimum yang dapat ditangani model tersebut menggunakan satu GPU A10 24 GB.

Hasilnya menunjukkan bahwa Falcon Mamba juga mampu beradaptasi dengan urutan yang lebih besar daripada model Transformer saat iniSecara teoritis mampu mengakomodasi konteks yang panjangnya tidak terbatas



Selanjutnya, kami mengukur throughput pembuatan model menggunakan ukuran batch 1 dan pengaturan perangkat keras GPU H100. Hasilnya ditunjukkan pada gambar di bawah. Falcon Mamba menghasilkan semua token pada throughput konstan tanpa peningkatan memori puncak CUDA. Untuk model Transformer, memori puncak akan meningkat dan kecepatan pembangkitan akan melambat seiring dengan bertambahnya jumlah token yang dihasilkan.



Bahkan pada tolok ukur standar industri, model baru ini memiliki kinerja lebih baik atau mendekati model transformator populer serta model ruang negara murni dan hibrida.

Misalnya, dalam benchmark Arc, TruthfulQA, dan GSM8K, Falcon Mamba 7B masing-masing memperoleh skor 62,03%, 53,42%, dan 52,54%, melampaui Llama 3 8 B, Llama 3.1 8B, Gemma 7B, dan Mistral 7B. Namun, dalam benchmark MMLU dan Hellaswag, Falcon Mamba 7B tertinggal jauh dari model tersebut.



Penyelidik utama TII, Hakim Hacid, mengatakan dalam sebuah pernyataan: Peluncuran Falcon Mamba 7B mewakili langkah maju yang besar bagi institusi tersebut, menginspirasi perspektif baru dan memajukan eksplorasi sistem cerdas. Di TII, mereka mendorong batasan SSLM dan model transformator untuk menginspirasi inovasi lebih lanjut dalam AI generatif.

Saat ini, seri model bahasa Falcon TII telah diunduh lebih dari 45 juta kali - menjadi salah satu versi LLM paling sukses di UEA.

Makalah Falcon Mamba 7B akan segera dirilis, jadi Anda bisa menunggu.

https://huggingface.co/blog/falconmamba

https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/