berita

Gantikan Transformer dan model open source 7B segera mencapai puncak! Urutan panjang apa pun dapat diproses

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Ganti saja arsitektur Transformer, dan performa akan segera ditingkatkan di semua aspek, sehingga memungkinkan untuk menjadi model open source terbaik pada skala yang sama!

(Mekanisme perhatian tidak ada lagi)

Ini yang terbaruFalcon Mamba 7BModel.



itu menggunakanArsitektur model bahasa ruang negara bagian Mambauntuk menangani berbagai tugas pembuatan teks.

Dengan membatalkan mekanisme perhatian tradisional, masalah efisiensi komputasi yang rendah ketika model memproses urutan yang panjang dapat diperbaiki secara efektif.

itu bisa mengatasinyasangat panjangurutan, tetapi kebutuhan memori tidak meningkat.

Tidak peduli seberapa panjang konteksnya,Waktu untuk menghasilkan setiap token pada dasarnya sama

Hasilnya, performa model Falcon Mamba telah ditingkatkan di semua aspek, mengalahkan banyak model arsitektur Transformer, seperti Llama-3.1 (8B), Mistral (7B), dan Falcon-2 (11B).



Hasil di atas dibawakan oleh Technology Innovation Institute (TII) di Abu Dhabi, Uni Emirat Arab, yang merupakan tim pengembangan model Falcon.

Seri ini berisi total empat model: versi dasar, versi penyempurnaan instruksi, versi 4bit, dan versi penyempurnaan instruksi 4bit.

Model terbaru terbuka di bawah TII Falcon License 2.0, yaitu di bawah lisensi Apache 2.0.

Penonton netizen berteriak: Aturan mainnya akan berubah!



SSLM sumber terbuka pertama di dunia

Dalam hal kinerja, Falcon Mamba 7B mengungguli banyak model open source di semua aspek.



Hal ini didasarkan pada Mamba generasi pertama.

Mamba adalah amodel ruang negara(SSM, Model Ruang Negara). Ini menggabungkan karakteristik RNN ​​dan CNN dan meningkatkan efisiensi pemrosesan informasi teks dengan memperkenalkan mekanisme seleksi yang memungkinkan model menyebarkan atau melupakan informasi secara selektif berdasarkan masukan saat ini.

Pada saat yang sama, ia merancang algoritma paralel yang sadar perangkat keras yang berjalan dalam mode rekursif, menghindari akses IO antara tingkat memori GPU dan meningkatkan efisiensi komputasi.

Terakhir, ini juga menyederhanakan arsitektur, menggabungkan arsitektur SSM dan blok MLP di Transformer menjadi satu blok.

Berubah dari Transformer ke Mamba memungkinkan model Falcon menangani rangkaian panjang yang sewenang-wenang tanpa menambah memori. Sangat cocok untuk GPU A10 24GB tunggal.

Studi ini juga membahas dua pendekatan berbeda untuk memproses urutan.

Metode pra-pengisian paralel cocok untuk pemrosesan paralel GPU dan memiliki kebutuhan memori yang tinggi; metode pengisian sekuensial cocok untuk model SSM dan dapat menangani urutan dengan panjang berapa pun tanpa terikat pada batasan memori.



Untuk memastikan stabilitas pelatihan skala besar, model Falcon Mamba menggunakan lapisan normalisasi RMS tambahan.

Lapisan normalisasi RMS dapat menyederhanakan proses penghitungan LayerNorm dan mengurangi jumlah penghitungan.

Model ini dilatih menggunakan data 5500GT, yang sebagian besar berasal dari kumpulan data RefedWeb dan data publik. Proses pelatihan pada dasarnya seragam, dan sejumlah kecil data perencanaan berkualitas tinggi ditambahkan pada tahap pelatihan selanjutnya, yang membantu model untuk dioptimalkan pada tahap akhir.

Dalam pengujian menghasilkan token pada H100 dengan ukuran batch 1 dan panjang kata cepat 1-130k, Falcon Mamba mampuPertahankan throughput yang stabil saat membuat token baru, yang berarti performanya tidak terpengaruh oleh panjang teks dan dapat menangani rangkaian panjang secara stabil tanpa penurunan performa.





Falcon Mamba mendukung beberapa API Hugging Face, termasuk AutoModelForCausalLM dan pipline.

Versi penyetelan instruksi juga telah diluncurkan, yang dapat membuat model lebih akurat dengan menyempurnakan 5 miliar token tambahan.

Model terbaru dapat diakses di Hugging Face dan GitHub~

Tautan referensi:
https://huggingface.co/blog/falconmamba#hardware-kinerja