iPhone dapat menjalankan meriam baja kecil 2B! Google Gemma 2 akan hadir, mikroskop terkuat yang bisa membedah otak LLM

iPhone dapat menjalankan meriam baja kecil 2B!Google Gemma 2 akan hadir, mikroskop terkuat yang dapat membedah otak LLM

2024-08-01

Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru] Bom nuklir model kecil Google DeepMind telah hadir Gemma 2 2B secara langsung mengalahkan GPT-3.5 dan Mixtral 8x7B, yang memiliki parameter beberapa kali lipat lebih besar! Gemma Scope yang dirilis sekaligus menerobos kotak hitam LLM seperti mikroskop, memungkinkan kita melihat dengan jelas bagaimana Gemma 2 mengambil keputusan.

Model kecil Google DeepMind kembali menjadi baru!

Baru saja Google DeepMind merilis Gemma 2 2B.

Itu disuling dari Gemma 2 27B.

Meski parameternya hanya 2,6B, skornya di arena LMSYS sudah melampaui GPT-3.5 dan Mixtral 8x7B!

Dalam benchmark MMLU dan MBPP, ia mencapai hasil yang sangat baik masing-masing sebesar 56,1 dan 36,6, kinerjanya melebihi model sebelumnya Gemma 1 2B lebih dari 10%.

Model kecil mengalahkan model besar yang beberapa kali lipat lebih besar, sekali lagi menegaskan arah model kecil yang sangat optimis di industri saat ini.

Hari ini, Google mengumumkan total tiga anggota baru keluarga Gemma 2:

Gemma 2 2B:Model 2B yang ringan mencapai keseimbangan terbesar antara kinerja dan efisiensi
Perisai Gemma：Model pengklasifikasi konten aman yang dibangun di Gemma 2 untuk memfilter input dan output model AI guna memastikan keamanan pengguna
Cakupan Gemma:Alat interpretasi yang memberikan wawasan tak tertandingi tentang cara kerja model Anda

Pada bulan Juni, model Gemma 2 27B dan 9B lahir.

Sejak dirilis, model 27B dengan cepat menjadi salah satu model sumber terbuka teratas pada peringkat model besar, bahkan mengungguli model populer dengan jumlah parameter dua kali lipat dalam percakapan sebenarnya.

Gemma 2 2B: langsung tersedia di perangkat Anda

Model kecil yang ringan Gemma 2 2B merupakan sulingan dari model besar, dan performanya tidak kalah.

Di arena model besar LMSYS, model baru ini mencapai skor mengesankan sebesar 1130, yang setara dengan model dengan parameter 10x.

GPT-3.5-Turbo-0613 mencetak 1117 dan Mixtral-8x7b mencetak 1114.

Hal ini menunjukkan bahwa Gemma 2 2B merupakan model end-to-side terbaik.

Beberapa netizen membiarkan Gemma 2 2B yang terkuantisasi berjalan di MLX Swift di iPhone 15 Pro, dan kecepatannya sangat cepat.

Secara khusus, ini dapat diterapkan di berbagai perangkat terminal, termasuk ponsel, laptop, dan bahkan cloud canggih menggunakan Vertex AI dan Google Kubernetes Engine (GKE).

Untuk mempercepat model, model ini dioptimalkan melalui NVIDIA TensorRT-LLM, yang juga tersedia di platform NVIDIA NIM.

Model yang dioptimalkan ini berfungsi di berbagai penerapan platform, termasuk pusat data, cloud, stasiun kerja lokal, PC, dan perangkat edge.

Ini juga dapat mendukung modul RTX, GPU RTX, dan Jetson untuk menyelesaikan penerapan AI marginal.

Selain itu, Gemma 2 2B dengan mulus mengintegrasikan Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp, dll., dan akan segera diintegrasikan dengan MediaPipe untuk menyederhanakan pengembangan.

Tentu saja, seperti Gemma 2, model 2B juga dapat digunakan untuk penelitian dan penggunaan komersial.

Bahkan, karena volume parameternya cukup rendah, ia dapat berjalan pada lapisan GPU T4 gratis Google Colab, sehingga menurunkan ambang batas pengembangan.

Saat ini setiap developer dapat mendownload model bobot Gemma 2 dari Kaggle, Hugging Face, dan Vertex AI Model Garden, serta dapat mencoba fungsinya di Google AI Studio.

Alamat gudang: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: pengklasifikasi keamanan mutakhir

Seperti namanya, ShieldGemma adalah pengklasifikasi keamanan paling canggih, memastikan konten keluaran AI menarik, aman, dan inklusif, serta mendeteksi dan mengurangi keluaran konten berbahaya.

ShieldGemma dirancang untuk secara khusus menargetkan empat area berbahaya utama:

- Kebencian

- Konten pelecehan

- Konten eksplisit

- Konten berbahaya

Pengklasifikasi sumber terbuka ini melengkapi rangkaian pengklasifikasi keselamatan Google yang sudah ada dalam perangkat AI yang Bertanggung Jawab.

Toolkit ini mencakup metode untuk membuat pengklasifikasi khusus kebijakan berdasarkan titik data terbatas, serta pengklasifikasi Google Cloud siap pakai yang disediakan melalui API.

ShieldGemma dibangun di atas Gemma 2, pengklasifikasi keamanan terkemuka di industri.

Ini menyediakan berbagai ukuran parameter model, termasuk 2B, 9B, dan 27B, yang semuanya dioptimalkan untuk kecepatan NVIDIA dan dapat berjalan secara efisien di berbagai perangkat keras.

Diantaranya, 2B sangat cocok untuk tugas klasifikasi online, sedangkan versi 9B dan 27B memberikan kinerja lebih tinggi untuk aplikasi offline dengan persyaratan latensi lebih rendah.

Lingkup Gemma: Mengungkap proses pengambilan keputusan AI melalui autoencoder sparse open source

Sorotan lain yang dirilis pada saat yang sama adalah autoencoder sparse open source-Gemma Scope.

Apa yang terjadi di dalam model bahasa? Masalah ini telah lama membingungkan para peneliti dan pengembang.

Cara kerja model bahasa seringkali menjadi misteri, bahkan bagi peneliti yang melatihnya.

Lingkup Gemma seperti mikroskop canggih yang memperbesar titik-titik tertentu dalam model melalui sparse autoencoder (SAE), sehingga membuat cara kerja bagian dalam model lebih mudah untuk diinterpretasikan.

Dengan Gemma Scope, peneliti dan pengembang mendapatkan transparansi yang belum pernah terjadi sebelumnya dalam proses pengambilan keputusan model Gemma 2.

Gemma Scope adalah kumpulan ratusan autoencoder sparse (SAE) gratis dan terbuka untuk Gemma 2 9B dan Gemma 2 2B.

SAE ini adalah jaringan saraf yang dirancang khusus yang membantu kita menafsirkan informasi padat dan kompleks yang diproses oleh Gemma 2 dan mengembangkannya ke dalam bentuk yang lebih mudah dianalisis dan dipahami.

Dengan mempelajari pandangan yang diperluas ini, peneliti dapat memperoleh informasi berharga tentang bagaimana Gemma 2 mengenali pola, memproses informasi, dan membuat prediksi.

Dengan Gemma Scope, komunitas AI dapat lebih mudah membangun sistem AI yang lebih mudah dipahami, bertanggung jawab, dan andal.

Pada saat yang sama, Google DeepMind juga merilis laporan teknis setebal 20 halaman.

Laporan teknis: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

Singkatnya, Gemma Scope memiliki tiga inovasi berikut -

SAE Sumber Terbuka: Lebih dari 400 SAE yang tersedia secara gratis yang mencakup semua tingkatan Gemma 2 2B dan 9B
Demo interaktif: Jelajahi kemampuan SAE dan analisis perilaku model di Neuronpedia tanpa menulis kode
Pustaka sumber daya yang mudah digunakan: menyediakan kode dan contoh untuk berinteraksi dengan SAE dan Gemma 2

Menafsirkan cara kerja model bahasa

Mengapa masalah interpretabilitas model bahasa begitu sulit?

Ini dimulai dengan prinsip operasi LLM.

Saat Anda mengajukan pertanyaan kepada LLM, input teks Anda akan diubah menjadi serangkaian "aktivasi". Aktivasi ini memetakan hubungan antara kata-kata yang Anda masukkan, membantu model membuat hubungan antara kata-kata yang berbeda dan menghasilkan jawaban yang sesuai.

Saat model memproses masukan teks, aktivasi berbagai lapisan dalam jaringan saraf model mewakili beberapa konsep tingkat yang semakin tinggi, yang disebut "fitur".

Misalnya, lapisan awal model mungkin mempelajari fakta seperti Jordan bermain bola basket, sedangkan lapisan selanjutnya mungkin mengidentifikasi konsep yang lebih kompleks, seperti keaslian teks.

Contoh interpretasi aktivasi model menggunakan autoencoder jarang - bagaimana model mengingat fakta bahwa "kota cahaya adalah Paris".Terlihat bahwa konsep-konsep yang berhubungan dengan bahasa Perancis ada, tetapi konsep-konsep yang tidak berhubungan tidak ada

Namun, para peneliti interpretabilitas menghadapi masalah utama: aktivasi model merupakan campuran dari banyak fitur berbeda.

Pada tahap awal penelitian, para peneliti berharap fitur-fitur dalam aktivasi jaringan saraf dapat diselaraskan dengan neuron individu, atau node informasi.

Namun sayangnya, dalam praktiknya, neuron aktif untuk banyak fitur yang tidak relevan.

Artinya, tidak ada cara yang jelas untuk mengetahui fitur mana yang merupakan bagian dari aktivasi.

Dan di sinilah peran autoencoder yang jarang.

Sadarilah bahwa aktivasi tertentu hanya akan merupakan campuran dari beberapa fitur, meskipun model bahasa mungkin dapat mendeteksi jutaan atau bahkan miliaran fitur (artinya, model tersebut jarang menggunakan fitur).

Misalnya, model bahasa mungkin memikirkan relativitas saat menjawab pertanyaan tentang Einstein, namun mungkin tidak memikirkan relativitas saat menulis tentang telur dadar.

Autoencoder renggang memanfaatkan fakta ini untuk menemukan serangkaian fitur laten dan menguraikan setiap aktivasi menjadi beberapa fitur.

Para peneliti berharap cara terbaik bagi autoencoder renggang untuk menyelesaikan tugas ini adalah dengan menemukan fitur penting yang sebenarnya digunakan oleh model bahasa.

Yang penting, selama proses ini, para peneliti tidak memberi tahu autoencoder renggang fitur mana yang harus dicari.

Hasilnya, mereka dapat menemukan struktur kaya yang tidak diantisipasi sebelumnya.

Namun, karena mereka tidak segera mengetahui arti sebenarnya dari fitur yang ditemukan ini, mereka mencari pola yang bermakna dalam contoh teks yang dianggap oleh autoencoder jarang sebagai fitur yang "dipicu".

Berikut adalah contoh Token yang dipicu oleh suatu fitur disorot dengan gradien biru berdasarkan kekuatan pemicu fitur:

Contoh menemukan aktivasi fitur dengan autoencoder yang jarang. Setiap gelembung mewakili Token (kata atau fragmen kata), dan variabel warna biru menggambarkan kekuatan fitur ini.Dalam hal ini, ciri tersebut jelas berkaitan dengan idiom

Apa yang unik dari Gemma Scope?

Dibandingkan dengan autoencoder sparse sebelumnya, Gemma Scope memiliki banyak fitur unik.

Yang pertama terutama berfokus pada mempelajari cara kerja bagian dalam model kecil atau lapisan tunggal model besar.

Namun jika Anda ingin mempelajari lebih dalam penelitian interpretabilitas, ini melibatkan penguraian kode algoritma kompleks berlapis dalam model besar.

Kali ini, peneliti dari Google DeepMind melatih sparse autoencoder pada keluaran setiap lapisan dan sub-lapisan Gemma 2 2B dan 9B.

Lingkup Gemma yang dibuat dengan cara ini menghasilkan total lebih dari 400 autoencoder jarang dan memperoleh lebih dari 30 juta fitur (walaupun banyak fitur mungkin tumpang tindih).

Hal ini memungkinkan peneliti mempelajari bagaimana fitur berkembang di seluruh model dan bagaimana fitur tersebut berinteraksi dan digabungkan untuk membentuk fitur yang lebih kompleks.

Selain itu, Gemma Scope dilatih menggunakan arsitektur JumpReLU SAE terbaru dan tercanggih.

Arsitektur autoencoder sparse asli sering kali memiliki keseimbangan yang sulit antara dua tujuan, yaitu mendeteksi keberadaan fitur dan memperkirakan intensitas. Arsitektur JumpReLU dapat lebih mudah mencapai keseimbangan antara keduanya dan mengurangi kesalahan secara signifikan.

Tentu saja, melatih begitu banyak autoencoder yang jarang juga merupakan tantangan teknis yang besar dan memerlukan banyak sumber daya komputasi.

Dalam proses ini, para peneliti menggunakan sekitar 15% perhitungan pelatihan Gemma 2 9B (tidak termasuk perhitungan yang diperlukan untuk menghasilkan label sulingan) dan menyimpan sekitar 20 PiB aktivasi ke disk (kira-kira setara dengan satu juta salinan konten Ensiklopedia Wiki Bahasa Inggris) , menghasilkan total ratusan miliar parameter autoencoder renggang.

Referensi:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

berita

iPhone dapat menjalankan meriam baja kecil 2B!Google Gemma 2 akan hadir, mikroskop terkuat yang dapat membedah otak LLM

Perkenalan

informasi kontak saya