berita

Algoritma, sistem dan aplikasi, pemahaman komprehensif para pakar hybrid (MoE) dari tiga perspektif

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Laporan Jantung Mesin

Editor: Panda W

LLM sangat kuat, dan untuk mencapai perluasan LLM yang berkelanjutan, perlu menemukan dan menerapkan metode yang dapat meningkatkan efisiensinya. Hybrid Expert (MoE) adalah anggota penting dari metode jenis ini.

Saat ini, model-model besar generasi baru yang diusulkan oleh berbagai perusahaan teknologi selalu menggunakan metode Mixture of Experts (MoE).

Konsep ahli hibrida pertama kali lahir dalam makalah “Adaptif campuran ahli lokal” pada tahun 1991, dan telah dieksplorasi dan dikembangkan secara luas selama lebih dari 30 tahun. Dalam beberapa tahun terakhir, dengan munculnya dan berkembangnya MoE dengan gerbang jarang, terutama bila dikombinasikan dengan model bahasa berskala besar berdasarkan Transformer, teknologi dengan sejarah lebih dari 30 tahun ini telah memperoleh vitalitas baru.

Kerangka kerja Kementerian Lingkungan Hidup didasarkan pada gagasan yang sederhana namun kuat: bagian-bagian model yang berbeda (disebut pakar) berfokus pada tugas-tugas yang berbeda atau aspek data yang berbeda.

Bila menggunakan paradigma ini, hanya para ahli (Expert) yang relevan saja yang akan ikut serta dalam mengolah suatu input, sehingga biaya komputasi dapat dikendalikan dengan tetap mendapatkan manfaat dari keahlian yang berjumlah besar. Oleh karena itu, MoE dapat meningkatkan kemampuan model bahasa besar tanpa meningkatkan kebutuhan komputasi secara signifikan.

Seperti yang ditunjukkan pada Gambar 1, penelitian terkait Kementerian Lingkungan Hidup telah berkembang pesat, terutama setelah munculnya Mixtral-8x7B dan berbagai LLM tingkat industri seperti Grok-1, DBRX, Arctic, dan DeepSeek-V2 pada tahun 2024.



Gambaran ini berasal dari laporan tinjauan Kementerian Lingkungan Hidup yang baru-baru ini dirilis oleh tim peneliti dari Universitas Sains dan Teknologi Hong Kong (Guangzhou). Laporan tersebut secara jelas dan komprehensif merangkum penelitian terkait Kementerian Lingkungan Hidup dan mengusulkan metode klasifikasi baru untuk mengklasifikasikan penelitian-penelitian tersebut. Algoritma, sistem dan aplikasi.



Judul makalah: Survei Campuran Pakar

Alamat makalah: https://arxiv.org/pdf/2407.06204

Heart of the Machine telah menyusun isi utama laporan tinjauan ini untuk membantu pembaca memahami gambaran perkembangan KLH saat ini. Untuk lebih jelasnya, silakan baca makalah aslinya. Selain itu, kami juga telah mengumpulkan beberapa laporan terkait KLH di bagian akhir artikel.

Mencampur pengetahuan latar belakang ahli

Dalam model bahasa besar (LLM) berbasis Transformer, komposisi setiap lapisan pakar campuran (MoE) biasanya berupa "jaringan pakar" {_1, ... , _} dipasangkan dengan "jaringan gating" G.

Jaringan yang terjaga keamanannya ini biasanya berbentuk jaringan linier dengan menggunakan fungsi aktivasi softmax yang berperan untuk memandu masukan ke jaringan pakar yang sesuai. Lapisan MoE ditempatkan pada modul Transformer, dan fungsinya untuk memilih jaringan penerus (FFN), biasanya terletak setelah sub-lapisan self-attention (SA). Penempatan ini penting karena seiring dengan berkembangnya model, kebutuhan komputasi FFN pun meningkat. Misalnya, pada model PaLM dengan 540 miliar parameter, 90% parameternya terletak di lapisan FFN-nya.

Sederhananya dalam bentuk matematika: setiap jaringan ahli_ (biasanya jaringan linier - ReLU - linier) diparameterisasi oleh W_, yang menerima masukan x yang sama dan menghasilkan keluaran_ (x; W_). Pada saat yang sama, jaringan berpagar G dengan parameter Θ (biasanya terdiri dari jaringan linier-ReLU-linier-softmax) memperoleh keluaran G (x; Θ). Menurut metode desain fungsi gating, lapisan MoE secara kasar dapat dibagi menjadi dua kategori berikut.



MoE yang padat

Lapisan pakar campuran padat mengaktifkan semua jaringan pakar {_1, ... , _} selama setiap iterasi. Studi-studi awal Kementerian Lingkungan Hidup umumnya mengadopsi strategi ini. Belakangan ini, beberapa penelitian telah menggunakan MoE padat, seperti EvoMoE, MoLE, LoRAMoE dan DS-MoE. Gambar 2a menunjukkan struktur lapisan MoE yang padat. Oleh karena itu, keluaran dari lapisan MoE yang padat dapat dinyatakan sebagai:



Diantaranya, (x; Θ) adalah nilai gerbang sebelum operasi softmax.

MoE yang jarang

Meskipun keakuratan prediksi para ahli hybrid padat umumnya lebih tinggi, beban komputasi mereka juga sangat tinggi.

Untuk mengatasi masalah ini, makalah Shazeer dkk., "Jaringan saraf yang sangat besar: Lapisan campuran pakar dengan gerbang jarang" memperkenalkan lapisan MoE dengan gerbang jarang, yang hanya mengaktifkan lapisan terpilih di setiap jalur maju. Strategi ini mencapai ketersebaran dengan menghitung jumlah tertimbang dari keluaran para pakar teratas, bukannya menjumlahkan keluaran seluruh pakar. Gambar 2b menunjukkan struktur lapisan MoE yang jarang ini.

Berdasarkan kerangka yang diusulkan dalam makalah di atas, Persamaan 2.2 dapat dimodifikasi untuk mencerminkan mekanisme sparse gating:



Berikut penjelasannya: Fungsi TopK (・, ) hanya mempertahankan k item pertama dari nilai asli vektor, sementara item lainnya disetel ke −∞. Ini diikuti dengan operasi softmax di mana semua suku −∞ menjadi mendekati nol. Hyperparameter k harus dipilih sesuai dengan aplikasi spesifik. Pilihan umum adalah = 1 atau = 2. Menambahkan istilah noise R_noise adalah strategi umum untuk melatih lapisan MoE dengan gerbang jarang, yang dapat mendorong eksplorasi di antara para ahli dan meningkatkan stabilitas pelatihan MoE.

Meskipun sparse gating G (x; Θ) dapat memperluas ruang parameter model secara signifikan tanpa meningkatkan biaya komputasi yang terkait, hal ini juga dapat menyebabkan masalah penyeimbangan beban. Masalah penyeimbangan beban mengacu pada distribusi beban yang tidak merata di antara para ahli – beberapa ahli sering digunakan, sementara yang lain jarang digunakan atau tidak digunakan sama sekali.

Untuk mengatasi masalah ini, setiap lapisan MoE harus mengintegrasikan fungsi kerugian tambahan, yang berperan untuk mendorong setiap kumpulan token agar didistribusikan secara merata ke berbagai ahli. Dari uraian bentuk matematisnya, tentukan terlebih dahulu query batch B = {x_1, x_2, ..., x_} yang berisi T token dan N pakar. Kemudian kerugian penyeimbangan beban tambahannya didefinisikan sebagai:



Dimana D_i adalah proporsi token yang diberikan kepada ahli i, dan P_i adalah proporsi probabilitas gating yang diberikan kepada ahli i. Untuk memastikan bahwa batch didistribusikan secara merata di antara N pakar, fungsi kehilangan penyeimbangan beban L_{load-balancing} harus diminimalkan. Ketika setiap pakar diberi jumlah token yang sama D_ = 1/ dan probabilitas gating yang sama P_ = 1/, kondisi optimal tercapai:



Pada titik ini, beban masing-masing pakar seimbang.

Selanjutnya, kecuali dinyatakan lain secara eksplisit, istilah "MoE" hanya mengacu pada "MoE yang jarang".

Klasifikasi Pakar Campuran

Untuk membantu peneliti menemukan target dalam sejumlah besar studi LLM yang menggunakan MoE, tim mengembangkan metode klasifikasi untuk mengklasifikasikan model ini berdasarkan tiga aspek: desain algoritma, desain sistem, dan aplikasi.

Gambar 3 menunjukkan taksonomi ini dan beberapa hasil penelitian yang representatif.



Berikut ini akan diberikan pengenalan secara menyeluruh dan mendalam pada masing-masing kategori.

Desain algoritma oleh para ahli hybrid

fungsi gerbang

Fungsi gerbang (juga dikenal sebagai fungsi perutean atau router) adalah komponen fundamental dari semua arsitektur MoE, yang mengoordinasikan penggunaan komputasi pakar dan menggabungkan keluaran para pakar.

Tergantung pada bagaimana setiap masukan diproses, gating dapat dibagi menjadi tiga jenis: jarang, padat, dan lunak. Mekanisme gerbang jarang mengaktifkan beberapa pakar, sedangkan mekanisme gerbang padat mengaktifkan semua pakar. Mekanisme gerbang lunak mencakup metode yang sepenuhnya dapat dibedakan, termasuk fusi token masukan dan fusi pakar. Gambar 4 menunjukkan berbagai fungsi gating yang digunakan dalam model MoE.



jarang

Fungsi sparse gating mengaktifkan sebagian pakar terpilih saat memproses setiap token masukan, yang dapat dianggap sebagai bentuk komputasi bersyarat.

Fungsi gating dapat mengimplementasikan berbagai bentuk keputusan gating, seperti keputusan biner, keputusan jarang atau berkelanjutan, keputusan acak atau deterministik, semuanya telah dipelajari secara mendalam dan dapat diimplementasikan menggunakan berbagai bentuk pembelajaran penguatan dan pelatihan propagasi mundur.

Studi Shazeer et al. "Jaringan saraf yang sangat besar: Lapisan campuran pakar dengan gerbang yang jarang" memelopori metode heuristik yang dapat dibedakan menggunakan kerugian penyeimbangan beban tambahan, di mana pakar dapat dihitung berdasarkan probabilitas seleksi mereka ditimbang. Hal ini memperkenalkan diferensiasi ke dalam proses gating, dimana optimalisasi fungsi gating dapat dipandu oleh gradien.

Belakangan paradigma ini menjadi paradigma dominan dalam bidang penelitian Kementerian Lingkungan Hidup. Karena metode ini memilih seorang pakar untuk setiap token masukan, metode ini dapat dianggap sebagai fungsi gerbang selektif token.

Berikut ini adalah poin utama dari bagian ini, lihat makalah asli untuk detailnya:

gerbang selektif token

Kerugian tambahan untuk gerbang selektif token

kapasitas ahli token untuk gerbang selektif

Kemajuan lain dalam gerbang selektif token

Gerbang selektif token yang tidak dapat dilatih

Gerbang Selektif Ahli



Intensif

MoE yang padat berarti semua pakar diaktifkan saat memproses setiap masukan.

Meskipun KLH yang jarang memiliki keunggulan dalam hal efisiensi, arah KLH yang padat tetap menyambut baik inovasi. Secara khusus, aktivasi padat berkinerja baik dalam penyesuaian LoRA-MoE dan memiliki overhead komputasi yang relatif rendah bagi para ahli LoRA. Pendekatan ini memungkinkan integrasi beberapa LoRA secara efisien dan fleksibel untuk menyelesaikan berbagai tugas hilir. Hal ini mempertahankan kemampuan generatif model asli yang telah dilatih sebelumnya sekaligus mempertahankan karakteristik unik setiap LoRA untuk setiap tugas.

gaya lembut

Untuk MoE yang jarang, masalah optimasi diskrit yang mendasar adalah bagaimana memutuskan ahli mana yang tepat untuk ditugaskan pada setiap token. Untuk memastikan partisipasi ahli yang seimbang dan meminimalkan token yang tidak teralokasi, hal ini sering kali memerlukan kerugian yang dibantu heuristik. Masalah ini sangat signifikan dalam skenario yang melibatkan data di luar distribusi (seperti kumpulan inferensi kecil, masukan baru, atau pembelajaran transfer).

Mirip dengan MoE padat, metode MoE lunak juga menggunakan semua pakar saat memproses setiap masukan, sehingga mempertahankan diferensiasi penuh dan dengan demikian menghindari masalah yang melekat pada metode pemilihan pakar yang terpisah. Perbedaan antara MoE lunak dan MoE padat adalah bahwa MoE lunak meringankan kebutuhan komputasi melalui penggabungan token masukan atau pakar yang terjaga keamanannya dan berbobot.

pakar

Bagian ini akan memperkenalkan arsitektur jaringan pakar dalam kerangka KLH dan membahas fungsi gerbang yang mengoordinasikan aktivasi para pakar tersebut.

Tipe jaringan

Karena MoE terintegrasi ke dalam arsitektur Transformer, sering kali ia menggantikan modul jaringan maju (FFN) dalam model ini. Biasanya, setiap pakar di lapisan MoE menyalin arsitektur FFN yang digantikannya.

Paradigma penggunaan FFN sebagai pakar masih menjadi mainstream, namun banyak perbaikan yang telah dilakukan.

hyperparameter

Ukuran model MoE sparse dikontrol oleh beberapa hyperparameter utama, termasuk:

Jumlah tenaga ahli per lapisan KLH

Ukuran masing-masing ahli

Seberapa sering lapisan MoE ditempatkan di seluruh model

Pemilihan hyperparameter ini sangat penting karena sangat memengaruhi performa dan efisiensi komputasi model dalam berbagai tugas. Oleh karena itu, hyperparameter optimal dipilih berdasarkan persyaratan aplikasi spesifik dan infrastruktur komputasi. Tabel 2 menunjukkan beberapa konfigurasi model menggunakan MoE.



Selain itu, Tabel 3 mencantumkan jumlah parameter dan tolok ukur kinerja beberapa model open source terbaru.



fungsi aktivasi

Model MoE renggang yang dibangun di atas arsitektur Transformer padat mengadopsi fungsi aktivasi yang mirip dengan LLM padat terkemuka seperti BERT, T5, GPT, dan LLAMA. Fungsi aktivasi telah berevolusi dari ReLU ke opsi yang lebih canggih seperti GeLU, GeGLU, SwiGLU, dan sebagainya.

Tren ini juga meluas ke komponen model MoE lainnya, yang sering kali menggabungkan teknik seperti normalisasi lapisan rata-rata akar (RMSNorm), perhatian kueri yang dikelompokkan (GQA), dan penyematan posisi yang diputar (RoPE).

Pakar bersama

DeepSpeed-MoE secara inovatif memperkenalkan arsitektur sisa MoE (Residual-MoE), di mana setiap token diproses oleh pakar tetap ditambah pakar yang dipilih oleh gerbang, menyadari bahwa setiap lapisan memiliki dua pakar yang berpartisipasi dalam pemrosesan pada saat yang sama biaya komunikasi tidak akan melebihi metode gating top-1. Metode ini memperlakukan pakar MoE yang dipilih gerbang sebagai bantuan koreksi kesalahan untuk FFN padat yang tetap.

Perutean MoE bersyarat (CMR/Perutean MoE Bersyarat) yang digunakan di NLLB juga mengadopsi metode serupa, menggabungkan keluaran lapisan FFN dan MoE yang padat.

Paradigma yang mengintegrasikan FFN tetap dan MoE sparse sering disebut sebagai pakar bersama (shared expert), seperti ditunjukkan pada Gambar 5b.



Baru-baru ini, model seperti DeepSeekMoE, OpenMoE, Qwen1.5-MoE, dan MoCLE telah mengadopsi paradigma ini, yang menunjukkan bahwa ini menjadi konfigurasi utama. Namun, DeepSeekMoE dan Qwen1.5-MoE menggunakan beberapa pakar bersama, bukan hanya satu pakar.

Pakar Efisiensi Parameter Pencampuran

Penyetelan efisien parameter (PEFT) adalah metode untuk meningkatkan efisiensi penyempurnaan. Sederhananya, PEFT hanya memperbarui sebagian kecil parameter model dasar selama penyesuaian.

PEFT berhasil, namun karena terbatasnya parameter yang dapat dilatih dan kemungkinan masalah lupa yang sangat besar, metode ini sulit digunakan dalam situasi di mana diperlukan generalisasi pada banyak tugas.

Untuk mengatasi keterbatasan ini, lahirlah Mixed Parameter Efficient Expert (MoPE) yang mengintegrasikan kerangka MoE dengan PEFT. MoPE mengintegrasikan mekanisme gating MoE dan arsitektur multi-pakar, dan masing-masing pakar dibangun menggunakan teknologi PEFT. Kombinasi cerdas ini dapat meningkatkan kinerja PEFT dalam skenario multitugas. Selain itu, karena PEFT digunakan untuk membangun tenaga ahli, MoPE menggunakan lebih sedikit parameter dan jauh lebih hemat sumber daya dibandingkan model MoE tradisional.

MoPE menggabungkan karakteristik multi-tugas MoE dan efisiensi sumber daya PEFT, dan merupakan arah penelitian yang menjanjikan. Gambar 6 mengklasifikasikan MoPE menurut posisinya dalam arsitektur model Transformer. Untuk pengenalan lebih detail mengenai hasil penelitian tentang MoPE, silakan merujuk pada makalah asli.



Solusi pelatihan dan inferensi

Pakar hibrida semakin maju, begitu pula solusi pelatihan dan inferensi terkait.

Pelatihan awal dan solusi inferensi memerlukan pelatihan model MoE dari awal dan langsung menggunakan konfigurasi model terlatih untuk melakukan inferensi.

Namun kini, banyak paradigma baru yang muncul dalam pelatihan dan inferensi model KLH, termasuk menggabungkan keunggulan model padat dan model jarang untuk saling melengkapi.



Gambar 7 menunjukkan solusi pelatihan dan inferensi terkait KLH. Terlihat bahwa solusi yang muncul dapat dibagi menjadi tiga kategori:

Padat ke jarang: mulai dengan pelatihan model padat dan secara bertahap beralih ke konfigurasi MoE yang jarang;

Jarang menjadi padat: melibatkan penurunan model MoE yang jarang menjadi bentuk padat, yang bermanfaat untuk mengimplementasikan inferensi ke dalam bentuk perangkat keras;

Penggabungan model pakar: Integrasikan beberapa model pakar padat terlatih ke dalam model MoE terpadu.

Teknologi turunan MoE

Campuran Keahlian (MoE) menginspirasi banyak varian teknik yang berbeda. Misalnya, makalah Xue dkk. "Lebih luas daripada lebih dalam" mengusulkan WideNet dengan peningkatan lebar model. Metodenya adalah mengganti jaringan maju (FFN) dengan lapisan MoE sambil mempertahankan kemampuan pelatihan bersama pada lapisan Transformer , kecuali untuk lapisan normalisasi.

Ada juga SYT (Sparse Universal Transformer) yang diusulkan oleh Tan et al., MoT (Hybrid Token) yang diusulkan oleh Antoniak et al., SMoP (Sparse Hybrid Prompter) yang diusulkan oleh Choi et al., dan Lifelong yang diusulkan oleh Chen et al. MoE, MoD (kedalaman pencampuran) yang diusulkan oleh Raposo et al., dll.

Kesimpulannya, perkembangan teknologi yang berasal dari KLH menunjukkan suatu tren: KLH memiliki lebih banyak fungsi dan semakin mudah beradaptasi di berbagai bidang.

Desain Sistem dari Pakar Hibrid

Meskipun Keahlian Campuran (MoE) dapat meningkatkan kemampuan model bahasa besar, hal ini juga menghadirkan tantangan teknis baru karena beban komputasinya yang jarang dan dinamis.

GShard memperkenalkan paralelisme pakar, yang dapat menjadwalkan token lokal tersegmentasi sesuai dengan batasan penyeimbangan beban kemampuan pakar, sehingga mencapai gerbang paralel dan penghitungan pakar. Paradigma ini telah menjadi strategi dasar untuk mendorong perluasan model KLH yang efisien. Kita dapat menganggap pendekatan ini sebagai versi paralelisme data yang disempurnakan - setiap pakar di lapisan MoE ditugaskan ke perangkat yang berbeda, sementara semua lapisan non-ahli diduplikasi di semua perangkat.

Seperti yang ditunjukkan pada Gambar 8a, alur kerja paralelisasi pakar adalah melakukan operasi berikut secara berurutan: perutean gerbang, pengkodean masukan, penjadwalan Semua-ke-Semua, penghitungan pakar, kombinasi Semua-ke-Semua, dan penguraian kode keluaran.



Secara umum, ukuran masukan GEMM harus cukup besar agar perangkat komputasi dapat dimanfaatkan sepenuhnya. Oleh karena itu, pengkodean masukan digunakan untuk menggabungkan token masukan dari pakar yang sama ke dalam ruang memori berkelanjutan, yang ditentukan oleh "pemetaan pakar token" dalam perutean gerbang. Setelah itu, peran penjadwalan All-to-All adalah mendistribusikan token input ke pakar terkait di setiap perangkat. Ini diikuti dengan perhitungan lokalisasi ahli. Setelah perhitungan selesai, diringkas melalui kombinasi All-to-All, lalu didekodekan dan dikeluarkan, dan tata letak data asli dikembalikan sesuai dengan indeks gating.

Selain itu, beberapa peneliti sedang menjajaki sinergi antara paralelisme pakar dan strategi paralel lain yang ada (seperti tensor, pipeline, dan paralelisasi urutan) untuk meningkatkan skalabilitas dan efisiensi model MoE di lingkungan terdistribusi skala besar.

Beberapa contoh paralelisasi hibrid diberikan pada Gambar 8, termasuk (b) paralelisasi data + pakar + tensor, (c) paralelisasi data + pakar + pipeline, (d) paralelisasi pakar + tensor.

Penting untuk disadari bahwa terdapat interaksi kompleks antara efisiensi komputasi, beban komunikasi, dan jejak memori, yang akan dipengaruhi oleh pilihan strategi paralelisasi terdistribusi dan juga akan dipengaruhi oleh konfigurasi perangkat keras yang berbeda. Oleh karena itu, ketika menerapkan strategi untuk penerapan praktis, trade-off yang cermat harus dilakukan dan penyesuaian harus dilakukan terhadap skenario tertentu.

Setelah itu, tim memperkenalkan tantangan desain sistem yang dihadapi dalam pengembangan model MoE dan hasil penelitian untuk memecahkan masalah ini dalam tiga bagian utama: komputasi, komunikasi dan penyimpanan. Untuk lebih jelasnya, lihat makalah asli. Tabel 4 memberikan gambaran umum tentang kerangka kerja MoE yang bersifat open source.



Mencampur Aplikasi Pakar

Di bidang model bahasa besar (LLM) yang saat ini didominasi oleh Transformer, paradigma pakar campuran (MoE) menarik karena dapat meningkatkan kemampuan model secara signifikan tanpa memerlukan persyaratan komputasi yang berlebihan untuk fase pelatihan dan inferensi. Jenis teknologi ini dapat secara signifikan meningkatkan kinerja LLM pada berbagai tugas hilir, dan bahkan menciptakan beberapa aplikasi AI yang melampaui level manusia.

Ada rumor bahwa GPT-4, yang sangat kuat, mungkin juga mengadopsi semacam arsitektur MoE - terdiri dari 8 ahli dengan 220 miliar parameter, dilatih pada beragam kumpulan data dan tugas, dan menggunakan proses penalaran berulang sebanyak 16 kali. Untuk detail lebih lanjut tentang rumor ini, silakan lihat laporan Heart of the Machine "Ultimate" Revelation: Arsitektur model GPT-4, biaya pelatihan, dan informasi kumpulan data telah terungkap."

Jadi, tidak mengherankan jika MoE berkembang pesat dalam pemrosesan bahasa alami, visi komputer, sistem rekomendasi, dan aplikasi multi-modal.

Aplikasi ini pada dasarnya memerlukan penggunaan penghitungan kondisional untuk meningkatkan jumlah parameter model secara signifikan guna meningkatkan performa model dengan biaya komputasi tetap, atau untuk menerapkan pemilihan pakar dinamis melalui mekanisme gerbang untuk mencapai pembelajaran multitugas yang efisien.

Tim juga memperkenalkan aplikasi-aplikasi MoE yang representatif di berbagai bidang, yang dapat membantu pembaca memahami cara menggunakan MoE untuk tugas-tugas tertentu. Lihat kertas asli untuk detailnya.

Tantangan dan Peluang

Pakar hibrida, kuat, mengurangi biaya, meningkatkan kinerja. Meski prospeknya bagus, namun tantangannya masih ada.

Pada bagian ini, tim memilah tantangan-tantangan utama yang terkait dengan MoE dan menunjukkan arah penelitian di masa depan yang menjanjikan hasil-hasil penting. Tantangan-tantangan dan arahan penelitian ini dirangkum secara singkat di bawah ini, dan silakan lihat makalah asli untuk lebih jelasnya.

Stabilitas pelatihan dan penyeimbangan beban

Skalabilitas dan overhead komunikasi

Spesialisasi dan kolaborasi ahli

Aktivasi jarang dan efisiensi komputasi

Generalisasi dan ketahanan

Penjelasan dan transparansi

Arsitektur ahli yang optimal

Integrasikan dengan kerangka kerja yang ada