Kemana perginya BERT yang terkenal itu? Jawaban atas pertanyaan ini menandakan perubahan paradigma di LLM

Kemana perginya BERT yang terkenal itu?Jawaban atas pertanyaan ini menandakan perubahan paradigma di LLM

2024-07-22

Kemana perginya model pembuat enkode? Jika BERT berfungsi dengan baik, mengapa tidak diperluas? Bagaimana dengan model encoder-decoder atau model encoder saja?

Di bidang model bahasa besar (LLM), saat ini hanya model dekoder (seperti rangkaian model GPT) yang mendominasi. Bagaimana dengan pengembangan model encoder-decoder atau model encoder saja? Mengapa BERT, yang dulu begitu terkenal, lambat laun semakin sedikit orang yang memperhatikannya?

Baru-baru ini, Yi Tay, kepala ilmuwan dan salah satu pendiri startup AI Reka, menerbitkan postingan blog untuk membagikan pandangannya. Yi Tay bekerja di Google Research dan Google Brain selama lebih dari tiga tahun sebelum mendirikan Reka, dan berpartisipasi dalam pengembangan LLM terkenal seperti PaLM, UL2, Flan-2, dan Bard, serta model multi-modal seperti PaLI-X dan ViT-22B. Berikut isi postingan blognya.

Pengenalan dasar

Secara umum, arsitektur model LLM dalam beberapa tahun terakhir terutama dibagi menjadi tiga paradigma utama: model khusus encoder (seperti BERT), model encoder-decoder (seperti T5), dan model khusus decoder (seperti seri GPT model). Orang sering bingung dan salah memahami metode dan struktur klasifikasi ini.

Hal pertama yang harus dipahami adalah model encoder-decoder sebenarnya adalah model autoregresif. Dalam model encoder-decoder, decoder pada dasarnya masih merupakan decoder kausal. Alih-alih mengisi model decoder terlebih dahulu, model ini memindahkan beberapa teks ke encoder dan kemudian mengirimkannya ke decoder melalui perhatian silang. Ya, model T5 juga merupakan model bahasa!

Varian dari model jenis ini adalah Prefix Language Model, atau disingkat PrefixLM, yang cara kerjanya hampir sama tetapi tanpa perhatian silang (dan detail kecil lainnya seperti bobot bersama antara encoder/decoder dan No encoder bottleneck). PrefixLM kadang-kadang disebut decoder non-kausal. Sederhananya, secara keseluruhan tidak ada banyak perbedaan antara model encoder-decoder, model khusus decoder, dan PrefixLM!

Dalam ceramah Hyung Won yang luar biasa baru-baru ini, dia dengan ahli menjelaskan hubungan antara model-model ini. Untuk detailnya, lihat laporan Machine Heart: "Apa yang akan menjadi kekuatan pendorong utama penelitian AI?" Ilmuwan peneliti tim ChatGPT: Biaya komputasi menurun》

Pada saat yang sama, metode denoising model khusus encoder seperti BERT berbeda (yaitu di tempat), dan sampai batas tertentu, agar model khusus encoder benar-benar berperan setelah pra-pelatihan, diperlukan mengandalkan tajuk "tugas" klasifikasi. Kemudian, model seperti T5 mengadopsi versi target denoising yang "dimodifikasi", yang menggunakan format urutan ke urutan.

Untuk mencapai tujuan ini, penting untuk diperhatikan: denoising di T5 bukanlah fungsi tujuan baru (dalam pengertian pembelajaran mesin), tetapi transformasi data di seluruh input, yaitu Anda juga dapat menggunakan dekoder kausal yang dilatih di seluruh tujuan yang rusak ( rentang korupsi objektif).

Orang selalu berasumsi bahwa model encoder-decoder pasti merupakan model denoising, sebagian karena T5 sangat representatif. Namun hal ini tidak selalu terjadi. Anda dapat melatih encoder-decoder menggunakan tugas pemodelan bahasa biasa (seperti pemodelan bahasa kausal). Pada gilirannya, dekoder kausal juga dapat dilatih menggunakan tugas korupsi rentang. Seperti yang saya katakan sebelumnya, ini pada dasarnya adalah transformasi data.

Hal lain yang perlu diperhatikan: secara umum, encoder-decoder dengan parameter 2N secara komputasi sama dengan model decoder saja dengan N parameter, sehingga rasio FLOP terhadap jumlah parameternya berbeda. Ini seperti mendistribusikan "ketersebaran model" antara input dan target.

Ini bukanlah hal baru dan saya sendiri tidak memikirkannya. Hal itu ada di makalah T5 tahun 2019, dan makalah UL2 juga kembali menekankan hal ini.

Untuk saat ini, saya senang bisa menjelaskannya. Sekarang untuk tujuan.

Mengenai tujuan yang mencela (apakah berhasil? Apakah tidak berskala? Atau terlalu mudah?)

Target denoising di sini mengacu pada varian apa pun dari tugas "span damage". Hal ini terkadang disebut "mengisi" atau "mengisi bagian yang kosong". Ada banyak cara untuk mengekspresikannya, seperti panjang bentang, keacakan, token sentinel, dll. Anda pasti sudah paham kuncinya.

Meskipun tujuan denoising model gaya BERT pada dasarnya sudah ada (misalnya, kepala klasifikasi ada pada token mask), "gaya T5" lebih modern, yaitu melalui encoder-decoder atau hanya decoder. model. untuk menangani transformasi data. Dalam transformasi data seperti itu, token yang disamarkan hanya "dipindahkan kembali" sehingga model dapat membuat prediksi.

Tujuan utama pra-pelatihan adalah membangun representasi internal yang selaras dengan tugas hilir dengan cara seefisien dan seefektif mungkin. Semakin baik representasi internal ini, semakin mudah menggunakan representasi yang dipelajari ini untuk tugas selanjutnya. Kita semua tahu bahwa prediksi kata berikutnya yang sederhana memiliki kinerja yang sangat baik untuk tujuan "pemodelan bahasa kausal" dan telah menjadi inti dari revolusi LLM. Pertanyaannya sekarang adalah apakah target denoisingnya juga sama bagusnya.

Berdasarkan informasi publik, kami mengetahui bahwa T5-11B berfungsi cukup baik, bahkan setelah penyelarasan dan penyempurnaan yang diawasi (skor MMLU Flan-T5 XXL adalah 55+, yang cukup bagus untuk model sebesar ini pada saat itu) . Oleh karena itu, kita dapat menyimpulkan bahwa proses transfer denoising target (pra-pelatihan → penyelarasan) berjalan relatif baik pada skala ini.

Pendapat saya adalah bahwa target denoising bekerja dengan baik, namun tidak cukup baik untuk dijadikan target saja. Kerugian besar berasal dari apa yang disebut dengan “paparan kerugian” yang lebih sedikit. Dalam target denoising, hanya sejumlah kecil token yang disamarkan dan dipelajari (yaitu, diperhitungkan dalam kerugian). Sebaliknya, dalam pemodelan bahasa biasa, angka ini mendekati 100%. Hal ini membuat sampel per FLOP menjadi sangat tidak efisien, sehingga menempatkan target denoising pada posisi yang sangat tidak menguntungkan jika dibandingkan dengan basis flop.

Kerugian lain dari tujuan denoising adalah bahwa tujuan tersebut kurang natural dibandingkan pemodelan bahasa biasa, karena tujuan tersebut memformat ulang masukan/keluaran dengan cara yang aneh, sehingga kurang cocok untuk pembelajaran beberapa tahap. (Tetapi masih mungkin untuk menyesuaikan model ini agar bekerja dengan cukup baik pada tugas-tugas yang dilakukan beberapa kali.) Oleh karena itu, saya percaya bahwa tujuan denoising sebaiknya hanya digunakan sebagai tujuan pelengkap untuk pemodelan bahasa biasa.

Hari-hari awal persatuan dan alasan mengapa model mirip BERT menghilang

Model seperti BERT berangsur-angsur menghilang, dan tidak banyak orang lagi yang membicarakannya. Hal ini juga dapat menjelaskan mengapa kita tidak dapat melihat model BERT berskala sangat besar saat ini. apa alasannya? Hal ini sebagian besar disebabkan oleh penyatuan dan pergeseran paradigma tugas/pemodelan. Model gaya BERT memang rumit, namun alasan sebenarnya mengapa model BERT tidak digunakan lagi adalah karena orang ingin melakukan semuanya sekaligus, jadi cara yang lebih baik untuk menghilangkan kebisingan diadopsi - menggunakan model autoregresif.

Selama tahun 2018-2021, terjadi perubahan paradigma secara implisit: dari model penyempurnaan tugas tunggal menjadi model multitugas skala besar. Hal ini perlahan membawa kita pada model SFT terpadu, yang merupakan model universal yang kita lihat saat ini. Ini sulit dilakukan dengan BERT. Saya rasa ini tidak ada hubungannya dengan "mencela". Bagi orang yang masih ingin menggunakan model seperti itu (yaitu T5), mereka menemukan cara untuk merumuskan kembali tugas pra-pelatihan denoising, yang membuat model gaya BERT pada dasarnya tidak digunakan lagi saat ini karena kita memiliki rencana alternatif yang lebih baik.

Lebih tepatnya, model encoder-decoder dan decoder-only dapat digunakan untuk berbagai tugas tanpa memerlukan header klasifikasi khusus tugas. Untuk encoder-decoder, peneliti dan insinyur mulai menemukan bahwa efek dari penghentian encoder serupa dengan efek encoder BERT. Selain itu, hal ini mempertahankan keunggulan perhatian dua arah - sebuah keunggulan yang membuat BERT bersaing dengan GPT pada skala kecil (seringkali skala produksi).

Nilai target denoising

Target pra-pelatihan yang mengecam juga belajar memprediksi kata berikutnya dengan cara yang mirip dengan pemodelan bahasa biasa. Namun, tidak seperti pemodelan bahasa kausal konvensional, hal ini memerlukan penggunaan transformasi data secara berurutan sehingga model dapat belajar untuk "mengisi kekosongan" daripada sekadar memprediksi teks alami dari kiri ke kanan.

Perlu dicatat bahwa denoising target terkadang disebut “tugas padding” dan terkadang dicampur dengan tugas pemodelan bahasa biasa dalam proses pra-pelatihan.

Meskipun detail konfigurasi dan implementasi yang tepat mungkin berbeda, LLM modern saat ini mungkin menggunakan beberapa kombinasi pemodelan bahasa dan padding. Menariknya, hibrida "model bahasa + padding" ini sebenarnya tersebar pada periode yang sama (seperti UL2, FIM, GLM, CM3), dan banyak tim membawa solusi hibrida unik mereka sendiri. Kebetulan, model terbesar yang diketahui dilatih dengan cara ini mungkin adalah PaLM-2.

Perlu juga dicatat bahwa campuran tugas pra-pelatihan juga dapat ditumpuk secara berurutan, dan tidak harus dicampur pada waktu yang sama, misalnya, Flan-T5 pada awalnya dilatih pada token yang rusak dengan rentang 1T, dan kemudian dialihkan hingga 100 miliar token untuk target pemodelan bahasa feedforward. Kemudian sempurnakan perintah flan. Sampai batas tertentu, ini cocok untuk model target denoising/LM hybrid. Untuk lebih jelasnya, tujuan pemodelan bahasa awalan (jangan disamakan dengan arsitektur) adalah pemodelan bahasa kausal murni, dengan titik pisah ditentukan secara acak dan dikirim ke masukan (tanpa kehilangan dan penyembunyian non-kausal).

Kebetulan, padding mungkin berasal dari bidang kode LLM, di mana "mengisi bagian yang kosong" lebih merupakan fungsi yang diperlukan untuk menulis kode. Sementara itu, motivasi UL2 lebih untuk menyatukan tujuan denoising dan kategori tugas yang diunggulkan oleh LLM dua arah dengan tugas-tugas yang bersifat generatif seperti peringkasan atau pembuatan open-ended. Keuntungan dari "pergeseran mundur" decoding autoregresif ini adalah bahwa hal ini tidak hanya memungkinkan model mempelajari dependensi jangka panjang, namun juga memungkinkan model secara implisit mendapatkan manfaat dari perhatian dua arah yang tidak eksplisit (karena untuk mengisi bagian yang kosong, Anda telah melihat masa depan).

Ada pengalaman legendaris: representasi yang dipelajari dengan menolak target berkinerja lebih baik pada kategori tugas tertentu dan terkadang memiliki efisiensi sampel yang lebih tinggi. Dalam makalah U-PaLM, kami menunjukkan bagaimana sejumlah kecil pelatihan yang mengalami kerusakan rentang waktu mengubah perilaku dan fenomena yang muncul pada serangkaian tugas BIG-Bench. Atas dasar ini, menyempurnakan model yang dilatih dengan tujuan ini sering kali menghasilkan model yang diawasi dengan lebih baik, terutama ketika skalanya kecil.

Dalam hal penyempurnaan tugas tunggal, terlihat bahwa model PaLM-1 62B dikalahkan oleh model T5 yang jauh lebih kecil. Dalam skala yang relatif kecil, "perhatian dua arah + target yang mencela" adalah kombinasi pukulan yang indah! Saya yakin banyak praktisi juga memperhatikan situasi ini, terutama dalam aplikasi produksi.

Bagaimana dengan perhatian dua arah?

Perhatian dua arah adalah "bias induktif" yang menarik untuk model bahasa - yang sering dikacaukan orang dengan tujuan dan tulang punggung model. Bias induktif digunakan secara berbeda dalam domain komputasi yang berbeda dan mungkin memiliki efek berbeda pada kurva ekspansi. Meskipun demikian, perhatian dua arah mungkin kurang penting pada skala yang lebih besar dibandingkan pada skala yang lebih kecil, atau mungkin memiliki efek yang berbeda pada tugas atau modalitas yang berbeda. Misalnya, PaliGemma menggunakan arsitektur PrefixLM.

Hyung Won juga menunjukkan dalam ceramahnya: Model PrefixLM (model khusus decoder yang menggunakan perhatian dua arah) juga memiliki masalah cache, yang merupakan kelemahan inheren dari jenis arsitektur ini. Namun, menurut saya ada banyak cara untuk mengatasi kelemahan ini, tapi itu di luar cakupan artikel ini.

Kelebihan dan Kekurangan Arsitektur Encoder-Decoder

Arsitektur encoder-decoder memiliki kelebihan dan kekurangan dibandingkan dengan model decoder-only. Kasus pertama adalah sisi encoder tidak dibatasi oleh topeng sebab akibat. Sampai batas tertentu, Anda dapat melepaskan lapisan perhatian dan melakukan pengumpulan atau bentuk perhatian linier apa pun secara agresif tanpa mengkhawatirkan batasan desain autoregresi. Ini adalah cara yang bagus untuk memindahkan "konteks" yang kurang penting ke pembuat enkode. Anda juga dapat memperkecil encoder, yang juga merupakan keuntungan.

Contoh arsitektur encoder-decoder yang diperlukan adalah Charformer, yang berani menggunakan encoder dan mengurangi kelemahan kecepatan model tingkat byte. Berinovasi di sisi pembuat enkode dapat menghasilkan manfaat cepat tanpa perlu mengkhawatirkan kendala signifikan dalam penyembunyian sebab akibat.

Pada saat yang sama, dibandingkan dengan PrefixLM, kelemahan encoder-decoder adalah input dan target harus dialokasikan anggaran yang tetap. Misalnya, jika anggaran masukan adalah 1024 token, maka sisi encoder harus menyesuaikan dengan nilai ini, yang mungkin membuang banyak komputasi. Sebaliknya, di PrefixLM, input dan target dapat dihubungkan secara langsung, sehingga mengurangi masalah ini.

Relevansi dengan model masa kini dan hal-hal penting yang dapat diambil

Di era sekarang ini, kemampuan utama untuk menjadi peneliti dan praktisi LLM yang berkualitas adalah mampu menyimpulkan bias induktif baik dari aspek arsitektur maupun aspek pra-pelatihan. Memahami perbedaan kecil dapat membantu orang melakukan ekstrapolasi dan terus berinovasi.

Inilah kesimpulan utama saya:

Model encoder-decoder dan decoder-only keduanya merupakan model autoregresif, dan keduanya berbeda pada tingkat implementasi serta memiliki kelebihan dan kekurangan masing-masing. Itu adalah bias induktif yang sedikit berbeda. Yang mana yang akan digunakan bergantung pada kasus penggunaan hilir dan batasan aplikasi. Pada saat yang sama, model encoder gaya BERT dapat dianggap usang untuk sebagian besar kasus penggunaan LLM dan kasus penggunaan khusus.

Target denoising terutama dapat digunakan sebagai pelengkap model bahasa kausal. Mereka telah berhasil digunakan sebagai "target pendukung" selama fase pelatihan. Melatih model bahasa kausal dengan menggunakan target yang mencela sering kali membantu sampai batas tertentu. Meskipun hal ini sangat umum dalam dunia model kode (yaitu penjejalan kode), model tujuan umum saat ini juga umum menggunakan model bahasa kausal ditambah beberapa target denoising untuk pra-pelatihan.

Perhatian dua arah dapat sangat membantu model yang lebih kecil, namun tidak dapat diabaikan untuk model yang lebih besar. Ini sebagian besar hanyalah rumor. Saya pikir perhatian dua arah memiliki bias induktif, mirip dengan banyak jenis modifikasi model Transformer lainnya.

Terakhir, ringkasan. Saat ini tidak ada versi model BERT skala besar yang beroperasi: model BERT sudah tidak digunakan lagi dan digantikan oleh model T5 denoising (autoregresif) yang lebih fleksibel. Hal ini terutama disebabkan oleh adanya penyatuan paradigma, yaitu masyarakat lebih memilih menggunakan model yang umum untuk melakukan berbagai tugas (daripada menggunakan model tugas yang spesifik). Pada saat yang sama, penolakan autoregresif terkadang dapat digunakan sebagai tujuan sampingan model bahasa kausal.

Tautan asli: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

berita

Kemana perginya BERT yang terkenal itu?Jawaban atas pertanyaan ini menandakan perubahan paradigma di LLM

Perkenalan

informasi kontak saya