Seri blog pertama mantan ilmuwan Google Yi Tay tentang "The Story of LLM": Mengapa BERT menghilang?

2024-07-21

Laporan Kebijaksanaan Baru

Editor: Yongyong Qiao Yang

[Pengantar Kebijaksanaan Baru]Mantan ilmuwan Google Yi Tay meluncurkan seri blog "Arsitektur Model di Era LLM". Entri blog pertama adalah tentang: Bagaimana BERT berdasarkan arsitektur khusus encoder digantikan oleh T5 berdasarkan arsitektur encoder-decoder, dan menganalisisnya. kepunahan BERT Keseluruhan cerita serta kelebihan dan kekurangan model arsitektur yang berbeda. Mengambil sejarah sebagai pelajaran sangat penting untuk inovasi masa depan.

Yi Tay, mantan ilmuwan Google yang gemar ngeblog, akhir-akhir ini terlalu bosan untuk terbang, jadi dia menulis artikel mendalam yang membahas topik yang saat ini menjadi perhatian banyak orang - pasang surut arsitektur model di era LLM .

Kali ini Yi Tay mencoba mengungkap semua yang terjadi di era baru LLM, tentang "Apa yang terjadi dengan BERT dan T5"? Juga tentang naik turunnya encoder Transformer, PrefixLM dan target denoising.

Alamat blog: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Mengapa model khusus encoder “tidak lagi populer”? Mengapa BERT begitu kuat tetapi tidak dapat “menskalakannya”?

Sulit untuk melihat gambaran keseluruhan saat Anda berada di dalamnya. Mengenai permasalahan yang membuat orang-orang di industri ini menggaruk-garuk kepala, Yi Tay membagikan pengamatan dan pemikirannya.

Dan Yi Tay juga mengatakan bahwa ini hanyalah yang pertama dari serangkaian postingan blog, dan Anda dapat menantikan lebih banyak konten darinya tentang topik "Model Arsitektur di Era LLM".

Memutuskan untuk memulai serangkaian blog baru yang berisi pembaruan tentang arsitektur model di era LLM. Di bawah ini adalah Bagian 1, yang mencakup arsitektur Transformer Encoder/Encoder-Decoder, PrefixLM, dan target denoising yang lebih luas. Sebuah pertanyaan yang akan ditanyakan banyak orang adalah, "Orang-orang yang terlibat dalam penelitian bahasa dan NLP sekitar 5 tahun yang lalu sedang menggaruk-garuk kepala, bertanya-tanya ke mana perginya model encoder. Jika BERT sangat efektif, mengapa tidak memperluas skalanya?" Selain itu, apa yang terjadi dengan model encoder-decoder atau encoder murni? Apakah target denoisingnya bagus? Saya membagikan pemikiran saya di posting blog ini.

Yi Tay adalah seorang "pendongeng" di era LLM. Dalam blognya, ia secara ringkas merangkum perkembangan arsitektur model dalam beberapa tahun terakhir dan mengemukakan wawasannya sendiri.

latar belakang

Untuk memudahkan orang yang tidak begitu dekat dengan teknologi untuk membaca, Yi Tay terlebih dahulu menjelaskan latar belakang ceritanya.

Dalam beberapa tahun terakhir, ada tiga paradigma penting dalam arsitektur model.

model khusus encoder (seperti BERT), model encoder-decoder (seperti T5), dan model khusus decoder (seperti seri GPT).

Tetapi orang-orang sangat bingung dengan pembagian ini, dan banyak terjadi kesalahpahaman, jadi inilah tujuan Yi Tay menulis postingan blog ini, ia berharap dapat membantu semua orang membangun pemahaman yang lebih jelas.

Hal pertama yang perlu diperjelas adalah model encoder-decoder sebenarnya masih merupakan model autoregresif. Decoder pada model encoder-decoder masih merupakan decoder kausal, baik secara harafiah maupun hakikatnya.

Teks pertama-tama diteruskan ke encoder dan kemudian dikirim ke decoder melalui mekanisme perhatian silang alih-alih mengisi model decoder terlebih dahulu.

Oleh karena itu, model T5 juga merupakan model bahasa!

Variannya adalah Prefix Language Model, atau arsitektur PrefixLM, yang melakukan hal yang hampir sama, kecuali mekanisme perhatian silang. (Dan beberapa detail kecil lainnya, seperti pembagian bobot antara encoder/decoder, dan tidak ada hambatan encoder)

PrefixLM kadang-kadang disebut decoder non-kausal. Singkatnya, encoder-decoder, encoder-only, dan PrefixLM tidak jauh berbeda!

Jika Anda masih ragu tentang hal ini, Yi Tay juga memberikan referensi-pidato indah Hyung Won di Stanford pada bulan April tahun ini, di mana dia dengan cerdik menjelaskan hubungan antara model-model tersebut.

Alamat kuliah: https://www.youtube.com/watch?v=orDKvo8h71o

Pada saat yang sama, metode denoising model khusus encoder seperti BERT berbeda (yaitu, di tempat) dan sampai batas tertentu bergantung pada "kepala tugas" tambahan yang ditambahkan untuk bekerja dengan berbagai model dasar yang telah dilatih sebelumnya operasi.

Target denoising BERT kemudian diterapkan pada model seperti T5, tetapi dengan modifikasi tertentu dan format urutan ke urutan.

Karena itu, perlu dicatat bahwa denoising di T5 itu sendiri bukanlah fungsi tujuan yang baru (dalam pengertian pembelajaran mesin), melainkan transformasi data di seluruh input, yaitu, Anda juga dapat melakukan target korupsi rentang dekoder sebab dan akibat. untuk melatih!

Orang selalu berpikir bahwa model encoder-decoder haruslah model denoising, dan salah satu alasan ilusi ini adalah karena model T5 terlalu representatif.

Namun, hal ini tidak selalu terjadi.

Anda dapat menggunakan tugas pemodelan bahasa biasa (yaitu CLM) untuk melatih dekoder-encoder, atau Anda dapat menggunakan tugas korupsi rentang untuk melatih dekoder kausal.

Seperti yang dinyatakan sebelumnya, ini pada dasarnya adalah transformasi data.

Perlu juga dicatat bahwa, secara umum, encoder-decoder parameter 2N memiliki biaya komputasi yang sama dengan model hanya decoder parameter N, sehingga rasio FLOP/parameternya berbeda.

Berdasarkan pemahaman kita tentang latar belakang di atas, sekarang kita akan masuk ke teks——

Mengenai tujuan yang mencela (apakah tidak ada gunanya? Apakah tidak berskala? Apakah terlalu sederhana?)

Untuk lebih jelasnya, tujuan penolakan yang disebutkan oleh Yi Tay mengacu pada varian korupsi rentang apa pun.

Kadang-kadang disebut juga mengisi, atau mengisi bagian yang kosong. Ada banyak cara untuk menyatakannya (begitu juga dengan panjang bentang, keacakan, token sentinel, dll.).

Meskipun tujuan denoising dalam model gaya BERT sebagian besar sudah ada, pendekatan yang sedikit lebih modern adalah "gaya T5", yaitu transformasi data yang ditangani oleh model encoder/-ecoder atau decoder saja.

Dalam transformasi data ini, token topeng hanya "dipindahkan ke belakang" agar model dapat membuat prediksi.

Tujuan utama pra-pelatihan adalah untuk membangun representasi internal yang berguna dan selaras dengan tugas-tugas hilir dengan cara yang paling efisien dan efektif.

Semakin baik representasi internalnya, semakin mudah menggunakan representasi yang dipelajari ini untuk sesuatu yang berguna nantinya.

Seperti yang kita semua tahu, tujuan sederhana "pemodelan bahasa kausal" (CLM) untuk memprediksi token berikutnya berhasil dengan baik dan telah menjadi dasar revolusi LLM. Pertanyaannya sekarang adalah apakah target denoisingnya juga sama bagusnya.

Dari informasi publik, kita mengetahui bahwa T5-11B bekerja dengan sangat baik bahkan setelah penyelarasan/SFT (Flan-T5 XXL memiliki skor MMLU 55+, yang cukup bagus untuk model sebesar ini pada saat itu).

Oleh karena itu, kami dapat menarik beberapa kesimpulan: Pengalihan kemampuan denoising target dari pra-pelatihan ke penyelarasan dapat mendukung model untuk bekerja lebih baik pada skala 11B.

Pandangan Yi Tay adalah bahwa mengecam target adalah hal yang bagus, namun tidak cukup sebagai target yang berdiri sendiri.

Kita dapat menggambarkan kerugiannya sebagai "paparan kerugian" yang lebih sedikit. Dalam target denoising, hanya sejumlah kecil token yang disamarkan dan digunakan dalam proses pembelajaran (yaitu memperbarui nilai kerugian).

Sebaliknya, dalam pemodelan bahasa konvensional, pemanfaatan token mendekati 100%.

Karakteristik target denoising ini membuat efisiensi pengambilan sampel per FLOP agak rendah dan oleh karena itu menempatkannya pada posisi yang sangat tidak menguntungkan dalam perbandingan berbasis FLOP.

Kelemahan lainnya adalah denoising target kurang alami dibandingkan pemodelan bahasa biasa, karena memformat ulang input/output dengan cara yang aneh, sehingga membuatnya agak canggung untuk pembelajaran beberapa kali. (Meskipun demikian, model ini masih dapat disetel agar berkinerja cukup baik pada tugas-tugas yang dilakukan beberapa kali)

Oleh karena itu, Yi Tay percaya bahwa target denoising hampir hanya dapat digunakan sebagai pelengkap pemodelan bahasa konvensional dibandingkan sebagai target pelatihan independen.

Hari-hari awal persatuan dan mengapa xBERT punah

Penghapusan model mirip BERT secara bertahap adalah fase yang menarik, tetapi tidak banyak orang yang membicarakannya akhir-akhir ini, hal ini tidak kentara.

Ini mungkin juga menjelaskan mengapa kita tidak lagi melihat model BERT yang sangat besar berjalan. apa alasannya?

Hal ini terutama merupakan masalah penyatuan dan transformasi paradigma tugas/pemodelan.

Model gaya BERT memang kikuk, tetapi tidak digunakan lagi karena orang ingin menggunakan satu model untuk semua tugas, jadi cara yang lebih baik untuk menghilangkan kebisingan diperkenalkan - menggunakan model autoregresif.

Antara tahun 2018 dan 2021, telah terjadi perubahan paradigma tersembunyi dari model penyempurnaan tugas tunggal menjadi model multitugas skala besar.

Perhatian semua orang perlahan-lahan tertuju pada model SFT terpadu, yang juga merupakan model umum terpadu yang kita lihat saat ini.

Terlalu sulit melakukan ini dengan BERT.

Namun, "kecanggungan" BERT ini tidak ada hubungannya dengan tugas "mencela". Jika Anda masih ingin menggunakan model jenis ini, Anda dapat mengekspresikan tugas "pengurangan kebisingan" dengan cara lain (seperti T5).

Oleh karena itu, model gaya BERT hampir tidak digunakan lagi saat ini karena muncul alternatif yang lebih baik.

Lebih khusus lagi, model encoder-decoder dan decoder-only mampu mengekspresikan banyak tugas secara bersamaan tanpa memerlukan header klasifikasi khusus tugas.

Pada saat yang sama, para peneliti dan insinyur telah menemukan bahwa untuk model encoder-decoder, jika encoder dihilangkan begitu saja dan hanya decoder yang tersisa, kinerjanya akan sama kompetitifnya dengan encoder BERT.

Tidak hanya itu, hanya menyisakan decoder juga mempertahankan keunggulan perhatian dua arah yang menjadikan BERT lebih unggul daripada model GPT dalam tugas skala kecil (biasanya skala produksi).

Nilai target denoising

Mirip dengan cara kerja pemodelan bahasa biasa, tujuan pra-pelatihan denoising juga belajar memprediksi kata berikutnya.

Namun, tidak seperti CLM konvensional, CLM melakukan transformasi data secara berurutan untuk belajar "mengisi bagian yang kosong" daripada sekadar memprediksi teks yang secara alami muncul dari kiri ke kanan.

Perlu dicatat bahwa tujuan denoising kadang-kadang disebut “tugas pengisian” dan kadang-kadang dicampur dengan tugas pemodelan bahasa biasa untuk pra-pelatihan.

Meskipun konfigurasi spesifik dan detail implementasi mungkin berbeda, LLM saat ini kemungkinan besar menggunakan beberapa kombinasi pemodelan bahasa dan padding.

Dan, yang menarik, gabungan antara pemodelan bahasa dan padding tampaknya telah menyebar pada waktu yang hampir bersamaan (misalnya UL2, FIM, GLM, CM3), dengan banyak tim yang membawa "rasa" mereka sendiri ke dalam hibrida tersebut dengan cara tertentu.

Kebetulan, model terbesar yang diungkapkan dan dilaporkan secara publik yang dilatih dengan cara ini adalah PaLM-2.

Perlu dicatat bahwa pelatihan campuran tidak harus dicampur secara bersamaan, tetapi dapat ditumpuk secara berurutan.

Misalnya, Flan-T5 awalnya dilatih pada token korupsi 1Tspan dan kemudian beralih ke tugas pemodelan bahasa awalan token 100B sebelum penyesuaian instruksi.

Di satu sisi, ini bisa dikatakan sebagai model hibrida target pemodelan denoising/bahasa.

Yi Tay juga berbagi pengalaman tidak resmi: representasi yang dipelajari dengan menolak target berkinerja lebih baik dalam kategori tugas tertentu dan terkadang diambil sampelnya dengan cara yang lebih efisien.

Model yang disempurnakan yang dilatih dengan tujuan ini umumnya menghasilkan model SFT yang lebih baik, terutama pada skala yang lebih kecil.

Berbicara tentang penyempurnaan tugas tunggal, kita dapat melihat bahwa model PaLM-1 62B dikalahkan oleh T5 yang lebih kecil.

Perhatian dua arah + target yang mencela dapat memainkan peran besar dalam rentang yang relatif kecil! Saya yakin banyak praktisi telah melihat situasi ini sekarang, terutama dalam produksi.

Keuntungan dan kerugian arsitektur encoder/decoder

Arsitektur encoder-decoder sebenarnya memiliki beberapa keunggulan dibandingkan model decoder-saja biasa.

Sisi encoder tidak dibatasi oleh topeng sebab akibat, sampai-sampai Anda dapat menumpuk lapisan perhatian secara gila-gilaan dengan penggabungan agresif atau bentuk perhatian linier apa pun tanpa mengkhawatirkan keterbatasan desain autoregresif.

Ini adalah cara yang baik untuk meneruskan "konteks" yang kurang penting ke pembuat enkode. Anda juga dapat memperkecil encodernya, dan itu juga bagus.

Contoh di Charformer menggambarkan perlunya arsitektur encoder-decoder. Kita dapat membuat keributan besar tentang encoder untuk mengurangi cacat kecepatan saat pengkodean pada tingkat byte.

Namun pada saat yang sama, salah satu kelemahan encoder-decoder dibandingkan dengan PrefixLM adalah input dan target harus memiliki panjang alokasi yang tetap.

Misalnya, jika panjang input yang ditentukan adalah 1024 token, sisi encoder harus diisi ke nilai ini, yang dapat menyebabkan banyak pemborosan komputasi.

Sebaliknya, di PrefixLM, input dan target dapat dihubungkan secara langsung, sehingga mengatasi masalah ini.

Relevansi dengan model masa kini dan hal-hal penting yang dapat diambil

Baik dari perspektif arsitektur model atau perspektif pra-pelatihan, untuk menjadi peneliti dan praktisi LLM yang kompeten, kemampuan menggunakan bias induktif untuk penalaran sangatlah penting. Dan memahami nuansa mendasar antara arsitektur model yang berbeda dapat membantu inovasi di masa depan.

Yi Tay membagikan kesimpulan utamanya:

Baik model encoder-decoder maupun decoder-only merupakan model autoregresif, namun terdapat perbedaan pada tingkat implementasinya, masing-masing memiliki kelebihan dan kekurangan. Bias induktifnya sedikit berbeda, dan penggunaan terbaik sangat bergantung pada kasus penggunaan hilir dan batasan aplikasi yang besar. Untuk sebagian besar aplikasi LLM dan kasus penggunaan khusus, model khusus encoder gaya BERT sebagian besar dianggap usang.
Target denoising pada dasarnya merupakan pelengkap dari CLM. Sebagai "target tambahan" dalam pra-pelatihan, biasanya hal ini memberikan bantuan. Meskipun hal ini sering terjadi pada model kode (yaitu penjejalan kode), dalam model tujuan umum saat ini, tidak jarang menggunakan CLM dengan beberapa tujuan penolakan untuk pra-pelatihan (walaupun ini bukan keharusan).
Mekanisme perhatian dua arah sangat membantu pada skala yang lebih kecil, namun sering kali hanya merupakan pilihan pada model skala yang lebih besar. Yi Tay percaya bahwa perhatian dua arah memiliki bias induktif, seperti banyak jenis modifikasi lain dalam arsitektur Transformer.

Terakhir, sebagai rangkuman, kami belum melihat adanya penskalaan xBERT yang berhasil: model BERT sudah tidak digunakan lagi dan digantikan dengan model T5 yang lebih fleksibel (autoregresif).

Hal ini terutama disebabkan oleh penyatuan paradigma, dan semua orang ingin menggunakan model umum daripada model tugas khusus.

Pada saat yang sama, penolakan autoregresif terkadang dimasukkan ke dalam CLM sebagai tujuan pelatihan insidental.

tentang Penulis

Yi Tay saat ini adalah salah satu pendiri dan kepala ilmuwan dari startup AI Reka. Reka berdedikasi untuk membangun model generatif tercanggih dan memajukan penelitian kecerdasan buatan.

Sebelumnya, dia adalah ilmuwan peneliti senior di Google Brain, yang terlibat dalam pekerjaan terkait LLM dan AI, dan juga menjabat sebagai direktur teknis tim peneliti AS di Google Research, yang mengerjakan ekstensi dan arsitektur Transformer.

Selama di Google, Yi Tay berkontribusi pada sekitar 20 rilis produk.

Selama masa jabatan Yi Tay sebagai ilmuwan riset di Google, sebagian besar karyanya yang diterbitkan berkisar pada Transformer, terutama terkait dengan efisiensi, skalabilitas, dan penelitian arsitektur.

Selain ngeblog, Yi Tay juga menyukai musik klasik. Ia berkata, "Jika saya tidak menjadi peneliti, saya mungkin ingin menjadi musisi profesional." Menariknya, dia memang menerima ijazah dalam hal itu.

Saya menantikan Yi Tay melakukan penerbangan jarak jauh lagi sehingga saya dapat melihatnya memperbarui blognya lagi.

Referensi:

https://x.com/YiTayML/status/1813262126162845772

berita

Seri blog pertama mantan ilmuwan Google Yi Tay tentang "The Story of LLM": Mengapa BERT menghilang?

Perkenalan

informasi kontak saya