ACL2024: Mesin Yuntian Lifei SPACE diluncurkan, penalaran model besar mungkin memasuki tahap baru

2024-08-14

Dari tanggal 11 hingga 16 Agustus, Pertemuan Tahunan Asosiasi Linguistik Komputasi (ACL) ke-62 diadakan di Bangkok, Thailand.

Makalah "Generasi Memenuhi Verifikasi: Mempercepat Inferensi Model Bahasa Besar dengan Decoding Koreksi Otomatis Paralel Cerdas" oleh tim model besar Yuntian Lifei diterima sebagai makalah panjang Temuan ACL24. Ini adalah tampilan bertahap dari beberapa hasil penelitian model besar Yuntian Lifei.

Konferensi Tahunan ACL adalah konferensi akademik terkemuka nomor satu di dunia dalam bidang linguistik komputasi dan pemrosesan bahasa alami. Konferensi ini diselenggarakan oleh Asosiasi Internasional untuk Linguistik Komputasi dan diadakan setiap tahun. Konferensi ini terdaftar sebagai konferensi Kelas A dalam konferensi yang direkomendasikan daftar Federasi Komputer China (CCF).

Makalah pilihan Yuntian Lifei mengusulkan mesin SPACE - sebuah solusi inovatif untuk mencapai akselerasi lossless pada inferensi model besar. Hasil pengujian terhadap berbagai jenis model besar menunjukkan hal ituSetelah menggunakan mesin SPACE, kecepatan inferensi model pada set pengujian HumanEval meningkat sebesar 270%-400%., kualitas hasil inferensi tetap tidak berubah, dan dapat mencapai "perhitungan cepat" dan "perhitungan akurat".

Makalah pilihan tim model besar Yuntian Lifei

Sulit bagi solusi penalaran arus utama untuk mencapai “kebutuhan dan keinginan”

RUANG adalahSpasarPparalelAuto-Cbenar DBahasa Inggris:Singkatan dari coding berarti "penguraian kode koreksi kesalahan otomatis paralel cerdas".

Skema penalaran ini mempunyai dua karakteristik utama: pertama, mengadopsisemi-autoregresifmodel penalaran, yang sangat mempercepat penalaran; yang kedua adalah menambahkanmemeriksaMetode ini dapat meningkatkan kecepatan penalaran sekaligus memastikan keakuratan penalaran.

Apa yang dimaksud dengan "semi-autoregresif"? Mengapa kita harus menambahkan verifikasi? Sebelum menjelaskan masalah ini, pertama-tama kita perlu memahami cara kerja model besar saat ini.

Buka APP model bahasa besar, kita masukkan "Apa model besar itu?" di kotak dialog, dan model besar akan menampilkan jawabannya kata demi kata: "Model besar adalah model pembelajaran mendalam dengan puluhan juta parameter." Proses jawaban ini dapat dilihat Tampaknya sangat sederhana. Namun kenyataannya, model besar telah mengalami beberapa siklus "autoregresif" di belakang layar.

Pertama, model besar pertama-tama akan memprediksi kata pertama dari keluaran - "besar" berdasarkan konten yang kita masukkan, kemudian membawa kata "besar" kembali ke ujung masukan, dan memprediksi kata berikutnya yang harus dihasilkan berdasarkan pada kata "besar". Tentu saja, "prediksi" ini bukanlah "tebakan buta" begitu saja, tetapi model akan membuat penilaian komprehensif berdasarkan data yang dilihat pada proses pelatihan sebelumnya dan memilih kata dengan probabilitas tertinggi sebagai kata keluaran berikutnya. .

Dalam hal ini, kata keluaran kedua adalah "modul". Setelah mengeluarkan kata kedua, model besar akan membawa kata "modulus besar" kembali ke terminal masukan dan memprediksi kata ketiga yang dihasilkan. Siklus ini berlanjut hingga kalimat lengkap berakhir.

Proses ini adalah "autoregresi".

Saat ini, autoregresi adalah solusi utama yang digunakan untuk inferensi model besar.Baik itu ChatGPT, Llama open source, atau banyak model domestik besar, mereka sebagian besar menggunakan solusi inferensi autoregresif.

Diagram skema skema autoregresif

Keuntungan dan kerugian skema autoregresif juga sangat jelas. Keuntungannya adalah memastikan bahwa konten yang dihasilkan akurat, bermakna, dan koheren secara kontekstual. Kerugiannya adalah biaya komputasi yang tinggi dan penundaan inferensi yang lama.

Untuk mengatasi permasalahan tersebut, solusi yang diusulkan oleh pihak industri adalah"Semi-autoregresif"Dan"Penguraian Spekulasi"。

"Semi-autoregresif" adalah kompromi antara "autoregresif" dan "non-autoregresif". disebutkan di atas,"Autoregresif"Ia menggunakan kata-kata yang dihasilkan untuk memprediksi kata berikutnya;"Non-autoregresif"Ini kebalikan dari "autoregresif", yang memprediksi keseluruhan kalimat sekaligus."Non-autoregresif"Solusinya dapat meningkatkan efisiensi penalaran, namun keakuratan keluarannya sangat berkurang. Solusi "semi-autoregresif" secara komprehensif mempertimbangkan kelebihan dan kekurangan "autoregresif" dan "non-autoregresif" untuk menyeimbangkan persyaratan kecepatan dan akurasi dari penalaran model besar.

Namun, penggunaan solusi "semi-autoregresif" telah menimbulkan masalah baru - pertama, sebagian besar model besar tidak dapat digunakan, dan kedua, keakuratannya tidak dapat memenuhi persyaratan industri.Model besar arus utama dibuat berdasarkan mode inferensi autoregresif. Jika Anda ingin menggunakan solusi semi-autoregresif, Anda perlu melatih ulang model besar dari awal. Melatih model besar membutuhkan banyak listrik, daya komputasi, dan tenaga. Hampir tidak ada yang akan membatalkan model besar yang akhirnya dilatih dan memulai kembali untuk mengubah skema inferensi.

Pilihan lainnya adalah "decoding spekulatif".Rencana ini didasarkan pada"Draf - Validasi"Untuk proses kerjanya, pertama-tama Anda perlu memperkenalkan model tambahan dengan jumlah parameter yang relatif kecil. Model kecil pertama-tama "menyusun" jawaban kandidat, dan kemudian model besar memverifikasi apakah jawaban kandidat benar atau tidak. Berkat fakta bahwa model kecil lebih cepat dalam melakukan penalaran dibandingkan model besar, dan model besar dapat memverifikasi beberapa kandidat jawaban secara bersamaan.

Namun solusi ini juga memiliki kelemahan. Pertama, perlu membuat model kecil yang sangat "dapat diandalkan" terlebih dahulu, dan mampu "menyusun" jawabannya dengan cepat dan akurat, yang mana hal itu sendiri sulit dilakukan. Kedua, kedua model harus memiliki "teks yang sama, jalur yang sama, dan sistem yang sama" antara kedua model. Hanya dengan mencapai tingkat konsistensi yang tinggi dalam hal segmentasi kata dan daftar kata, hasil verifikasi dapat dijamin.

Mesin inferensi SPACE - modifikasi kecil, peningkatan kecepatan besar

Karena beberapa solusi tidak dapat mencapai "kebutuhan dan keinginan", apakah ada solusi yang hanya dapat mempertahankan kelebihannya dan menghindari kekurangannya? Ini adalah mesin inferensi SPACE yang diusulkan oleh tim model besar Yuntian Lifei. SPACE menggabungkan dua solusi "penyempurnaan terawasi semi-autoregresif" dan "dekode koreksi otomatis" untuk memungkinkan model besar menghasilkan banyak hasil dalam satu inferensi, dan menyelesaikan verifikasi hasil secara bersamaan untuk memastikan kualitas hasil yang dihasilkan. pada saat yang sama,Mesin inferensi ini cocok untuk semua model besar. Melalui penyempurnaan dan pengoptimalan model, ketika model besar mana pun mengadopsi mesin inferensi ini, model tersebut tidak hanya perlu melatih model tambahan tambahan, tetapi juga meningkatkan efisiensi inferensi, memanfaatkan sepenuhnya sumber daya komputasi paralel seperti GPU, dan mencapai pemanfaatan daya komputasi yang tinggi.

Perbedaan skema autoregresif (kiri) dan skema SPACE (kanan)

Seperti disebutkan di atas, sebagian besar model bahasa besar memiliki properti "autoregresif" sendiri dan tidak dapat menerapkan solusi "semi-autoregresif" secara langsung. Dalam hal ini, SPACE mengadopsi metode "penyesuaian terawasi semi-autoregresif". Melalui pelatihan terawasi, model belajar mengusulkan serangkaian kemungkinan kata kandidat ketika menemukan tanda [MASK] khusus (seperti yang ditunjukkan pada gambar di atas) . Hal ini memungkinkan model untuk melakukan operasi yang mirip dengan "menebak" selama penalaran dan menghasilkan beberapa kandidat kata yang paling mungkin benar, sehingga memiliki kemampuan penalaran semi-autoregresif.

Sederhananya, dengan dukungan skema "penyesuaian terawasi semi-autoregresif", model besar dapat membuat "tebakan" sendiri selama penalaran dan menghasilkan beberapa kata yang mungkin benar sebagai jawaban kandidat.

Namun, seperti halnya ujian, sejumlah besar konten dapat dicantumkan di draf, tetapi jawaban yang benar harus diisi di kertas ujian. Bagaimana cara memastikan kebenarannya? Ini memerlukan verifikasi hasil, dan inilah yang dilakukan "decoding koreksi otomatis".

Secara khusus, selama penalaran, kami juga memasukkan kata-kata kandidat yang dihasilkan oleh model besar pada langkah penalaran sebelumnya ke dalam model, sehingga model dapat memeriksa sendiri dan menentukan apakah jawaban kandidat ini benar.

Cara penilaiannya juga sangat sederhana, jika kata yang dihasilkan model cocok dengan jawaban kandidat sebelumnya, maka kata kandidat tersebut dianggap benar. Untuk meninjaunya, dalam penalaran autoregresif tradisional, jika suatu kata benar, maka kata tersebut perlu dimasukkan kembali ke dalam model bahasa untuk menyimpulkan kata berikutnya.

Namun hal ini tidak diperlukan di SPACE. Karena kita telah memasukkan kata kandidat ke dalam model terlebih dahulu, dan kata kandidat tersebut telah diverifikasi kebenarannya, kita dapat langsung memperoleh jawaban baru dari kata kandidat yang benar saat ini, sehingga tidak perlu memasukkan kembali jawabannya. ke dalam model dan kemudian melanjutkan. Oleh karena itu, keuntungan dari mekanisme ini adalah ketika kata kandidat diverifikasi kebenarannya, tidak perlu memberikan umpan balik ke model untuk menghasilkan jawaban berikutnya, sehingga mengurangi waktu penalaran.

Sebagai analogi, penalaran autoregresif tradisional dapat dibandingkan dengan lari estafet 4x100 meter: dalam kompetisi reguler, empat atlet harus mengambil alih tongkat estafet satu per satu untuk menyelesaikan keseluruhan perlombaan dan membutuhkan penalaran kata demi kata. Rencananya SPACE, keempat atlet tersebut mulai berlari secara bersamaan. Ketika atlet pertama melakukan sprint 100 meter dan mencapai titik akhir, maka atlet lainnya juga mencapai titik akhir tahapan 100 meter masing-masing. Namun atlet pertama perlu diverifikasi setelah mencapai garis finis, jika lolos maka skor atlet kedua dapat dipastikan, kemudian atlet kedua dapat diverifikasi, dan seterusnya.

Jika seorang atlet gagal lolos verifikasi, ia harus kembali ke garis start 100 meter dan memulai lagi untuk menyelesaikan perlombaan. Dalam kasus terbaik, jika masing-masing dari empat atlet dapat lolos verifikasi, maka kelompok ini hanya perlu menghabiskan 1/4 waktunya dalam permainan reguler untuk menyelesaikan permainan, sehingga mencapai efek percepatan, dalam kasus terburuk, Jika setiap atlet tidak lolos verifikasi, maka waktu yang dibutuhkan sama dengan pada pertandingan reguler. Lolos verifikasi terutama bergantung pada keakuratan jawaban kandidat.

Pada saat yang sama, selama proses inferensi model SPACE, kami juga memasukkan pengidentifikasi [MASK] khusus ke dalam masukan untuk memandu model besar guna menghasilkan versi terbaru dari kandidat jawaban. Melalui mekanisme ini, setiap putaran model penalaran tidak hanya memverifikasi keakuratan kata-kata kandidat yang dihasilkan pada putaran sebelumnya, namun juga menyediakan kata-kata kandidat baru untuk alasan berikutnya.

Desain ini dimaksudkan untukMeningkatkan keakuratan kata-kata kandidat, karena setiap kali muncul jawaban baru, kandidat kata asli akan menjadi lebih akurat melalui pembaruan. Proses ini seperti prakiraan cuaca: kami membuat prediksi tentang kondisi cuaca untuk minggu mendatang setiap hari, dan seiring berjalannya waktu, keakuratan prediksi cuaca untuk hari tertentu di masa depan secara bertahap meningkat. Hal ini karena kami mengumpulkan lebih banyak data sensor dari waktu ke waktu, sehingga memungkinkan kami memberikan prediksi cuaca yang lebih akurat.

Metode verifikasi dan koreksi tradisional adalah "penguraian kode spekulatif" yang disebutkan di atas, yang berarti Anda harus terlebih dahulu melatih model kecil yang andal dan kemudian menggunakan model besar untuk memverifikasinya. Kualitas pembuatan model kecil sangat mempengaruhi hasil akhir.

Namun, SPACE mengusulkan solusi baru yang dapat mencapai tujuan pembangkitan dan verifikasi tanpa menggunakan model kecil, dan pekerjaan verifikasi serta pekerjaan pembangkitan dapat dilakukan secara bersamaan. Dengan cara ini, efisiensi dan keakuratan penalaran dapat ditingkatkan secara signifikan.

Mari kita kembali ke contoh awal. Saat kita memasukkan "Apa itu model besar?", dalam mode inferensi SPACE, model besar pertama-tama akan menghasilkan kata-kata "Model besar memiliki puluhan juta parameter" secara bersamaan, dan secara otomatis. memperbaikinya secara bersamaan. Algoritma decoding akan segera memverifikasi kata-kata yang dihasilkan satu per satu, dan hanya menyimpan kata-kata dengan hasil verifikasi yang benar sebagai jawaban akhir, sehingga mencapai efek menghasilkan banyak kata dalam proses penalaran ke depan dari sebuah kata. model besar, mencapai tujuan akselerasi.

Terakhir, mari kita lihat efek SPACE.

Kami melakukan eksperimen pada sejumlah model bahasa besar sumber terbuka, yang mencakup model bahasa besar arus utama dengan ukuran parameter berbeda dari 6 miliar hingga 70 miliar.Seperti dapat dilihat dari tabel di bawah, SPACE memiliki efek akselerasi yang lebih jelas pada model dengan parameter lebih besar.。

Selain itu, SPACE juga dapat digunakan bersama dengan teknologi akselerasi inferensi lainnya, seperti batching lanjutan, perhatian flash, cache KV, kuantisasi, dll., untuk menghadirkan kecepatan inferensi yang lebih cepat.

Untuk memverifikasi sudut pandang ini, kami menerapkan SPACE pada kerangka inferensi arus utama TGI. Eksperimen telah membuktikan bahwa bila dikombinasikan dengan teknologi akselerasi inferensi lainnya, efek akselerasi yang dibawa oleh SPACE juga luar biasa.

Model-model besar telah memasuki ribuan industri, dan “penalaran” sangatlah penting

Pelatihan dan inferensi adalah dua tahapan inti dari siklus hidup model besar. Pelatihan memecahkan masalah "membuat model besar dari awal", sementara inferensi memecahkan masalah bagaimana menerapkan model besar ke ribuan industri.

Jika tahun lalu didefinisikan sebagai tahun pertama ledakan model besar, maka tahun ini adalah tahun pertama penerapan aplikasi model besar. Oleh karena itu, kemampuan penalaran model besar semakin mendapat perhatian.

Yuntian Lifei telah melakukan banyak upaya untuk mempercepat penerapan model besar. Dalam hal daya komputasi, tahun lalu perusahaan meluncurkan DeepEdge10, chip inferensi edge model besar, dan baru-baru ini meluncurkan kartu akselerator IPU-X6000, yang dapat diterapkan pada akselerasi inferensi berbagai model besar seperti bahasa, vision, dan multi- pengandaian.

Dalam hal algoritma, Yuntian Lifei mengusulkan mesin inferensi SPACE, yang sangat meningkatkan kecepatan inferensi model besar. Dalam hal penerapan, model skala besar yang dikembangkan sendiri oleh Yuntian Lifei, Yuntian Tianshu, telah diterapkan di banyak industri seperti urusan pemerintahan cerdas, tata kelola kota, keamanan cerdas, transportasi cerdas, bisnis cerdas, pendidikan cerdas, dll., mengeksplorasi dan menciptakan industri tolok ukur.

Di masa depan, Yuntian Lifei akan terus bekerja keras dan memberikan kontribusi yang lebih besar pada penelitian dan pengembangan, penerapan dan promosi teknologi besar terkait model.

Laporan/Umpan Balik

berita

ACL2024: Mesin Yuntian Lifei SPACE diluncurkan, penalaran model besar mungkin memasuki tahap baru

Perkenalan

Informasi kontak saya