berita

Para ilmuwan mengungkap sifat linier jaringan saraf dalam, membantu menciptakan algoritma fusi model yang lebih baik

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Meskipun pembelajaran mendalam telah mencapai kesuksesan besar dalam beberapa tahun terakhir, pemahaman masyarakat terhadap teorinya masih tertinggal.

Oleh karena itu, topik penelitian yang mencoba menjelaskan fungsi kerugian dan proses optimasi deep learning dari sudut pandang teoritis mendapat perhatian lebih.

Meskipun fungsi kerugian yang digunakan dalam pembelajaran mendalam sering dianggap sebagai fungsi kotak hitam kompleks berdimensi tinggi, diyakini bahwa fungsi ini, terutama yang ditemui dalam lintasan pelatihan sebenarnya, mengandung struktur jinak kompleks yang dapat secara efektif mendorong proses pengoptimalan berbasis gradien.

Seperti dalam banyak disiplin ilmu lainnya, langkah kunci dalam membangun teori pembelajaran mendalam terletak pada pemahaman fenomena non-sepele yang ditemukan dari eksperimen untuk menjelaskan mekanisme yang mendasarinya.

Baru-baru ini, para sarjana di bidang ini telah menemukan fenomena Konektivitas Mode yang mencolok.

Artinya, titik optimal berbeda yang diperoleh melalui dua optimasi gradien independen dapat dihubungkan dengan jalur sederhana dalam ruang parameter, sedangkan kerugian atau akurasi di sepanjang jalur hampir konstan.

Fenomena ini tentu mengejutkan karena titik optimal yang berbeda dari fungsi non-cembung kemungkinan besar terletak di "lembah" yang berbeda dan terisolasi.

Namun hal ini tidak terjadi pada titik optimal yang ditemukan dalam praktik.

Yang lebih menarik adalah beberapa peneliti telah menemukan Konektivitas Mode Linier yang lebih kuat daripada Konektivitas Mode.

Penelitian tentang Konektivitas Mode Linier menunjukkan bahwa titik optimal yang berbeda dapat dihubungkan melalui jalur linier.

Meskipun dua jaringan yang sepenuhnya independen biasanya tidak memenuhi Konektivitas Mode Linier, ada dua cara untuk mendapatkan jaringan yang memenuhinya:

Jaringan yang pertama adalah Spawning Method.

Ketika jaringan dimulai dari inisialisasi dan dilatih untuk sejumlah kecil periode, parameter disalin untuk mendapatkan dua jaringan. Kedua jaringan tersebut kemudian terus dilatih secara independen di bawah stokastik yang berbeda.

Jaringan kedua adalah Metode Permutasi.

Artinya, kedua jaringan pertama-tama dilatih secara independen, dan kemudian neuron dari satu jaringan disusun ulang agar sesuai dengan neuron dari jaringan lainnya.

Zhou Zhanpeng dari Universitas Shanghai Jiao Tong dan kolaborator dari Laboratorium Kecerdasan Buatan Shanghai berharap dapat menjelaskan Konektivitas Mode Linier dari perspektif pembelajaran fitur.

Dan mengajukan pertanyaan: Apa yang terjadi pada fitur internal ketika menginterpolasi bobot dua jaringan terlatih secara linier?


Gambar |. Zhou Zhanpeng (Sumber: Zhou Zhanpeng)

Melalui penelitian, mereka menemukan bahwa fitur di hampir semua lapisan juga memenuhi bentuk koneksi linier yang kuat: yaitu, peta fitur dalam jaringan interpolasi bobot kira-kira sama dengan interpolasi linier dari peta fitur di dua jaringan asli.

Mereka menyebut fenomena ini Konektivitas Fitur Linier Berlapis.

Selain itu, mereka menemukan bahwa Konektivitas Fitur Linier Berlapis selalu terjadi bersamaan dengan Konektivitas Mode Linier.

Dan buktikan aturan ini: jika dua model yang dilatih pada kumpulan data yang sama memenuhi Konektivitas Fitur Linier Berlapis, maka keduanya juga dapat memenuhi Konektivitas Mode Linier pada saat yang bersamaan.

Selanjutnya, tim peneliti melakukan studi mendalam tentang alasan Konektivitas Fitur Linier Berlapis.

Dan dua kondisi utama diidentifikasi: lemahnya aditif dari fungsi ReLU dan properti komutatif antara dua jaringan yang dilatih.

Berangkat dari kedua kondisi tersebut, mereka membuktikan memperoleh Konektivitas Fitur Linier Berlapis pada jaringan ReLU, dan memverifikasi kedua kondisi tersebut secara eksperimental.

Pada saat yang sama, mereka juga membuktikan bahwa Metode Permutasi memungkinkan dua jaringan memenuhi Konektivitas Mode Linier dengan menjadikannya dapat dipertukarkan.

Secara umum, tim peneliti menemukan properti linier yang lebih terperinci dibandingkan Konektivitas Mode Linier dan dapat memuaskan jaringan saraf dengan lebih baik.

Namun, semua temuan di atas didasarkan pada jaringan yang dilatih pada kumpulan data yang sama.

Jadi, mereka mengajukan pertanyaan baru: Bisakah Konektivitas Fitur Linear Berlapis dibuat pada dua model yang dilatih pada kumpulan data berbeda?

Tim melihat bahwa Metode Spawning sangat dekat dengan paradigma pelatihan pra-pelatihan-penyempurnaan. Artinya, baik Spawning Method maupun fine-tuning dimulai dari model yang telah dilatih dalam jangka waktu tertentu untuk melakukan pelatihan selanjutnya.

Namun, model dalam Metode Spawning tetap dilatih pada kumpulan data yang sama, sedangkan model dalam fine-tuning dapat dilatih pada kumpulan data yang berbeda.

Dalam sebuah karya baru-baru ini, mereka menemukan bahwa di bawah paradigma penyempurnaan pra-pelatihan, model penyempurnaan yang berbeda juga memenuhi properti Konektivitas Fitur Linear Berlapis, yang oleh tim peneliti disebut Linearitas Lintas Tugas.

Ditemukan bahwa dalam paradigma pra-pelatihan-penyesuaian, jaringan sebenarnya lebih mendekati pemetaan linier dari ruang parameter ke ruang fitur.

Artinya, Linearitas Lintas Tugas memperluas definisi Konektivitas Fitur Linier Berlapis ke model yang dilatih pada kumpulan data berbeda.

Menariknya, tim juga menggunakan temuan Cross-Task Linearity untuk menjelaskan dua teknik fusi model yang umum:

Pertama, Model Averaging mengambil rata-rata bobot beberapa model yang disempurnakan pada kumpulan data yang sama tetapi menggunakan konfigurasi hyperparameter berbeda, sehingga meningkatkan akurasi dan ketahanan.

Dalam penelitian tersebut, rata-rata bobot kelompok penelitian diinterpretasikan sebagai rata-rata fitur pada setiap lapisan, sehingga terjalin hubungan yang erat antara Model Averaging dan integrasi model, sehingga menjelaskan efektivitas Model Averaging.

Kedua, dengan operasi aritmatika sederhana, Aritmatika Tugas dapat menggabungkan bobot model yang disesuaikan pada tugas berbeda untuk mengontrol perilaku model.

Selama penelitian, tim mengubah operasi aritmatika di ruang parameter menjadi operasi di ruang fitur, sehingga menjelaskan Aritmatika Tugas dari perspektif pembelajaran fitur.

Selanjutnya, mereka mengeksplorasi kondisi di mana Linearitas Lintas Tugas terjadi dan menemukan pentingnya pra-pelatihan untuk Linearitas Lintas Tugas.

Hasil eksperimen menunjukkan bahwa pengetahuan umum yang diperoleh dari tahap pra-pelatihan membantu memenuhi persyaratan Linearitas Lintas Tugas.

Selama penelitian, ia juga melakukan upaya awal untuk membuktikan Linearitas Lintas Tugas, dan menemukan bahwa kemunculan Linearitas Lintas Tugas terkait dengan kerataan Lanskap Jaringan dan kesenjangan bobot antara dua model yang telah disesuaikan.

Baru-baru ini, makalah terkait berjudul "Tentang Munculnya Linearitas Lintas Tugas dalam Pra-Pelatihan-Penyempurnaan" diterbitkan pada Konferensi Internasional tentang Pembelajaran Mesin (ICML) 2024 [ 1].


Gambar |. Makalah terkait (Sumber: ICML 2024)

Tim peneliti berharap penemuan ini dapat menginspirasi algoritma fusi model yang lebih baik.

Di masa depan, jika perlu untuk membangun model besar yang dapat disesuaikan dengan banyak kemampuan, fusi model besar akan menjadi salah satu teknologi inti. Karya ini memberikan dukungan eksperimental dan teoritis yang kuat untuk fusi model besar, dan dapat menginspirasi algoritma fusi model besar yang lebih baik.

Selanjutnya, mereka berharap untuk memahami Konektivitas Mode Linier, Konektivitas Fitur Linier Berlapis, dan Linearitas Lintas Tugas dari perspektif Dinamika Pelatihan.

Meskipun telah memperoleh beberapa penjelasan dari tingkat fitur, mereka masih belum dapat menjelaskan Konektivitas Mode Linier dari sudut pandang prinsip pertama.

Misalnya mengapa Metode Spawning hanya perlu melatih beberapa epoch terlebih dahulu hingga akhirnya mendapatkan dua model yang memenuhi Konektivitas Mode Linier?

Dan, bagaimana cara memprediksi Waktu Pemijahan seperti itu? Untuk menjawab pertanyaan tersebut, kita perlu memahami Konektivitas Mode Linier dari perspektif pelatihan dan optimalisasi, dan ini juga merupakan upaya tindak lanjut tim.

Referensi:

1.Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. Tentang Munculnya Linearitas Lintas Tugas dalam Paradigma Pra-Pelatihan-Penyetelan Sempurna. Dalam Konferensi Internasional Keempat Puluh Satu tentang Pembelajaran Mesin.

Pengoperasian/penataan huruf: He Chenlong

01/ Tim Kota Hong Kong mengembangkan membran berlapis nano jenis baru, yang dapat digunakan untuk pengolahan air tawar dalam skenario khusus dan menemukan terobosan dalam penerapan bahan dua dimensi.

02/ Permasalahan kimia selama puluhan tahun telah mendapatkan jawaban yang kredibel. Para ilmuwan telah mengusulkan mekanisme mikroskopis baru untuk pelarutan hidrogen klorida menjadi asam klorida, yang akan mendorong pengembangan berbagai disiplin ilmu.

03/ Para ilmuwan menciptakan metode baru kontrol penginderaan kuantum yang dapat mendeteksi sinyal lemah secara akurat dan dapat digunakan untuk mendeteksi dan mengontrol putaran nuklir individu

04/ Pemenang baru "35 Inovator Teknologi Teratas di Bawah 35 Tahun" dari "MIT Technology Review" di Tiongkok secara resmi diumumkan!Saksikan kekuatan inovatif generasi muda ilmu pengetahuan dan teknologi di Shanghai

05/ Dengan kekuatan dinamis 14GPa, tim Universitas Peking berhasil mengembangkan serat karbon nanotube super kuat, yang dapat digunakan sebagai bahan struktural dan pelindung yang ringan dan berkinerja tinggi