berita

Arsitektur jaringan saraf "jalur berbeda mengarah ke tujuan yang sama"? Makalah ICML 2024: Beda model, tapi isi pembelajaran sama

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Qiao Yang

[Pengantar Kebijaksanaan Baru] Jaringan saraf dalam hadir dalam berbagai ukuran dan arsitektur, dan secara umum diterima bahwa hal ini memengaruhi representasi abstrak yang dipelajari oleh model. Namun, makalah pertama yang diterbitkan oleh dua peneliti UCL di ICML 2024 menunjukkan bahwa jika arsitektur model cukup fleksibel, perilaku jaringan tertentu akan tersebar luas di antara arsitektur yang berbeda.

Sejak AI memasuki era model besar, Scaling Law hampir menjadi konsensus.


Alamat makalah: https://arxiv.org/abs/2001.08361

Peneliti OpenAI mengusulkan dalam makalah ini pada tahun 2020 bahwa kinerja model memiliki hubungan hukum kekuasaan dengan tiga indikator: jumlah parameter N, ukuran kumpulan data D, dan daya komputasi pelatihan C.


Selain ketiga aspek tersebut, faktor-faktor seperti pemilihan hyperparameter serta lebar dan kedalaman model memiliki dampak kecil terhadap performa dalam rentang yang wajar.

Lebih lanjut, adanya hubungan kekuasaan hukum ini tidak memberikan ketentuan apa pun terhadap arsitektur model. Dengan kata lain, kita dapat berpikir bahwa Scaling Law dapat diterapkan pada hampir semua arsitektur model.

Selain itu, makalah yang diterbitkan di bidang neuroscience pada tahun 2021 sepertinya menyentuh fenomena ini dari sudut pandang lain.


Alamat makalah: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

Mereka menemukan bahwa meskipun jaringan seperti AlexNet, VGG, dan ResNet yang dirancang untuk tugas visual memiliki perbedaan struktural yang besar, mereka tampaknya dapat mempelajari semantik yang sangat mirip, seperti hubungan hierarki kategori objek, setelah pelatihan pada kumpulan data yang sama. .


Namun apa alasan dibalik hal ini? Jika kita melampaui pengalaman dangkal, sejauh mana kesamaan arsitektur jaringan pada tingkat esensial?

Dua peneliti di UCL menerbitkan makalah tahun ini, mencoba menjawab pertanyaan ini dengan melihat representasi abstrak yang dipelajari oleh jaringan saraf.


Alamat makalah: https://arxiv.org/abs/2402.09142

Mereka memperoleh teori yang secara efektif merangkum dinamika pembelajaran representasi dalam arsitektur model berskala besar yang kompleks, menemukan karakteristiknya yang "kaya" dan "malas". Jika modelnya cukup fleksibel, perilaku jaringan tertentu dapat tersebar luas di berbagai arsitektur.

Makalah ini telah diterima pada konferensi ICML 2024.

Proses pemodelan

Teorema pendekatan universal menyatakan bahwa dengan parameter yang memadai, jaringan saraf nonlinier dapat mempelajari dan memperkirakan fungsi halus apa pun.

Terinspirasi oleh teorema ini, makalah ini pertama-tama mengasumsikan bahwa pemetaan pengkodean dari masukan ke representasi tersembunyi dan pemetaan decoding dari representasi tersembunyi ke keluaran adalah fungsi halus yang berubah-ubah.

Oleh karena itu, meskipun detail arsitektur jaringan diabaikan, dinamika fungsional dapat dimodelkan dengan cara berikut:

Proses pelatihan jaringan saraf dapat dilihat sebagai optimalisasi fungsi pemulusan pada kumpulan data tertentu, terus-menerus mengubah parameter jaringan untuk meminimalkan fungsi kerugian MSE:


di dalam⟨⋅⟩Simbol mewakili rata-rata seluruh kumpulan data.

Karena kita tertarik mempelajari proses dinamis yang mewakili ruang, fungsi tersebut dapat dibagi menjadi kombinasi dua peta halus: peta pengkodeanℎ:→, dan mendekode pemetaan:→, saat ini fungsi kerugian pada persamaan (1) dapat ditulis sebagai:


Selanjutnya proses update parameter menggunakan aturan penurunan gradien dapat dituliskan sebagai:

di mana kebalikan dari kecepatan pembelajaran.

Meskipun persamaan (4) cukup akurat, masalahnya adalah persamaan tersebut secara eksplisit bergantung pada parameter jaringan, dan ekspresi matematika yang cukup umum memerlukan pengabaian detail implementasi ini.

Idealnya, jika kemampuan ekspresi jaringan saraf cukup kaya, optimalisasi fungsi kerugian harus dinyatakan secara langsung sebagai dua pemetaan.dan fungsi.


Namun, bagaimana hal ini dicapai secara matematis masih belum jelas. Oleh karena itu, mari kita mulai dengan kasus yang lebih sederhana - tidak mempertimbangkan keseluruhan kumpulan data, tetapi dua titik data.

Selama pelatihan, karena fungsi pemetaanSaat jumlahnya berubah, representasi titik data yang berbeda bergerak di ruang tersembunyi, saling mendekat, atau berinteraksi satu sama lain.

Misalnya, untuk dua titik dalam kumpulan data, jika⁢(1) dan⁢(2) cukup dekat dandan merupakan fungsi mulus, maka mean dari kedua titik tersebut dapat digunakan untuk melakukan pendekatan linier terhadap kedua fungsi pemetaan tersebut:


di dalamdan masing-masingdan matriks Jacobian dari .

Dengan asumsi bahwa jaringan saraf memiliki ekspresivitas dan derajat kebebasan yang memadai, parameter linearisasi, dan dapat dioptimalkan secara efektif, maka proses penurunan gradien dapat dinyatakan sebagai:


Persamaan (6) menjelaskan hipotesis pemodelan utama makalah ini, yang dimaksudkan sebagai teori yang setara untuk sistem arsitektur kompleks berskala besar dan tidak tunduk pada metode parameterisasi tertentu.


Gambar 1 merupakan ekspresi visual dari proses pemodelan di atas. Untuk menyederhanakan permasalahan, diasumsikan bahwa dua titik data hanya akan bergerak semakin dekat atau semakin jauh pada ruang tersembunyi, namun tidak akan berputar.

Indikator utama yang kami perhatikan adalah jarak ‖ℎ‖ di ruang tersembunyi, yang memungkinkan kita mengetahui struktur representasi yang dipelajari oleh model, dan jarak ‖‖ keluaran model, yang membantu memodelkan kurva kerugian.

Selain itu, variabel eksternal diperkenalkan untuk mengontrol kecepatan representasi, atau dapat dilihat sebagai penyelarasan keluaran, yang mewakili perbedaan sudut antara keluaran yang diprediksi dan keluaran sebenarnya.

Dari sini kita memperoleh sistem independen dari tiga variabel skalar:



Diantaranya, detail implementasi jaringan saraf secara abstrak dinyatakan sebagai dua konstanta: 1/dan 1/, menunjukkan kecepatan pemelajaran efektif.

Mempelajari konsistensi dinamis

Setelah pemodelan selesai, makalah ini melatih jaringan saraf dengan arsitektur berbeda pada kumpulan data dua titik dan membandingkan dinamika pembelajaran aktual dengan solusi numerik dari teori yang setara.


Struktur default mengacu pada jaringan 20 lapisan, 500 neuron per lapisan, dan ReLU yang bocor.

Terlihat bahwa walaupun hanya ada dua konstanta yang perlu dipasang, teori ekivalensi yang baru saja dijelaskan masih dapat menyesuaikan dengan baik situasi aktual berbagai jaringan saraf.

Persamaan yang sama dapat secara akurat menggambarkan dinamika beberapa model dan arsitektur kompleks selama pelatihan, yang tampaknya menunjukkan bahwa jika model tersebut cukup ekspresif, model tersebut pada akhirnya akan menyatu dengan perilaku jaringan yang umum.

Letakkan di kumpulan data yang lebih besar seperti MNIST dan lacak dinamika pembelajaran dari dua titik data, dan teori kesetaraan masih berlaku.


Arsitektur jaringan mencakup 4 lapisan yang terhubung sepenuhnya, setiap lapisan mencakup 100 neuron dan menggunakan fungsi aktivasi ReLU yang bocor

Namun perlu diperhatikan bahwa ketika bobot awal meningkat secara bertahap (Gambar 3), pola perubahan ‖ℎ‖, ‖⁢‖ dan ketiga variabel akan berubah.

Karena ketika bobot awal besar, kedua titik data akan berjauhan pada awal pelatihan, sehingga pendekatan linier rumus (5) tidak berlaku lagi, dan model teoritis di atas gagal.


representasi terstruktur

Dari batasan kelancaran dan teori kesetaraan yang disebutkan di atas, dapatkah kita meringkas aturan dalam struktur representasi jaringan saraf?

Berdasarkan rumus (7), dapat disimpulkan bahwa terdapat suatu titik tetap unik, yang merupakan jarak representasi akhir dari dua titik data:


Jika bobot awal besar maka jarak representasi akhir akan konvergen ke tinggi, dan nilainya bergantung pada masukan data dan inisialisasi acak, sebaliknya jika bobot awal kecil maka akan konvergen ke rendah yang bergantung pada masukan dan keluaran struktur datanya.

Pemisahan antara mekanisme acak dan mekanisme terstruktur semakin memverifikasi "kekayaan" dan "inersia" dalam proses pembelajaran jaringan saraf dalam yang diusulkan dalam makalah sebelumnya, terutama mengingat skala bobot awal akan menjadi faktor kunci.

Makalah ini memberikan penjelasan intuitif untuk fenomena ini:

Jika bobot awalnya besar, kedua titik data di ruang tersembunyi akan berjauhan di awal pelatihan, sehingga fleksibilitas jaringan memungkinkan dekoder dengan bebas mempelajari keluaran yang benar untuk setiap titik data satu per satu tanpa perlu melakukan hal yang signifikan. penyesuaian. Struktur representasi. Oleh karena itu, pola akhir yang dipelajari menyerupai struktur yang sudah ada pada inisialisasi.

Sebaliknya, jika bobotnya kecil, kedua titik data ditempatkan berdekatan, dan karena keterbatasan kelancaran, fungsi pemetaan pengkodean harus disesuaikan dengan keluaran target, sehingga menggerakkan representasi kedua titik data agar sesuai dengan data. .

Oleh karena itu, kita akan melihat bahwa ketika bobotnya kecil, pembelajaran representasi akan menunjukkan efek terstruktur (Gambar 5).


Mengubah tugas jaringan saraf agar sesuai dengan fungsi OR eksklusif (XOR) dapat mendemonstrasikan hal ini dengan lebih intuitif. Ketika bobot inisialisasi kecil, model jelas mempelajari karakteristik struktural fungsi XOR.


Pada jaringan saraf dengan hanya 2 lapisan di sebelah kanan, terdapat penyimpangan yang besar antara teori dan eksperimen, yang menggambarkan pentingnya asumsi ekspresi model yang tinggi dalam teori di atas.

Kesimpulannya

Kontribusi utama dari makalah ini adalah pengenalan teori kesetaraan yang mampu mengungkapkan bagian umum dari proses pembelajaran dinamis dalam arsitektur jaringan saraf yang berbeda dan telah menunjukkan representasi terstruktur.

Karena keterbatasan kelancaran proses pemodelan dan penyederhanaan interaksi titik data, teori ini masih belum bisa menjadi model universal untuk menggambarkan proses pelatihan jaringan saraf dalam.

Namun, hal yang paling berharga dari penelitian ini adalah menunjukkan bahwa beberapa elemen yang diperlukan untuk pembelajaran representasi mungkin sudah dimasukkan dalam proses penurunan gradien, dan bukan hanya dari bias induktif yang terkandung dalam arsitektur model tertentu.

Selain itu, teori tersebut juga menekankan bahwa skala bobot awal merupakan faktor kunci dalam pembentukan akhir struktur representasi.

Di masa depan, kita masih perlu menemukan cara untuk memperluas teori kesetaraan untuk menangani kumpulan data yang lebih besar dan kompleks, daripada hanya memodelkan interaksi dua titik data.

Pada saat yang sama, banyak arsitektur model memperkenalkan bias induktif yang memengaruhi pembelajaran representasi, yang berpotensi berinteraksi dengan efek representasional dari pemodelan.

Referensi:

https://arxiv.org/abs/2402.09142