Bicarakan tentang cara memikirkan model besar dengan ilmuwan pembelajaran mendalam Yann LeCun

Mari kita bahas tentang cara memikirkan model besar dengan ilmuwan pembelajaran mendalam Yann LeCun

2024-08-09

Dengan kemajuan dan popularitas teknologi AI generatif dalam dua tahun terakhir, penggunaan model berukuran besar untuk menghasilkan konten secara bertahap telah menjadi bagian dari kehidupan masyarakat biasa. Proses ini tampaknya mudah: ketika kita memasukkan sebuah instruksi, model besar dapat langsung mengeluarkan jawabannya untuk kita. Namun, di balik layar, tidak ada yang mengetahui prinsip kerja internal dan proses pengambilan keputusan model. Ini adalah "kotak hitam pembelajaran mesin" yang terkenal.

Karena model kotak hitam tidak dapat dijelaskan, keamanan AI selalu dipertanyakan. Maka para ilmuwan mulai mencoba membuka kotak hitam model besar, yang dalam industri disebut "penelitian kotak putih". Di satu sisi, studi tentang model kotak putih dapat membantu orang memahami model kotak hitam, sehingga mengoptimalkan model yang besar dan meningkatkan efisiensi. Di sisi lain, tujuan penelitian white-box adalah untuk mendorong AI, sebuah subjek teknik, ke dalam sains.

Kali ini kami mengundangChen Yubei, Asisten Profesor, Departemen Teknik Elektro dan Komputer, Universitas California, Davis, isi penelitiannya terkait dengan "model kotak putih". Selain itu, ia juga merupakan rekan pascadoktoral Yann LeCun, pemenang Turing Award dan kepala ilmuwan Meta. Dalam episode ini, dia mengobrol dengan kami tentang kemajuan penelitian terbaru model kotak putih, dan juga berbagi dengan kami Yann LeCun, seorang ilmuwan yang dia kenal yang telah mengalami naik turunnya industri AI tetapi tetap fokus murni .

Grafik oleh Violet Dashi. Ilustrasi oleh Nadia dan Simple Line

Berikut wawancara terpilih

01 Otak manusia dan model besar

"Lembah Silikon 101":Bisakah Anda terlebih dahulu memperkenalkan secara singkat penelitian "model kotak putih" yang sedang Anda lakukan? Selama penelitian Anda, pernahkah Anda menemukan cara menjelaskan masalah input dan output GPT?

Chen Yubei:Faktanya, tujuan yang relatif besar dalam arah ini adalah untuk mendorong pembelajaran mendalam dari subjek yang murni empiris menjadi subjek ilmiah, atau mengubah teknik menjadi sains, karena saat ini teknik berkembang relatif cepat namun sains relatif lambat. Dulu ada model yang disebut penyematan kata, yang dapat mempelajari beberapa representasi bahasa.

Semua orang sebenarnya punya pertanyaan saat itu: Kinerja tugas kita meningkat, tapi apa sebenarnya yang menyebabkan kinerja ini meningkat? Jadi kami melakukan pekerjaan awal pada saat itu, yaitu mencoba membuka representasi kata-kata ini. Saat Anda membukanya, Anda akan menemukan beberapa fenomena yang sangat menarik.

Misalnya, jika Anda mengambil kata apel, Anda dapat menemukan beberapa makna meta di dalamnya. Misalnya, salah satu makna mungkin mewakili buah, dan makna lainnya mungkin mewakili makanan penutup produk, yang tentunya mengacu pada produk Apple. Jadi, Anda akan menemukan bahwa Anda dapat menemukan makna meta ini di sepanjang sebuah kata, dan kemudian Anda dapat memperluas metode ini ke model bahasa yang besar.

Dengan kata lain, setelah kita selesai mempelajari model bahasa besar, kita dapat mencari beberapa makna meta dalam model tersebut dan kemudian mencoba membukanya. Anda akan menemukan model bahasa berukuran besar, yang sebenarnya memiliki banyak lapisan.

Pada tingkat dasar akan muncul fenomena yang disebut “disambiguasi kata”. Misalnya, ada kata dalam bahasa Inggris yang disebut "kiri". Kata ini berarti belok kiri dan bentuk lampau meninggalkan. Kemudian arti spesifiknya bergantung pada konteks sebelum dan sesudah konteksnya, jadi bahasa besarnya Model tersebut melengkapi disambiguasi kata di beberapa lapisan pertama.

Dalam jangka menengah, Anda akan menemukan beberapa makna baru muncul. Saat itu, kami mengira ada hal yang sangat menarik yang disebut "Konversi Satuan". Setelah Anda ingin mengubah kilometer menjadi mil, dan suhu dari Fahrenheit ke Celsius, maka makna ini akan terbuka dengan cara ini. Banyak tingkatan serupa dari makna meta ini.

Jika Anda melangkah lebih jauh, Anda bahkan akan menemukan bahwa ada pola di antara makna-makna tersebut. Pola ini adalah ketika makna yang berulang muncul dalam konteksnya, Anda dapat menggunakan metode ini untuk membuka bahasa besar .model dan model bahasa kecil. Tentu saja, ide-ide ini tidak sepenuhnya baru. Ide-ide tersebut sebenarnya memiliki sejarah dalam model visual. Misalnya, sudah ada beberapa eksplorasi serupa sejak Matthew Zeiler.

"Lembah Silikon 101":Mengikuti alur pemikiran ini, jika kita mengetahui cara kerjanya, dapatkah kita mengoptimalkannya secara maksimal dari sudut pandang teknik?

Chen Yubei:Ya, ini pertanyaan yang sangat bagus. Saya pikir persyaratan yang relatif tinggi untuk teori apa pun adalah bahwa teori tersebut dapat memandu praktik. Jadi ketika kami melakukan model bahasa dan representasi kosa kata, salah satu tujuan yang kami miliki saat itu adalah setelah kami memahaminya, dapatkah kami mengoptimalkan model ini pada gilirannya. ? Faktanya, hal itu mungkin saja terjadi.

Misalnya, jika Anda menemukan meta-makna dalam model bahasa besar, maka akan diaktifkan ketika melihat meta-makna tertentu, maka neuron ini dapat digunakan sebagai diskriminator, dan Anda dapat menggunakan sesuatu ini untuk melakukan beberapa tugas. Dengan mengubah makna meta ini, bias model pun disesuaikan.

Itu jika saya bisa menemukannya, maka saya bisa menyesuaikannya. Baru-baru ini, Anthropic telah melakukan pekerjaan serupa, yaitu menemukan beberapa bias yang mungkin ada dalam model bahasa, dan kemudian melakukan beberapa perubahan agar model tersebut lebih adil dan aman.

"Lembah Silikon 101":Saya melihat OpenAI juga melakukan penelitian tahun lalu, yang menggunakan GPT4 untuk menjelaskan GPT2 dan melihat cara kerja GPT2. Misalnya, mereka menemukan bahwa neuron ke-12 di jalur 5 akan diaktifkan ketika menjawab semua pertanyaan tentang sejarah Amerika sekitar tahun 1800, dan neuron ke-13 di jalur 12 ketika menjawab bahasa Mandarin.

Jika neuron yang menjawab bahasa Mandarin dimatikan, kemampuannya dalam memahami bahasa Mandarin akan turun secara signifikan. Namun semakin jauh ke belakang neuron, misalnya, ketika neuron mencapai sekitar 2000 baris, kredibilitas mereka secara keseluruhan telah menurun drastis. Pernahkah Anda memperhatikan penelitian mereka?

Penelitian OpenAI: Biarkan GPT4 menjelaskan neuron GPT2

Chen Yubei:Saya belum membaca artikel ini, tetapi metode ini sangat mirip dengan pengoperasian pada neuron otak. Setara dengan sekarang jika ada jaringan saraf, jaringan ini berarti dapat menemukan keberadaan lokal daripada tersebar sepenuhnya, maka beberapa operasi dapat dilakukan padanya. Misalnya, jika neuron tertentu terputus, Anda mungkin berpikir bahwa bagian tertentu dari kemampuannya relatif hilang.
Faktanya, hal yang sama juga berlaku pada manusia. Misalnya, penderita epilepsi mungkin mengalami kesulitan berbahasa setelah operasi, tetapi hal ini tidak mempengaruhi fungsi tubuh manusia lainnya.

"Lembah Silikon 101":OpenAI dan Anthropic sedang mempelajari interpretasi model besar. Apakah ada perbedaan antara penelitian Anda dan penelitian mereka?

Chen Yubei:Faktanya, tidak ada yang tahu apakah penelitian model kotak putih akan berhasil di masa depan. Saya sudah mendiskusikannya dengan pembimbing saya sebelumnya, tetapi semua orang setuju bahwa hal ini patut untuk dicoba. Jika kita kembali ke bidang ini, apa yang ingin dilakukan penelitian kita sebenarnya adalah memahami kecerdasan buatan, dan merekonstruksinya melalui pemahaman kita, dan kemudian membangun sesuatu yang berbeda secara mendasar. Jadi observasi, yaitu interpretabilitas, menurut saya hanyalah sebuah sarana.
Dengan kata lain, apakah saya membuka model ini, apakah saya melakukan percobaan ini, atau membuat beberapa penyesuaian pada model, saya pikir ini adalah beberapa metode yang kita coba dalam proses pemahaman, tapi apa yang benar-benar penting tentang kotak putih modelnya Masih harus kembali ke sinyal itu sendiri. Karena baik itu otak manusia atau mesin, inti pembelajarannya didasarkan pada sinyal.

Ada beberapa struktur di dunia kita, dan mereka juga harus belajar melalui struktur ini, dan struktur inilah yang mereka pelajari. Jadi bisakah kita menemukan hukum di balik struktur ini, serta beberapa alat matematika untuk mewakilinya, dan kemudian mengatur ulang hal-hal tersebut untuk membangun model yang berbeda? Jika hal ini dapat dilakukan, saya pikir hal ini akan memberikan harapan untuk meningkatkan ketahanan, keamanan, dan keandalan sistem kita.
Selain itu, efisiensinya akan meningkat. Ini mirip dengan teori termodinamika yang muncul setelah mesin uap pertama kali muncul, sehingga mendukung transformasinya dari subjek pengrajin yang lengkap menjadi sains. Dengan cara yang sama, saat ini kita tampaknya memiliki mesin uap pada data untuk pertama kalinya. Dari sebelumnya kita tidak memahami data, kita akhirnya dapat mulai mengembangkan beberapa algoritme AI untuk menangkap pola dalam data.

"Lembah Silikon 101":Jadi akan lebih hemat energi.

Chen Yubei:Mengenai konservasi energi, saya dapat memberikan beberapa contoh menarik. Poin pertama pasti hemat energi, karena otak setara dengan bola lampu dengan konsumsi daya 20 watt, dan superkomputer saat ini mungkin memiliki daya lebih dari satu juta watt.

Poin kedua adalah jika kita melihat evolusi berbagai organisme di alam, efisiensi evolusinya sebenarnya sangat tinggi. Misalnya, ada jenis laba-laba khusus yang disebut Laba-laba Pelompat. Ia hanya memiliki beberapa juta neuron, namun ia dapat membuat garis kelompok tiga dimensi yang sangat kompleks untuk menangkap mangsanya.

Laba-laba pelompat, Wikipedia

Dan salah satu hal yang paling menarik bagi saya adalah seberapa efisien orang menggunakan data. Volume data Llama3 saat ini telah mencapai sekitar 13 triliun Token. Namun berapa banyak data yang dapat diterima seseorang seumur hidupnya? Misalkan kita dapat memperoleh 30 frame gambar per detik, dan waktu perolehan harian adalah 12 jam, dan kita melakukannya selama 20 tahun, maka kita mungkin dapat memperoleh 10 miliar token, dan teks yang dapat diperoleh hampir sama jumlahnya datanya jauh lebih kecil dibandingkan model besar.
Jadi pertanyaannya adalah, bagaimana orang memperoleh kemampuan generalisasi yang kuat melalui sejumlah kecil data? Inilah yang menurut saya luar biasa tentang efisiensi otak manusia.

"Lembah Silikon 101":Apakah lebih sulit mengungkap cara kerja model besar atau mengungkap cara kerja otak manusia? Kedengarannya sulit bagi saya.

Chen Yubei:Keduanya mempunyai kesulitan masing-masing, namun pendekatannya serupa. Baik itu otak manusia atau model bahasa besar, kami mencoba mengamatinya dan melihat responsnya.

Metode ini sebenarnya terlihat dari penelitian tentang korteks visual yang dilakukan oleh David Hubel dan Torsten Weisel, peraih Hadiah Nobel Fisiologi pada tahun 1980-an. Mereka menemukan Sel Sederhana dan mencoba mempelajari bagaimana neuron ini menghasilkan impuls ketika orang melihat sesuatu, dan menganalisis keadaan respons neuron yang berbeda ketika mereka melihat hal yang berbeda, seperti ketika mereka tidak merespons sama sekali dan ketika mereka sangat bersemangat. , dan kemudian mereka menemukan bidang Reseptif neuron.

DH Hubel dan TN Wiesel, pemenang Hadiah Nobel Fisiologi atau Kedokteran tahun 1981

Studi kami terhadap model bahasa besar saat ini sebenarnya serupa. Kami mencari masukan yang berbeda, dan kemudian memahami neuron mana di dalam model yang tertarik pada masukan mana. Namun masih ada perbedaan.

Perbedaan pertama adalah terdapat banyak keterbatasan dalam mengamati otak manusia baik melalui elektroda plug-in atau metode antarmuka otak-komputer. Namun, keuntungan alami dari model bahasa besar adalah bahwa metode observasi tidak lagi terbatas jika Anda memilikinya metode yang lebih baik, Anda dapat menganalisisnya dalam jangka panjang, dan Anda bahkan dapat menganalisis model lebih lanjut melalui beberapa metode diferensial.

Namun kekurangannya adalah kemampuan model yang besar jauh lebih kecil dibandingkan dengan otak, terutama model bahasa yang besar, karena hanya mempelajari dunia dari bahasa, sehingga pemahamannya tentang dunia tidak lengkap, sama seperti manusia indera lain kecuali bahasa.

Sebaliknya, otak dapat memproses sinyal yang lebih dimensional, dan indra menjadi sangat kaya. Terkadang kita memikirkan sebuah pertanyaan, apakah bahasa sudah lengkap? Jika tidak ada dukungan indra lain, apakah semua konsep dalam bahasa dapat ada secara mandiri, atau memerlukan dukungan indra lain untuk mencapai pemahaman yang sebenarnya.

Misalnya, jika benda "kulkas" tidak berhubungan dengan perasaan panas dan dingin di dunia nyata, tetapi hanya menggambarkan ciri-ciri statistik seperti memiliki pintu, maka uraian ini tidak akan lengkap.

"Lembah Silikon 101":Jadi nyatanya dibandingkan otak, model besar saat ini masih banyak kekurangan. Namun karena kita dapat membongkarnya dan mempelajarinya, Anda berpikir hal ini masih lebih dari sekedar ambisi untuk mengungkap rahasia otak.

Chen Yubei:Kesulitan dalam memahami model bahasa besar adalah Anda memiliki banyak cara untuk mengamatinya, dan Anda dapat lebih memahaminya. Misalnya, jika ada dua mesin, satu mesin dapat diamati sepenuhnya dan mesin lainnya dapat diamati sebagian, maka secara intuitif, mesin yang dapat diamati sepenuhnya akan lebih mudah untuk dipahami. Tentu saja ia memiliki beberapa kemampuan yang tidak dimiliki mesin ini, sehingga tidak dapat menggantikan pemahaman tentang otak manusia.

"Lembah Silikon 101":Izinkan saya juga memperkenalkan kepada penonton bahwa Yubei mempelajari ilmu saraf sebelumnya. Jadi menurut Anda apakah latar belakang subjek Anda akan membantu Anda dalam penelitian Anda saat ini di bidang AI? Adakah metode penelitian interdisipliner yang bisa dipelajari satu sama lain?

Chen Yubei:Saya sebenarnya bukan jurusan ilmu saraf komputasi. Gelar sarjana saya adalah di Departemen Elektronika di Universitas Tsinghua dan Departemen Teknik Elektro dan Ilmu Komputer di Berkeley. Namun, lembaga penelitian tempat saya bekerja saat itu adalah lembaga penelitian ilmu saraf, jadi mentor saya adalah ahlinya ilmu saraf komputasi.

Mengenai pertanyaan tadi, menurut saya kajian ilmu saraf biasanya menjadi inspirasi bagi saya. Karena ketika Anda mengetahui sistem ini di alam dan apa yang dapat mereka lakukan, Anda mungkin memiliki gagasan berbeda dan melihat kembali masalah yang ada.

Misalnya, gambar adalah sinyal masukan dua dimensi, pikselnya horizontal dan vertikal, lalu membentuk kisi. Namun retina manusia tidak terlihat seperti ini. Pertama-tama, ini adalah jenis reseptor dengan persepsi berbeda. Reseptor ini tersusun sangat padat tetapi tidak terlalu teratur di bagian tengah dan menjadi jarang di kedua sisi.
Saat Anda menghadapi sinyal masukan seperti itu, pertama-tama, jaringan saraf konvolusional yang biasa kita gunakan tidak valid, karena konvolusi pun tidak didefinisikan di sini. Jadi ketika kita melihat situasi ini dalam sistem biologis, kita akan mempertimbangkan kembali dari mana asal usul konvolusi ini.

"Lembah Silikon 101":Jadi Anda akan mempertimbangkan kembali caranya, benarkah? Apakah penerapannya harus seperti ini?

Chen Yubei:Ya. Misalkan suatu hari Anda terbangun dan semua neuron Anda terganggu. Apakah Anda masih dapat memahami dunia? Karena apa yang Anda lihat bukan lagi gambar, dan Anda tidak dapat lagi menggunakan jaringan saraf konvolusional untuk melakukan hal ini.

Meskipun kami belum menyelesaikan masalah ini sepenuhnya, kami sebenarnya telah mengambil langkah maju. Meskipun semua neuron saya terganggu, yaitu piksel pada gambar reseptor kami terganggu, ada beberapa hubungan antara piksel yang berdekatan. Misalnya, saat kita melihat sebuah gambar, kita akan menemukan bahwa jika sebuah piksel berwarna merah, piksel di sekitarnya kemungkinan besar juga berwarna merah. Kemudian melalui hubungan ini, Anda dapat membiarkan piksel tersebut menemukan teman lagi, dan kemudian Anda dapat menempatkan yang serupa piksel bersama-sama. Piksel mengatur dirinya sendiri menjadi beberapa hubungan.

Kemudian saat ini, dengan menambahkan struktur seperti Transformer dalam model bahasa besar, kita dapat merepresentasikan ulang gambar ini, dan performa representasi ini cukup bagus. Ini adalah contoh dari peninjauan kembali beberapa praktik teknik kami saat ini yang terinspirasi oleh alam dan kemudian mengusulkan beberapa metode berbeda.

Model Kotak Hitam, gambar AIGC melalui Firefly

"Lembah Silikon 101":Masih banyak kesamaan antara penelitian model AI besar dan ilmu saraf otak manusia. Akankah ada ahli saraf yang akan berkolaborasi dengan Anda dalam penelitian lintas bidang dari sudut pandang mereka?

Chen Yubei:Faktanya, banyak ahli saraf, ahli statistik, dan matematikawan yang ingin memahami beberapa struktur sinyal alami, dan juga memperhatikan cara kerja neuron di otak, lalu menggabungkan keduanya untuk mencoba Mengusulkan beberapa representasi sinyal yang minimalis.

Misalnya, Anda akan menemukan fenomena di otak, yaitu meskipun terdapat banyak neuron, namun sebenarnya neuron yang bekerja pada waktu yang sama sangat jarang. Misalnya, jika terdapat 1 juta neuron, hanya beberapa ribu yang dapat berfungsi.

Berdasarkan hal ini, metode pengkodean renggang telah diusulkan di bidang ilmu saraf pada tahun-tahun awal. Artinya, dapatkah representasi dimensi rendah renggang ditemukan dalam sinyal tingkat tinggi ini? Algoritme yang dibangun berdasarkan ide ini sangat mirip dengan representasi neuron yang Anda amati di otak, jadi ini merupakan keberhasilan tanpa pengawasan dalam ilmu saraf komputasi awal.

Saat ini, seluruh bidang penelitian kami memiliki nama yang disebut Statistik Sinyal Alami. Tujuannya adalah untuk mengungkap beberapa struktur dasar di balik sinyal. Namun, dibandingkan dengan model besar, pengembangan penelitian yang menggabungkan ilmu saraf tidak sesederhana itu seperti model sebenarnya relatif lambat. Menurut saya, di satu sisi mungkin karena masalahnya rumit, tapi di sisi lain juga karena relatif sedikit orang yang berinvestasi ke arah ini.

02 Model Kotak Hitam yang "Menyalip Saat Ini".

"Lembah Silikon 101":Sederhananya, saat ini terlalu sedikit orang yang mempelajari model kotak putih. Namun sebelum munculnya model besar, apakah pembelajaran mesin tradisional juga termasuk dalam kategori penelitian model kotak putih?

Chen Yubei:Menurut saya pernyataan ini bisa dianggap benar. Model pembelajaran mesin sebelumnya relatif sederhana dan relatif mudah dipahami.

"Lembah Silikon 101":Lantas mengapa kemajuan penelitian model kotak hitam keseluruhan saat ini mampu menyalip model kotak putih di sudut, jauh lebih cepat?

Chen Yubei:Ketika pertanyaan ini ditanyakan, kita akan gugup sejenak sebelum menjawab.

"Lembah Silikon 101":Mengapa harus gugup?

Chen Yubei:Karena pertanyaan ini sangat tajam, sebenarnya menanyakan apakah ini model kotak putih, atau jalur yang bisa dimengerti dan harus kita tinggalkan. Dari zaman kita, apakah kita tidak lagi mempelajari ilmu pengetahuan di bidang AI, dan akankah semuanya menjadi subjek empiris di masa depan? Tapi menurutku belum.
Kembali ke pertanyaan Anda tadi, apa sebenarnya yang terjadi dalam proses ini? Poin pertama adalah model black box memiliki bagasi yang lebih sedikit. Jika Anda ingin metode ini berhasil dan metode ini dapat dijelaskan, terdapat terlalu banyak persyaratan, maka model kotak hitam menyerahkan satu hal agar dapat berfungsi terlebih dahulu.

Alasan kedua yang relatif diabaikan oleh semua orang, yaitu pertumbuhan data yang berlawanan dengan tren, atau perluasan skala.

Richard Sutton menulis blog sebelumnya dan menyebutkan bahwa ada sesuatu yang belum rusak dalam 20 tahun terakhir, yaitu ketika kita memiliki lebih banyak data dan perhitungan, kita harus menemukan algoritma yang benar-benar dapat berkembang datanya. Saya pikir ini adalah bagian yang sangat penting dari model kotak hitam, atau kemajuan empiris kita saat ini.

Artinya, ketika kita memiliki data yang lebih besar, data yang lebih baik, perhitungan yang lebih banyak, dan model yang lebih besar, maka kita dapat mempelajari lebih lanjut. Namun jika kita kembali ke permasalahan ini, setiap orang mempunyai tujuan dalam model kotak putih, yaitu modelnya sendiri harus sederhana.

Perbandingan antara Black Box ML dan White Box ML

"Lembah Silikon 101":Mengapa model kotak putih harus sederhana? Apakah berarti jika terlalu rumit maka akan sulit untuk mendesainnya?
Chen Yubei:Ya. Faktanya, hanya hal-hal yang ringkas yang dapat dipahami ketika melakukan teori, dan harus disederhanakan lagi dan lagi. Namun, ketika orang mengejar kesederhanaan model, mereka mungkin juga melakukan penyederhanaan berlebihan berulang kali. Begitu penyederhanaan berlebihan ini terjadi, model tidak dapat sepenuhnya menggambarkan bentuk data. Kemudian ketika terdapat lebih banyak data, model tersebut tidak akan dapat dilanjutkan, dan kemampuannya akan terbatas.

Jadi menurut saya ini juga merupakan kesulitan yang dihadapi semua orang ketika mempelajari model kotak putih dan model sederhana di masa lalu. Kita tidak hanya perlu membawa modelnya saat bekerja, tetapi kita juga membutuhkan bagasi yang dapat diinterpretasikan, dan saya juga membutuhkannya yang sederhana. Saat Anda membawa semua barang ini, Anda akan menemukan bahwa bagasi ini terlalu berat. Jika Anda terlalu menyederhanakan, Anda menimbulkan kesalahan, dan kesalahan akan menumpuk, dan Anda tidak akan bisa melanjutkannya nanti.
"Lembah Silikon 101":Namun kini dengan pesatnya perkembangan model kotak hitam, kami mulai mencoba menyelesaikannya kembali.
Chen Yubei:Ya. Dan kali ini ketika kami menyelesaikannya, kami mungkin akan meninjau kembali masalah ini. Artinya, kita tidak perlu menyederhanakan model sepenuhnya ke tingkat tersebut, model tersebut masih dapat mewakili sisi dunia yang lebih kompleks.

Namun pada saat yang sama, kami masih berharap hal ini relatif dapat dimengerti, jadi jika suatu saat kami dapat mencapai model kotak putih, maka menurut saya setiap upaya sebelumnya adalah penyederhanaan yang berlebihan, namun kami berharap setiap penyederhanaan dapat Maju. Kita bahkan tidak perlu membuat model kotak putih seluruhnya. Mungkin kita bisa membuat model kotak putih yang tidak sekuat model besar, namun relatif sederhana.
Memahami esensi di balik pembelajaran akan sangat membantu, dan pemahaman ini pada gilirannya memungkinkan kita meningkatkan efisiensi pelatihan model besar. Saya telah membahas masalah efisiensi dengan Yann beberapa kali sebelumnya, yang berarti bahwa jika teori di balik hal ini dikembangkan, kita mungkin dapat meningkatkan efisiensi praktik teknik hingga beberapa kali lipat.
"Lembah Silikon 101":Pandangan Yann lebih memilih mengembangkan model white box atau model black box?
Chen Yubei:Yann adalah seorang ilmuwan yang terkenal dengan keahlian tekniknya, sehingga banyak usahanya yang masih melibatkan pembuatan benda ini terlebih dahulu. Namun Yann juga mendukung penelitian model kotak putih. Selama diskusi saya dengannya, dia merasa bahwa jalan ini layak untuk ditelusuri, namun dia tidak tahu apakah jalan ini dapat dicapai untuk tujuan yang terlalu ambisius, tetapi seseorang harus melakukannya.
"Lembah Silikon 101":Model black box rasanya seperti masalah rekayasa, sedangkan model white box harus menjelaskannya secara ilmiah. Meski dari sudut pandang komersialisasi, rasio input-outputnya tidak terlalu tinggi, namun jika hal ini akhirnya bisa terwujud, tetap akan memberikan nilai yang besar bagi keamanan AI dan aplikasi komersialnya di masa depan.
Chen Yubei:Mengenai komersialisasi, menurut saya niat awal semua orang yang melakukan penelitian dasar AI bukanlah untuk memiliki aplikasi apa pun sebagai niat awal, tetapi didorong oleh keingintahuan yang relatif murni tentang masalah kecerdasan dan pada gilirannya dapat membantu dalam praktik teknik. Penelitian itu sendiri tidak dirancang untuk satu aplikasi saja.

Selain itu, ketika kita mengejar model kotak putih dan efisiensi tertinggi ini, kita juga akan mengajukan pertanyaan, apakah model bahasa besar yang kita bangun sekarang hanya dapat dicapai melalui skala atau Hukum Penskalaan seperti ini tidak apa-apa kalau turun saja? Saya kira tidak demikian. Karena manusia tidak dapat menerima data dalam jumlah besar, bagaimana memperoleh kemampuan generalisasi yang relatif tinggi dengan jumlah data yang sedikit juga menjadi isu penting yang sedang kita pelajari.

"Lembah Silikon 101":Hal ini juga harus menjadi masalah yang dipelajari oleh para sarjana model kotak hitam. Sarjana dan sekolah manakah yang saat ini mempelajari model kotak putih?

Chen Yubei:Saat ini, terdapat tiga kekuatan AI. Kekuatan pertama adalah beberapa pengalaman yang kami hasilkan dalam proses mempelajari model teknik ini, dan kemudian memvisualisasikannya, seperti apa yang baru-baru ini dilakukan oleh Anthropic dan OpenAI.

Penelitian Antropis: Mengekstraksi Fitur yang Dapat Ditafsirkan dari Neural Network Claude 3 Soneta

Yang kedua adalah ilmu saraf komputasi yang mencoba memahami otak manusia dan menemukan cara agar beberapa kenangan bisa ada.

Aliran pemikiran lainnya adalah melihat struktur dasar sinyal dari perspektif matematika dan statistik. Tentunya akan banyak persilangan antara ketiga tipe ini.
"Lembah Silikon 101":Anda termasuk dalam genre apa?
Chen Yubei:Faktanya, saya sedikit banyak dipengaruhi oleh ketiga kelompok tersebut. Ketika saya di Berkeley, mentor dan guru saya Ma Yi semuanya berasal dari sekolah ilmu saraf dan statistik matematika, dan Yann lebih terlatih di bidang teknik. Saya juga berpendapat ketiga cara ini bisa diterima, karena pada akhirnya akan membawa kita bergerak ke arah yang sama.
"Lembah Silikon 101":Arah mana yang sama? Apakah ada hasil bertahap sekarang?
Chen Yubei:Langkah terakhir adalah memahami model. Ada beberapa hasil bertahap sebelumnya, seperti apakah kita dapat membuat beberapa jaringan bahkan dengan dua atau tiga lapisan, dan kita dapat melihat apa yang mereka pelajari di setiap lapisan. Akhirnya, saya menemukan bahwa sangat mungkin untuk merepresentasikan sebuah angka. Jika Anda ingin merepresentasikannya, Anda akan mempelajari semua guratannya, lalu menghubungkan guratan-guratan serupa menjadi satu, dan kemudian Anda dapat membuat representasi tingkat berikutnya, lapis demi lapis. , akhirnya menemukan nomornya.
"Lembah Silikon 101":Akankah penelitian Anda saat ini mengarah pada optimalisasi model kotak hitam?

Chen Yubei:Pertama, seiring dengan semakin mendalamnya pemahaman Anda, Anda mungkin dapat mengoptimalkan model kotak hitam dan membuatnya lebih efisien. Yang kedua adalah menyatukan model kotak hitam yang berbeda, sehingga mengurangi banyak pemborosan yang tidak perlu. Pada saat yang sama, ada pilar pekerjaan lain yang melibatkan laboratorium saya, yaitu mempelajari tidak hanya persepsi tetapi juga kontrol.

Ketika Anda memberikan model bahasa besar ini kemampuan untuk berinteraksi dengan dunia, dapatkah Anda mendapatkan kemampuan generalisasi yang sama dalam sistem kontrol? Apa maksudnya? Artinya, dalam sistem persepsi, Anda akan menemukan bahwa saya mempelajari apel, pir, dan kemudian buah persik. Karena saya telah mempelajari konsep serupa tentang apel dan pir sebelumnya, saya dapat dengan cepat mempelajari konsep buah persik.

Jadi di bidang pengendalian, apakah kinerja serupa bisa dicapai? Misalnya, jika robot belajar berjalan maju dan melompat di tempat, dapatkah robot tersebut dengan cepat berubah menjadi robot yang melompat maju dan berjalan pada saat yang bersamaan?

"Lembah Silikon 101": Jika Anda diminta memberikan kesimpulan, menurut Anda apakah menggunakan penelitian model kotak putih untuk membuka rahasia operasi model besar, di manakah bilah kemajuan saat ini?
Chen Yubei:Faktanya, tidak ada di antara kita yang mengetahui berapa lama bilah kemajuan ini. Saya rasa sebenarnya masih jauh dari tujuan ini. Ini belum tentu merupakan perkembangan linier, mungkin lebih seperti lompatan kuantum. Ketika pemahaman baru muncul, Anda mungkin akan segera mengambil langkah maju yang besar.

Jika Anda ingin membuat ChatGPT kotak putih, saya rasa ini masih cukup jauh, tetapi kami mungkin dapat membuat model yang cukup bagus dan dapat dipahami sepenuhnya yang dapat mereproduksi kemampuan AlexNet pada saat itu. Model ini dapat melakukan pengenalan Imagenet. Kita dapat memahami bagaimana ia melakukan setiap langkah, bagaimana ia berubah menjadi kucing dan anjing selangkah demi selangkah, dan kemudian bagaimana struktur kucing dan anjing ini dihasilkan.

Contoh WordNet yang digunakan oleh ImageNet

"Lembah Silikon 101":Apakah pengenalan ImageNet merupakan kotak putih atau kotak hitam?

Chen Yubei:Kami belum mengetahui cara kerjanya. Ada beberapa pemahaman dari beberapa visualisasi awal yang dilakukan oleh Matthew Zeiler dan Rob Fergus serta banyak peneliti, namun belum ada yang mampu membuat model yang dapat kami pahami setiap langkahnya dan tetap berfungsi dengan baik.
"Lembah Silikon 101":Jadi mungkin tujuan dari model kotak putih itu untuk dipentaskan. Misalnya, langkah pertama adalah menjelaskan cara kerja ImageNet. Setelah misteri terpecahkan, kami dapat menjelaskan cara kerja beberapa model kecil, seperti menggunakan GPT 4 untuk menjelaskan cara kerja GPT 2, lalu menjelaskan secara perlahan cara kerja model yang lebih besar model berfungsi.
Chen Yubei:Ya. Saya rasa proses ini masih memerlukan waktu yang cukup lama, dan dibutuhkan lebih banyak orang untuk berinvestasi ke arah ini. Karena sebagian besar pekerjaan saat ini berada di bidang teknik. Kalau kita terapkan di sekolah, sebenarnya Anda harus punya ide orisinal, daripada bilang Anda naik skala, dan saya akan naik skala, lalu semua orang berskala, dan pada akhirnya tidak ada perbedaan, semuanya tergantung pada siapa Mesin mana yang terbaik dan siapa yang memiliki data paling banyak?

03 Apa yang saya ketahui tentang Yann LeCun

"Lembah Silikon 101":Selanjutnya saya ingin berdiskusi dengan Anda, penasihat pascadoktoral Anda, Yann LeCun. Izinkan saya memperkenalkan Yann LeCun terlebih dahulu. Nama Cinanya adalah Yang Likun. Dia adalah seorang ilmuwan komputer Perancis. Dia telah memberikan banyak kontribusi di bidang pembelajaran mesin, visi komputer, robot seluler, dan ilmu saraf komputasi ". "Bapak Internet".

LeCun saat ini menjabat sebagai kepala ilmuwan AI di Meta dan menjabat sebagai profesor di Universitas New York. Dia memelopori jaringan saraf konvolusional (CNN) pada tahun 1980an, sebuah teknologi yang menjadi dasar visi komputer modern. LeCun, bersama Geoffrey Hinton dan Yoshua Bengio, menerima Turing Award 2018 atas karya perintis mereka dalam pembelajaran mendalam.
Bisakah Anda menjelaskan hasil penelitian ilmiah utama Yann kepada teman-teman non-teknis kita dan mengapa dia begitu terkenal?

Chen Yubei:Yann telah mempelajari bidang jaringan saraf AI sejak tahun 1980-an dan telah mengalami banyak pasang surut dan kemunduran di berbagai aliran pemikiran. Namun, dia selalu menekankan pada jaringan pembelajaran mendalam dan merupakan orang yang telah berjalan melewati kegelapan.

Misalnya, sangat sulit untuk mempublikasikan artikel terkait deep learning pada tahun 2000. Seberapa sulitkah itu? Jika ada kata Neural atau Jaringan di artikel Anda, kemungkinan Anda ditolak sangat tinggi.

Jadi saat itu adalah saat yang kelam bagi mereka, dan pendanaan juga terpengaruh. Namun mereka mampu bertahan dalam kegelapan ini dan tidak pernah menyerah, dan akhirnya keluar dari kegelapan ini. Saat ini, jaringan saraf dalam telah mengubah dunia dini hari.

Yann LeCun

"Lembah Silikon 101":Mengapa Anda memilih kelompoknya ketika Anda masih menjadi mahasiswa pascadoktoral?
Chen Yubei:Ini adalah petualangan yang cukup menarik. Saya sebenarnya cukup bingung saat itu dan bahkan tidak berpikir untuk lulus semester itu. Karena tekad saya adalah membuat model white-box selama saya Ph.D., dan kinerjanya harus sebanding dengan AlexNet, tetapi belum siap.

Saya pikir jika saya ingin melanjutkan penelitian saya, siapa yang harus saya tuju sebagai postdoc? Saya sedang rapat saat itu, lalu saya bertemu Yann di tempat tersebut. Saya sebenarnya bukan orang yang spekulatif. Saya pikir semua orang ingin menemukan Yann sebagai seorang postdoc, jadi ketika saya bertemu dengannya, saya terutama ingin berbicara tentang pandangannya tentang pekerjaan saya dan tentang masa depan AI .

Hasilnya, perbincangan di pertemuan tersebut sangat bagus. Dia juga memikirkan arah penelitian saya dan beberapa masalah yang saya pikirkan, tetapi dari perspektif jaringan saraf. Jadi saat itu dia bertanya apakah saya tertarik melamar posisi postdoctoral. Tentu saja saya melamar, jadi kami langsung cocok.

"Lembah Silikon 101":Mentor macam apa dia? Ini memberi siswa banyak ruang bebas untuk bereksplorasi, dan sangat membantu untuk berdiskusi dengan semua orang.
Chen Yubei:Pertama，Situasi kedua sudah tidak memungkinkan lagi baginya. Banyak orang yang membutuhkan waktunya, dan waktu yang dapat ia alokasikan untuk semua orang relatif tidak banyak.

Dia sebenarnya mirip dengan pembimbing PhD saya, dia sangat berjiwa bebas dalam beberapa arahan umum, tapi menurut saya kesamaan lain di antara mereka adalah mereka gigih pada apa yang mereka yakini, yaitu, dia mungkin memberi Anda arahan dan Target. Namun tidak peduli bagaimana Anda pergi, baik dengan perahu atau mobil, dia tidak akan mengontrol detail ini.
Faktanya, arahan umumnya tidak berubah selama bertahun-tahun. Pembelajaran selalu diawasi secara mandiri. Pembelajaran dengan pengawasan mandiri sebenarnya dibagi menjadi dua bagian. Bagian pertama adalah pengawasan mandiri berdasarkan persepsi. Bagian lain yang lebih penting adalah bagaimana melakukan pengawasan diri secara wujud, atau kita sekarang melakukan model dunia, yang merupakan arah yang diyakininya.

Sebenarnya saya memberinya nama ini karena saya membaca artikel berjudul World Model yang ditulis oleh David Ha dan Jürgen Schmidhuber, dan menurut saya nama itu cukup keren.

Arsitektur sistem untuk kecerdasan otonom, Mata AI

"Lembah Silikon 101":Apakah menurut Anda arah penelitian Yann berbeda dengan OpenAI dan Anthropic?
Chen Yubei:Jika saya benar-benar ingin mengatakan sesuatu yang berbeda, menurut saya yang diinginkan Yann adalah model tersebut harus memiliki beberapa karakteristik. Yang pertama adalah memiliki kemampuan untuk diwujudkan, yang berarti tidak hanya sekedar tumpukan data, tetapi model tersebut pada akhirnya dapat menjelajahi dunianya sendiri.
"Lembah Silikon 101":Apa bedanya? Tampaknya semua orang berharap untuk akhirnya mencapai hasil seperti itu.
Chen Yubei:Eksekusinya berbeda. Misalnya, OpenAI menurut saya adalah Scaling Law, yang berarti data yang lebih banyak dan lebih baik, kemudian lebih banyak penghitungan, dan model yang lebih besar. Tapi Yann masih lebih ilmiah. Apa yang dia pikirkan adalah jika kita ingin benar-benar mengarah pada kecerdasan yang lebih mirip manusia, apa sebenarnya yang dibutuhkan? Ia akan merasa bahwa mengumpulkan data saja tidak cukup.
"Lembah Silikon 101":Jadi Yann sebenarnya setara dengan penelitian kotak hitam dan kotak putih secara bersamaan.

Chen Yubei:Saya rasa Yann sebenarnya tidak terlalu peduli apakah ini bisa dikembangkan menjadi sebuah ilmu. Saat ini, menurut saya pandangannya sebagian besar bersifat empiris dan rekayasa. Dia berharap sistem ini bisa bekerja lebih baik sangat baik dalam hal.

"Lembah Silikon 101":Ketika OpenAI membuktikan bahwa Scaling Law dapat mencapai hasil yang baik, menurut Anda apakah Yann telah berubah dalam metode dan pemikiran penelitian ilmiahnya? Atau apakah dia masih berpegang teguh pada garis aslinya?

Chen Yubei:Faktanya, dia tidak menentang Scaling Law. Saya rasa tidak semua orang memiliki konflik dalam hal ini. Perbedaan nyata yang mungkin terjadi adalah banyak pekerjaan OpenAI yang sebenarnya masih berorientasi pada produk dan dieksekusi secara ekstrem di bidang teknik, namun Yann sebenarnya melakukan penelitian dalam bentuk yang lebih ilmiah.

Ketika memikirkan masalah ini, sebenarnya dia tidak banyak berhubungan dengan produk. Dia hanya memikirkan satu hal, yaitu bagaimana mencapai kecerdasan. Karena ia sudah terlalu lama berkecimpung di bidang ini dan sudah menggeluti bidang ini selama lebih dari delapan tahun, sehingga ia mungkin masih berpegang teguh pada cita-citanya dalam melihat permasalahan tersebut.

"Lembah Silikon 101":Membiarkan kecerdasan belajar secara mandiri adalah ciri pertama penelitian Yann.

Chen Yubei:Ada juga yang selama ini Yann yakini bernama JEPA, Joint Embedding Predictive Architecture. Artinya, tentu saja model harus memiliki kemampuan untuk belajar secara mandiri, namun yang lebih penting dari ini adalah model tersebut juga dapat mempelajari beberapa aturan tingkat yang lebih tinggi saat mempelajari data.

Faktanya, saat ini ada dua kelompok. Satu kelompok berharap dapat merekonstruksi data secara menyeluruh melalui pembelajaran, yang dapat dianggap sebagai ide kompresi. Namun, Yann tidak ingin kembali sepenuhnya ke gambar ini karena merekonstruksi gambar ini mengandung terlalu banyak detail rincian bukanlah informasi yang paling penting ketika membuat penilaian tentang sistem.

"Lembah Silikon 101":Apakah poin ini berbeda dengan mentor Anda Ma Yi di Berkeley?

Chen Yubei:Sebenarnya tidak ada pertentangan mendasar di antara mereka dalam sudut pandang ini, namun cara mengungkapkannya berbeda. Guru Ma merasa bahwa hukum dunia ini sederhana. Yann percaya bahwa rincian ini sebenarnya merugikan tugas-tugas hilir atau beberapa penilaian, sehingga perlu untuk menemukan hukum tingkat tinggi tersebut.

Sebenarnya keduanya sama, karena aturan tingkat tinggi pada umumnya sederhana. Guru Ma sering mengatakan bahwa semuanya adalah kompresi. Jika dilihat dari sudut pandang Yann, Anda akan menemukan bahwa kompresi memang benar, tetapi struktur hierarki datanya sebenarnya berbeda.

Karena dunia nyata itu kompleks, jika Anda menggali detailnya di dunia nyata, Anda akan menemukan bahwa banyak hal yang sebenarnya merupakan struktur tingkat rendah. Ada struktur dalam data, dan segala sesuatu yang memiliki struktur merupakan cerminan dari penyimpangan dari kebisingan. Artinya, apa pun yang tidak memiliki struktur sama sekali adalah kebisingan, dan apa pun yang meninggalkan kebisingan berarti ada struktur.

Kita akan mempelajari struktur ini, tetapi ada tingkatan struktur yang berbeda. Namun ketika Anda naik satu tingkat, ke skala yang lebih besar, Anda akan menemukan bahwa struktur sebenarnya tidak penting lagi. Jika Anda melihatnya pada tingkat itu, hal-hal ini sudah menjadi seperti kebisingan.

Jadi pandangan Yann adalah bahwa kompresi itu benar, tetapi kita memerlukan pembelajaran hierarkis untuk mempelajari semua struktur dalam sinyal dan mempelajari struktur yang lebih tinggi dan lebih tinggi. Namun, struktur yang paling canggih seringkali tidak memperhitungkan sebagian besar dari keseluruhan kompresi, dan mungkin hilang selama proses optimasi, karena banyak hal berada pada level rendah, dan jumlah informasi seperti noise adalah yang terbesar. semakin tinggi struktur tersebut semakin sulit dilihat semakin jauh Anda berjalan.

Mengapa? Karena fungsi kerugian yang dioptimalkan adalah fungsi tujuan Anda, baik Anda menemukan aturan ini atau tidak, mungkin berdampak kecil pada kerugian Anda. Saya pikir yang utama adalah dua poin ini, satu adalah model dunia, dan yang lainnya adalah representasi hierarkis.

Yann LeCun berbicara di NYU

"Lembah Silikon 101":Kualitas apa yang menurut Anda paling mengesankan bagi Anda?

Chen Yubei:Yang paling membuat saya terkesan mungkin adalah konsentrasi dan kemurnian dalam melakukan sesuatu.

Suatu kali aku makan siang bersama Yann, dan dia berkata bahwa aku memiliki semua yang kamu inginkan ketika kamu masih muda, tapi aku tidak punya banyak waktu lagi, jadi dia hanya bisa menggunakan sisa waktu untuk melakukan hal-hal yang benar-benar dia yakini. .

Ketika Anda bekerja dengan ilmuwan seperti itu, Anda mungkin terpengaruh oleh temperamen mereka, sehingga bahkan sebelum Anda mencapai posisi mereka sekarang dan apa yang mereka miliki, Anda dapat melihat dunia sedikit dari sudut pandang mereka.

Jadi ketika Anda membuat pilihan atau melakukan sesuatu, Anda mungkin melampaui posisi Anda saat ini, dan Anda mungkin berpikir tentang apa yang akan saya lakukan jika suatu hari saya memiliki semuanya seperti dia.

"Lembah Silikon 101":Apakah dia mengubah keputusan Anda?

Chen Yubei:Ya, itu akan membuat saya memikirkan hal ini ketika membuat banyak pilihan. Saya ingat pada hari pertama studi PhD saya, supervisor saya memberi tahu saya dua hal.

Salah satunya adalah dia tidak membutuhkan saya untuk menerbitkan banyak artikel, namun saya berharap artikel yang bisa saya terbitkan dapat melintasi waktu, sehingga meskipun saya membaca artikel ini 20 tahun kemudian, tetap segar. Ini sebenarnya sangat sulit, karena banyak pekerjaan memiliki pemahaman yang berbeda terhadap zaman, tetapi beberapa pemikiran yang benar-benar mendalam mungkin masih bertahan ratusan tahun. Ini adalah tujuan yang sangat tinggi, dan Anda mungkin dapat mencapainya ketika Anda sudah siap untuk pensiun. Diverifikasi. Namun hal tersebut menimbulkan siksaan jiwa, yaitu apakah Anda bisa bertahan dalam melakukan suatu pekerjaan yang bisa hidup berdampingan dengan waktu.

Kedua, ia berharap seorang ulama harus mempunyai sikap sendiri-sendiri. Jika menurut Anda sesuatu bisa dilakukan oleh a, b, atau Anda, sebaiknya jangan dilakukan. Artinya, ketika Anda melakukan hal ini, Anda akan menemukan bahwa bukan pekerjaan ini yang membutuhkan Anda, tetapi Andalah yang membutuhkan pekerjaan ini. Ini adalah mentalitas spekulatif. Ini sebenarnya adalah temperamen serupa yang saya lihat pada diri mereka, yaitu, mereka berharap untuk tidak mengikuti orang banyak, namun memiliki sikap mereka sendiri dan menemukan suara mereka sendiri.

Jadi ketika saya memilih arah penelitian, saya akan menilai dari waktu ke waktu apakah pekerjaan yang saya lakukan itu spekulatif atau benar-benar andalan.

Saya pikir hal hebat tentang mereka, terutama Yann, adalah Anda dapat melewati masa-masa yang hampir menyedihkan ini dan mengantarkan fajar. Orang yang belum pernah mengalami kesulitan mungkin tidak bisa cukup tenang. Saat Anda melewati momen tergelap, gunakan visi dan ketekunan Anda untuk melewati periode waktu yang singkat ini, dan kemudian buktikan bahwa itu benar temperamen yang sangat menarik.

"Lembah Silikon 101":Apakah ada pandangan ilmiah Yann yang tidak Anda setujui?

Chen Yubei:Terkadang dia blak-blakan. Misalnya, dia baru-baru ini mengatakan bahwa jika Anda seorang peneliti, sebaiknya Anda tidak mempelajari model bahasa yang besar. Kalimat ini memiliki banyak penafsiran. Jika diartikan secara harfiah, banyak orang yang tidak setuju, termasuk saya. Saya mungkin merasa ada beberapa struktur dalam model bahasa besar yang layak untuk dipahami dan dipelajari.

Tentu saja yang mungkin ingin disampaikan oleh Yann adalah apa yang baru saja saya sebutkan, jangan melakukan pekerjaan spekulatif seperti A dan B. Saya berharap para peneliti memiliki ketekunan dan menemukan lebih banyak kontribusi orisinal. Jika dikatakan seperti ini, saya sebenarnya berpikir saya akan lebih setuju. Namun sebagai huruf V besar, terkadang perkataannya akan membuat Anda kaget dan memicu banyak diskusi. Itu adalah tempat yang menurut saya sangat menarik.

"Lembah Silikon 101":Anda juga pernah bekerja di Meta. Menurut Anda, apa kontribusi terbesar Yann bagi Meta?

Chen Yubei:Hal pertama yang harus dilakukan adalah membantu membangun Meta AI. Ketika dia berencana untuk membangun Meta AI, Mark pertama kali menemukannya. Selain itu, karena dia bekerja di Bell Labs pada tahun-tahun awalnya, dia mendambakan keadaan Bell Labs saat itu, jadi dia juga memiliki cita-cita untuk mereplikasi laboratorium semacam itu. di Meta. Mengikuti konsep ini, dia juga merekrut dan melatih sekelompok orang yang sangat baik di Meta AI, memberikan kontribusi besar pada bidang ini dan mendorong pengembangan seluruh bidang.

"Lembah Silikon 101":Saya pikir open source harus dianggap sebagai kontribusi yang sangat penting, misalnya alasan Meta llama mengambil jalur open source harus sangat konsisten dengan ide Yarn secara keseluruhan.

Chen Yubei:Ya, ya, open source memang merupakan hal yang ditekankan oleh Yann. Tapi saya tidak tahu apakah Meta akan terus menjadi open source di masa depan, karena bagaimanapun Meta juga akan menghadapi persaingan, tapi menurut saya ini adalah konsep Yann. Seberapa baik itu bisa diimplementasikan pada akhirnya dan seberapa jauh itu bisa berjalan sebenarnya tergantung pada perkembangan keseluruhan.

"Lembah Silikon 101":Apakah menurut Anda seluruh penelitian model besar sekarang harus didorong oleh para ilmuwan? Atau akankah hal ini perlahan-lahan menjadi hal yang didorong oleh rekayasa?

Chen Yubei:Saya rasa hal ini didorong oleh rekayasa. Dalam dua tahun terakhir, menurut saya kemajuan utama berasal dari pelaksanaan proyek. Apakah kualitas datanya menjadi lebih tinggi? Apakah datanya bertambah? Apakah distribusinya menjadi lebih kaya? Bisakah perhitungan diparalelkan? Semua disebabkan oleh detail yang sangat penting di bidang teknik. Pembangunan dari 0 hingga 1 memerlukan terobosan ilmiah, namun dari 1 hingga 100 memerlukan ketelitian teknik dan kemampuan pelaksanaan. Orang-orang dengan peran berbeda diharuskan untuk mempromosikannya pada tahapan yang berbeda.

"Lembah Silikon 101":Semua orang sekarang menantikan GPT 5. Apakah menurut Anda jika GPT 5 keluar, apakah ini lebih merupakan masalah ilmiah atau masalah teknik?

Chen Yubei:Saya pikir jalan yang harus ditempuh dalam bidang teknik masih panjang. Kita bahkan mungkin berpikir bahwa Scaling Law masih memiliki jalan yang panjang, dan belum ada akhir yang terlihat, termasuk kualitas data dan perluasan daya komputasi. Namun pada saat yang sama, saya pikir meskipun cara paling ampuh yang kami temukan saat ini adalah Scaling Law, hal tersebut jelas tidak cukup.

Jadi apa lagi yang kita butuhkan? Menurut saya yang dibutuhkan adalah efisiensi tinggi seperti manusia. Ini mungkin dipicu oleh data, tapi mungkin juga karena hal lain, jadi menurut saya jika kita berbicara tentang proses menuju AGI, seharusnya ada perubahan yang relatif besar dari 0 ke 1.

"Lembah Silikon 101":Sekalipun ada kemajuan ilmiah, masih banyak ruang untuk perbaikan di bidang teknik.

berita

Mari kita bahas tentang cara memikirkan model besar dengan ilmuwan pembelajaran mendalam Yann LeCun

Perkenalan

Informasi kontak saya