berita

Yang Likun tidak optimis dengan pembelajaran penguatan: "Saya lebih suka MPC"

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Judul asli: Yann LeCun tidak optimis dengan pembelajaran penguatan: "Saya lebih suka MPC"

Editor: Zhang Qian, Xiaozhou

Apakah teori yang terjadi lebih dari lima puluh tahun yang lalu layak untuk dipelajari kembali?

“Saya lebih memilih model kontrol prediktif (MPC) daripada pembelajaran penguatan (RL). Saya telah mengatakan ini setidaknya sejak tahun 2016. Pembelajaran penguatan memerlukan sejumlah besar uji coba untuk mempelajari tugas baru. Sebaliknya, kontrol prediktif model adalah nol. -shot: jika Anda memiliki model dunia yang baik dan sasaran tugas yang baik, kontrol prediktif model dapat menyelesaikan tugas-tugas baru tanpa memerlukan pembelajaran khusus tugas. Ini tidak berarti pembelajaran penguatan tidak berguna, tetapi itu penggunaan harus menjadi pilihan terakhir.”

Dalam postingannya baru-baru ini, Yann LeCun, kepala ilmuwan kecerdasan buatan di Meta, mengungkapkan pandangan ini.

Yann LeCun telah lama mengkritik pembelajaran penguatan. Ia percaya bahwa pembelajaran penguatan memerlukan banyak eksperimen dan sangat tidak efisien. Hal ini sangat berbeda dengan cara manusia belajar—alih-alih mengidentifikasi objek dengan melihat jutaan sampel dari objek yang sama, atau mencoba hal-hal berbahaya dan belajar darinya, bayi belajar dari objek tersebut dengan mengamati, memprediksi, dan berinteraksi dengannya, bahkan tanpa pengawasan. .

Dalam pidatonya setengah tahun yang lalu, dia bahkan menganjurkan "meninggalkan pembelajaran penguatan" (lihat "Jalur penelitian GPT-4 tidak memiliki masa depan? Yann LeCun menjatuhkan hukuman mati pada autoregresi"). Namun dalam wawancara berikutnya, dia menjelaskan bahwa dia tidak bermaksud untuk menyerah sepenuhnya, namun untuk meminimalkan penggunaan pembelajaran penguatan, dan bahwa cara yang benar untuk melatih suatu sistem adalah dengan terlebih dahulu membuatnya belajar dari sebagian besar observasi (dan mungkin a sedikit interaksi) Mempelajari representasi dunia dan model dunia yang baik.

Pada saat yang sama, LeCun juga menunjukkan bahwa dia lebih memilih MPC (model kontrol prediktif) daripada pembelajaran penguatan.

MPC adalah teknologi yang menggunakan model matematika untuk mengoptimalkan sistem kendali secara real time dalam waktu terbatas. Sejak diperkenalkan pada tahun 1960an dan 1970an, MPC telah banyak digunakan di berbagai bidang seperti teknik kimia, penyulingan minyak, manufaktur maju, robotika, dan lain-lain. dan luar angkasa. Misalnya, beberapa waktu lalu, Boston Dynamics berbagi pengalaman bertahun-tahun dalam menggunakan MPC untuk pengendalian robot (lihat "Teknologi Boston Dynamics Terungkap: Backflip, Push-up dan Rollover, Ringkasan Pengalaman dan Pelajaran 6 Tahun").

Salah satu perkembangan terbaru MPC adalah integrasinya dengan teknik pembelajaran mesin yang dikenal dengan ML-MPC. Dalam pendekatan ini, algoritma pembelajaran mesin digunakan untuk memperkirakan model sistem, membuat prediksi, dan mengoptimalkan tindakan kontrol. Kombinasi pembelajaran mesin dan MPC ini berpotensi memberikan peningkatan signifikan dalam performa dan efisiensi kontrol.

Penelitian terkait model dunia LeCun juga menggunakan teori terkait MPC.

Baru-baru ini, preferensi LeCun terhadap MPC telah menarik perhatian komunitas AI.

Ada yang mengatakan MPC akan berfungsi dengan baik jika permasalahan kita dimodelkan dengan baik dan memiliki dinamika yang dapat diprediksi.

Mungkin bagi para ilmuwan komputer, masih banyak hal yang perlu ditelusuri di bidang pemrosesan dan kontrol sinyal.

Namun, beberapa orang menunjukkan bahwa menyelesaikan model MPC yang akurat adalah masalah yang sulit, dan premis dalam sudut pandang LeCun - "jika Anda memiliki model dunia yang baik" itu sendiri sulit untuk dicapai.

Beberapa orang juga mengatakan bahwa pembelajaran penguatan dan MPC tidak selalu merupakan hubungan satu-atau-satu, dan keduanya mungkin memiliki skenario penerapannya masing-masing.

Telah ada beberapa penelitian sebelumnya yang menggunakan kombinasi keduanya, dengan hasil yang baik.

Pembelajaran penguatan vs MPC

Pada diskusi sebelumnya, beberapa netizen merekomendasikan artikel Medium yang menganalisis dan membandingkan pembelajaran penguatan dan MPC.

Selanjutnya mari kita analisa secara detail kelebihan dan kekurangan keduanya berdasarkan blog teknis ini.

Pembelajaran penguatan (RL) dan kontrol prediktif model (MPC) adalah dua teknik ampuh untuk mengoptimalkan sistem kontrol. Kedua pendekatan tersebut memiliki kelebihan dan kekurangannya masing-masing, dan cara terbaik untuk memecahkan suatu masalah bergantung pada kebutuhan spesifik dari suatu masalah tertentu.

Lantas, apa saja kelebihan dan kekurangan kedua metode tersebut, serta masalah apa saja yang cocok untuk dipecahkan?

pembelajaran penguatan

Pembelajaran penguatan adalah metode pembelajaran mesin yang belajar melalui trial and error. Ini sangat cocok untuk memecahkan masalah dengan dinamika kompleks atau model sistem yang tidak diketahui. Dalam pembelajaran penguatan, agen belajar mengambil tindakan di lingkungan untuk memaksimalkan sinyal penghargaan. Agen berinteraksi dengan lingkungan, mengamati keadaan yang dihasilkan dan mengambil tindakan. Agen kemudian diberi penghargaan atau hukuman berdasarkan hasilnya. Seiring waktu, agen akan belajar mengambil tindakan yang menghasilkan imbalan yang lebih positif. Pembelajaran penguatan memiliki beragam aplikasi dalam sistem kontrol, yang bertujuan untuk menyediakan metode adaptif dinamis untuk mengoptimalkan perilaku sistem. Beberapa aplikasi umum meliputi:

Sistem otonom: Pembelajaran penguatan digunakan dalam sistem kendali otonom, seperti mengemudi otonom, drone, dan robot, untuk mempelajari strategi kendali optimal untuk navigasi dan pengambilan keputusan.

Robotika: Pembelajaran penguatan memungkinkan robot mempelajari dan menyesuaikan strategi kontrolnya untuk menyelesaikan tugas seperti menggenggam objek, memanipulasi, dan bergerak dalam lingkungan dinamis yang kompleks.

......

Alur kerja pembelajaran penguatan (RL).

Agen: pembelajar dan pengambil keputusan.

Lingkungan: Lingkungan atau entitas tempat agen berinteraksi. Agen mengamati dan mengambil tindakan untuk mempengaruhi lingkungan.

Negara: Penjelasan lengkap tentang keadaan dunia. Agen dapat mengamati keadaan secara keseluruhan atau sebagian.

Hadiah: Umpan balik skalar yang menunjukkan kinerja agen. Tujuan agen adalah memaksimalkan total imbalan jangka panjang. Agen mengubah strateginya berdasarkan imbalan.

Ruang tindakan: Serangkaian tindakan valid yang dapat dilakukan agen di lingkungan tertentu. Tindakan yang terbatas merupakan ruang tindakan yang terpisah; tindakan yang tidak terbatas merupakan ruang tindakan yang berkelanjutan.

kontrol prediktif model

Model Predictive Control (MPC) adalah strategi pengendalian yang banyak digunakan dan telah diterapkan di banyak bidang, termasuk pengendalian proses, robotika, sistem otonom, dll.

Prinsip inti MPC adalah menggunakan model matematis suatu sistem untuk memprediksi perilaku masa depan dan kemudian menggunakan pengetahuan tersebut untuk menghasilkan tindakan pengendalian guna memaksimalkan sasaran kinerja tertentu.

Setelah bertahun-tahun melakukan perbaikan dan penyempurnaan terus-menerus, MPC kini dapat menangani sistem yang semakin kompleks dan masalah pengendalian yang sulit. Seperti yang ditunjukkan pada gambar di bawah, pada setiap interval kendali, algoritma MPC menghitung rangkaian loop terbuka dari rentang kendali untuk mengoptimalkan perilaku pembangkit dalam rentang yang diprediksi.

Skema MPC diskrit.

Penerapan MPC dalam sistem kendali meliputi:

industri proses

sistem tenaga

kendali mobil

robotika

Diantaranya, MPC digunakan dalam sistem robot untuk merencanakan dan mengoptimalkan lintasan gerak guna memastikan pergerakan lengan robot dan platform robot yang lancar dan efisien dalam berbagai aplikasi, termasuk manufaktur dan logistik.

Tabel berikut mencantumkan perbedaan antara pembelajaran penguatan dan MPC dalam hal model, metode pembelajaran, kecepatan, ketahanan, efisiensi sampel, skenario yang berlaku, dll. Secara umum, pembelajaran penguatan merupakan pilihan yang cocok untuk permasalahan yang sulit untuk dimodelkan atau memiliki dinamika yang kompleks. MPC adalah pilihan yang baik untuk permasalahan yang dimodelkan dengan baik dan dapat diprediksi secara dinamis.

Salah satu kemajuan terbaru dalam MPC adalah integrasi dengan teknologi pembelajaran mesin yang dikenal dengan ML-MPC. ML-MPC mengadopsi metode kontrol yang berbeda dari MPC tradisional, menggunakan algoritma pembelajaran mesin untuk memperkirakan model sistem, memprediksi dan menghasilkan tindakan kontrol. Ide utama di baliknya adalah menggunakan model berbasis data untuk mengatasi keterbatasan MPC tradisional.

MPC berbasis pembelajaran mesin dapat beradaptasi dengan perubahan kondisi secara real time, sehingga cocok untuk sistem yang dinamis dan tidak dapat diprediksi. Dibandingkan dengan MPC berbasis model, MPC berbasis pembelajaran mesin dapat memberikan akurasi yang lebih tinggi, terutama dalam sistem yang kompleks dan sulit untuk dimodelkan.

Selain itu, MPC berbasis pembelajaran mesin dapat mengurangi kompleksitas model, sehingga lebih mudah untuk diterapkan dan dipelihara. Namun dibandingkan dengan MPC tradisional, ML-MPC juga memiliki beberapa keterbatasan, seperti kebutuhan data dalam jumlah besar untuk melatih model, interpretasi yang buruk, dan sebagainya.

Tampaknya perjalanan para ilmuwan komputer masih panjang sebelum mereka benar-benar dapat memperkenalkan MPC ke dalam bidang AI.

Tautan referensi: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27