berita

Zhang Zhengyou, kepala ilmuwan Tencent: Memasukkan model besar ke dalam robot tidak dapat menghasilkan kecerdasan yang nyata

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhang Zhengyou Kepala Ilmuwan Tencent, Direktur Laboratorium Tencent Robotics X

Untuk mengeksplorasi secara mendalam hubungan manusia-mesin di era AI dan mengarahkan masyarakat untuk bersama-sama memikirkan peluang pembangunan ekonomi dan strategi respons sosial di era simbiosis manusia-mesin, Tencent Research Institute bersama-sama menyelenggarakan Qianhai Institute of International Affairs , Qingteng, Perusahaan Taman Sains dan Teknologi Hong Kong dan institusi lainnyaProspek hubungan manusia-mesin di era AIForum, ini jugaSeminar Tingkat Tinggi Seri Kecerdasan Buatan + Pembangunan Sosialdari edisi kedua.
Di forum tersebut, Zhang Zhengyou, kepala ilmuwan Tencent dan direktur Tencent Robotics "Hierarkis" mencakup tiga tingkat kendali atas ontologi, lingkungan, dan tugas. Keuntungan dari kecerdasan yang diwujudkan secara hierarkis adalah bahwa pengetahuan di setiap tingkat dapat terus diperbarui dan diakumulasikan, dan kemampuan antar tingkat dapat dipisahkan.Robotika Tencent

Mengenai bagaimana robot cerdas akan memasuki kehidupan manusia, Zhang Zhengyou berkata: "Dalam jangka panjang, robot pasti akan memasuki ribuan rumah tangga. Saat ini, robot mungkin akan membawa perubahan besar pada bidang rehabilitasi, perawatan lansia, dan pendidikan yang dipersonalisasi. .

Berikut teks lengkap dari sharing Zhang Zhengyou:


Para pemimpin yang terhormat, tamu-tamu terhormat, guru-guru terhormat, dan siswa-siswa terhormat: Selamat siang semuanya. Hari ini saya ingin berbagi dengan Anda beberapa tantangan dan kemajuan mengenai kecerdasan yang diwujudkan.

Mengenai kecerdasan yang diwujudkan, istilah ini tiba-tiba menjadi populer tahun lalu, dan semua orang menganggapnya keren. Faktanya, kecerdasan yang diwujudkan adalah relatif terhadap kecerdasan yang tidak diwujudkan. ChatGPT memiliki kecerdasan tanpa tubuh. Bagi saya, agen yang diwujudkan adalah robot yang cerdas. Soal kecerdasan ini harus punya tubuh atau tidak, kita yang membuat robot pasti ingin punya tubuh. Hanya dengan punya tubuh kecerdasan bisa berkembang lebih baik.

Pada awal tahun 2018, Ketua dan CEO Tencent Ma Huateng memutuskan untuk mendirikan Tencent Robotics Orang mati yang berjalan, jiwa tanpa tubuh adalah hantu ketiadaan. Kami tidak membuat orang mati berjalan, kami tidak ingin hantu berkeliaran, kami menciptakan robot yang membantu manusia secara harmonis!” Artinya, kami ingin menciptakan robot cerdas untuk meningkatkan kecerdasan manusia dan mengeluarkan potensi fisik manusia, mendorong interaksi antara manusia dan robot, dan menyambut era hidup berdampingan -penciptaan dan win-win antara manusia dan robot, inilah niat awal kami mendirikan Tencent Robotics X.

Faktanya, masih menjadi kontroversi apakah kecerdasan memerlukan perwujudan. Kontroversi ini terutama berkisar pada ilmu kognitif. Dalam bidang ini, semua orang percaya bahwa banyak karakteristik kognitif memerlukan karakteristik organisme secara keseluruhan untuk membentuk kecerdasan organisme. Namun, sebagian orang percaya bahwa kecerdasan tidak memerlukan tubuh, karena yang utama kita hadapi adalah pemrosesan informasi, pemecahan masalah, dan pemecahan masalah. dan pengambilan keputusan dan tata kelola, serta tugas-tugas lainnya, yang semuanya dapat dicapai melalui perangkat lunak dan algoritma. Istilah dan konsep kecerdasan yang diwujudkan telah ada sejak lama. Bagi banyak orang, tubuh sangat penting bagi kecerdasan, karena kecerdasan berasal dari interaksi antara suatu organisme dan lingkungannya, dan interaksi antara keduanya bersifat kondusif bagi pertumbuhan dan perkembangan. pengembangan kecerdasan.

Melihat ke belakang, Turing menulis artikel pada tahun 1950 yang membahas cara mencapai kecerdasan mesin. Terlihat bahwa sebagian orang beranggapan bahwa beberapa aktivitas yang sangat abstrak, seperti bermain catur, dapat digunakan untuk mencapai prestasi (kecerdasan), dan sebagian lagi beranggapan bahwa mesin harus memiliki beberapa Organ (organ), seperti pengeras suara (mikrofon). untuk membantu Kami mewujudkan kecerdasan mesin lebih cepat. Namun Turing sendiri mengaku belum mengetahui kategori mana yang terbaik. Ketika Open AI pertama kali membeli ratusan lengan robot, mereka langsung berharap dapat menggunakan robot untuk mengimplementasikan AGI. Setelah lebih dari setahun bekerja keras, mereka menemukan bahwa jalan ini untuk sementara tidak dapat dijalankan, sehingga mereka menyerah dan fokus pada berbasis teks. model, dan akhirnya ChatGPT berhasil dikembangkan.

Robot memiliki sejarah yang panjang. Awalnya merupakan otomatisasi senjata mekanis di jalur produksi, yang berarti menyelesaikan serangkaian tindakan di lingkungan yang diketahui dan memerlukan kontrol yang tepat. Meskipun robot jenis ini memiliki kemampuan pengoperasian yang sangat kuat, kemampuan pengoperasian ini telah diprogram sebelumnya untuk lingkungan tetap dan tidak memiliki kecerdasan.

Memasuki era model besar, sebagian orang menganggap model besar sangat bertenaga dan bisa langsung diimplementasikan pada robot. Bagaimana situasinya sekarang? Analoginya, ini setara dengan menempatkan otak berusia 20 tahun ke dalam tubuh berusia 3 tahun. Meskipun robot memiliki kemampuan gerak tertentu, namun kemampuan pengoperasiannya sangat lemah. Kecerdasan yang diwujudkan secara nyata harus mampu belajar dan menangani masalah secara mandiri, serta mampu menyesuaikan dan merencanakan secara otomatis ketika lingkungan berubah dan tidak menentu. Ini adalah proses yang sangat penting yang kami yakini dapat mengarah pada AGI atau terciptanya robot cerdas secara umum.

Secara khusus,Kecerdasan yang diwujudkan adalah kemampuan agen dengan pembawa fisik (robot cerdas) untuk mengumpulkan pengetahuan dan keterampilan melalui persepsi, kontrol dan pembelajaran otonom dalam serangkaian interaksi, membentuk kecerdasan dan mempengaruhi dunia fisik. Hal ini berbeda dengan ChatGPT. Kecerdasan yang diwujudkan memperoleh pengetahuan melalui metode persepsi mirip manusia (penglihatan, pendengaran, bahasa, sentuhan), dan mengabstraksikannya ke dalam ekspresi semantik untuk memahami dunia, mengambil tindakan, dan berinteraksi dengan dunia. Hal ini melibatkan integrasi berbagai disiplin ilmu, termasuk otomasi teknik mesin, optimasi kontrol sistem tertanam, ilmu kognitif, ilmu saraf, dll. Ini adalah kemampuan yang dapat muncul setelah semua bidang berkembang sampai batas tertentu.

Kecerdasan yang terkandung menghadapi banyak tantangan.

Yang pertama adalah kemampuan persepsi yang kompleks, termasuk penglihatan dan pendengaran. Kini model besar termasuk GPT-4o hanya mencakup penglihatan dan pendengaran, dan tanpa sentuhan. Untuk mewujudkan kecerdasan, sentuhan sangatlah penting. Robot harus memiliki kemampuan persepsi yang kompleks untuk memahami dan memahami lingkungan dan objek yang tidak dapat diprediksi dan tidak terstruktur di sekitar mereka.

Yang kedua adalah kemampuan eksekusi yang kuat, termasuk gerakan, genggaman, dan manipulasi untuk dapat berinteraksi dengan lingkungan dan objek.

Ketiga, kemampuan belajar, yaitu kemampuan belajar dan beradaptasi dari pengalaman dan data agar lebih memahami dan menyikapi perubahan lingkungan.

Yang keempat adalah kemampuan adaptif, yaitu kemampuan untuk secara mandiri menyesuaikan perilaku dan strategi agar dapat mengatasi berbagai lingkungan dan tugas dengan lebih baik.

Yang kelima sangat penting. Bukan superposisi dari kemampuan-kemampuan ini yang akan mencapai kecerdasan yang diwujudkan, tetapi integrasi kolaboratif yang organik dan efisien dari kemampuan-kemampuan ini untuk benar-benar mencapai kecerdasan yang diinginkan yang sedang kita bicarakan.

Keenam, dalam proses ini, data yang kita butuhkan sangat langka. Open AI awalnya berharap dapat mencapai AGI secara langsung melalui robot, namun kemudian menyerah karena kurangnya data data adalah tantangan yang sangat besar. Privasi pengguna juga perlu dilindungi saat mengumpulkan data dalam skenario sebenarnya.

Ketujuh, karena kecerdasan yang diwujudkan perlu hidup di habitat manusia, maka ia harus menjamin keselamatan dirinya dan lingkungannya.

Kedelapan adalah persoalan etika sosial. Ketika robot berinteraksi dengan manusia, robot harus mengikuti norma moral dan hukum serta melindungi kepentingan dan martabat manusia.

Banyak pekerjaan yang perlu dilakukan untuk mencapai kecerdasan yang diwujudkan. Saat ini, semua orang berpikir bahwa model besar dapat memecahkan masalah robot cerdas. Saya telah membuat gambaran di sini, yang setara dengan memasukkan model besar ke dalam kepala robot . Tampaknya sudah terpecahkan. Tapi ini hanya sebagian dari cerita. Kami berharap kecerdasan dan ontologi akan terintegrasi secara organik, sehingga kecerdasan nyata dapat muncul dari interaksi antara robot dan lingkungan.

Untuk mencapai visi tersebut,Saya pikir paradigma pengendalian perlu diubah. Jika melihat buku teks robot, paradigma kendali tradisional adalah proses loop tertutup dari persepsi terlebih dahulu, persepsi diikuti perencanaan, perencanaan diikuti tindakan, dan tindakan diikuti persepsi. Paradigma kontrol ini tidak dapat mencapai kecerdasan. Pada tahun 2018 saya mengusulkan “paradigma SLAP”, dimana S adalah persepsi, L adalah pembelajaran, A adalah tindakan, dan P adalah perencanaan. Persepsi dan tindakan perlu terkait erat untuk merespons perubahan lingkungan secara real time. Di atasnya terdapat rencana untuk memecahkan masalah yang lebih kompleks. Pembelajaran meresapi setiap modul, mampu belajar dari pengalaman dan data, serta mampu menyesuaikan perilaku dan strategi sendiri secara mandiri. Paradigma SLAP ini sangat mirip dengan kecerdasan manusia.

Pemenang Hadiah Nobel Daniel Kahneman memiliki buku berjudul "Thinking, Fast and Slow", yang meyakini bahwa otak manusia memiliki dua sistem, Sistem pertama, Sistem 1, lebih intuitif dan menyelesaikan masalah dengan cepat. Sistem kedua adalah pemikiran yang lebih mendalam, pemikiran rasional, yang disebut Sistem 2. Faktanya, orang menghabiskan 95% waktunya di Sistem 1, dan hanya perlu menjadwalkan Sistem 2 untuk tugas-tugas yang sedikit dan rumit. Jadi mengapa otak manusia begitu efisien? Hanya membutuhkan beberapa puluh watt untuk menyelesaikan masalah berpikir, dan bahkan GPU mengkonsumsi Tidak diperlukan energi. Hal ini karena manusia dapat menyelesaikan 95% masalah di Sistem 1, dan hanya tugas sulit yang masuk ke Sistem 2.

Paradigma SLAP yang saya usulkan, pada tingkat paling bawah, berkaitan erat antara persepsi dan tindakan untuk menyelesaikan otonomi reaktif, yang sesuai dengan Sistem 1. Otonomi sadar adalah untuk mencapai pemikiran dan pemikiran rasional Sistem 2.

Menurut paradigma SLAP, dikombinasikan dengan pengetahuan tentang bagaimana otak manusia dan otak kecil mengendalikan anggota tubuh, kami mengembangkan sistem kecerdasan yang diwujudkan secara hierarkis, dibagi menjadi tiga lapisan: lapisan bawah adalah Proprioception, yang sesuai dengan persepsi robot tentang Tempat sinyal motor yang mengontrol pergerakan motor.

Lapisan kedua adalah Eksterosepsi, yaitu persepsi terhadap lingkungan. Melalui kecerdasan persepsi terhadap lingkungan, diketahui kemampuan apa saja yang perlu dipanggil untuk menyelesaikan tugas.

Lapisan atas terkait dengan tugas dan disebut Perencana Tingkat Strategis. Hanya dengan merencanakan tugas tertentu, lingkungan, dan kemampuan tubuh robot, tugas tersebut dapat diselesaikan dengan baik.

Di bawah ini saya akan memberikan beberapa demonstrasi spesifik. Pengendalian gerak pada tingkat terendah (Tingkat Proprioception) juga dipelajari dari data. Di sini, seekor anjing sungguhan diperbolehkan berlari terus menerus di atas treadmill dan pengumpulan data dilakukan secara bersamaan. Melalui pembelajaran imitasi dan pembelajaran penguatan, robot dapat mempelajari gerakan yang mirip dengan anjing sungguhan. Kami menggunakan dunia virtual dan dunia nyata yang terintegrasi, kembaran digital, dunia virtual dan nyata yang terpadu. Apa yang kita lihat di sini hanyalah metode pergerakan luar anjing, tetapi bagaimana robot bergerak, berapa banyak gaya yang diperlukan, dan kekuatan sinyal dari sendi dan motor yang akan dikirim semuanya perlu diperoleh melalui pembelajaran penguatan.

Video lain, di mana tidak ada kendali khusus dari manusia, adalah membiarkan robot anjing mempelajari metode pergerakan anjing sungguhan. Setelah mempelajarinya, ia berjalan sendiri, yang terasa seperti aslinya.

Ini adalah kemampuan paling dasar (kemampuan motorik). Langkah selanjutnya adalah memahami lingkungan dan menyelesaikan tugas-tugas di lingkungan tersebut. Saya baru saja berbicara tentang bergerak di tanah datar. Langkah kedua adalah menambahkan informasi lingkungan merangkak. Cara menaiki tangga secara alami, cara melewati rintangan, dan cara melompati rintangan.

Saat ini robot anjing telah belajar melompat dan melintasi rintangan di dunia simulasi. Anjing ini kami kembangkan sendiri dan diberi nama Max. Yang membedakan dengan anjing biasa adalah ia memiliki roda di lututnya, ia dapat berjalan lebih cepat di tanah datar yang beroda dan dapat menggunakan empat kakinya di tempat yang tidak rata, sehingga berbeda kombinasi modal.

Ketika kita mempunyai kemampuan beradaptasi dengan lingkungan, kita bisa membiarkannya melakukan berbagai hal, misalnya kita meminta salah satu anjing untuk mengejar anjing yang lain, dan setelah mengejarnya, ia akan menang. Yang lebih rumit lagi, jika muncul bendera, anjing yang semula kabur bisa menjadi pengejar saat menyentuh bendera. Anda bisa melihatnya, ini juga dipelajari secara otomatis melalui pembelajaran penguatan. Seekor anjing sedang mengejar anjing lain. Tentu saja, kami membatasi kecepatannya agar anjing tersebut berlari lebih lambat. Sekarang yang mengejar adalah anjing yang berlari. Setelah anjing yang mengejar itu berubah, ia berbelok di tikungan dan menipu anjing lainnya.

Keuntungan dari kecerdasan yang diwujudkan secara hierarkis adalah bahwa pengetahuan di setiap tingkat dapat terus diperbarui dan diakumulasikan, dan kemampuan antar tingkat dapat dipisahkan. Memperbarui tingkat lain tidak akan mempengaruhi tingkat pengetahuan lain yang ada.

Misal tadi seekor anjing mengejar anjing lain, saya hanya belajar berlatih di tanah datar selama pembelajaran intensif tanpa menambah rintangan sama sekali, sekarang setelah menambah rintangan tidak perlu belajar ulang, otomatis mempelajarinya tahu bagaimana menghadapi rintangan ketika saya berada di lantai dasar. Anda dapat melihat videonya. Ini adalah sesuatu yang belum kami latih sama sekali. Rintangan ditambahkan ke dalamnya. Ketika bertemu dengan tongkat, ia akan melewatinya. Ketika menemui rintangan, ia akan melompatinya bersifat otomatis (belajar).

Pekerjaan ini diselesaikan pada awal tahun lalu dan akan diterbitkan dalam jurnal akademik internasional terkemuka Nature Machine Intelligence dalam waktu dekat. Ini juga akan digunakan sebagai cerita sampul, yang menunjukkan bahwa semua orang percaya bahwa pekerjaan seperti itu masih merupakan yang terdepan .

Mari kita bicara tentang apa yang telah kita lakukan selama setahun terakhirKemajuan dalam fusi model besar , yaitu, mengintegrasikan model bahasa besar dan model persepsi multi-modal ke dalam sistem kecerdasan yang diwujudkan secara hierarkis. Misalnya, jika manusia memberikan tugas telur dadar kepada robot, model perencanaan besar berbasis LLM menguraikan tugas telur dadar, yaitu mengeluarkan telur dari lemari es terlebih dahulu, memecahkan telur ke dalam panci, lalu menggorengnya. telur. Dari persepsi multimodal, pertama-tama kita harus mengetahui bahwa telur diletakkan di lemari es, dan keterampilan tingkat menengah berikut ini perlu dipanggil. Robot harus pergi ke lemari es terlebih dahulu untuk mengeluarkan telur, membuka pintu lemari es, ambil telurnya dan kembalikan ke kompor. Bagian bawah adalah kontrol tingkat bawah, mengontrol cara robot menuju lemari es, cara membuka pintu lemari es, dll. Setelah dipelajari, hal itu akan dilakukan secara otomatis. Terakhir, kembali ke Perencana Tingkat Strategis tingkat atas. Perhatikan bahwa dalam loop tertutup ini, tindakan robot bertindak di dunia virtual-nyata yang terintegrasi di mana dunia digital dan dunia fisik terintegrasi erat. Dalam ruang simulasi digital, terdapat robot dan pemandangan yang tampak sangat nyata, sehingga Keterampilan robot dapat dipelajari di ruang maya. Langsung diterapkan ke ruang nyata.

Tonton videonya di sini. Kami menempatkan robot cerdas di lingkungan yang belum pernah dilihat sebelumnya. Langkah pertama adalah robot berbalik dan menjelajahi dunia. Misalnya pada video tersebut tugas robot adalah membuang sampah ke tempat sampah, sehingga harus mencari tempat sampah terlebih dahulu, baru setelah menemukan tempat sampah tersebut ia akan menaruhnya di sana. Pindahkan juga tempat sampah tersebut ke tempat lain. Asumsikan dia tidak mengetahui lingkungan, menemukan tempat sampah melalui eksplorasi, lalu mengirimkan sampah tersebut ke sana.

Adegan berikut adalah tentang memberikan tikus kepada orang yang memakai baju dan celana jeans biru. Ada banyak orang lain di sini. Dia harus menemukan orang yang memakai baju dan celana jeans biru, dan dia akan secara otomatis menjelajahi dan menemukannya. Banyak orang yang saya temui selama periode ini mengenakan pakaian biru atau jeans. Sampai robot tersebut melihat pakaian dan jeans biru, ia mengirimkan tikus.

Selama proses eksplorasi, robot dapat mengingat lingkungan sekitar dan tidak perlu melakukan eksplorasi lagi setiap saat. Pada adegan berikut, obat diberikan terlebih dahulu kepada rekan kerja, kemudian kantong obat flu kemudian dibuang oleh robot yang sudah mengetahui letak tempat sampah selama eksplorasi dan pemodelan, dan langsung menuju ke tempat sampah. Bisa juga menggunakan hubungan antar ruang, seperti letak bangku dan letak papan tulis. Jika ingin mengirimkan benda kepada seseorang di antara papan tulis dan bangku tinggi, jika ada penghalang di tengahnya, bisa juga. otomatis dihindari.

Tahun lalu kami juga membuat robot bartender. Saat itu, menggunakan tangan tiga jari yang dikembangkan sendiri, dan sasisnya sudah diperbaiki.

Bartending mewah ini juga pertama-tama mengumpulkan orang sungguhan untuk membuat bartending, mempelajari lintasannya, dan kemudian menerapkannya pada robot. Ada juga sensor sentuhan di jari. Nah untuk memasukkan tongkat ke dalam lubang, kemampuan visual saja tidak cukup dan keakuratannya saja tidak cukup, sehingga bergantung pada persepsi sentuhan untuk melihat apakah dimasukkan ke dalam. , itu perlu dipindahkan ke samping. Pindahkan ke atas dan terakhir masukkan tongkat.

Ini adalah pekerjaan tahun lalu. Pekerjaan tahun ini mencakup tangan lima jari yang dikembangkan sendiri dan lengan robot yang kami kembangkan sendiri. Tidak ada lengan robot yang dikembangkan sendiri tahun lalu model penginderaan besar dan model perencanaan besar, yang dapat mewujudkan operasi. Robot dapat berbicara dan menyelesaikan tugas dengan bebas.

Pojok kanan bawah terlihat dari robot cerdas bergerak. Sebotol wiski ditemukan di atas meja, dan diminta untuk menuangkan segelas wiski. Hal ini terlihat dari bidang pandang robot, dan dapat mengenali berbagai macam jenis anggur secara real time.

Bagikan di sini sekarang. Terima kasih semua.