berita

"AI Godmother" Li Feifei: Sora masih berupa gambar dua dimensi, dan hanya kecerdasan luar angkasa tiga dimensi yang dapat mencapai AGI

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Aplikasi TMTpost melaporkan pada tanggal 2 Agustus bahwa pada pertemuan tertutup Asian American Scholar Forum yang diadakan oleh Universitas Stanford,Li Feifei, seorang profesor di Universitas Stanford yang dikenal sebagai "Ibu baptis AI", secara eksklusif mengatakan kepada TMTpost App bahwa meskipun model Sora dari perusahaan Amerika OpenAI dapat menghasilkan video, pada dasarnya, model tersebut masih berupa model dua dimensi datar dan tidak memiliki kemampuan untuk memahami objek tiga dimensi. Hanya "kecerdasan spasial" yang menjadi arah masa depan AGI.

Li Feifei melontarkan tanggapan di atas ketika membahas hubungan antara model "kecerdasan spasial" dan model bahasa besar yang diangkat oleh pendiri TMTpost Media, Zhao Hejuan. Lebih lanjut ia menjelaskan, sebagian besar model saat ini, seperti GPT4o dan Gemini 1.5, masih berupa model bahasa, yakni bahasa input dan bahasa output. Meski ada juga model multimodal, namun tetap sebatas bahasa , mereka didasarkan pada gambar datar dua dimensi. Namun kunci untuk mewujudkan AGI di masa depan adalah “kecerdasan spasial”, yang membutuhkan model visual tiga dimensi.

Dia menggunakan video AI "wanita Jepang berjalan melalui jalan-jalan Tokyo yang diterangi lampu neon" yang ditunjukkan oleh Sora sebagai contoh.

“Jika ingin algoritma mengubah sudut untuk menampilkan video wanita yang berjalan di jalan, seperti meletakkan kamera di belakang wanita tersebut, Sora tidak bisa melakukannya. Karena model ini tidak terlalu memiliki pemahaman yang mendalam tentang dunia tiga dimensi. Manusia dapat melakukannya dalam pikiran mereka. "Bayangkan adegan di belakang wanita itu." Li Feifei berkata, "Manusia dapat memahami cara bergerak di lingkungan yang kompleks. Kita tahu cara memahami, cara mengendalikan, cara melakukannya. untuk membangun alat, dan bagaimana membangun kota. Pada dasarnya, kecerdasan spasial adalah geometri. Hubungan antar objek adalah ruang tiga dimensi. Kecerdasan spasial adalah tentang melepaskan kemampuan untuk menghasilkan (peta visual) dan menalar serta merencanakan tindakan dalam ruang tiga dimensi Penerapannya sangat luas, seperti untuk AR dan VR, untuk robot, dan desain Aplikasi juga diperlukan.”

Li Feifei menekankan kepada TMTpost App, “Evolusi alami memungkinkan hewan memahami dunia tiga dimensi, hidup, memprediksi, dan berinteraksi dalam ruang tiga dimensi. Kemampuan ini memiliki sejarah panjang 540 juta tahun ketika trilobita pertama kali melihat cahaya di dalam air , ia harus 'menavigasi' di dunia tiga dimensi. Jika ia tidak bisa 'menavigasi' di dunia tiga dimensi, ia akan segera menjadi santapan bagi hewan lain. Seiring berjalannya evolusi, kecerdasan spasial hewan semakin kuat kemampuan kita untuk memahami bentuk.

Li Feifei, 48, adalah seorang ilmuwan komputer terkenal, akademisi dari National Academy of Engineering dan National Academy of Medicine, dan kepala Institut Penelitian AI yang Berpusat pada Manusia di Universitas Stanford di Amerika Serikat. Dia memimpin pengembangan database gambar ImageNet dan kompetisi pengenalan visual pada tahun 2009, secara akurat membuat anotasi dan mengklasifikasikan gambar berukuran besar, mendorong kemajuan kemampuan pengenalan visi komputer, dan juga merupakan salah satu faktor kunci yang mendorong perkembangan pesat AI. Tahun lalu, VoxPoser yang ia umumkan telah menjadi arah teknologi utama dalam pengembangan Embodied AI.

Pada bulan Juli tahun ini, World Labs, sebuah perusahaan AI yang didirikan oleh Li Feifei, mengumumkan penyelesaian dua putaran pembiayaan. Investor termasuk a16z (Andreessen Horowitz), dll.Valuasi terbaru perusahaan telah mencapai US$1 miliar (sekitar 7,26 miliar yuan).

Pada Forum Ilmuwan Amerika Asia yang tertutup pada akhir bulan Juli, pidato Li Feifei juga memungkinkan lebih banyak orang untuk memahami apa itu Word Labs dan konsep pengembangan “kecerdasan spasial” miliknya, yaitu menjadikan AI benar-benar “dari melihat hingga Melakukannya ”.

Bagaimana beralih dari “melihat” ke “melakukan”

Yang disebut "kecerdasan spasial" mengacu pada kemampuan manusia atau mesin untuk memahami, memahami, dan berinteraksi dalam ruang tiga dimensi.

Konsep ini pertama kali dikemukakan oleh psikolog Amerika Howard Gardner dalam teori kecerdasan ganda, yang memungkinkan model dunia spasial eksternal dibentuk di otak dan digunakan serta dimanipulasi. Faktanya, kecerdasan spasial memungkinkan orang untuk berpikir secara tiga dimensi, memungkinkan orang untuk melihat gambar eksternal dan internal, dan untuk mereproduksi, mengubah atau memodifikasi gambar, sehingga mereka dapat bergerak dengan tenang dan melakukan apapun yang mereka inginkan posisi objek untuk menghasilkan atau menafsirkan informasi grafis.

Secara garis besar, kecerdasan spasial tidak hanya mencakup kemampuan mempersepsikan orientasi spasial, tetapi juga kemampuan membedakan visual dan kemampuan berpikir gambar. Untuk mesin, kecerdasan spasial mengacu pada kemampuannya memproses data visual dalam ruang tiga dimensi, membuat prediksi secara akurat, dan mengambil tindakan berdasarkan prediksi tersebut. Kemampuan ini memungkinkan mesin untuk bernavigasi, mengoperasikan, dan mengambil keputusan di dunia tiga dimensi yang kompleks seperti manusia, sehingga melampaui keterbatasan visi dua dimensi tradisional.

Dalam TED talk yang diadakan pada bulan April tahun ini, Li Feifei mengatakan dengan jujur ​​bahwa kemampuan visual memicu Ledakan Kambrium, dan evolusi sistem saraf membawa kecerdasan. “Kami tidak hanya menginginkan AI yang bisa melihat dan berbicara, kami ingin AI yang bisa melakukannya.”

Dalam pandangan Li Feifei, kecerdasan spasial adalah "senjata ajaib utama untuk memecahkan masalah teknis AI".

Pada acara tertutup di akhir bulan Juli ini, Li Feifei pertama kali mengulas tiga kekuatan pendorong utama AI modern yang dimulai 10 tahun lalu:Jaringan Syaraf", yaitu, "pembelajaran mendalam"; chip modern, terutama chip GPU NVIDIA; dan data besar.

Sejak tahun 2009, bidang visi komputer telah mengalami kemajuan pesat. Mesin dapat dengan cepat mengenali objek dan menyamai kinerja manusia. Tapi ini hanyalah puncak gunung es. Computer vision tidak hanya dapat mengidentifikasi objek diam dan melacak objek bergerak, tetapi juga memisahkan objek menjadi beberapa bagian dan bahkan memahami hubungan antar objek. Oleh karena itu, berdasarkan data besar gambar, bidang visi komputer telah maju pesat.

Li Feifei ingat dengan jelas bahwa sekitar 10 tahun yang lalu, muridnya Andrej Karpathy berpartisipasi dalam penelitian pembuatan algoritma emotikon. Mereka menunjukkan gambar kepada komputer, dan kemudian melalui jaringan saraf, komputer dapat mengeluarkan bahasa alami, seperti: "Ini adalah kucing yang sedang berbaring di tempat tidur."

Misalnya memberi kalimat dan meminta komputer memberi gambar. Kita semua tertawa, mengira hal itu mungkin tidak akan pernah terwujud, atau akan terwujud jauh di masa depan,” Li Feifei teringat.

Teknologi AI generatif telah berkembang pesat dalam dua tahun terakhir. Apalagi beberapa bulan lalu,Buka AI Merilis algoritma pembuatan video Sora. Dia memamerkan produk serupa yang dikembangkan siswanya di Google, yang kualitasnya sangat baik. Produk ini sudah ada beberapa bulan sebelum Sora dirilis, dan menggunakan GPU (unit pemrosesan grafis) yang jauh lebih kecil daripada Sora. Pertanyaannya adalah, kemana arah AI selanjutnya?

“Selama bertahun-tahun saya telah mengatakan bahwa 'melihat' berarti 'memahami dunia'. Namun saya ingin mengambil konsep ini selangkah lebih maju dan 'melihat' bukan sekadar memahami, tetapi melakukan Hewan yang memiliki perasaan, namun hewan seperti itu sebenarnya sudah ada sejak 450 juta tahun yang lalu, karena ini adalah kondisi yang diperlukan untuk evolusi: melihat dan melakukan adalah sebuah lingkaran tertutup,” kata Li Feifei.

Dia menggunakan kucing kesayangannya sebagai contoh.

Foto kucing, segelas susu, dan tanaman di atas meja. Saat Anda melihat foto ini, sebenarnya video tiga dimensi muncul di benak Anda. Anda melihat bentuk, Anda melihat geometri.

Faktanya, Anda melihat apa yang terjadi beberapa detik yang lalu dan apa yang mungkin terjadi beberapa detik kemudian. Anda melihat foto ini dalam tiga dimensi. Anda sedang merencanakan apa yang harus dilakukan selanjutnya. Otak Anda berpacu, menghitung apa yang dapat Anda lakukan untuk menyelamatkan karpet Anda, terutama karena kucing itu milik Anda dan karpet itu milik Anda.

“Saya menyebut semua ini sebagai kecerdasan spasial, yang merupakan pemodelan dunia tiga dimensi dan penalaran tentang objek, tempat, peristiwa, dll. dalam ruang dan waktu tiga dimensi. Dalam contoh ini, saya berbicara tentang dunia nyata, tetapi juga Ini bisa merujuk pada dunia virtual. Namun inti dari kecerdasan spasial adalah menghubungkan “melihat” dan “melakukan”.

Kedua, Li Feifei menunjukkan video 3D yang direkonstruksi berdasarkan beberapa foto, dan kemudian dia memberikan video 3D berdasarkan satu foto. Teknologi ini dapat digunakan dalam desain.

Li Feifei mengatakan bahwa AI cerdas atau robot humanoid dapat membentuk lingkaran tertutup antara "melihat" dan "melakukan".

Dia mengatakan bahwa rekan-rekannya di Universitas Stanford dan raksasa chip NVIDIA bersama-sama melakukan penelitian yang disebut BEHAVIOR untuk membangun tolok ukur ruang dinamis untuk aktivitas rumah guna mengevaluasi kinerja berbagai robot di lingkungan rumah. “Kami sedang mencari cara untuk menghubungkan model bahasa dengan model visual yang besar sehingga robot dapat diarahkan untuk membuat rencana dan memulai tindakan,” katanya. Ia mencontohkan tiga contoh, yaitu robot yang membuka laci, robot yang mencabut kabel charger ponsel, dan ketiga robot yang membuat sandwich. Semua instruksi diberikan melalui bahasa alami manusia.

Terakhir, ia mencontohkan, percaya bahwa masa depan adalah milik dunia "kecerdasan spasial", di mana manusia dapat duduk di sana, mengenakan topi EEG dengan sensor, dan tanpa membuka mulut untuk berbicara, mereka dapat memberi tahu robot dari jarak jauh hanya dengan kemampuan mereka. pikiran: memasak makanan ala Jepang. Setelah robot menerima ide tersebut, ia mendekripsi ide tersebut dan dapat menyiapkan makanan lengkap.

“Ketika kita menghubungkan 'melihat' dan 'melakukan' melalui kecerdasan spasial, kita bisa melakukannya,” katanya.

Li Feifei juga mengatakan bahwa dia telah menyaksikan perkembangan AI yang menarik dalam 20 tahun terakhir. Namun, ia meyakini kunci AI atau AGI adalah kecerdasan spasial. Melalui kecerdasan spasial, kita dapat melihat dunia, memahami dunia, memahami dunia, dan membiarkan robot melakukan sesuatu, sehingga membentuk lingkaran tertutup yang baik.

Akankah robot mengambil alih umat manusia?

Li Feifei mengatakan pada pertemuan tersebut bahwa orang-orang saat ini terlalu melebih-lebihkan tentang apa yang dapat dilakukan AI di masa depan. Dia memperingatkan kita agar tidak mengacaukan tujuan yang ambisius dan berani dengan kenyataan, sebuah pernyataan yang terlalu sering kita dengar.

Faktanya, AI telah mencapai titik perubahan, terutama model bahasa berukuran besar. “Namun, ini masih merupakan teknologi yang penuh bug dan terbatas yang masih mengharuskan manusia untuk terlibat secara mendalam di dalamnya dan memahami keterbatasannya. Argumen yang sangat berbahaya saat ini adalah apa yang disebut sebagai risiko kepunahan manusia, yaitu AI menjadi ancamannya ahli mesin manusia. "Saya pikir ini sangat berbahaya bagi masyarakat, dan akan ada banyak konsekuensi yang tidak diinginkan dari retorika semacam ini. Kita memerlukan komunikasi dan pendidikan yang bijaksana, seimbang, dan tidak memihak tentang AI," kata Li Feifei. .menekankan.

Li Feifei percaya bahwa AI harus berakar pada manusia. Manusia yang menciptakannya, manusia yang mengembangkannya, manusia yang memanfaatkannya, dan manusia juga harus mengelolanya.

Li Feifei mengatakan bahwa di Institut "AI yang Berpusat pada Manusia" di Universitas Stanford, mereka telah mengadopsi tiga pendekatan terhadap AI, termasuk tiga tingkat individu, komunitas, dan masyarakat:

Pada tingkat individu, AI harus dilibatkan dan dianut. Ini adalah teknologi yang beradab. AI mengubah cara anak-anak belajar, cara dokter menggunakan metode diagnostik, cara seniman mendesain, dan cara guru mengajar. Terlepas dari apakah Anda seorang teknisi atau bukan, Anda dapat memainkan peran Anda dan menggunakan AI secara bertanggung jawab. Di tingkat komunitas, AI dapat memberdayakan komunitas dan memenuhi kebutuhan perlindungan lingkungan atau kebutuhan pertanian masyarakat. Beberapa komunitas pertanian menggunakan teknologi pembelajaran mesin untuk memantau kualitas air komunitas. Komunitas seniman tidak hanya menggunakan AI, namun juga menyuarakan keprihatinan dan ide mereka tentang cara memecahkan masalah dan memitigasi risiko. Di tingkat masyarakat, pemerintah, lembaga penelitian, dunia usaha, lembaga federal, dan lembaga internasional harus menganggap serius teknologi ini. Ada masalah energi dan hal ini mempunyai implikasi geopolitik. Masih ada diskusi besar antara open source dan non-open source, yang berdampak pada perekonomian dan ekologi. Masih terdapat permasalahan manajemen, seperti risiko dan keamanan AI. Kita harus mengadopsi pendekatan positif, pendekatan multi-pemangku kepentingan, dan pendekatan seluruh masyarakat. Tidak ada jalan untuk kembali sekarang, kata Li Feifei. Dia memimpin proyek AI di Google dari tahun 2017 hingga 2018, menjabat sebagai anggota dewan Twitter dari tahun 2020 hingga 2022, dan saat ini menjadi penasihat AI di Gedung Putih.

Mengenai dampak AI terhadap pekerjaan, Li Feifei menyampaikan pandangannya.

Li Feifei mencontohkan, terdapat laboratorium ekonomi digital di Institute for Human-Centered AI di Stanford University, yang dipimpin oleh Profesor Erik Brynjolfsson. Ada banyak lapisan dalam permasalahan yang sangat kompleks ini. Ia secara khusus menekankan bahwa “pekerjaan” dan “tugas” adalah dua konsep yang berbeda, karena pada kenyataannya pekerjaan setiap orang terdiri dari banyak tugas.

Dia menggunakan perawat Amerika sebagai contoh. Diperkirakan selama delapan jam shift seorang perawat, terdapat ratusan tugas. Oleh karena itu, ketika orang membahas AI yang mengambil alih atau menggantikan pekerjaan manusia, mereka harus membedakan apakah AI menggantikan tugas atau pekerjaan?

Li Feifei percaya bahwa AI telah mengubah banyak tugas dalam suatu pekerjaan, dan oleh karena itu secara bertahap akan mengubah sifat pekerjaan. Dalam skenario call center, kualitas kerja pemula ditingkatkan oleh AI sebesar 30%, namun kualitas kerja personel terampil tidak ditingkatkan oleh AI. Sentimen Fei-Fei Li juga diungkapkan dalam sebuah artikel dari Laboratorium Ekonomi Digital Universitas Stanford, yang berjudul: “AI tidak akan menggantikan pekerjaan manajer: Manajer yang menggunakan AI menggantikan manajer yang tidak.”

Li Feifei menekankan bahwa ilmu pengetahuan dan teknologi akan membawa kemajuan dalam produktivitas, namun kemajuan dalam produktivitas tidak serta merta menghasilkan kesejahteraan umum bagi masyarakat. Dia menunjukkan bahwa kejadian seperti itu telah terjadi berkali-kali dalam sejarah.