berita

percakapan terbaru li feifei: kemajuan teknologi ai akan menghadirkan skenario penerapan baru yang tak terbayangkan

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

baru-baru ini, li feifeidanmitra a16zmartin casadomaupunpeneliti justin johnsonmemperluasdibahaskecerdasan buatansejarah, situasi saat ini dan arah pengembangan masa depan di lapangan, topikmencakup seluruh aspek teknologi ai, terutama potensi ai generatif dan kecerdasan spasial di masa depan.
li feifei menekankan bahwa ai generatif sudah ada semasa studi pascasarjana, namun teknologi awalnya belum matang. dengan lompatan dalam pembelajaran mendalam dan kekuatan komputasi, ai generatif telah mencapai kemajuan luar biasa dalam beberapa tahun terakhir dan telah menjadi salah satu terobosan inti di bidang ai.
dia juga memperkenalkan proyek kewirausahaan terbaru world labs, yang berfokus pada "kecerdasan spasial", yaitu kemampuan mesin untuk memahami dan berinteraksi dalam ruang 3d dan 4d.
ia mencontohkan, kecerdasan spasial tidak hanya cocok untuk generasi dunia maya, tetapi juga dapat mengintegrasikan dunia nyata dan banyak digunakan di bidang augmented reality (ar), virtual reality (vr) dan robotika.kecerdasan buatan kemajuan teknologi akan menghadirkan skenario aplikasi baru yang tak terbayangkan, termasuk pembuatan dunia virtual, augmented reality, dan interaksi dengan dunia fisik.
berikut isi utama percakapan ini, selamat menikmati~

martin casado

dalam dua tahun terakhir, kita telah melihat gelombang munculnya perusahaan dan teknologi ai tingkat konsumen, dan prosesnya sungguh luar biasa. dan anda telah bekerja di bidang ini selama beberapa dekade. jadi kita mungkin membicarakan kontribusi dan wawasan penting yang anda berikan dalam proses ini.

fei fei li

ini adalah saat yang sangat menyenangkan, dan melihat ke belakang, ai berada dalam saat yang menyenangkan. saya pribadi telah berkecimpung di bidang ini selama lebih dari dua dekade. kita telah bangkit dari musim dingin ai yang lalu dan menyaksikan lahirnya ai modern. kemudian kita melihat munculnya pembelajaran mendalam, yang menunjukkan kepada kita apa yang mungkin dilakukan, seperti bermain catur.

kemudian kami mulai melihat perkembangan lebih dalam dalam teknologi dan penerapan industri pada kemungkinan-kemungkinan awal, seperti model bahasa. saat ini, saya rasa kita sedang berada di tengah-tengah "ledakan kambrium".

bisa dibilang, kini selain teks, kita juga melihat piksel, video, audio, dll., mulai digabungkan dengan aplikasi dan model ai, jadi ini adalah saat yang sangat menarik.

martin casado

saya sudah mengenal anda berdua sejak lama, dan banyak orang mengenal anda karena anda sangat menonjol di bidang ini. namun tidak semua orang mengetahui bagaimana anda memulai di bidang ai, jadi mungkin kami dapat memperkenalkan latar belakang anda secara singkat untuk membantu audiens membangun pemahaman dasar.

justin johnson

oke, paparan pertama saya terhadap ai adalah menjelang akhir gelar sarjana saya. saya belajar matematika dan ilmu komputer di caltech dan itu adalah saat yang tepat. pada periode itu, sebuah makalah yang sangat terkenal diterbitkan, yaitu "kertas kucing" di google brain oleh home neck lee, andrew ng dan lain-lain.

teknologi ini membuat saya takjub, dan itulah pertama kalinya saya menemukan resep ini: ketika algoritme pembelajaran tujuan umum yang kuat, sumber daya komputasi yang besar, dan data dalam jumlah besar digabungkan, sesuatu yang ajaib terjadi. saya menemukan ide ini sekitar tahun 2011 atau 2012, dan pada saat itu saya merasa ini akan menjadi sesuatu yang akan saya lakukan di masa depan.

tentu saja, anda harus melanjutkan ke sekolah pascasarjana untuk melakukan pekerjaan ini, jadi saya mengetahui bahwa feifei kuliah di stanford, dan dia adalah satu dari sedikit orang di dunia yang mempelajari bidang ini secara mendalam. ini adalah saat yang tepat untuk mengerjakan pembelajaran mendalam dan visi komputer, karena ini adalah momen ketika teknologi bergerak dari tahap awal menuju kedewasaan dan adopsi secara luas.

pada saat itu, kami melihat awal dari pemodelan bahasa, dan kami juga melihat awal dari visi komputer yang diskriminatif—anda dapat memahami apa yang terjadi dalam sebuah gambar. selama periode ini, ada juga pengembangan awal dari apa yang sekarang kita sebut ai generatif. bagian inti dari algoritma seperti menghasilkan gambar dan menghasilkan teks juga diselesaikan oleh komunitas akademis selama saya ph.d.

saat itu, setiap pagi saat bangun tidur, saya membuka arxiv untuk melihat hasil penelitian terbaru. rasanya seperti membuka kado natal hampir setiap hari. selama dua tahun terakhir, seluruh dunia juga mulai menyadari bahwa “hadiah natal” baru diterima melalui teknologi ai setiap hari. namun bagi kita yang sudah lebih dari sepuluh tahun berkecimpung di bidang ini, pengalaman tersebut sudah ada.

fei fei li

jelas sekali, saya jauh lebih tua dari justin. saya masuk bidang ai dari fisika karena latar belakang sarjana saya di bidang fisika. fisika adalah mata pelajaran yang mengajarkan anda untuk memikirkan pertanyaan-pertanyaan berani, seperti misteri dunia yang belum terpecahkan. dalam fisika, masalah ini mungkin terkait dengan dunia atom, alam semesta, namun pelatihan ini membuat saya tertarik pada masalah lain – kecerdasan. jadi saya melakukan penelitian doktoral di bidang ai dan ilmu saraf komputasi di caltech. meskipun justin dan saya tidak bekerja sama di caltech, kami berbagi almamater yang sama.

justin johnson

dan mentor yang sama?

fei fei li

ya, penasihat sarjana anda juga merupakan penasihat phd saya, pietro perona. ketika saya sedang belajar untuk phd, ai berada di tengah musim dingin di mata publik, namun tidak demikian halnya di mata saya. ini lebih seperti periode hibernasi sebelum musim semi, saat pembelajaran mesin dan model generatif semakin kuat. saya menganggap diri saya sebagai "pribumi" di bidang pembelajaran mesin, dan generasi justin adalah "pribumi" dalam pembelajaran mendalam.

pembelajaran mesin adalah pendahulu dari pembelajaran mendalam, dan kami bereksperimen dengan berbagai model pada saat itu. namun menjelang akhir phd saya dan selama saya menjadi asisten profesor, mahasiswa dan lab saya menyadari bahwa ada elemen yang diabaikan dalam ai yang mendorong generalisasi yang belum terlalu dipikirkan oleh bidang ini pada saat itu: data. kami berfokus pada model yang kompleks seperti model bayesian dan mengabaikan pentingnya membiarkan data mengendalikan model tersebut.

inilah salah satu alasan kami bertaruh pada imagenet. pada saat itu, ukuran kumpulan data di semua bidang masih sangat kecil. kumpulan data standar untuk visi komputer dan pemrosesan bahasa alami berjumlah ribuan atau puluhan ribu data, namun kami menyadari bahwa kami perlu memperluas jangkauannya ke internet. . untungnya, era internet juga sedang naik daun, dan kami memanfaatkan gelombang ini. pada saat itulah saya datang ke stanford.

martin casado

era seperti yang sering kita bicarakan, seperti imagenet, jelas merupakan era penting dalam mempromosikan atau setidaknya menjadikan visi komputer populer dan layak di bidang ai generatif. kami biasanya menyebutkan dua terobosan utama: satu adalah kertas transformer, yang merupakan "mekanisme perhatian", dan yang lainnya adalah "difusi stabil" yang jarang dibicarakan.

apakah masuk akal untuk memahami dua terobosan algoritmik dari akademisi (khususnya google) dengan cara ini? atau apakah ini lebih merupakan proses yang disengaja? ataukah ada terobosan-terobosan besar lainnya yang tidak sering disebutkan yang juga mendorong kita hingga mencapai posisi kita saat ini?

justin johnson

ya, menurut saya terobosan terbesar adalah kekuatan komputasi. saya tahu bahwa kisah tentang ai sering kali juga merupakan kisah tentang kekuatan komputasi, namun meskipun sering disebutkan, menurut saya dampaknya masih diremehkan.

pertumbuhan yang kita lihat dalam kekuatan komputasi selama dekade terakhir sangatlah mengejutkan. makalah pertama yang dianggap sebagai momen terobosan untuk pembelajaran mendalam dalam visi komputer adalah alexnet, sebuah makalah tahun 2012 yang menunjukkan bahwa jaringan saraf dalam berkinerja baik dalam tantangan imagenet, jauh mengungguli algoritma lain pada saat itu.

algoritme yang mungkin anda pelajari selama masa sekolah pascasarjana tidak ada apa-apanya dibandingkan dengan alexnet. alexnet adalah jaringan saraf dalam dengan 60 juta parameter. ini dilatih selama enam hari pada dua kartu grafis gtx 580. gtx 580 adalah kartu grafis konsumen paling kuat pada saat itu dan dirilis pada tahun 2010.

saya mencari beberapa data tadi malam dan ingin memasukkannya ke dalam konteks yang lebih luas. kartu grafis terbaru nvidia adalah gb200. bisakah anda menebak kesenjangan daya komputasi antara gtx 580 dan gb200?

jumlahnya ribuan, jadi saya hitung tadi malam. misalnya, selama dua minggu pelatihan, enam hari dijalankan pada dua gtx 580. jika diperpanjang, mungkin bisa berjalan dalam waktu kurang dari lima menit pada gb200.

jika anda memikirkannya seperti ini, ada argumen yang bagus - makalah alexnet 2012 tentang imagenet challenge benar-benar model yang sangat klasik, yaitu model jaringan saraf konvolusional.

sebenarnya konsep ini sudah muncul sejak tahun 1980-an, saya masih ingat makalah pertama yang saya pelajari sebagai mahasiswa pascasarjana, isinya serupa, dengan struktur jaringan enam atau tujuh lapisan. hampir satu-satunya perbedaan antara alexnet dan model jaringan saraf konvolusional adalah gpu - penggunaan dua gpu dan data dalam jumlah besar.

jadi apa yang ingin saya katakan adalah, kebanyakan orang sekarang sudah akrab dengan apa yang disebut "pelajaran pahit", yaitu, jika anda mengembangkan suatu algoritma, pastikan anda dapat memanfaatkan sumber daya komputasi yang ada, karena sumber daya ini akan menjadi tersedia seiring berjalannya waktu. jadi anda hanya membutuhkan sistem yang terus ditingkatkan.

di sisi lain, nampaknya ada argumen lain yang sama meyakinkannya, yaitu bahwa sumber data baru sebenarnya membuka peluang pembelajaran mendalam. imagenet adalah contoh yang bagus. meskipun banyak orang menganggap mekanisme perhatian diri penting untuk model transformer, mereka juga akan mengatakan bahwa ini adalah cara untuk memanfaatkan data yang diberi label manusia.

karena manusia memberikan anotasi untuk struktur kalimat, jika anda melihat model clip, model clip sebenarnya memungkinkan manusia menandai gambar menggunakan tag alt di internet. jadi ini sebenarnya cerita tentang data, bukan tentang komputasi. jadi apakah jawabannya keduanya, atau lebih pada satu sisi? saya pikir ini adalah bagian dari keduanya, tetapi anda juga menyampaikan poin penting lainnya.

martin casado

menurut saya sebenarnya ada dua era berbeda dalam bidang algoritma. era imagenet adalah era pembelajaran yang diawasi. di zaman sekarang ini, kita memiliki banyak data, namun kita tidak tahu bagaimana cara berlatih hanya dengan data itu sendiri.

harapan dari imagenet dan kumpulan data sezaman lainnya adalah kami akan memiliki banyak gambar, namun kami memerlukan manusia untuk memberi anotasi pada setiap gambar. semua data yang kami latih dilihat dan diberi anotasi satu per satu oleh anotator manusia.

terobosan besar dalam algoritme adalah kini kita mengetahui cara melatih data yang tidak bergantung pada anotasi manusia. bagi rata-rata orang yang tidak memiliki latar belakang ai, nampaknya jika anda melatih data manusia, sebenarnya manusia telah melakukan anotasi, namun anotasi tersebut tidak eksplisit.

justin johnson

ya, secara filosofis ini adalah pertanyaan yang sangat penting, tetapi ini lebih benar dalam bidang bahasa dibandingkan dalam bidang gambar. ya, tapi menurut saya itu perbedaan yang penting. clip memang dianotasi oleh manusia. menurut saya mekanisme perhatian diri adalah manusia telah memahami hubungan antar benda, dan kemudian anda belajar melalui hubungan tersebut.

jadi masih diberi anotasi oleh manusia, namun anotasi tersebut bersifat implisit, bukan eksplisit. bedanya, di era pembelajaran terawasi, tugas belajar kita lebih dibatasi. kita harus merancang ontologi konsep yang ingin kita temukan.

misalnya, di imagenet, fei-fei li dan murid-muridnya menghabiskan banyak waktu memikirkan tentang seribu kategori dalam tantangan imagenet. pada kumpulan data lain pada saat yang sama, seperti kumpulan data coco yang digunakan untuk mendeteksi target, mereka juga menghabiskan banyak pemikiran dalam memutuskan 80 kategori mana yang akan dimasukkan ke dalamnya.

martin casado

jadi mari kita bicara tentang ai generatif. ketika saya sedang menyelesaikan phd, sebelum kalian datang, saya mengambil kursus pembelajaran mesin andrew ng, dan saya mengambil kursus bayesian yang sangat kompleks dari daphne koller, yang sangat kompleks bagi saya.

saat itu sebagian besar adalah pemodelan prediktif. saya ingat anda membuka seluruh visi ini, tetapi ai generatif baru ada dalam empat tahun terakhir ini. ini adalah bidang yang sangat berbeda bagi saya - anda tidak lagi mengidentifikasi objek, anda tidak memprediksi sesuatu, anda menghasilkan hal-hal baru.

jadi mungkin kita bisa membicarakan faktor-faktor kunci apa yang memungkinkan terjadinya ai generatif, apa perbedaannya dengan sebelumnya, dan apakah kita harus melihatnya secara berbeda, apakah ini merupakan bagian dari pengembangan berkelanjutan atau bidang lain yang benar-benar baru?

fei fei li

sangat menarik bahwa model generatif telah ada bahkan sejak saya masih kuliah pascasarjana. kami ingin melakukan pembangkitan pada saat itu, tetapi tidak ada yang ingat bahwa, meskipun kami melakukan pembangkitan dengan huruf dan angka, kami sedang mencoba sesuatu. jeff hinton memiliki beberapa makalah tentang generasi pada saat itu, dan kami juga memikirkan tentang cara menghasilkannya.

sebenarnya kalau dilihat dari segi distribusi probabilitas bisa dihasilkan secara matematis, tapi apa yang dihasilkan saat itu sama sekali tidak menakjubkan. jadi, meskipun konsep pembangkitan ada dari sudut pandang matematis, sebenarnya tidak ada efek pembangkitan yang memuaskan.

kemudian saya ingin secara khusus menyebutkan seorang mahasiswa phd yang datang ke lab saya dengan minat yang kuat terhadap pembelajaran mendalam. seluruh pengalaman studi doktoral mahasiswa doktoral ini hampir dapat dikatakan sebagai mikrokosmos lintasan perkembangan bidang tersebut.

proyek pertamanya adalah data, dan saya memaksanya untuk melakukannya. meski dia tidak menyukainya, dia kemudian mengakui bahwa dia belajar banyak hal yang bermanfaat. "sekarang saya senang anda mengatakan itu." jadi kami beralih ke pembelajaran mendalam, dan masalah intinya adalah bagaimana menghasilkan teks dari gambar. sebenarnya, ada tiga tahapan yang jelas dalam proses ini.

tahap pertama adalah mencocokkan gambar dan teks. kita mempunyai gambar dan teks, dan selanjutnya kita perlu melihat keterkaitannya. makalah akademis pertama saya, juga tesis doktoral pertama saya, mempelajari pengambilan gambar berdasarkan grafik pemandangan. selanjutnya, kami terus mempelajari secara mendalam dan menghasilkan teks dari piksel. baik dia maupun andrej telah melakukan banyak pekerjaan dalam hal ini, namun metode ini masih merupakan metode pembangkitan yang sangat merugikan, dan informasinya banyak hilang ketika diperoleh dari piksel. dunia piksel.

ada sebuah karya yang sangat terkenal di panggung tengah. saat itu, seseorang menyadari secara real-time untuk pertama kalinya. pada tahun 2015, sebuah makalah berjudul "the art style of neural algorithms" diterbitkan di bawah kepemimpinan leon gatys. mereka mendemonstrasikan pengubahan foto dunia nyata menjadi gambar bergaya van gogh.

saat ini kita mungkin menganggap remeh hal tersebut, namun hal tersebut terjadi pada tahun 2015, dan makalah tersebut muncul di arxiv dan mengejutkan saya. saya merasa seperti "virus penghasil ai" telah disuntikkan ke otak saya. saya berpikir, “ya ampun, saya perlu memahami algoritma ini, bermain-main dengannya, dan mencoba membuat gambar saya terlihat seperti van gogh.”

jadi, saya menghabiskan akhir pekan yang panjang untuk mengimplementasikan ulang algoritma tersebut agar dapat berjalan dengan baik. faktanya, ini adalah algoritma yang sangat sederhana. implementasi saya hanya memiliki sekitar 300 baris kode. itu ditulis dalam lua pada saat itu, karena tidak ada pytorch pada saat itu, jadi kami menggunakan lua torch. namun meskipun algoritmanya sederhana, algoritma ini sangat lambat. setiap kali anda membuat gambar, anda perlu menjalankan loop pengoptimalan, yang membutuhkan banyak waktu. gambar yang dihasilkan indah, tapi saya hanya berharap bisa lebih cepat. akhirnya, kami membuatnya lebih cepat.

hal lain yang sangat saya banggakan adalah dia melakukan pekerjaan yang sangat mutakhir di bagian terakhir penelitian doktoralnya sebelum ai generatif benar-benar diperkenalkan ke dunia. proyek ini menghasilkan gambar lengkap dengan memasukkan bahasa alami, yang dapat dikatakan sebagai salah satu upaya ai generatif yang paling awal. kami menggunakan gan, namun pada saat itu sangat sulit untuk digunakan. masalahnya, kami belum siap mendeskripsikan gambar secara utuh menggunakan bahasa alami.

jadi, dia menggunakan metode masukan struktur grafik pemandangan, dan konten masukannya adalah "domba", "rumput", "langit", dll., dan menggunakan metode ini untuk menghasilkan gambar yang lengkap.

dari pencocokan data, transfer gaya, hingga pembuatan gambar, kami secara bertahap melihat transformasi menyeluruh. anda bertanya apakah ini merupakan perubahan besar, bagi orang-orang seperti kami ini merupakan proses yang berkelanjutan, namun bagi banyak orang, hasilnya tampak tiba-tiba dan berdampak.

martin casado

saya membaca buku anda dan ini adalah buku bagus yang sangat saya rekomendasikan untuk dibaca semua orang. dan, fei-fei, yang ingin saya katakan adalah bahwa sejak lama, banyak penelitian dan arahan anda berfokus pada bidang-bidang seperti kecerdasan spasial dan pemrosesan piksel. lab dunia yang sedang anda kerjakan juga terkait dengan kecerdasan spasial. bisakah anda membicarakan hal ini sebagai bagian dari perjalanan jangka panjang anda? mengapa anda memutuskan untuk melakukan ini sekarang? apakah ini semacam terobosan teknologi atau alasan pribadi? bisakah anda membawa kami dari konteks penelitian ai ke world labs?

fei fei li

bagi saya, ini adalah pencarian pribadi dan perjalanan intelektual. anda menyebutkan buku saya, dan seluruh perjalanan intelektual saya sebenarnya adalah pencarian "bintang utara" dan keyakinan kuat bahwa bintang utara tersebut sangat penting bagi kemajuan bidang kita.

pada awalnya, saya ingat setelah lulus sekolah, saya mengira bintang utara saya "menceritakan cerita untuk gambar", karena bagi saya, itu adalah bagian besar dari kecerdasan visual, yang disebut bagian ai.

namun ketika justin dan andrej menyelesaikan pekerjaan mereka, saya berpikir, “ya ampun, ini adalah impian seumur hidup saya, apa yang akan saya lakukan selanjutnya?” kemajuannya jauh lebih cepat dari yang saya perkirakan—saya pikir itu akan memakan waktu cukup lama akan memakan waktu ratusan tahun untuk mencapai hal ini.

kecerdasan visual selalu menjadi hasrat saya. saya sangat yakin bahwa bagi setiap makhluk cerdas, baik manusia, robot, atau makhluk lainnya, sangatlah penting untuk mempelajari cara melihat dunia, cara bernalar, dan cara berinteraksi dengan dunia. baik itu navigasi, kendali, manufaktur, atau bahkan pembangunan peradaban, kecerdasan visual dan spasial memainkan peran mendasar.

ini mungkin sama mendasarnya dengan bahasa, dan dalam beberapa hal bahkan lebih kuno dan mendasar. oleh karena itu, bintang utara dari world labs akan membuka kecerdasan luar angkasa, dan sekarang adalah waktu yang tepat.

seperti yang dikatakan justin, kita sudah memiliki sumber daya yang kita perlukan – daya komputasi dan pemahaman data yang lebih mendalam. kita menjadi lebih canggih dalam memahami data dibandingkan di era imagenet.

kami juga memiliki kemajuan algoritmik, seperti karya mutakhir tentang nerf yang dilakukan oleh salah satu pendiri kami ben mildenhall dan christoph lassner. kami merasa sekarang adalah waktu yang tepat untuk mengambil keputusan, fokus pada bidang ini dan membuka potensinya.

martin casado

agar semua orang memahami dengan jelas, anda sekarang telah mendirikan perusahaan ini - world labs, dan masalah yang ingin anda pecahkan adalah "kecerdasan spasial". bisakah anda menjelaskan secara singkat apa itu kecerdasan spasial?

fei fei li

kecerdasan spasial mengacu pada kemampuan mesin untuk memahami, memahami, menalar, dan bertindak dalam ruang dan waktu 3d. secara khusus, ini mengacu pada pemahaman bagaimana objek dan peristiwa diposisikan dalam ruang dan waktu 3d, dan bagaimana interaksi di dunia mempengaruhi posisi 3d tersebut.

ini bukan hanya tentang membiarkan mesin tetap berada di pusat data atau host, tetapi tentang membiarkannya masuk ke dunia nyata dan memahami dunia 3d dan 4d yang kaya ini.

martin casado

apakah "dunia" yang anda bicarakan mengacu pada dunia fisik nyata, atau dunia konseptual yang abstrak?

fei fei li

saya pikir itu keduanya. hal ini juga mewakili visi jangka panjang kami. bahkan jika anda membuat dunia virtual atau konten, masih banyak manfaat untuk diposisikan dalam 3d. atau ketika anda mengidentifikasi dunia nyata, kemampuan menerapkan pemahaman 3d ke dunia nyata adalah bagian darinya.

martin casado

tim pendiri anda benar-benar kuat. jadi menurut anda mengapa sekarang adalah waktu yang tepat untuk melakukan hal ini?

fei fei li

ini sebenarnya adalah proses evolusi jangka panjang. setelah menyelesaikan phd, saya mulai mencari jalan untuk menjadi peneliti independen dan memikirkan pertanyaan-pertanyaan besar di bidang ai dan visi komputer. saya menyimpulkan pada saat itu bahwa dekade terakhir adalah tentang memahami data yang sudah ada, dan dekade berikutnya adalah tentang memahami data baru.

data masa lalu sebagian besar berupa gambar dan video yang sudah ada di internet, namun data masa depan benar-benar baru - munculnya ponsel pintar yang memiliki kamera, sensor baru, dan dapat diposisikan di dunia 3d. ini bukan hanya soal anda mengambil sekumpulan piksel dari internet dan mencoba mengetahui apakah itu kucing atau anjing.

kami berharap dapat memperlakukan gambar-gambar ini sebagai sensor universal terhadap dunia fisik, membantu kita memahami struktur 3d dan 4d dunia, baik dalam ruang fisik maupun generatif.

setelah lulus dari phd, saya membuat perubahan besar dan memasuki bidang visi komputer 3d, bekerja dengan rekan-rekan saya tentang cara memprediksi bentuk objek 3d. belakangan saya menjadi sangat tertarik dengan ide mempelajari struktur 3d dari data 2d.

ketika kita membahas data, kita sering menyebutkan bahwa memperoleh data 3d itu sulit, namun sebenarnya gambar 2d merupakan proyeksi dunia 3d, dan banyak struktur matematika yang dapat dimanfaatkan. meskipun anda memiliki banyak data 2d, anda dapat menyimpulkan struktur dunia 3d melalui struktur matematika ini.

tahun 2020 adalah momen terobosan. salah satu pendiri kami ben mildenhall mengusulkan metode nerf (neural radiation field). ini adalah cara yang sangat sederhana dan jelas untuk menyimpulkan struktur 3d dari observasi 2d, yang memicu seluruh bidang visi komputer 3d.

pada saat yang sama, llm juga mulai bermunculan. banyak karya pemodelan bahasa sebenarnya telah dikembangkan di dunia akademis sejak lama. bahkan selama saya phd, saya melakukan beberapa pekerjaan pemodelan bahasa dengan andrej karpathy pada tahun 2014.

justin johnson

ini sebenarnya sesuatu yang muncul sebelum transformer, namun di era gpt-2, sulit bagi anda untuk membuat model seperti itu di dunia akademis karena memerlukan terlalu banyak sumber daya komputasi. namun menariknya, metode nerf yang dikemukakan ben hanya membutuhkan beberapa jam pelatihan pada satu gpu.

hal ini menyebabkan banyak peneliti akademis kembali fokus pada masalah ini, karena beberapa masalah algoritma inti dapat diselesaikan dengan sumber daya komputasi yang terbatas, dan anda bisa mendapatkan hasil tercanggih pada satu gpu. jadi pada saat itu, banyak peneliti akademis yang berpikir: bagaimana kita dapat mendorong pengembangan bidang ini melalui algoritma inti? fei-fei dan saya telah berbicara banyak dan kami berdua sangat yakin akan hal ini.

fei fei li

ya, kami menemukan bahwa arah penelitian kami bergerak menuju tujuan yang sama sampai batas tertentu. saya juga ingin menceritakan masalah teknis yang sangat menarik, atau cerita teknis tentang piksel.

banyak orang yang berkecimpung dalam penelitian bahasa mungkin belum mengetahui bahwa sebelum era ai generatif, kita yang berkecimpung di bidang computer vision sebenarnya memiliki sejarah panjang dalam penelitian yang disebut rekonstruksi 3d.

hal ini terjadi pada tahun 1970-an, dan anda dapat mengambil foto - karena manusia memiliki dua mata, anda dapat menggunakan foto stereo untuk mencoba melakukan triangulasi dan membuat bentuk 3d. namun, ini adalah masalah yang sangat sulit yang belum terselesaikan sepenuhnya karena adanya komplikasi seperti masalah pencocokan.

ada sejarah panjang kemajuan dalam bidang ini, tetapi ketika nerf digabungkan dengan metode generatif, terutama dalam konteks model difusi, rekonstruksi dan pembangkitan 3d tiba-tiba mulai menyatu. di bidang visi komputer, kami tiba-tiba menemukan bahwa jika kita melihat sesuatu, atau membayangkan sesuatu, keduanya dapat menyatu dalam arah menghasilkannya. ini adalah momen yang sangat penting, namun mungkin banyak orang yang tidak menyadarinya karena kita tidak membicarakannya sesering kita membicarakan llm.

justin johnson

ya, ada rekonstruksi dalam ruang piksel, misalnya anda merekonstruksi pemandangan nyata, dan jika anda tidak dapat melihat pemandangan itu, anda menggunakan teknik generatif; keduanya sebenarnya sangat mirip. anda telah membicarakan tentang bahasa dan piksel sepanjang percakapan ini, jadi mungkin ini saat yang tepat untuk membicarakan tentang kecerdasan spasial versus pendekatan bahasa, apakah keduanya saling melengkapi, atau justru berbeda?

fei fei li

saya pikir mereka saling melengkapi. saya tidak yakin bagaimana mendefinisikan "benar-benar berbeda", tapi saya bisa mencoba membuat perbandingan. saat ini, banyak orang membicarakan tentang gpt, ai terbuka, dan model multimodal. model ini dirasa dapat menangani piksel dan bahasa. jadi bisakah mereka mencapai penalaran spasial yang kita inginkan? untuk menjawab pertanyaan ini, kita perlu membuka "kotak hitam" sistem ini dan melihat cara kerjanya.

representasi mendasar dari model bahasa dan model bahasa multimodal yang kita lihat sekarang adalah "satu dimensi". kita berbicara tentang panjang konteks, transformers, urutan, mekanisme perhatian, tetapi pada akhirnya, representasi model ini didasarkan pada token serial satu dimensi.

representasi ini sangat wajar ketika berhadapan dengan bahasa, karena teks itu sendiri terdiri dari rangkaian huruf-huruf terpisah satu dimensi. representasi satu dimensi ini adalah dasar keberhasilan llm, dan hal yang sama berlaku untuk llm multi-modal yang kita lihat sekarang, yang melakukan "hard-core" modalitas lain (seperti gambar) ke dalam representasi satu dimensi ini.

di bidang kecerdasan spasial, kami berpendapat sebaliknya - kami percaya bahwa sifat tiga dimensi dunia harus menjadi inti representasi. dari perspektif algoritmik, hal ini membuka peluang baru bagi kita untuk memproses data dan memperoleh berbagai jenis keluaran, membantu kita memecahkan beberapa masalah yang sangat berbeda.

bahkan pada tingkat kasarnya, anda mungkin mengatakan: "llm multimodal juga dapat melihat gambar." memang bisa, namun mereka tidak menempatkan sifat tiga dimensi sebagai inti pendekatan mereka saat memproses gambar.

justin johnson

saya sepenuhnya setuju bahwa sangat penting untuk membahas perbedaan mendasar antara representasi satu dimensi dan tiga dimensi. selain itu, ada poin yang sedikit lebih filosofis, namun bagi saya yang tidak kalah pentingnya: bahasa pada dasarnya adalah sinyal yang dihasilkan murni, dan tidak ada bahasa di dunia. anda tidak akan melihat tulisan di langit saat anda pergi ke alam terbuka. apa pun data yang anda masukkan, model bahasa dapat mengeluarkan data yang hampir sama dengan generalisasi yang cukup. ini adalah sifat pembuatan bahasa.

namun dunia 3d berbeda. ia mengikuti hukum fisika dan memiliki struktur serta materialnya sendiri. mampu mengekstrak informasi ini, merepresentasikannya, dan menghasilkannya adalah masalah yang sangat berbeda. meskipun kita akan meminjam beberapa gagasan berguna dari model bahasa, ini pada dasarnya merupakan pertanyaan filosofis yang berbeda.

martin casado

benar, jadi model bahasanya satu dimensi dan mungkin merupakan representasi buruk dari dunia fisik karena dihasilkan oleh manusia dengan kehilangan. modalitas lain untuk model generatif adalah piksel, yaitu gambar dan video 2d. jika anda menonton video, anda dapat melihat pemandangan 3d karena kamera dapat menggeser. lalu apa perbedaan antara kecerdasan spasial dan video 2d?

fei fei li

ada dua hal yang perlu dipikirkan di sini. salah satunya adalah representasi yang mendasarinya, dan yang lainnya adalah kenyamanan pengalaman pengguna. keduanya terkadang bingung. apa yang kita rasakan adalah 2d - retina kita adalah struktur dua dimensi, namun otak kita melihatnya sebagai proyeksi dunia tiga dimensi.

anda mungkin ingin memindahkan objek, menggerakkan kamera, dan pada prinsipnya anda dapat melakukan hal-hal tersebut dengan representasi dan model 2d, namun itu tidak sesuai untuk masalah yang anda tanyakan. proyeksi dua dimensi dari dunia tiga dimensi yang dinamis mungkin dapat dimodelkan, namun menempatkan representasi tiga dimensi pada inti model lebih sesuai dengan kebutuhan permasalahan.

tujuan kami adalah mengintegrasikan lebih banyak representasi 3d ke dalam inti model untuk memberikan pengalaman yang lebih baik bagi pengguna. ini juga terkait dengan “bintang utara” saya. mengapa kami menekankan “kecerdasan spasial” dibandingkan “kecerdasan piksel datar”?

karena lintasan kecerdasan, jika melihat kembali sejarah evolusi, tujuan utamanya adalah memungkinkan hewan dan manusia bergerak bebas di dunia, berinteraksi, menciptakan peradaban, dan bahkan membuat sandwich. oleh karena itu, menerjemahkan esensi 3d ini ke dalam teknologi adalah kunci untuk membuka aplikasi potensial yang tak terhitung jumlahnya, meskipun beberapa di antaranya tampak seperti kemajuan yang dangkal.

martin casado

saya pikir ini adalah poin yang sangat halus namun krusial. mungkin kita dapat mendalami diskusi ini lebih jauh dengan membicarakan beberapa skenario aplikasi. ketika kita berbicara tentang pengembangan model teknologi yang memungkinkan kecerdasan spasial, secara spesifik seperti apa model tersebut? apa saja skenario penerapan yang potensial?

fei fei li

model kecerdasan spasial yang kami bayangkan dapat melakukan banyak hal, salah satu hal yang sangat saya sukai adalah “generasi dunia”. mirip dengan generator teks-gambar, sekarang kami memiliki generator teks-video - masukkan gambar atau video dan sistem akan menghasilkan klip dua detik yang menakjubkan. tapi saya rasa kita bisa membawa pengalaman ini ke dunia 3d.

kita dapat membayangkan bahwa kecerdasan spasial akan membantu kita meningkatkan pengalaman ini menjadi 3d di masa depan, tidak hanya menghasilkan gambar atau video, namun menghasilkan dunia 3d interaktif yang lengkap, tersimulasi, dan kaya. mungkin digunakan untuk game, mungkin digunakan untuk fotografi virtual, bidang penerapannya sangat luas sehingga tidak terbayangkan.

justin johnson

saya pikir teknologi akan meningkat seiring berjalannya waktu. sangat sulit untuk membangun hal-hal ini, jadi masalah statis mungkin relatif sederhana, namun dalam jangka panjang kami ingin masalah ini sepenuhnya dinamis, interaktif, seperti yang baru saja anda jelaskan.

fei fei li

ya, inilah definisi sebenarnya dari kecerdasan spasial. kami akan mulai dengan isu-isu yang lebih statis, namun semua yang anda sebutkan adalah masa depan kecerdasan spasial.

justin johnson

hal ini juga tercermin dalam nama perusahaan kami “world labs” – nama yang bertujuan untuk membangun dan memahami dunia. ketika kami memberi tahu orang-orang namanya, mereka tidak selalu memahaminya pada awalnya, karena di bidang visi komputer, rekonstruksi, dan generasi, kami sering membedakan apa yang bisa kami lakukan. tingkat pertama adalah mengenali objek, seperti mikrofon, kursi, dan objek diskrit lainnya di dunia. sebagian besar pekerjaan imagenet berkaitan dengan pengenalan objek.

namun kemudian kita naik ke level adegan – adegan terdiri dari objek. misalnya sekarang kita mempunyai studio rekaman yang dilengkapi dengan meja, microphone, dan orang-orang yang duduk di kursi yang merupakan kombinasi benda-benda. namun “dunia” yang kita bayangkan melampaui pemandangan. pemandangannya mungkin hanya satu hal, tapi kita ingin mendobrak batasan tersebut dan melangkah keluar, ke jalan, melihat lalu lintas yang lewat, melihat dedaunan bergoyang tertiup angin, dan dapat berinteraksi dengan hal-hal tersebut.

fei fei li

hal lain yang sangat menarik adalah mengenai istilah “media baru”. dengan teknologi ini, batas antara dunia nyata, dunia maya yang dibayangkan, atau dunia yang diperbesar dan diprediksi menjadi kabur. dunia nyata adalah 3d, sehingga dalam dunia digital diperlukan representasi 3d untuk menyatu dengan dunia nyata. anda tidak dapat berinteraksi secara efektif dengan dunia 3d nyata hanya dalam 2d ​​atau bahkan 1d.

kemampuan ini membuka skenario aplikasi tanpa batas. sama seperti skenario penerapan pertama yang disebutkan justin, generasi dunia maya dapat digunakan untuk tujuan apa pun. yang kedua mungkin sajarealitas tertambah. sekitar waktu world labs didirikan, apple merilis vision pro, dan mereka menggunakan istilah "komputasi spasial". kita hampir membicarakan hal yang sama, yang kami tekankan adalah “kecerdasan spasial”. tidak ada keraguan bahwa komputasi spasial memerlukan kecerdasan spasial.

kita tidak tahu seperti apa bentuk perangkat keras di masa depan – bisa berupa kacamata, kacamata, atau bahkan lensa kontak. namun pada antarmuka antara dunia nyata dan dunia maya, apakah itu meningkatkan kemampuan anda untuk bekerja, membantu anda memperbaiki mobil meskipun anda bukan mekanik profesional, atau sekadar memberikan pengalaman hiburan seperti "pokemon go++", teknologi ini akan menjadi sistem operasi untuk ar/vr.

justin johnson

dalam kasus ekstrim, yang perlu dilakukan perangkat ar adalah selalu menemani anda, memahami dunia yang anda lihat secara real time, dan membantu anda menyelesaikan tugas dalam kehidupan sehari-hari. saya sangat bersemangat dengan hal ini, terutama perpaduan antara virtual dan realitas. ketika anda dapat memahami lingkungan sekitar anda dengan sempurna dalam 3d secara real-time, hal itu bahkan mungkin menggantikan beberapa hal di dunia nyata.

misalnya, sekarang kita memiliki layar dengan berbagai ukuran—ipad, monitor komputer, tv, jam tangan, dll.—yang menyajikan informasi dalam skenario berbeda. namun jika kita dapat menggabungkan konten virtual dengan dunia fisik secara mulus, perangkat ini tidak lagi diperlukan. dunia virtual dapat menampilkan informasi yang anda butuhkan pada saat yang tepat dan dengan cara yang paling tepat.

penerapan besar lainnya adalah memadukan dunia virtual digital dengan dunia fisik 3d, khususnya di bidang robotika. robot harus bertindak di dunia fisik, sedangkan komputasi dan otaknya berada di dunia digital. jembatan antara pembelajaran dan perilaku harus dibangun oleh kecerdasan spasial.

martin casado

anda menyebutkan dunia virtual, augmented reality, dan sekarang anda berbicara tentang dunia fisik murni, misalnya dalam robotika. ini adalah bidang yang sangat luas, terutama jika anda berencana untuk merambah ke berbagai bidang ini. bagaimana anda melihat teknologi mendalam terkait dengan bidang aplikasi spesifik ini?

fei fei li

kami menganggap diri kami sebagai perusahaan teknologi mendalam, sebagai perusahaan platform, yang menyediakan model yang dapat melayani skenario aplikasi yang berbeda-beda. mengenai skenario aplikasi mana yang lebih sesuai dengan apa yang kami fokuskan di awal, menurut saya peralatan yang ada saat ini belum cukup sempurna.

saya sebenarnya mendapatkan headset vr pertama saya ketika saya masih di sekolah pascasarjana. saat saya memakainya, saya berpikir: "ya tuhan, ini gila!" saya yakin banyak orang memiliki pengalaman serupa saat pertama kali menggunakan vr.

saya sangat menyukai vision pro sehingga saya begadang pada hari peluncurannya untuk membeli vision pro, namun saat ini vision pro belum sepenuhnya matang sebagai platform pasar massal. oleh karena itu, kami sebagai perusahaan dapat memilih pasar yang sudah lebih matang untuk dimasuki.

terkadang ada kesederhanaan dalam keserbagunaan. kami memiliki visi sebagai perusahaan teknologi yang mendalam dan percaya bahwa ada beberapa masalah mendasar yang perlu diselesaikan dengan baik, dan jika diselesaikan dengan baik, dapat diterapkan pada berbagai bidang. kami menganggap tujuan jangka panjang perusahaan adalah membangun dan mewujudkan impian kecerdasan spasial.

justin johnson

faktanya, menurut saya di situlah dampak dari apa yang anda lakukan. saya rasa kita tidak akan pernah benar-benar sampai di sana, karena ini adalah hal yang mendasar - alam semesta pada dasarnya adalah struktur empat dimensi yang berevolusi, dan kecerdasan spasial dalam arti luas adalah tentang memahami struktur tersebut secara mendalam dan menemukan temuannya. semua aplikasi. jadi, meskipun kita memiliki serangkaian ide spesifik saat ini, saya yakin perjalanan ini akan membawa kita ke tempat yang tidak dapat kita bayangkan saat ini.

fei fei li

hal yang menakjubkan tentang teknologi adalah teknologi terus membuka lebih banyak kemungkinan. ketika kita terus maju, kemungkinan-kemungkinan ini akan terus berkembang.