berita

apakah robot openai terlalu mirip manusia? investor kagum: mereka mengira ada orang sungguhan di balik pakaian itu

2024-09-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

seri perwakilan kelas - interpretasi peristiwa besar ai tercepat dan terlengkap. artikel ini berfokus pada robot neo terbaru yang dirilis oleh teknologi 1x, robot humanoid yang diinvestasikan oleh openai, dan menggunakan ini sebagai petunjuk untuk mengungkap jalur teknis khusus dan pertimbangan posisi. diadopsi oleh 1x robot.

panduan masa depan ai ke utara oleh hao boyang dan zhou xiaoyan

editor zheng kejun

meski setelah mengunjungi konferensi robot dunia, beberapa investor mengatakan kepada tencent technology bahwa ada jalur robot humanoid, tapi lihatdiproduksi oleh 1x, sebuah perusahaan robot humanoid yang diinvestasikan oleh openaisetelah robot neo, mereka mulai percaya diri lagi.

bahkan wang yuquan, pendiri haiyin capital, yang selalu menentang pembuatan robot menjadi bentuk humanoid, terkejut. dia mengatakan kepada tencent technology, "gerakan neo sangat alami dan terkoordinasi, sepenuhnya menghilangkan stereotip orang tentang robot." saat saya pertama kali melihat robot ini, reaksi pertama saya adalah ada orang sungguhan di balik pakaian itu.”

robot yang diinvestasikan oleh openai mulai melakukan pekerjaan rumah tangga, dan robot itu sangat hidup sehingga dipertanyakan sebagai cangkang manusia

kami juga terkesima dengan kehalusannya, namun selain itu yang ingin kami ketahui lebih jauh adalah, mengapa ia memilih menggunakan mode "bipod" di dunia mode "roda" di kancah keluarga?

dalam laporan di atas, kami menyebutkan bahwa lebih dari 80% robot yang melayani lingkungan industri akan mengadopsi mode "bipedal" dalam desain bodi bagian bawah. di lingkungan rumah, tugas-tugas kurang terstandarisasi, tugas-tugas lebih sepele, dan keadaan darurat lebih sering terjadi, sehingga robot rumahan harus aman dan tenang. dibandingkan dengan algoritma kontrol "bipod" yang berbiaya tinggi dan belum matang, yang menyebabkan ketidakstabilan saat berjalan dan berdiri, serta kebisingan yang tinggi, tipe roda lebih senyap dan lebih stabil di jalan datar.

neo mengambil pendekatan berbeda. ini adalah robot mode "bipedal" yang jarang ditemukan di lingkungan rumah.

dalam tampilan videonya, neo sangat “lembut”.tanpa tali yang tergantung di punggungnya, ia akan terlihat seperti manusia sungguhan yang sedang mengemas gelas di dapur.

ia dapat memprediksi langkah selanjutnya manusia melakukan pekerjaan rumah tangga tanpa instruksi apa pun, hanya mengandalkan “pengamatan”nya sendiri.

neo bergerak dengan sangat pelan, namun jika anda memperbesar volume tampilan video, anda masih dapat mendengar suara dengung halus yang dihasilkan neo saat ia membungkuk untuk mengambil ransel.

berbeda dengan kebanyakan robot humanoid yang berpenampilan "tinggi", neo terlihat seperti tetangga yang datang ke rumah anda dengan mengenakan pakaian santai dan dapat membantu anda melakukan pekerjaan rumah.

neo memiliki tinggi 1,65 meter dan memiliki kebebasan 55 derajat di seluruh tubuhnya, beratnya hanya 30 kilogram, hampir 1/3~1/2 lebih ringan dari kebanyakan robot humanoid dengan tinggi yang sama menurut laporan medium, neo memiliki muatan 20kg dan cengkeramannya cukup kuat untuk mengangkat beban 70kg (154lbs).

(gambar: perbandingan berat robot humanoid pada kisaran "tinggi badan dewasa" di dalam dan luar negeri)

dilihat dari parameternya, neo memang berukuran kecil, namun kekuatannya tidak kalah dengan robot humanoid mainstream di industri. di antara robot humanoid bipedal ini, hanya neo yang secara jelas diposisikan untuk melayani skenario aplikasi rumah, sementara robot bipedal lainnya pada dasarnya melayani skenario industri.

lantas, bagaimana neo bisa berjalan "ringan" di rumah? bagaimana kita bisa memprediksi tindakan manusia hanya dengan mengamatinya? mungkinkah ia mengatasi masalah generalisasi robot humanoid?

dari mana asal mula perbedaan desain antara roda dan kaki?

robot humanoid bipedal cocok untuk skenario industri, namun mereka menghadapi banyak tantangan setelah beralih ke mode domestik.

inti dari tantangannya adalah struktur mekanis "bipod" itu rumit, dan lebih banyak sambungan yang perlu dimobilisasi untuk mempertahankan pengoperasian robot, yang tentunya akan membutuhkan daya yang lebih tinggi jika ingin digunakan dalam skenario rumah. itu harus memecahkan serangkaian masalah yang disebabkan oleh masalah interlocking yang tinggi, seperti pembuangan panas dan kebisingan.

sebaliknya, dalam skenario industri, robot biasanya bekerja di gudang atau pabrik yang tertutup. tempat-tempat tersebut seringkali dilengkapi dengan peralatan pendingin atau pendingin untuk membantu pembuangan panas, sehingga robot bipedal tidak perlu terlalu khawatir dengan pengaruh suhu tinggi di lingkungan tersebut .

sebagai "pekerja", mereka tidak memiliki persyaratan penampilan yang tinggi. mereka bisa setengah telanjang (dengan bagian-bagiannya terbuka), atau bahkan berjalan-jalan di pabrik dengan kabel digantung. kurangnya "pakaian" juga membantu menghilangkan panas. seperti atlas hidrolik boston dynamics. anda dapat berlari bolak-balik "dengan ganas".

(gambar: atlas hidraulik boston power)

selain itu, lingkungan industri sendiri dipenuhi dengan berbagai suara mekanis, suara gerak sendi robot bipedal serta suara langkah kaki saat berjalan tidak begitu terasa.

namun begitu anda beralih ke lingkungan rumah, masalah-masalah yang tidak terlihat jelas di lingkungan industri ini semuanya menjadi bug: kinerja pembuangan panas robot yang buruk dapat menyebabkan kebakaran, terlalu banyak kebisingan dapat menyebabkan neurasthenia, dan bagian yang terbuka terutama untuk keluarga dengan anak-anak. ada risiko keamanan yang sangat besar.

tipe beroda memiliki konsumsi daya yang rendah, yang secara alami mengurangi masalah seperti pembuangan panas dan kebisingan.

artinya untuk memindahkan robot "bipedal" ke dalam home scene, robot tersebut harus dioptimalkan dan ditransformasikan dari ontologi.

eric jiang, wakil presiden 1x robot ai, memberikan solusi untuk produksi neo dan mengoptimalkan komponen inti "motor" robot.bertentangan dengan gagasan "motor kecil, rasio roda gigi besar, dan energi kinetik tinggi" yang digunakan oleh banyak robot humanoid, kata sandi utama neo adalah "torsi tinggi, rasio roda gigi kecil, dan energi kinetik rendah".

jadi, bagaimana memahami apa yang dikatakan eric jiang? pertama-tama kita dapat memahami secara singkat hubungan antara "motor" dan "rasio roda gigi" robot humanoid.

analog dengan manusia, sebenarnya hanya ada dua jenis gerak pada robot humanoid: gerak linier dan gerak rotasi. misalnya pada video tampilan 1x, terdapat beberapa detik dimana neo "melambai" ke manusia. komponen anatomi tindakan ini adalah: pertama mengulurkan tangan kanan (gerakan linier), kemudian melambaikan tangan (gerakan rotasi). ).

jika anda mencoba membongkarnya, anda akan menemukan bahwa keseluruhan sistem gerak robot humanoid tersebut merupakan gabungan dari kedua gerakan tersebut.

diantaranya, gerak linier diwujudkan dengan kombinasi "motor + sekrup" dari robot humanoid, sedangkan gerak rotasi diwujudkan dengan "motor + peredam". di sini kita fokus pada realisasi gerak rotasi yang membantu robot menyelesaikan rotasi "sendi", dibandingkan dengan jenis roda, gerakan utama yang terlibat dalam "bipod" juga tercermin pada sambungan.

inti dari "rasio roda gigi" mempengaruhi kecepatan putaran, yang merupakan kecepatan gabungan "motor + peredam".

sederhananya,"rasio roda gigi" mengacu pada motorkecepatan keluarandankecepatan di mana komponen sebenarnya dieksekusirasio antara. misalnya kecepatan gerak kaki robot humanoid adalah v, maka rasio roda gigi yang tinggi berarti motor berjalan dengan kecepatan tinggi, dan rasio roda gigi yang rendah berarti motor berjalan dengan kecepatan rendah.

banyak robot humanoid memiliki rasio roda gigi yang tinggi(misalnya 10:1), maka setelah kecepatan motor dikurangi dengan gigi maka kecepatan gerak sendi robot akan melambat. konfigurasi ini lebih cocok untuk situasi yang memerlukan kekuatan tinggi namun tidak memerlukan pergerakan berkecepatan tinggi.

jika rasio roda gigi rendah digunakan(misalnya 3:1), kecepatan motor mengalami perlambatan lebih kecil, dan sambungan robot bergerak lebih cepat. konfigurasi ini cocok untuk situasi yang memerlukan respons cepat dan pengoperasian fleksibel.

neo dapat mengurangi konsumsi daya sambungan inti dengan mengatur rasio gigi rendah dan mengurangi kecepatan keluaran motor.

rasio gigi motor yang rendah berarti kecepatan pengoperasian motor dikorbankan. eric jiang mengatakan dalam dokumen teknis "motor physics" ia menulis bahwa neo menggunakan "torsi tinggi" untuk menutupi kekurangan tenaga yang mungkin ditimbulkan. oleh rendahnya pengoperasian motor. dia juga menyatakan, "kebanyakan motor tidak cukup bertenaga untuk menghasilkan torsi dalam jumlah besar, sehingga insinyur mesin menggunakan motor berkecepatan tinggi dan menambahkan roda gigi ke dalamnya, menukar kecepatan dengan torsi."

(gambar: tangkapan layar dokumen teknis "fisika motor" yang diterbitkan oleh eric jiang, menjelaskan bagaimana insinyur mesin menukar kecepatan motor dengan torsi)

hal ini menjelaskan mengapa banyak robot bipedal hanya dapat digunakan dalam skenario industri:“sebagian besar perusahaan robot humanoid memilih untuk menempatkan robot mereka di pabrik daripada di rumah karena mereka mengandalkan sistem penggerak yang kaku dan sangat diarahkan. sistem ini tidak aman jika berada di dekat manusia dan harus dikurung di dalam kandang.”

dari perspektif ini, tim 1x telah menemukan jalur perangkat keras agar robot bipedal dapat beroperasi dengan aman di skenario rumah, sehingga neo dapat mengenakan pakaian manusia tanpa khawatir akan membakar pakaian karena kinerja pembuangan panas yang buruk.

faktanya, eve, robot 1x generasi sebelumnya, beroda. baru pada generasi neo menjadi bipedal. alasan utamanya masih masalah adaptasi adegan.

adegan rumah sangat kompleks dan mengharuskan robot untuk meraih ke bawah meja untuk mengambil barang atau mengambil barang dari konter, karena pangkalan memakan ruang, robot dengan sasis beroda harus "mengulurkan" lengannya untuk mencapai beberapa sudut dari rumah. eric jiang percaya bahwa "dalam hal ini, robot harus menggunakan perubahan pusat gravitasinya untuk mengambil benda seperti manusia." robot harus dapat mengangkat salah satu kakinya seperti manusia, dan meletakkan salah satu tangannya di atas meja dan menggunakan pusat gravitasi untuk mencapai benda tersebut.

eric jiang juga memberikan contoh dalam wawancaranya: mengapa banyak rak buku meninggalkan celah ruang tertentu di bagian bawah? “itu hanya untuk memudahkan manusia memasukkan jari kakinya,” sehingga orang bisa menempelkan badannya ke rak buku untuk mengambil buku.

oleh karena itu, kedua kakinya dapat mengurangi jejak pergerakan robot, sedangkan wheel base tidak dapat beradaptasi dengan pemandangan sehari-hari yang sepele.

begitulah logikanya 1x berpindah dari postur beroda ke postur kaki. mungkin, dalam lingkungan keluarga, postur beroda tidak bisa “berlari” begitu pula dengan postur kaki. selain itu, neo juga memiliki beberapa rumus yang “unik” dalam hal generalisasi dan pengumpulan data.

apakah robot yang mampu melakukan generalisasi sudah berada di ambang batas?

sebagai robot yang bisa digunakan di rumah, selain keselamatan, yang terpenting adalah bisa menjadi penolong sejati dalam berbagai bidang. hal ini menuntut robot untuk menjadi “pintar”, mampu memahami kebutuhan pemiliknya, mampu beroperasi secara mandiri, dan cukup menggeneralisasi.

melihat semua perusahaan robot yang telah diinvestasikan oleh openai, ciri umum dari produk mereka adalah mereka sangat "pintar", yaitu mereka dapat menggabungkan model besar dengan robot dengan sangat baik.

misalnya, kinerja luar biasa gambar 01 sebagian besar berasal dari kemampuannya memahami instruksi dan mengidentifikasi item untuk membuat penilaian. dan ini adalah hasil kombinasi model multimodal besar dan robot.

perusahaan investasi lainnya, physical intelligence, hanya memiliki halaman web dan sejauh ini belum memiliki produk. namun dalam wawancara, perusahaan tersebut mengatakan bahwa visinya adalah untuk “membangun model kecerdasan buatan untuk tujuan umum yang, alih-alih menggerakkan robot yang melakukan tugas berulang di gudang atau pabrik, dapat diterapkan pada berbagai skenario.”

sedangkan untuk bagian mekanisnya, mereka bahkan mengumumkan bahwa mereka tidak akan memproduksi perangkat kerasnya sendiri, melainkan akan membeli berbagai jenis robot untuk melatih perangkat lunaknya.

(gambar: kecerdasan fisik)

ini bukanlah perusahaan robotika, melainkan perusahaan model berskala besar.

dan robot 1x tidak terkecuali.

eric jang, wakil presiden ai 1x, memiliki pengalaman luas dalam mengintegrasikan model besar ke dalam robot. sebelum bergabung dengan 1x pada tahun 2022, ia pernah memimpin tim dalam proyek saycan google deepmind. proyek ini adalah upaya paling awal dalam mewujudkan kecerdasan untuk mengintegrasikan model bahasa dan robot.

pada bulan februari tahun ini, 1x merilis video eve-nya yang melakukan misi jaringan saraf penuh, yang menjadi sukses kecil. pada pertemuan berbagi grasp sfi pada tanggal 24 april, kita dapat melihat logika pengoperasian model ini secara keseluruhan.

itu juga dibagi menjadi pipeline (bentuk alur kerja). pertama, model dit (diffusion-transformer) digunakan, dikombinasikan dengan perintah bahasa alami, untuk menggunakan difussion guna menghasilkan gambaran prediksi posisi masa depan. kemudian masukkan prediksi ini, gambar saat ini, dan target ke dalam model transformer baru untuk memprediksi aktivitas mekanis yang diperlukan selanjutnya.

dari video tersebut terlihat bahwa eve bisa menyortir barang, membawanya, bahkan mengisi daya sendiri (pantas disebut eve). beberapa tugas ini juga dapat dilakukan dengan dua tangan. namun jika dilihat lebih dekat pada video ini, ternyata kemampuan eve saat itu hanya sebatas mengidentifikasi, mengambil, dan menempatkan barang. nantinya, kemampuan dasar tersebut digabungkan menjadi tugas-tugas tertentu, seperti mengemas, memindahkan, dan mengklasifikasikan.

pada bulan agustus atau september tahun ini, pada dasarnya semua perusahaan robotika yang memiliki akses ke sirkuit model skala besar akan dapat mencapai kemampuan tersebut.

misalnya, gambar 01 merilis video robotnya sendiri yang menggunakan model besar untuk menggerakkan kopi pada akhir februari, yang bahkan dapat memperbaiki kesalahannya sendiri.

(gambar: gambar 01 menyeduh kopi pada video demonstrasi)

namun setelah itu, figure dan 1x mengambil jalur yang berbeda dari segi model.

pada bulan maret, figure memilih untuk langsung menggunakan gpt-4o, sehingga robotnya memiliki kemampuan percakapan dan logika yang kuat. mereka menggunakan pipeline (alur kerja) untuk mengintegrasikan ketiga model.

pertama, model besar gpt-4o digunakan untuk mengenali bahasa dan merencanakan tindakan. kemudian lapisan kebijakan sarafnya sendiri, yaitu model tugas end-to-end yang terlatih, menjalankan tindakan tersebut. pada saat yang sama, ia menggunakan model kendali tubuhnya sendiri untuk menjaga keseimbangan robot.

(gambar: gambar penjelasan resmi komposisi modelnya)

setelah interaksi menjadi sorotan terbesar robot mereka, gambar 02 juga menekankan peningkatan tingkat otak yang dihasilkan oleh daya komputasi 3x lipatnya. dalam hal model, integrasi model openai yang lebih baik telah menjadi fokus pengembangan mereka.

namun baru pada tanggal 31 mei 1x merilis pembaruan arahan bahasa mereka. dalam video demonstrasinya, robot akhirnya dapat memahami tugas dan melakukan operasi terkait melalui komunikasi suara. namun sejauh ini 1x masih belum menggunakan model bahasa tingkat tinggi yang besar. dalam dokumentasi di halaman tampilan situs resminya, mereka menyebutkan: “setelah membuat kumpulan data pasangan perintah bahasa visual ke alami, langkah selanjutnya adalah menggunakan model bahasa visual seperti gpt-4o, vila, dan gemini vision untuk secara otomatis memprediksi tingkat tinggi. tindakan tingkat. "hal ini juga mengakibatkan robot mereka kurang memiliki kemampuan untuk merencanakan tugas-tugas kompleks.

tampaknya 1x merupakan langkah tertinggal yang besar dalam hal kinerja cerdas.

namun hal ini mungkin terjadi karena upaya mereka berada pada arah yang berbeda. dibandingkan dengan kemampuan interaksi dan perencanaan, 1x lebih memperhatikan generalisasi tugas.

dalam blog resminya pada bulan maret, 1x menjelaskan model yang sedang dibangunnya. mereka mencoba melatih “model dasar” untuk memahami berbagai perilaku fisik, mulai dari membersihkan dan merapikan rumah, memungut benda, hingga interaksi sosial dengan manusia dan robot lainnya. mereka kemudian menambahkan serangkaian keterampilan yang lebih spesifik ke model tersebut (misalnya, satu model untuk pengoperasian pintu umum dan model lainnya untuk tugas gudang) dengan mengumpulkan lebih banyak data pelatihan keterampilan. dengan kata lain, mereka mencoba membangun sebuah robot "model dasar" yang mendukung generalisasi multi-tugas.

ini adalah generalisasi kemampuan tugas, yang memungkinkan satu robot mengandalkan satu model untuk melakukan banyak tugas. ini sebenarnya bukan hal yang istimewa. hampir semua perusahaan yang membuat perangkat lunak robot melatih beberapa tugas. namun dalam berbagai video demonstrasi robot dan pameran di konferensi, jarang kita melihat robot terus-menerus menyelesaikan tugas kompleks dalam waktu bersamaan, seperti membersihkan seluruh ruangan lalu memasak.

hal ini karena saat ini tidak ada model yang dapat menggeneralisasi seluruh tugas.

eric jang mengatakan dalam sebuah wawancara dengan "the robot report", "kami sebelumnya telah menunjukkan bahwa robot kami dapat mengambil dan memanipulasi objek sederhana, namun untuk memiliki robot rumah yang benar-benar praktis, robot tersebut harus mampu melakukan banyak tugas dengan lancar secara seri. " namun hal ini tidak dapat dicapai hanya dengan membagi tugas kompleks menjadi beberapa tugas melalui model tingkat tinggi seperti "otak". karena posisi awal dan kondisi antar tugas berbeda-beda.

jika robot harus melakukan tugas kedua, ia harus terlebih dahulu menutupi kekurangan tugas pertama. misalnya, jika robot pertama gagal mencapai posisi yang benar di sebelah meja, robot kedua harus merentangkan tangannya untuk meraih benda tersebut, dan tugas ketiga memerlukan kompensasi lebih lanjut. kesalahan cenderung menumpuk.

solusi 1x adalah dengan membagi model. saat ini, modelnya terdiri dari dua bagian, satu adalah model dasar yang memahami semua tugas dan "rantai tugas", dan yang lainnya adalah banyak model kecil yang memiliki pemahaman lebih baik tentang tugas tertentu. ini juga menjadi semacam pipeline (alur kerja).

mereka mengembangkan antarmuka bahasa alami yang memungkinkan karyawan memandu robot melalui suara untuk menyelesaikan tindakan gabungan dari beberapa model kecil dan mengintervensi kesalahan selama proses tersebut. hal ini memungkinkan model untuk dihubungkan secara seri ke dalam "rantai tugas" jangka panjang. data yang terkait dengan intervensi ini dan keseluruhan tugas ganda akan digunakan untuk melatih “model dasar” yang besar. pada akhirnya, mereka akan menyesuaikan dan melatih "model dasar" melalui akumulasi data tugas dan data "rantai tugas", sehingga model dasar ini tidak hanya dapat menyelesaikan pelaksanaan satu tugas, tetapi juga menyelesaikan masalah koneksi antar tugas.

(gambar: antarmuka kontrol bahasa alami yang dikembangkan oleh 1x)

oleh karena itu, berbeda dengan jalur yang dipilih gambar yang menekankan pada interaksi dan perencanaan. masalah inti yang saat ini dipilih untuk dipecahkan oleh 1x adalah kemampuan generalisasi antar tugas. dan ini mungkin menjadi poin utama bagi robot saat ini untuk menjadi benar-benar universal.

jadi bagaimana kemajuan generalisasi antar tugas 1x?

dalam film dokumenter terbaru, kita bisa melihat seorang staf menggunakan suara untuk menginstruksikan robot menyelesaikan tugas membuka pintu, memasuki toilet, menutup dudukan toilet, dan berjalan keluar selangkah demi selangkah. tugas ini tidak diberikan sekaligus, melainkan diberikan secara individu dan berhubungan.

ini tidak terlihat terlalu "otomatis", tetapi ini sebenarnya membuktikan bahwa robot 1x sudah memiliki kemampuan awal untuk bekerja terus menerus di antara beberapa tugas perintah. selama ia memiliki kemampuan eksekusi dasar dari "rantai tugas" dan kemampuan perencanaan model mutakhir seperti gpt-4, maka akan segera dimungkinkan untuk menyelesaikan tugas-tugas kompleks dan berkelanjutan secara mandiri.

eric jang sepertinya juga berpikir begitu. dalam blog berjudul "semua jalan menuju robotika" pada bulan maret tahun ini, ia menulis, "banyak peneliti kecerdasan buatan masih percaya bahwa robot dengan tujuan umum akan membutuhkan waktu puluhan tahun untuk mencapainya. namun perlu diingat, kelahiran chatgpt terasa seperti dalam semalam antara. saya saya pikir bidang robotika juga akan membawa perubahan seperti itu.”

di matanya, robot serba guna yang bisa menggeneralisasi sepertinya sudah terlihat.

namun pesimisme industri ini beralasan. perhatian utama mereka bukan pada algoritmanya, namun pada fakta bahwa data intelijen yang terkandung saat ini tidak melimpah, juga sangat sulit untuk dikumpulkan, dan kurangnya standar.

namun data dalam jumlah besar adalah kunci untuk mencapai generalisasi dalam scaling law. dibandingkan dengan model bahasa sederhana berskala besar, kecerdasan yang diwujudkan mungkin memerlukan jumlah data yang lebih besar agar bersifat universal karena mencakup gambar dan tindakan. dan pengumpulan data ini membutuhkan banyak waktu.

menggunakan metode “bodoh” untuk mengumpulkan data “pintar”.

eric jang pernah membuat pernyataan dalam film dokumenter yang bertentangan dengan kekhawatiran industri secara umum,“banyak orang melebih-lebihkan hambatan dalam pengumpulan data. dalam praktiknya, dalam 12 bulan ke depan, data mungkin menjadi semakin tidak penting.”

keyakinannya terhadap data berasal dari praktik sebelumnya. logika 1x dalam pengumpulan data selalu sedikit berbeda dari perusahaan robotika lainnya.

perusahaan lain umumnya menggunakan segala cara yang tersedia untuk mengumpulkan data sebanyak mungkin. metodenya termasuk menempatkan robot simulasi di lingkungan fisik simulasi seperti unreal 5 untuk mengumpulkan data dalam jumlah besar, atau menggunakan data video untuk mencegat video manusia yang mengoperasikan objek dan mengekstrak informasi.

namun nyatanya, metode mainstream yang paling umum digunakan saat ini adalah dengan menggunakan teleoperasi (training from demosration) untuk memperoleh data melalui manusia yang memakai vr untuk didemonstrasikan kepada robot.

pengumpulan operasi jarak jauh semacam ini umumnya menempatkan robot di lingkungan "pabrik pengumpulan data" yang sangat tetap untuk mengumpulkan data yang cukup seefisien mungkin. meski ada beberapa pengulangan dan persamaan.

(gambar: pabrik pengumpulan data tesla)

menurut eric jang, cara yang mereka gunakan saat ini adalah cara yang sangat “bodoh”. dibandingkan dengan mode pengumpulan terpusat yang tampaknya efisien yang digunakan oleh tesla, 1x memilih untuk bersikeras kembali ke berbagai adegan kehidupan untuk pengumpulan. jadi kami melihat mereka dikumpulkan di banyak tempat yang sangat berbeda dibandingkan di pabrik. mereka juga tidak menggunakan data pelatihan dan simulasi video, bersikeras hanya menggunakan data yang dikumpulkan melalui teleoperasi.

(gambar: adegan pelatihan eve ternyata sangat beragam)

ceo bernt bornich menyatakan dalam sebuah wawancara, "keberagaman adalah aspek terpenting dari data robot humanoid. belajar dari keragaman di lingkungan robot konsumen yang tidak terstruktur akan memungkinkan robot serba cerdas yang benar-benar cerdas dari keragaman pemikiran."

dalam pandangan x1, lingkungan rumah dan kantor tempat robot akan mendarat tidak memiliki struktur tetap dan terus berubah seiring penggunaan manusia, sehingga harus terdapat cukup beragam data agar dapat bermakna. oleh karena itu rumus pengumpulan data 1x yang diberikan oleh eric jang adalah "keberagaman>kualitas>kuantitas>algoritma".

untuk mencapai keragaman koleksi ini, 1x secara khusus telah mengorganisir tim operator robot, yang semuanya dipilih dengan cermat. mereka semua dapat melatih beberapa model perilaku secara pribadi melalui serangkaian antarmuka grafis nle sederhana. dalam hal ini, eric jang menulis di blog teknologi, "1x adalah perusahaan pertama yang saya tahu yang memungkinkan pengumpul data untuk melatih kemampuan robotnya sendiri. hal ini sangat mempersingkat waktu yang dibutuhkan model untuk mencapai kondisi yang baik, karena data kolektor dapat memperoleh masukan dengan cepat mengenai seberapa bagus data tersebut dan berapa banyak data yang benar-benar dibutuhkan untuk menyelesaikan tugas-tugas robotik adalah sesuatu yang saya perkirakan akan menjadi pola umum pengumpulan data robotik di masa depan.”

jadi mereka tidak hanya memiliki pekerja pengumpul, tetapi mereka juga memiliki sekelompok insinyur pengumpul yang dapat menyempurnakan model secara langsung. mereka mengidentifikasi apa yang tidak berfungsi dalam tugas tertentu, mengumpulkan data untuk skenario tersebut, lalu melatih ulang dan menyempurnakan model, dan mengulangi prosesnya hingga model sempurna. pelatihan serba guna.

(gambar: di linkedin 1x, rekrutmen operator ini semuanya adalah pekerjaan penuh waktu, bukan outsourcing, dengan gaji bulanan us$6.000-8.000, yaitu sekitar 1,5 kali gaji bulanan rata-rata di amerika serikat)

metode "bodoh" ini menjamin kualitas dan keragaman data yang dikumpulkan, dan setiap data "berguna" mungkin. dalam wawancara beberapa hari terakhir, rric berkata, "jika anda menggunakan robot di pabrik dan melakukan tugas yang sama berulang kali, data pada dasarnya tidak berguna."

pengumpulan yang relatif baik ini tentu saja akan memperlambat pertumbuhan besaran data, namun dampaknya sangat signifikan.

(atas: jumlah jam data dikumpulkan 1x, bawah: keberagaman tindakan dikumpulkan 1x)

menurut pembagian teknis eric jang, hingga maret 2024, mereka telah mengumpulkan total 1.400 jam data pelatihan yang melibatkan 7.000 tindakan unik berbeda. ia juga mengatakan dengan pelatihan data tersebut, robot eve saat ini dapat memiliki ratusan kemampuan mandiri.

sebaliknya, rt-2 menggunakan 130.000 contoh dalam pelatihan, dan 13 robot menghabiskan 17 bulan penuh untuk mengumpulkannya. jika setiap contoh rata-rata berdurasi 5 detik, total durasi contoh tersebut bisa mencapai puluhan ribu jam. ia dapat melakukan tugas dengan 700 instruksi berbeda.

dari sudut pandang ini, pengaruh pengumpulan data yang disempurnakan memang bagus. gunakan 1/10 data untuk mencapai setidaknya setengah dari tingkat kemampuan. gagasan bahwa tergesa-gesa menghasilkan sampah juga berlaku di dunia robotika.

kesimpulan

secara keseluruhan, “kartu truf” terbesar 1x adalah fokusnya pada manusia.

budaya perusahaan yang disampaikan oleh 1x mengungkapkan rasa "relaksasi". baik itu eve sebelumnya atau neo baru-baru ini, video promosinya benar-benar berbeda dari figur teknologi yang dingin komunikasi juga merupakan semacam idealisme.

terlihat dari video promosi neo bahwa 1x menciptakan image "pria hangat" seperti "saudara tetangga". ia mengenakan pakaian kasual yang ketat, menonjolkan garis otot yang mirip dengan manusia pria. dia mengurus kehidupan sehari-hari keluarganya, mengemas paket anda sebelum anda pergi, dan memeluk anda dengan hangat sebelum anda pergi.

selain itu, dalam video demonstrasi terlihat bahwa neo dapat memahami gerak tubuh manusia, yang juga merupakan pemahaman mendalam tentang komunikasi manusia. banyak komunikasi antar manusia yang tidak mengandalkan bahasa. ada kalanya manusia “kehilangan kata-kata”. oleh karena itu, neo bisa “membaca” langkah manusia selanjutnya dan bisa saling memberikan pemahaman tanpa kata-kata, yaitu sangat istimewa. tanah itu memiliki rasa "manusia".

dari perspektif generalisasi tugas dan desain yang fleksibel, neo dapat disebut sebagai robot humanoid bipedal pertama di lingkungan rumah.

jika robot bisa abadi di masa depan, lalu robot seperti apa yang kita perlukan untuk mendampingi diri kita sendiri bahkan generasi mendatang? mungkin, neo adalah jawaban yang bagus.