informasi kontak saya
surat[email protected]
2024-09-30
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
sumber丨chuangyebang (id: ichuangyebang)
pengarang丨juny
penyunting |. hai yao
sumber gambar丨bloomberg
di showplace plaza san francisco, sebuah bangunan komersial yang dulunya milik airbnb baru-baru ini menyambut pemilik baru. pada saat sebagian besar perusahaan teknologi menyusutkan bisnisnya, scale ai, sebuah perusahaan anotasi data kecerdasan buatan yang didirikan oleh orang tionghoa kelahiran setelah tahun 1995, menyewa kantor seluas sekitar 180.000 kaki persegi di pusat kota san francisco dengan lambaian tangan.
belum lama ini, scale ai menyelesaikan putaran pendanaan terbarunya sebesar us$1 miliar, dengan valuasi sebesar us$13,8 miliar, meningkat dua kali lipat dari putaran sebelumnya sebesar us$7,3 miliar. dalam putaran pendanaan f yang dipimpin oleh dana terkemuka silicon valley accel, selain investor lama seperti yc dan nvidia, daftar panjang investor baru juga telah ditambahkan, termasuk: amazon, meta, amd, qualcomm, cisco, intel, qualcomm, dll., dengan maksimal 22 institusi yang berpartisipasi.
sebagian besar titik awal investasi scale ai dari raksasa-raksasa ini serupa – mereka pada dasarnya adalah pelanggan scale ai. dengan pesatnya perkembangan ai, pelabelan data, yang tadinya merupakan bisnis yang tampak sederhana, membosankan, padat karya, dan ambang batas rendah, telah diubah menjadi bisnis besar selangkah demi selangkah oleh scale ai.
ai “pabrik kerah biru”
di masa lalu, nvidia tidak diragukan lagi adalah perusahaan yang paling banyak disebutkan dalam hal "penjualan sekop ai". namun yang tidak diketahui banyak orang adalah scale ai memainkan peran yang sama. seperti kita ketahui bersama, kekuatan komputasi, algoritme, dan data merupakan tiga pilar kecerdasan buatan. nvidia menempati puncak kekuatan komputasi ai, dan scale ai saat ini merupakan penyedia layanan utama yang menyediakan dukungan data untuk ai.
scale ai didirikan pada tahun 2016. pendirinya adalah alexandr wang dari tiongkok, yang lahir pada tahun 1997. dia baru berusia 19 tahun ketika mendirikan perusahaan dan baru saja menyelesaikan tahun pertamanya di mit. ketika scale didirikan, scale terutama berfokus pada anotasi data kecerdasan buatan. bisnis intinya adalah membantu perusahaan mengumpulkan, membersihkan, membuat anotasi, dan mengelola data berskala besar dan berkualitas tinggi untuk melatih dan mengoptimalkan model pembelajaran mesin.
faktanya, sebelum munculnya scale ai, anotasi data sebenarnya sudah lama berada pada posisi "marginal" di bidang ai. yang disebut anotasi data mengacu pada proses penambahan informasi terstruktur ke data mentah seperti gambar, teks, video, atau audio sehingga model pembelajaran mesin dapat memahami dan belajar dari data tersebut. kedengarannya rumit? namun kenyataannya, ini adalah sesuatu yang bahkan dapat dilakukan oleh seorang siswa sekolah dasar. misalnya, saya memberi anda gambar dan meminta anda menandai pejalan kaki, kendaraan, bangunan, dll meminta anda untuk menandai mana seruan dan mana yang merupakan pertanyaan. sepotong suara anda dapat ditandai dengan emosi atau identitas pembicara, dll.
sumber: shaip
meskipun prinsipnya sederhana, data beranotasi ini sangat diperlukan untuk pengembangan kecerdasan buatan. model ai memerlukan sejumlah besar data beranotasi untuk pembelajaran agar dapat memiliki fungsi seperti pengenalan, klasifikasi, dan prediksi.
namun masalah yang dihadapi banyak perusahaan ai adalah meskipun beberapa alat otomatis dapat mempercepat sebagian proses anotasi, untuk mendapatkan data anotasi berkualitas tinggi dan presisi tinggi, masih diperlukan banyak pekerjaan manual untuk memproses, memberi label, dan memverifikasi datanya. khususnya pada bidang dengan persyaratan akurasi tinggi, seperti pencitraan medis, mengemudi otonom, atau aplikasi militer, pelabelan yang salah dapat mengakibatkan konsekuensi serius. oleh karena itu, anotasi data dianggap sebagai bisnis padat karya, dan banyak perusahaan tidak mau dan tidak mempunyai tenaga untuk mengelolanya sendiri, sehingga proses memperoleh data beranotasi memakan waktu dan mahal.
scale ai mengambil alih “kerja keras” ini. posisi awal scale ai adalah menciptakan platform pelabelan yang efisien dan akurat dengan menggabungkan teknologi otomatis dan tinjauan manusia untuk membantu perusahaan dengan cepat memproses dan memberi label pada kumpulan data berskala besar. model bisnisnya sangat sederhana: ia menghubungi perusahaan-perusahaan yang membutuhkan pelabelan, melakukan pra-pemrosesan sederhana dan pembersihan data, lalu menyerahkannya kepada pekerja di afrika, asia tenggara, dll. untuk memberi label pada data.
pada tahun 2017, scale ai mendirikan remotasks sebagai agen outsourcing internalnya. scale ai telah mendirikan lusinan institusi di kenya, filipina, venezuela, dan tempat lain, serta melatih ribuan anotator data di mana pun per potong, dan pendapatan untuk satu kali panggilan hanya beberapa sen saja. banyak pekerja kontrak bahkan mendapat penghasilan kurang dari $1 per jam. di bawah model "pabrik global" seperti itu, margin laba kotor scale ai dapat tetap berada di atas 65% untuk waktu yang lama.
raih setiap peluang
meskipun anotasi data tampaknya merupakan bisnis dengan ambang batas rendah, bisnis ini hampir kosong di pasar selama "periode senyap ai" sekitar tahun 2016. hanya beberapa perusahaan besar seperti google dan amazon yang memiliki departemen anotasi data sendiri. keberhasilan scale ai sebagian besar disebabkan oleh wawasan akuratnya terhadap peluang ini dan kemampuannya menangkap beberapa tren dalam perkembangan industri kecerdasan buatan dalam 10 tahun terakhir.
yang pertama adalah mengemudi otonom. beberapa bulan setelah scale ai didirikan, mereka menemukan permintaan anotasi data dalam skala besar dan kaku di bidang mengemudi otonom. perkembangan teknologi mengemudi otonom bergantung pada sejumlah besar data anotasi presisi tinggi, seperti data gambar pemandangan jalan raya, pejalan kaki, dan objek lainnya. perusahaan mobil memerlukan puluhan ribu jam data video untuk anotasi guna melatih dan memverifikasi algoritme mereka sedangkan untuk keseluruhan mengemudi otonom dari perspektif industri, lebih dari 90% anotasi data pada saat itu sebagian besar dilakukan secara manual. scale ai menggunakan platform anotasi data yang efisien dan menggunakan anotasi berbantuan model serta pemrosesan awal data untuk mempercepat proses pemrosesan data, sehingga mengurangi biaya dan waktu anotasi secara signifikan, sehingga menarik perusahaan seperti waymo dan cruise, yang sedang menjadi pusat perhatian pada saat itu, untuk menjadi pelanggannya. , dan kemudian secara bertahap mendapatkan pijakan di bidang anotasi data mengemudi otonom.
sumber gambar: skala ai
setelah awalnya menikmati kesuksesan di bidang mengemudi otonom, scale ai mulai memasuki pasar aiaas (ai sebagai layanan) sepenuhnya. hal ini mencakup mulai dari pelabelan data sederhana hingga layanan data, menyediakan solusi proses lengkap mulai dari pelabelan dan pengelolaan data, pelatihan dan evaluasi model, hingga pengembangan dan penerapan aplikasi ai.
selain itu, untuk mengatasi tantangan kekurangan data di beberapa industri, scale ai juga meluas ke hilir hingga pembuatan data sintetis untuk membantu melatih model dengan membuat kumpulan data baru dari data yang sudah ada. jadi pada tahun-tahun berikutnya, scale ai berkembang pesat di bidang data, dan pelanggannya meluas ke bidang medis, pertahanan nasional, e-commerce, layanan pemerintah, dan bidang lainnya. lebih dari dua tahun setelah didirikan, pendapatan scale ai mendekati $50 juta.
scale ai juga secara akurat menangkap peluang ledakan ai generatif. pada awal gpt-2, scale melakukan eksperimen kolaboratif pertama pada pembelajaran penguatan dengan umpan balik manusia dengan openai, dan kemudian memperluas teknologi ini ke instructgpt dan bidang lainnya. karena model ai generatif memerlukan data pelatihan dalam jumlah besar untuk meningkatkan akurasi dan keragaman konten yang dihasilkan, pertumbuhan eksplosif model bahasa besar telah sangat mendorong permintaan industri akan data beranotasi berkualitas tinggi yang mengintegrasikan anotasi data, sintesis data, dan lainnya layanan menyediakan dukungan data yang diperlukan untuk ai generatif. selain itu, scale ai juga membantu perusahaan dengan cepat menghasilkan api yang disesuaikan untuk mengurangi kompleksitas dan biaya model pelatihan mereka sendiri.
sumber gambar: skala ai
untuk ai generatif, scale telah meluncurkan layanan platform proses lengkap, termasuk platform alat pengembang scale spellbook, produk data sintetis scale synthetic, platform genai tingkat perusahaan, dll. tujuannya adalah agar perusahaan memiliki cukup data di setiap skenario untuk mendukung model pelatihan, dengan keunggulan uniknya di bidang data, scale ai telah mengalami lonjakan pelanggan dalam dua tahun terakhir, termasuk raksasa seperti openai, meta, aws, dan nvidia, serta unicorn baru seperti cohere dan adept. dan banyak dari mereka juga menjadi investor scale ai pada putaran pembiayaan ini.
mengapa scale ai menjadi terobosan
mengenai kebangkitan scale ai, banyak orang yang bertanya-tanya. untuk industri hulu dan padat karya di bidang ai, tiongkok tampaknya memiliki keunggulan bawaan. secara umum, ada dua faktor utama yang melatarbelakangi hal ini, yang pertama adalah industri dan yang lainnya adalah pembiayaan.
sebelum booming ai generatif, pengembangan kecerdasan buatan dalam negeri pernah menjadi yang terdepan dalam aplikasi adegan. bisnis anotasi data sebenarnya mulai berkembang sangat awal, namun belum berkembang dalam skala besar. meskipun banyak perusahaan terkemuka telah membentuk departemen anotasi data, mereka lebih banyak melayani bisnis mereka sendiri daripada berupaya mencocokkan data dengan sumber daya di berbagai industri. pada saat yang sama, justru karena bonus demografi dalam negeri, biaya untuk memperoleh data berlabel menjadi rendah, dan perusahaan tidak memiliki insentif untuk mengadopsi platform teknologi. dapat dipahami bahwa sejak lama, harga di industri anotasi data dalam negeri sangat transparan. upah per jam umumnya sekitar rmb 10-25 dan sebagian besar tidak memiliki kualifikasi akademis.
sumber: dipekerjakan langsung oleh boss
sebagai perbandingan, biaya tenaga kerja di amerika serikat tinggi. di linkedin, indeed, dan platform lainnya, sebagian besar upah paruh waktu per jam yang ditandai oleh data adalah antara 30 dan 200 dolar as. hal ini secara obyektif mengharuskan perusahaan untuk memikirkan solusi dari segi teknis perspektif. masalah produksi data, atau pengadaan layanan terkait.
dari perspektif lingkungan pembiayaan, pasar anotasi data domestik selalu menjadi yang terdepan dalam pembiayaan di bidang ai. sekitar tahun 2021, penelitian memperkirakan bahwa ukuran seluruh pasar anotasi data tiongkok hanya sebesar 4,3 miliar yuan, dan hanya akan tumbuh menjadi 5,1 miliar yuan pada tahun 2022. jumlah ini tidak diragukan lagi tidak layak disebutkan dibandingkan dengan skala triliunan seluruh pasar ai, dan hal ini juga menyebabkan kesulitan pendanaan bagi perusahaan anotasi data. pada tahun 2021, ketika scale ai telah menyelesaikan pembiayaan seri e sebesar us$325 juta dan valuasinya mencapai us$7,3 miliar, sebagian besar startup serupa di tiongkok masih berada dalam putaran seri a.
alasan mengapa skala dalam negeri dulunya sangat kecil adalah karena hanya aspek pelabelan yang diperhatikan. faktanya, layanan data proses penuh seperti manajemen data, evaluasi data, dan sintesis data yang berasal dari anotasi data merupakan bagian nilai tambah dari industri ini.
mengenai pentingnya data untuk pengembangan model bahasa besar, alex wang, pendiri scale ai, mengatakan dalam sebuah wawancara baru-baru ini bahwa orang-orang telah menghabiskan semua data di internet dan ingin mengembangkan kecerdasan buatan yang lebih kuat daripada gpt-4.5. maka data mutakhir harus dibangun. apa yang disebut "data mutakhir" mengacu pada data yang terkait erat dengan skenario aplikasi dan dapat mencerminkan tren dan perubahan terkini secara tepat waktu. data ini sering kali berisi sejumlah besar skenario jangka panjang atau skenario langka, sehingga membantu meningkatkan kinerja ai dalam situasi yang tidak lazim dan mendorong kecerdasan buatan. batasan kemampuan cerdas berkembang ke arah seperti penalaran kompleks dan multi-modalitas.
seiring berkembangnya ai secara mendalam, pelatihan data di masa depan perlu lebih disesuaikan dengan tugas-tugas spesifik dan skenario aplikasi spesifik. oleh karena itu, penambangan dan produksi lebih banyak data baru dan terdiferensiasi juga perlu dilakukan. inilah alasan dari putaran 1 miliar scale ai saat ini fokus pekerjaan setelah pendanaan dolar as semakin membuka batas imajinatif anotasi data.