persediaan data ai terbatas, produsen besar mengincar produk anak muda yang murah

data ai terbatas, produsen besar mengincar generasi muda yang murah

2024-09-03

untuk mendapatkan data baru dan melatih model ai yang besar, perusahaan internet besar seperti bytedance mengambil tindakan sendiri dan merekrut "perekam ai" dengan harga mulai dari 300 yuan per waktu untuk menyesuaikan korpus.

gedung kantor byte yang terletak di kuil dazhong di beijing adalah rumah bagi tim bisnis douyin byte dan tim bisnis volcano engine sejak awal tahun, mereka telah merekrut para amatir untuk merekam model doubao. dua orang membentuk satu tim, masing-masing waktunya 3 jam, termasuk 80 menit obrolan gratis, dan 60 kelompok percakapan dengan kata-kata cepat, dan jumlah penyelesaian tunggal adalah 300 yuan.

perekaman selama 3 jam tersebut didampingi oleh minimal 2 nama karyawan selama proses berlangsung. “percakapan tidak boleh terlalu panjang, harus memiliki konten dan informasi. jika kualitasnya terlalu buruk, uang akan dipotong sebagaimana mestinya.” “kata-kata yang cepat tidak dapat diubah, dan model besar tidak dapat memahaminya.” dari jam 6 sore sampai jam 9 malam, instruksi yang diberikan oleh karyawan byte selama proses rekaman mengungkapkan lebih banyak kepedulian mereka terhadap kualitas rekaman.

keterangan: tampilan interior studio rekaman kuil dazhong

faktanya, kota-kota lapis kedua seperti chengdu, taiyuan, dan guizhou telah menjadi kota outsourcing data ai untuk perusahaan-perusahaan besar seperti bytedance, baidu, dan alibaba. "tahun lalu, mahasiswa junior dapat melakukan anotasi data dan membaca dialek. sekarang kami merekrut pekerja magang dari 211 dan 985 untuk memimpin outsourcing."

minimax, yang baru saja meluncurkan model video besar pada bulan september, pendirinya yan junjie mengatakan kepada alphabet bahwa di shanghai, selain data berkualitas tinggi dari perusahaan korpus, minimax juga akan membeli beberapa data berbasis platform.

data, algoritme, dan daya komputasi adalah tiga pilar model ai besar, di antaranya data adalah landasan untuk melatih model besar. namun, karena data internet tersebar di berbagai platform dan dikelilingi oleh penghalang, data publik yang dapat digunakan untuk melatih model ai berukuran besar semakin berkurang.

pada bulan juni, organisasi penelitian epoch ai merilis studi baru yang memperkirakan bahwa data yang tersedia untuk pelatihan publik model bahasa ai akan habis oleh perusahaan teknologi antara tahun 2026 dan 2032. pada awal mei 2023, ceo openai altman secara terbuka mengakui bahwa perusahaan ai akan menghabiskan semua data di internet dalam waktu dekat.

cara menemukan data baru berkualitas tinggi untuk "memberi makan" model besar telah menjadi masalah umum bagi semua tim model ai besar.

beberapa perusahaan besar berulang kali terlibat perselisihan karena dugaan penggunaan data pihak ketiga secara tidak sah. pada bulan agustus, openai digugat oleh lebih dari 100 pembawa berita youtube, menuduhnya menyalin jutaan video youtube secara ilegal untuk melatih model-model besar. raksasa seperti nvidia, apple, dan anthropic juga terlibat.

bagi produsen besar, hanya memiliki data berkualitas tinggi dari sumber tertutup mereka sendiri yang dapat memastikan ketepatan waktu dan kualitas pemberian data pada model besar. melewatkan platform pihak ketiga dengan kontrol kualitas yang tidak stabil dan mencoba menulis "skrip" untuk ai secara pribadi mungkin merupakan pendekatan baru bagi produsen model besar.

pada awal tahun ini, ai yang mencatat pekerjaan paruh waktu dengan harga 300 yuan per sesi diam-diam muncul di platform seperti xiaohongshu.

dibandingkan dengan ai yang merekam pekerjaan paruh waktu di platform seperti boss direct employment, yang membayar 30-55 yuan per jam, yang disebut "studio rekaman paruh waktu di studio teratas" yang membayar 300 yuan per waktu dan tercatat di kuil dazhong di beijing cukup menggiurkan.

pada bulan agustus, ketika saya ditarik ke dalam grup rekaman melalui wechat, daftar alfabet (id: wujicaijing) menemukan bahwa sudah ada lebih dari 200 orang yang menunggu untuk rekaman di grup tersebut. karena ditetapkan bahwa grup yang terdiri dari dua orang dapat merekam percakapan hingga tiga jam, setelah bergabung dengan grup, pesan wechat seperti "mencari pasangan" dan "adakah yang bisa merekam dengan saya?"

faktanya, tidak mudah untuk menjadi perekam ai dan "menulis skrip untuk ai" dengan bayaran 300 yuan setiap kali.

pertama-tama, sebelum merekam, setiap orang harus mengunggah rekaman percakapan 2-3 menit sebagai "sampel". peninjau byte akan memutuskan apakah akan memberi tahu pengguna rekaman paruh waktu berdasarkan efek sampel. danproses ini akan direview oleh 3 orang karyawan, hanya jika 2 orang diantaranya lolos review maka waktu pencatatan dapat langsung dicadangkan.

setelah peninjauan sampel yang kedua, zhang xue membuat janji untuk waktu perekaman pada pukul 18.00-21.00 pada minggu kedua setelah penyerahan sampel. dalam obrolan grup, banyak orang terjebak dalam sesi sampel, "guru review menyukai mereka yang bisa ngobrol dan suka ngobrol." percakapan emosional dan konten tematik membuat lebih banyak orang terjebak dalam proses penyaringan.

catatan: grup rekaman kuil dazhong sumber: tangkapan layar daftar alfabet

pada malam rekaman, zhang xue duduk di kursi melalui kaca transparan studio rekaman, menyesuaikan posisi terbaik di mana suara dapat direkam dengan jelas, dan mendengarkan instruksi karyawan byte melalui headphone.

sesi pertama adalah obrolan gratis selama 80 menit antara keduanya tanpa topik apa pun. persyaratan staf byte adalah bahwa obrolan tidak boleh berupa "basa-basi" dan harus berisi. pada saat yang sama, setiap topik tidak boleh lebih dari 10 menit, dan tidak boleh ada monolog yang panjang.

zhang xue dan rekannya berbicara di ruang rekaman melalui headset besar, berusaha untuk tidak berhenti selama 80 menit. pada saat yang sama, anda juga harus berusaha menahan tubuh anda agar tidak bergerak dan mengeluarkan suara batuk, tawa, dan suara lain yang mengganggu kualitas rekaman.

untuk memastikan kualitas suara, personel byte menyambungkan headphone dari waktu ke waktu, meminta mereka untuk merekam ulang jika ada kebisingan, atau jika obrolan "tidak wajar dan memiliki terlalu banyak tanda panduan", itu juga perlu diulang. -tercatat. standar kualitas suara yang tinggi adalah obrolannya natural, topiknya berkesinambungan, suasana hati positif tetapi tidak terburu-buru saat berbicara, dan harus konten dan tidak bertele-tele. setelah penyesuaian ulang berulang kali, sesi pertama memakan waktu hampir 2 jam.

pada tahap kedua, 60 set dialog dengan kata-kata cepat direkam. meski ada skrip untuk referensi, sebagai perekam ai, zhang xue tidak hanya harus menyusun dialog sesuai situasi, tetapi juga memastikan pola dialog yang ketat, yaitu rangkaian dialog terakhir diakhiri dengan a, lalu set berikutnya. dialog harus dimulai dengan b.

pada saat yang sama, untuk memenuhi kebutuhan debugging model besar, setiap instruksi harus dengan jelas menyatakan kata-kata cepat, "bisakah lebih detail? bisakah lebih detail? bisakah lebih detail?" byte staf juga menjelaskan bahwa skrip dapat diubah, tetapi hanya kata-kata cepat yang tidak dapat diubah. dengan kata lain, mungkin sulit bagi ai untuk mengenalinya.

untuk menjamin kualitas rekaman, jika rekaman tidak jelas, kata-kata tertelan, atau mood tidak mencukupi, rekaman akan direkam ulang. saat rekaman selesai, zhang xue meninggalkan kuil dazhong. untuk sesi rekaman tiga jam, staf byte harus merekam tiga kali sehari, dan jadwal mingguannya hampir penuh.

selain beijing, byte telah merekrut perekam di shanghai, hangzhou, chongqing, nanjing, chengdu, tianjin dan kota-kota lain.

bagi produsen model besar yang haus akan data baru, operasi "menghabiskan uang untuk mendapatkan data" bukanlah hal baru.

pada tahun 2023, ketika model besar ai menjadi tren baru, produsen besar tidak hanya membeli data secara langsung melalui perusahaan pihak ketiga, tetapi juga menciptakan posisi outsourcing seperti "big data annotator" dan "ai editor".

pada tahun 2023, arlene, yang mengambil jurusan bahasa minor, mulai "bekerja" untuk model besar melalui website seperti boss direct recruitment selama ujian masuk pascasarjana.

melalui perusahaan bernama "x data", alin melakukan pemeriksaan penerimaan untuk konten teks yang dikenali oleh gambar model besar, yaitu memeriksa apakah teks bahasa kecil setelah pengenalan gambar model besar sesuai dengan gambar. menurut harga "satu kata atau kalimat dihitung sebagai satu kotak perhitungan, dan setiap kotak dihitung sebagai 1 sen", a lin bisa mendapatkan puluhan yuan sekaligus dengan menghitung ratusan item.

tahun ini, a lin juga menerima pesanan melalui perusahaan data pihak ketiga untuk melakukan anotasi data ai terkait terjemahan, dan harganya naik menjadi lebih dari 1 yuan per buah. namun, untuk menilai secara manual apakah bahasa kecil seperti bahasa prancis yang diterjemahkan oleh model besar akurat, anotator tidak hanya harus menemukan kesalahannya, tetapi juga menggunakan warna berbeda untuk memberi anotasi pada konten terjemahan 5-6 bahasa besar. model. “terkadang dibutuhkan 10-15 menit untuk menonton satu bagian.”

setelah bekerja untuk ai, alin juga menemukan bahwa setelah model besar ini dipisahkan dari kumpulan buku teks asli bahasa kecil, kata-kata baru yang digunakan oleh platform sosial atau kata-kata umum kelompok kecil tidak dimasukkan ke dalam database mereka sendiri tentang hal itu, "dibatasi oleh hak cipta, saya tidak dapat mempelajari konten teks baru, dan efek terjemahannya juga terpengaruh."

selain perusahaan outsourcing pihak ketiga, produsen besar juga telah membuat basis data mereka sendiri.

misalnya, basis data baidu didistribusikan di kota-kota non-tingkat pertama seperti nanchang, yangquan, taiyuan, guizhou, dll., dan untuk melengkapi pengumpulan anotasi data, pembacaan dialek, dan data lainnya di kota-kota tersebut, hanya perlu "rekrut beberapa mahasiswa lokal yang bisa mengoperasikan komputer." . gaji bulanan biasanya antara 3.000 dan 5.000 yuan. "meituan sudah memiliki pelatih ai sendiri di pabrik.

namun, dibandingkan dengan produsen besar yang rela mengeluarkan uang, jauh lebih sulit bagi macan model besar untuk mendapatkan data berkualitas tinggi.

“data inti yang bersumber tertutup dan berkualitas tinggi sering kali dimonopoli oleh perusahaan-perusahaan besar. startup ai, bahkan empat harimau ai, mungkin hanya memiliki akses ke data marjinal.”leo, staf algoritme dari produsen model besar, mengatakan kepada alphabet.

karena data berkualitas tinggi dapat meningkatkan performa model secara signifikan, selain data publik sumber terbuka, produsen model besar memerlukan data berkualitas lebih tinggi untuk menyelesaikan pelatihan guna mencapai iterasi teknologi. namun data tersebut seringkali dikuasai oleh perusahaan besar. misalnya, data berita dalam negeri dikuasai oleh perusahaan besar seperti tencent dan byte, sedangkan di luar negeri dikuasai oleh common crawl, gdelt, the pile, dll.

di luar negeri, bahkan youtube mengumumkan pada akhir juni bahwa mereka akan memberikan perjanjian lisensi kepada perusahaan rekaman ternama dengan imbalan musik berhak cipta untuk digunakan dalam pelatihan. openai telah menandatangani perjanjian berbayar dengan penerbit berita seperti politico, the atlantic, time, dan financial times untuk menggunakan dan mengutip materi berita mereka.

ketika data utama sebagian besar dikendalikan oleh "pihak saluran", seperti perusahaan seperti tencent, byte, dan meta, data pengguna utama telah dibagi-bagi sejak era internet seluler harimau ai harus membayar sejumlah besar uang terlebih dahulu.

bagi produsen, di paruh kedua kewirausahaan model besar, "ilusi data besar" juga menjadi salah satu alasan mengapa model-model besar secara kolektif gagal menentukan apakah 9.11 atau 9.9 lebih besar.

saat alphabet memasukkan "seorang gadis kecil yang menggendong kucing ragdoll di pelukannya" ke dalam conch ai minimax, dibutuhkan waktu 2 menit untuk menghasilkan video berdurasi 6 detik. jari-jari gadis kecil yang memegang kucing itu kaya akan detail, tetapi dia sedang memegang kucing itu di pelukannya. yang memakainya bukanlah kucing ragdoll.

dihadapkan pada hasil yang dihasilkan, karyawan model video minimax menjelaskan, “ini karena data yang digunakan untuk melatih model besar tidak menyertakan kucing ragdoll dalam gambar pengikatan kucing.”

ketika konten yang dihasilkan oleh model tidak sesuai dengan fakta dunia nyata atau masukan pengguna, model besar menjadi berhalusinasi dan mulai "berbicara omong kosong".bagi produsen model besar yang menginginkan pengguna baru, efek generasi jelas menentukan apakah produk tersebut memiliki peluang untuk keluar dari lingkaran.

"perintah masukannya adalah mengekstrak semua berita hiburan pada bulan agustus. hasilnya, ai menghasilkan konten berita hiburan pada agustus 2019." saat menggunakan produk model kepala besar, pengguna setia kong fang telah menangkap ai tersebut " omong kosong" beberapa kali. pada saat "pidato", dia mengumpulkan kutipan yang tidak ada sama sekali, atau tidak dapat memahami konsep baru dalam dua tahun terakhir, yang menyebabkan kong fang mengalami krisis kepercayaan pada model besar .

sekarang, kong fang akan menggunakan 2-3 model besar dari pabrikan berbeda untuk "menjalankan" masalah yang sama pada waktu yang sama, lalu membandingkan silang informasi penting seperti waktu, kuantitas, dokumen, dll., dan juga akan mengonfirmasinya dua kali. melalui mesin pencari, “sekarang ai menghasilkan ini seperti menggambar kartu, efeknya tidak terkendali, dan mudah mengalami keterbelakangan mental,” kata kong fang tak berdaya.

data berkualitas tinggi mungkin akan habis secara bertahap. untuk mengatasi masalah "ilusi model besar", sangatlah penting untuk menggunakan data apa yang dapat "memberi makan" pada model besar.

seseorang yang dekat dengan baidu mengatakan kepada alphabet bahwa produsen model besar akan membeli data secara langsung melalui perusahaan pihak ketiga, yang menghemat waktu dan tenaga tetapi tidak "mudah" karena kualitas data yang dibeli, baik berupa teks, rekaman, atau video, buruk. sempurna.

bagi mereka yang secara aktif mengembangkan model kepala besar untuk pelanggan b-end, penyesuaian model besar yang lebih personal untuk pelanggan tertentu telah menjadi sumber pendapatan utama bagi bisnis ai dari produsen besar saat ini. namun jika anda ingin melatih model yang dipersonalisasi seperti itu, anda perlu "memberi makan" dengan data yang difilter menurut standar tinggi, dan bahkan menyesuaikan permintaan data sesuai dengan efek pembelajaran model besar pada tahap yang berbeda membeli banyak suara. anda dapat mempelajarinya dengan model besar.”

a lin, yang pernah bekerja sebagai penerjemah ai di perusahaan data pihak ketiga, juga menemukan bahwa “sebagai pihak yang menyediakan data, perusahaannya tampaknya tidak terlalu peduli dengan kualitas ucapan yang dihasilkan oleh model besar.”

bagi alin, yang berspesialisasi dalam bahasa prancis, spanyol, dan bahasa minor lainnya, dia perlu membandingkan efek generasi dari 5-6 model besar untuk menerjemahkan ucapan bahasa minor ke dalam teks untuk partai a pada saat yang bersamaan, tetapi hanya membutuhkan skor kasar 5 - 6 teks yang dihasilkan. apa perbedaan bahasa secara rinci dan bagaimana cara memperbaikinya? perusahaan pihak ketiga tidak akan bertanya dan "acuh tak acuh".

kurangnya data berkualitas tinggi mungkin menjadi alasan mengapa banyak pengguna mengatakan bahwa "konten yang dihasilkan oleh model besar mana pun hampir sama", dan ini juga merupakan alasan utama mengapa pengguna "beralih ke model besar lainnya begitu mereka mengenakan biaya". dia" .

bagi pengguna, model besar dalam negeri yang mengklaim mampu mengejar openai dan terus melakukan iterasi secara teknis mungkin tidak memiliki perbedaan yang besar, juga tidak dapat menjadi pengguna setia. hal ini juga menimbulkan kebingungan pada produsen model besar yang ingin mengkomersialkan light shadow .

oleh karena itu, meskipun "menulis skrip untuk ai" secara langsung memakan waktu, melelahkan, dan mahal, byte juga telah mengambil jalur baru. dapat diperkirakan bahwa untuk memecahkan masalah utama komersialisasi dan akuisisi pengguna, "membeli data" dengan sejumlah besar uang mungkin akan menjadi titik persaingan baru bagi produsen model besar.

(alin, kong fang dan zhang xue adalah nama samaran dalam artikel tersebut)

berita

data ai terbatas, produsen besar mengincar generasi muda yang murah

perkenalan

informasi kontak saya