Data AI memecahkan "krisis minyak", perusahaan konten hanya bisa duduk santai dan menghasilkan uang

Data AI memecahkan "krisis minyak", dan perusahaan konten hanya bisa duduk santai dan menghasilkan uang

2024-07-23

“

Jika model AI besar dibandingkan dengan mobil, data mentahnya adalah minyak mentah.

”

Penulis |.Jiang Jiang

Editor｜Manmanzhou

Munculnya ChatGPT dan tengah perjalanan Adopsi AI yang eksplosif telah memungkinkan AI mencapai penerapan skala besar pertamanya, yaitu mempopulerkan model-model besar.

Yang disebut model besar mengacu pada model pembelajaran mesin dengan sejumlah besar parameter dan struktur kompleks, yang dapat memproses data dalam jumlah besar dan menyelesaikan berbagai tugas kompleks.

Sengketa hak cipta data AI

Jika model AI besar saat ini dibandingkan dengan mobil, data mentahnya adalah minyak mentah. Bagaimanapun, pertama-tama, model AI membutuhkan "minyak mentah" yang cukup.

Sumber utama "minyak mentah" untuk perusahaan AI meliputi kategori berikut:

●Sumber data terbuka dan gratis di Internet, seperti Wikipedia, blog, forum, informasi berita, dll.;

●Media berita lama dan penerbit;

●Universitas dan lembaga penelitian lainnya;

●Pengguna sisi C yang menggunakan model tersebut.

Hak kepemilikan atas minyak di dunia nyata sudah memiliki peraturan hukum yang matang. Namun, di bidang AI yang masih kacau, hak untuk mengeksploitasi “minyak mentah” masih belum jelas, dan banyak perselisihan yang diakibatkannya.

Baru-baru ini, beberapa label musik besar menggugat perusahaan produksi musik AImatahariDanAudio Bahasa Indonesia , menuduhnya melakukan pelanggaran hak cipta.Gugatan tersebut menyusul gugatan bulan Desember oleh The New York TimesBuka AIlitigasi serupa.

Sumber: Billboard

Pada Juli 2023, beberapa penulis mengajukan gugatan terhadap perusahaan tersebut dengan tuduhanObrolanGPTRingkasan karya penulis dihasilkan dari konten berhak cipta.

Pada bulan Desember tahun yang sama, New York Times juga melaporkanMicrosoftDanBuka AIGugatan pelanggaran hak cipta serupa juga diajukan dengan menuduh kedua perusahaan tersebut menggunakan konten surat kabar tersebut untuk melatih chatbot kecerdasan buatan.

Selain itu, gugatan class action diajukan di California, menuduh OpenAI memperoleh informasi pribadi pengguna dari Internet untuk melatih ChatGPT tanpa persetujuan pengguna.

OpenAI pada akhirnya tidak membayar atas tuduhan tersebut. Mereka menyatakan bahwa mereka tidak setuju dengan tuduhan New York Times dan tidak dapat mereproduksi masalah yang disebutkan oleh New York Times York Times tidak masalah bagi OpenAI.

Sumber: https://openai.com/index/openai-and-journalism/

Bagi OpenAI, mungkin pelajaran terbesar dari kejadian ini adalah menangani hubungan dengan pemasok data dengan benar dan memperjelas hak dan tanggung jawab kedua belah pihak. Hasilnya, kami telah melihat OpenAI menjalin kemitraan dengan banyak penyedia data dalam satu tahun terakhir, termasuk namun tidak terbatas pada The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project dan banyak lagi.

Di masa depan, OpenAI akan secara sah menggunakan data dari media tersebut, dan media tersebut juga akan mengintegrasikan teknologi OpenAI ke dalam produk mereka.

AI mendorong monetisasi platform konten

Namun, alasan paling mendasar bagi OpenAI untuk menjalin kemitraan dengan penyedia data bukanlah rasa takut akan tuntutan, melainkan penipisan data yang akan dihadapi oleh pembelajaran mesin. Para peneliti seperti MIT melakukan penelitian yang memperkirakan bahwa kumpulan data pembelajaran mesin akan menghabiskan semua "data bahasa berkualitas tinggi" pada tahun 2026.

Oleh karena itu, "data berkualitas tinggi" telah menjadi komoditas panas bagi pembuat model seperti OpenAI dan Google. Perusahaan konten dan produsen model AI telah berulang kali menjalin kerja sama untuk memulai model keuntungan tetap.

Platform media tradisional Shutterstock secara berturut-turut telah menjalin kerja sama dengan perusahaan AI seperti Meta, Alphabet, Amazon, Apple, OpenAI, Reka, dll., dan akan meningkatkan pendapatan tahunannya menjadi US$104 juta dengan melisensikan konten ke model AI pada tahun 2023, dan diharapkan menghasilkan pendapatan sebesar US$250 juta pada tahun 2027; Reddit Pendapatan dari hak cipta konten yang dilisensikan kepada Google mencapai US$60 juta per tahun; Apple juga berupaya bekerja sama dengan media berita arus utama dan menawarkan royalti setidaknya US$50 juta per tahun. Royalti yang diterima perusahaan konten dari perusahaan AI meningkat dengan tingkat pertumbuhan tahunan sebesar 450%.

Sumber gambar: CX Scoop

Dalam beberapa tahun terakhir, sulit untuk memonetisasi konten selain media streaming, yang merupakan masalah besar dalam industri konten. Dibandingkan dengan era kewirausahaan internet, kemunculan AI telah membawa imajinasi yang lebih besar dan ekspektasi pendapatan yang lebih kuat bagi industri konten.

Data berkualitas tinggi masih langka

Tentu saja tidak semua konten memenuhi kebutuhan AI.

Terkait perdebatan antara OpenAI dan New York Times yang disebutkan di atas, titik terang lainnya adalah kualitas data. Untuk memurnikan minyak dari minyak mentah, pertama minyak itu sendiri harus berkualitas baik, dan kedua, teknologi pemurniannya harus baik.

OpenAI secara khusus menekankan bahwa konten New York Times belum memberikan kontribusi signifikan terhadap pelatihan model OpenAI. Dibandingkan dengan Shutterstock, yang memungkinkan OpenAI menghabiskan puluhan juta dolar setiap tahun, media teks seperti New York Times yang mengandalkannya. ketepatan waktu bukan kesayangan era AI. AI membutuhkan data yang mendalam dan unik.

Namun, data berkualitas tinggi terlalu langka, dan perusahaan AI juga mulai bekerja keras pada "teknologi pemurnian" dan "aplikasi terpadu".

Pada tanggal 25 Juni, OpenAI mengakuisisi perusahaan database analitik real-time Rockset. Perusahaan ini terutama menyediakan fungsi pengindeksan dan kueri data waktu nyata. OpenAI akan mengintegrasikan teknologi Rockset ke dalam produknya untuk meningkatkan nilai penggunaan data waktu nyata.

Sumber gambar: Pemindaian DePIN

Dengan mengakuisisi Rockset, OpenAI berencana memungkinkan AI memanfaatkan dan mengakses data real-time dengan lebih baik. Hal ini memungkinkan produk OpenAI untuk mendukung aplikasi yang lebih kompleks, seperti sistem rekomendasi real-time, robot obrolan berbasis data dinamis, sistem pemantauan dan alarm real-time, dll.

Rocket adalah "departemen petrokimia" bawaan OpenAI yang secara langsung mengubah data biasa menjadi data berkualitas tinggi yang dibutuhkan oleh aplikasi.

Apakah konfirmasi hak data kreator hanyalah sebuah khayalan?

Data dari platform media Internet (Facebook, Reddit, dll) sebagian besar berasal dariUGC , yaitu konten kontribusi pengguna. Meskipun banyak platform membebankan biaya data yang tinggi kepada perusahaan AI, mereka juga secara diam-diam menambahkan klausul dalam persyaratan pengguna bahwa "platform berhak menggunakan data pengguna untuk melatih model AI."

Meskipun persyaratan pengguna dengan jelas menunjukkan hak untuk melatih model AI, banyak penulis tidak mengetahui model mana yang menggunakan konten yang mereka hasilkan, juga tidak mengetahui apakah mereka membayar untuk hal tersebut, dan juga tidak dapat memperoleh hak dan kepentingan relevan yang seharusnya dimiliki. ke mereka.

Selama panggilan pendapatan kuartalan Meta pada bulan Februari, Zuckerberg menjelaskan bahwa dia akan menggunakan gambar dari Facebook dan Instagram untuk melatih alat penghasil AI miliknya.

Menurut laporan, Tumblr juga secara misterius mencapai perjanjian lisensi konten dengan OpenAi dan Midjourney, tetapi konten spesifik dari perjanjian spesifik tersebut belum diungkapkan.

Pembuat platform galeri foto EyeEm juga baru-baru ini menerima pemberitahuan bahwa foto yang mereka posting akan digunakan untuk pelatihan model AI. Pemberitahuan tersebut menyebutkan bahwa pengguna dapat memilih untuk tidak menggunakan produk tersebut, namun tidak menyebutkan kebijakan kompensasi apa pun. Perusahaan induk EyeEm, Freepik, mengatakan kepada Reuters bahwa pihaknya telah menandatangani kesepakatan dengan dua perusahaan teknologi besar untuk melisensikan sebagian besar dari 200 juta gambarnya dengan harga sekitar 3 sen per gambar. Kepala eksekutif Joaquin Cuenca Abela mengatakan lima kesepakatan serupa lainnya sedang dikerjakan tetapi menolak mengungkapkan identitas pembelinya.

Platform konten yang dipimpin UGC seperti Getty Images, Adobe, Photobucket, Flickr, dan Reddit semuanya menghadapi masalah serupa. Di bawah godaan besar monetisasi data, platform tersebut memilih untuk mengabaikan kepemilikan konten pengguna dan mengemas data serta menjualnya ke model AI. perusahaan.

Seluruh proses dilakukan dalam kegelapan, dan pencipta tidak memiliki kesempatan untuk menolak. Bahkan banyak pembuat konten mungkin harus melatih konten yang mirip dengan karyanya dalam model tertentu suatu hari nanti sebelum mereka sempat mencurigai bahwa karya mereka sebelumnya dijual oleh platform tertentu ke perusahaan AI untuk pelatihan model.

Web3 mungkin merupakan pilihan yang baik untuk memecahkan masalah kesulitan dalam melindungi hak data dan pendapatan pencipta. Ketika perusahaan AI mencapai titik tertinggi baru di pasar saham AS, mata uang konsep AI web3 juga melonjak pada saat yang bersamaan. Blockchain, dengan karakteristiknya yang terdesentralisasi dan tidak dapat diubah, memiliki keunggulan unik dalam melindungi hak pencipta.

Konten media seperti gambar dan video telah menyelesaikan adopsi skala besar pada rantai tersebut pada pasar bullish tahun 2021, dan konten UGC di platform sosial juga secara diam-diam terjadi pada rantai tersebut. Pada saat yang sama, banyak platform model AI web3 telah memberikan insentif kepada pengguna biasa yang berkontribusi pada pelatihan model, baik mereka pemilik data atau pelatih.

Perkembangan model AI yang eksponensial telah menimbulkan tuntutan yang lebih besar terhadap verifikasi data. Kreator harus memikirkan: Mengapa karya saya dijual ke perusahaan model AI dengan harga 5 sen per karya tanpa izin saya? Mengapa saya tidak mengetahui keseluruhan prosesnya dan tidak dapat memperoleh manfaat apa pun?

Upaya platform media untuk meraih keuntungan besar tidak dapat mengurangi kecemasan data perusahaan model AI. Prasyarat untuk mencapai data berkualitas tinggi dan keluaran tinggi adalah konfirmasi hak data, yang merupakan distribusi kepentingan yang wajar di antara para pencipta, platform, dan AI. perusahaan teladan.

Sumber referensi:

Shutterstock Meraih $104 Juta dari Aset Lisensi untuk Pengembang AI Tahun Lalu (PetaPixel)
Semua Perusahaan Foto yang Telah Menandatangani Perjanjian Lisensi dengan Perusahaan AI (PetaPixel)
Reddit memiliki kesepakatan pelatihan AI baru untuk menjual konten pengguna（TheEverge）
GPT-4 menghabiskan semua data di alam semesta! OpenAI telah terlibat dalam tuntutan hukum satu demi satu karena kurangnya data, dan seorang profesor UC Berkeley mengeluarkan peringatan (Xinzhiyuan)
OpenAI mengakuisisi Rockset（OpenAI）

berita

Data AI memecahkan "krisis minyak", dan perusahaan konten hanya bisa duduk santai dan menghasilkan uang

Perkenalan

informasi kontak saya