berita

Nvidia terkena pencurian data, merayapi lebih dari 80 tahun data video setiap hari, dan kumpulan data akademik Universitas Peking juga terpengaruh.

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

NVIDIA sepertinya sedang memasuki masa bermasalah akhir-akhir ini.
Setelah terungkap bahwa produksi massal chip AI terkuatnya tertunda dan nilai pasarnya menguap lebih dari US$300 miliar, Nvidia diungkap oleh 404 Media karena mengambil konten video dari platform seperti YouTube dan Netflix tanpa izin untuk melatihnya. .Model video AI yang belum dirilis ke publik.
Email internal dan obrolan Slack menunjukkan bahwa meskipun karyawan Nvidia telah mengajukan pertanyaan tentang legalitas dan etika penggunaan kumpulan data ini, manajemen perusahaan mengatakan tindakan tersebut telah disetujui oleh manajemen senior dan berargumen bahwa tindakan mereka mematuhi undang-undang hak cipta.
Perlu disebutkan bahwa dalam diskusi internal pada akhir Februari, NVIDIA menyebutkan beberapa kumpulan data yang digunakannya, termasuk HD-VG-130M.
Yang terakhir adalah kumpulan data dari 130 juta video YouTube yang dibuat oleh para peneliti di Universitas Peking, dan izin penggunaannya secara eksplisit menyatakan bahwa video tersebut terbatas pada penelitian akademis.
Pendekatan Nvidia lebih seperti mikrokosmos dari sebagian besar perusahaan AI saat ini.
Ketika pengguna dianggap sebagai "mesin uang tunai", kecuali orang dalam mengungkapkannya, sangat sulit bagi dunia luar untuk mengetahui apakah karya Anda dan saya telah menjadi sumber pelatihan AI.
Singkatnya, manusia masih menjadi konsumen di puncak rantai makanan, namun mau tidak mau kita akan menjadi anggota rantai pasokan pengembangan AI.
Berikut teks asli berita dari media luar negeri 404 Media yang ditulis oleh GPT-4o Terjemahan, nikmatilah~
Beri makan model dengan video YouTube dan unduh video yang setara dengan 80 tahun setiap hari
Obrolan internal Slack, email, dan dokumen yang diperoleh 404 Media menunjukkan hal itu Nvidia mengambil video dari YouTube dan berbagai sumber lain untuk mengumpulkan data pelatihan untuk produk AI-nya. Ketika ditanya tentang masalah hukum dan etika dalam penggunaan konten berhak cipta untuk melatih model AI, Nvidia berpendapat bahwa pendekatannya "sepenuhnya sesuai dengan isi dan semangat undang-undang hak cipta."
Percakapan internal di Nvidia yang ditinjau oleh 404 Media menunjukkan bahwa ketika karyawan mengajukan pertanyaan tentang kemungkinan implikasi hukum dari penggunaan kumpulan data dan video YouTube yang dikumpulkan oleh akademisi untuk tujuan penelitian, para manajer memberi tahu mereka bahwa petinggi di perusahaan telah menyetujui penggunaannya.
Seorang mantan karyawan Nvidia (yang tidak disebutkan namanya oleh 404 Media untuk membahas proses internal Nvidia) mengatakan karyawan diminta untuk mengambil video dari Netflix, YouTube, dan sumber lain untuk melatih generator dunia 3D Omniverse Nvidia,Pilot otomatisSistem otomotif dan "manusia digital"Model produk AI.
Proyek tersebut, yang secara internal dikenal sebagai Cosmos (tetapi berbeda dari produk pembelajaran mendalam Cosmos yang sudah ada), belum dirilis ke publik.
Email dari pemimpin proyek mengungkapkan bahwa Cosmos bertujuan untuk membangun model infrastruktur video canggih yang “menyatukan simulasi transportasi ringan, fisika, dan kecerdasan di satu tempat untuk mengembangkan berbagai aplikasi hilir yang penting bagi Nvidia.”
Email yang diperoleh 404 Media menunjukkan diagram yang menunjukkan bagaimana model Cosmos diterapkan pada berbagai produk Nvidia.
Pesan kendur di saluran yang disiapkan oleh perusahaan untuk proyek tersebut menunjukkan bahwa karyawan menggunakan pengunduh video YouTube sumber terbuka yang disebut yt-dlp, dikombinasikan dengan mesin virtual untuk menyegarkan alamat IP agar tidak diblokir oleh YouTube.
Menurut sumber tersebut, mereka mencoba mengunduh video lengkap dari berbagai sumber termasuk Netflix, namun sebagian besar berfokus pada video YouTube.
Email yang ditinjau oleh 404 Media menunjukkan manajer proyek mendiskusikan penggunaan 20 hingga 30 mesin virtual Amazon Web Services untuk mengunduh video selama 80 tahun per hari.
“Kami sedang menyelesaikan pipeline data v1 dan mengamankan sumber daya komputasi yang memadai untuk membangun pabrik data video yang dapat menghasilkan setara dengan 100% data video setiap hari,” kata Mingyu Liu, wakil presiden penelitian Nvidia dan pemimpin proyek Cosmos. dalam email pada bulan Mei. Jumlah data dalam pengalaman visual seumur hidup manusia.”
Percakapan dan instruksi di dalam Nvidia menunjukkan para karyawan mendiskusikan pertimbangan hukum dan etika perusahaan dalam merancang chip dan API yang telah memicu munculnya AI generatif dan menjadikannya salah satu perusahaan publik paling bernilai di dunia.
Ini juga menyoroti perusahaan terbesar di industri, seperti Runway dan Buka AI, terdapat permintaan yang belum terpenuhi atas konten sebagai data untuk pelatihan model AI.
Seorang juru bicara Nvidia mengatakan melalui email ke 404 Media:
Kami menghormati hak semua pembuat konten dan sangat yakin bahwa model dan karya penelitian kami sepenuhnya mematuhi isi dan semangat undang-undang hak cipta. Undang-undang hak cipta melindungi ekspresi tertentu tetapi tidak melindungi fakta, opini, data atau informasi. Siapapun dapat mempelajari fakta, ide, data atau informasi dari sumber lain dan menggunakannya untuk menciptakan ekspresi mereka sendiri. Penggunaan wajar juga melindungi hak untuk menggunakan karya tersebut untuk tujuan transformatif, seperti pelatihan model.
Ketika ditanya tentang penggunaan video YouTube oleh Nvidia sebagai data pelatihan untuk modelnya, juru bicara Google mengatakan kepada 404 Media bahwa "komentar sebelumnya masih berlaku."
Diantaranya, CEO YouTube Neal Mohan mengatakan jika OpenAI menggunakan video YouTube untuk mengoptimalkan generator video AI Sora, hal ini jelas melanggar ketentuan penggunaan YouTube.
Juru bicara Netflix mengatakan kepada 404 Media bahwa Netflix tidak memiliki perjanjian dengan Nvidia untuk akuisisi konten dan persyaratan layanan platform tidak mengizinkan pengambilan data.
Pertanyaan tentang masalah hukum yang diajukan oleh karyawan yang terlibat dalam proyek umumnya diabaikan oleh manajer proyek, yang mengatakan bahwa keputusan untuk menghapus video tanpa izin adalah "keputusan tingkat tinggi" dan bahwa karyawan tidak perlu khawatir tentang apa yang termasuk dalam pelanggaran. konten berhak cipta. dan topik penggunaan kumpulan data yang adil dan etis untuk penggunaan akademis dan non-komersial dianggap sebagai "masalah hukum yang belum terselesaikan" yang akan diselesaikan di masa mendatang.
Investigasi kami menyoroti sikap “jangan tanya” dari perusahaan-perusahaan teknologi ini dalam memasukkan sejumlah besar konten berhak cipta ke dalam kumpulan data yang digunakan untuk melatih beberapa model AI paling berharga di dunia.
Para eksekutif Nvidia menyatakan bahwa kumpulan data akademik Universitas Peking juga disalahgunakan
Pada bulan Februari 2024, Francesco Ferroni, kepala ilmuwan di Nvidia, menulis di saluran Nvidia Slack yang disebut #cosmos-dataset-creation:
“Halo semuanya, @Sanja Fidler menyebutkan kepada saya sebuah inisiatif untuk mengumpulkan sejumlah besar kumpulan data video yang dikurasi untuk pemodelan generatif. Kami pikir memulai dengan menggabungkan semua kumpulan data video yang tersedia secara internal (diunduh secara publik atau internal) untuk menghindari duplikasi Partai Buruh sangatlah berarti. ”
(Catatan: Sanja Fidler adalah wakil presiden penelitian AI Nvidia.)
Ferroni kemudian ditautkan ke spreadsheet dengan tautan ke kumpulan data termasuk MovieNet, database 60.000 trailer film, dan WebVid, kumpulan data video yang dikumpulkan dari stok gambar di Github yang kemudian dihentikan oleh Shutterstock dan dihapus oleh pembuatnya setelah menerima pemberitahuan), InternVid -10M (kumpulan data 10 juta ID video YouTube di Github), dan beberapa kumpulan data rekaman video game yang diambil secara internal. 404 Media telah menghapus nama karyawan junior dari tangkapan layar percakapan Slack.
Kami menyertakan nama beberapa insinyur senior dan eksekutif yang terlibat dalam proyek ini karena visibilitas publik mereka sebagai pemimpin dalam industri AI.
Spreadsheet yang ditautkan oleh Ferroni menunjukkan kumpulan data yang digunakan dalam proyek tersebut
Dalam diskusi lanjutan di bulan Februari, para insinyur berbicara tentang kumpulan data yang mereka peroleh, termasuk HD-VG-130M, kumpulan 130 juta video YouTube. Kumpulan data tersebut dibuat oleh para peneliti di Universitas Peking di Tiongkok, dan izin penggunaannya menyatakan bahwa data tersebut hanya boleh digunakan untuk tujuan akademis.
“Dengan mengunduh atau menggunakan data tersebut, Anda memahami, mengakui, dan menyetujui semua ketentuan perjanjian berikut,” demikian bunyi halaman Github untuk kumpulan data tersebut.
Halaman tersebut menekankan "Hanya untuk penggunaan akademis. Konten apa pun dalam kumpulan data HD-VG-130M hanya untuk penggunaan penelitian akademis. Anda setuju untuk tidak menyalin, memperdagangkan, atau menggunakan untuk tujuan komersial apa pun. Distribusi dilarang. Hormati privasi dari informasi pribadi sumber asli." . Segala siaran, modifikasi, atau perilaku serupa lainnya dari konten kumpulan data tidak diperbolehkan tanpa izin dari pemilik hak cipta.
Selama proyek berlangsung, kumpulan data yang dikumpulkan dan dipublikasikan oleh para peneliti dan akademisi dianggap tersedia secara bebas untuk digunakan dalam model NVIDIA. Peneliti AI semakin khawatir mengenai penggunaan yang tepat atas kumpulan data yang mereka publikasikan, termasuk penggunaan yang etis dan legal.
Robert Mahari dari MIT Data Provenance Initiative mengatakan kepada 404 Media bahwa mereka telah melihat peningkatan yang signifikan dalam penggunaan lisensi penggunaan non-komersial untuk kumpulan data penelitian selama setahun terakhir, yang menunjukkan bahwa para akademisi mencoba membatasi penggunaan komersial atas karya mereka. Kumpulan data yang dikumpulkan untuk penggunaan penelitian berbeda secara signifikan tujuannya dari kumpulan data yang dikumpulkan untuk penggunaan komersial.
“Ketika para akademisi merilis kumpulan data publik, terutama kumpulan data tugas tertentu, kami mungkin tidak secara khusus memeriksa data tersebut untuk mengetahui masalah-masalah seperti bias tertentu atau sentrisme Barat. Jika hal tersebut tidak menjadi fokus penelitian, maka tidak akan ada inspeksi.” kata Mahari. "Jadi, jika seorang sarjana menyatakan dalam lisensinya 'Hanya penggunaan akademis' atau 'Tolong jangan gunakan data ini dengan cara yang tidak disengaja', ada alasan bagus untuk mematuhi peraturan ini. Karena data tersebut mungkin tidak berkualitas komersial, mungkin juga berkinerja buruk di jenis lingkungan lain."
Seperti banyak raksasa teknologi lainnya, Nvidia mempekerjakan orang-orang yang melakukan dan mempublikasikan penelitian akademis. Namun, percakapan internal di Nvidia yang ditinjau oleh 404 Media menunjukkan bahwa Cosmos bertujuan mendukung upaya perusahaan untuk memperkuat penawaran komersialnya di industri AI yang sangat kompetitif.
Kumpulan data penelitian yang dirilis secara publik sering kali didistribusikan sebagai URL atau ID YouTube karena dua alasan: pertama, karena alasan praktis - berbagi jutaan file video atau gambar lengkap terlalu rumit; kedua, karena alasan hukum dan etika; Misalnya, jika seseorang menghapus video atau tweet YouTube miliknya, salinannya tidak akan terus ada di kumpulan data tanpa sepengetahuan atau izin pemiliknya.
“Ini seperti mengatasi kendala hukum dengan tidak mendistribusikan kumpulan data kepada pihak luar,” Emily Bender, profesor dan direktur Laboratorium Linguistik Komputasi di Universitas Washington, mengatakan kepada 404 Media. “Orang lain dapat membuat kumpulan data dan menggunakannya untuk tujuan mereka sendiri.”
Detail diskusi terungkap, bagaimana NVIDIA mencuri data di ambang hukum?
Pada bulan Maret, seorang ilmuwan riset memulai diskusi di Slack tentang kemungkinan generator video Sora OpenAI menggunakan film Hollywood seperti "Avatar" dan "Lord of the Rings" sebagai data pelatihan.
“Film sebenarnya merupakan sumber data yang bagus untuk kontinuitas 3D dan konten fiksi seperti game, tetapi dengan kualitas yang lebih tinggi. Karakternya sepenuhnya CGI, dan banyak adegan live-action kini juga menggunakan CGI,” kata mereka. Seseorang menjawab bahwa tim harus berlatih berdasarkan kumpulan data film Discovery Channel.
Liu Mingyu berkata: "Kami membutuhkan sukarelawan untuk mengunduh semua film."
Ilmuwan peneliti yang pertama kali mengusulkan film tersebut menambahkan: "Meskipun sudah sangat jelas apa yang mereka lakukan, kita harus sangat berhati-hati terhadap Hollywood yang menjadi sangat sensitif terhadap AI, seperti yang terjadi pada komunitas artis setelah dirilisnya SD [Stable Diffusion ] dan sekarang Terjadi di Hollywood."
Mereka kemudian memposting dua tautan dalam obrolan: artikel Hollywood Reporter tentang Tyler Perry yang menghentikan ekspansi studio senilai $800 juta setelah melihat Sora dari OpenAI, dan artikel Vanity Fair tentang pemogokan SAG-AFTRA tahun 2023 yang mengarah ke artikel yang menyertakan bahasa AI dalam kontrak studio.
Liu Mingyu menekankan: "Apa yang kami lakukan di sini tidak akan mempublikasikan hasil penelitian apa pun. Kami akan menggunakan semua data yang dapat diunduh untuk melakukan eksperimen. Karena kami tidak akan mempublikasikan apa pun, tidak akan ada emosi negatif." Yang berbicara kepada 404 Media Mantan karyawan menjelaskan bahwa "terbitkan" mengacu pada publikasi penelitian.
Orang yang mengangkat "sensitivitas tinggi" menjawab: "Jika kita melaksanakan proyek seperti itu di dalam perusahaan, maka harus dikomunikasikan secara luas, karena menunjukkan contoh serupa dapat menimbulkan reaksi balik."
Pada bulan Maret, Ferroni menulis di saluran Slack terkait proyek lainnya: "Ditemukan beberapa file berprioritas tinggi yang perlu diunduh. Ternyata 2,3 juta video mentah hilang dari kumpulan data HDVILA [Bahasa Video Resolusi Tinggi] yang kami miliki . !" Mereka mengacu pada HD-VILA-100M Microsoft, kumpulan data bahasa video berskala besar, beresolusi tinggi, dan beragam. Mereka mengirimkan tautan ke dokumen Google Drive dan berkata, "Ini tautan YouTube yang hilang," lalu berkata, "Mari kita masukkan ini ke dalam proses pengunduhan!"
Pernyataan lisensi untuk HD-VILA-100M berbunyi:
"Anda setuju untuk menggunakan data hanya untuk tujuan komputasi untuk penelitian non-komersial. Pembatasan ini berarti bahwa Anda boleh terlibat dalam aktivitas penelitian non-komersial (termasuk penelitian non-komersial yang dilakukan atau didanai oleh entitas komersial), namun Anda tidak boleh menggunakan data atau hasil apa pun untuk Produk komersial apa pun, termasuk sebagai bagian dari produk atau layanan yang Anda gunakan atau berikan kepada orang lain (atau untuk meningkatkan produk atau layanan apa pun).
"Mari kita buat database URL yang diunduh," jawab teknisi lainnya. "Video YouTube memiliki ID unik. Bisakah kami menggunakan ID ini sebagai referensi (ID setelah "?v=")? Kami akan membandingkan dan menggabungkan URL berkali-kali di masa mendatang." Ferroni menjawab: "Ya, kami sedang menggunakannya sekarang Hive menyiapkan infrastruktur," artinya mereka menambahkannya ke alat manajemen proyek Hive.
Anggota tim Omniverse yang mereka tandai menjawab: "Kami menggunakan AWS dan memulai ulang instance [mesin virtual] memberi kami IP publik baru, jadi hal tersebut tidak menjadi masalah saat ini."
Dalam diskusi Slack di saluran #cosmos-dataset-creation tentang cara menemukan video terbaik, karyawan terkadang menyebutkan masalah hukum dan etika dalam pekerjaan mereka. Pada bulan Februari, setelah seseorang menyebutkan penggunaan YouTube-8M, kumpulan data penelitian ID YouTube yang dikumpulkan oleh Google, Ferroni bertanya: "Mungkin kita tidak bisa menggunakan [YT8M] untuk tujuan non-penelitian?"
Makalah dan halaman proyek YouTube-8M tidak menyebutkan masalah hak cipta, namun makalah tersebut menyatakan bahwa kumpulan data tersebut dibuat untuk memajukan penelitian pembelajaran mesin: “Kami berharap kumpulan data ini dapat memberikan lapangan bermain yang setara bagi para peneliti di dunia akademis kumpulan data video beranotasi berskala besar dan secara signifikan mempercepat penelitian dalam pemahaman video. Kami berharap kumpulan data ini akan berfungsi sebagai uji coba untuk mengembangkan algoritme pembelajaran representasi video baru, terutama metode yang secara efektif menangani label yang berisik atau tidak lengkap."
Menanggapi pertanyaan Ferroni tentang penggunaannya untuk proyek Cosmos, seorang karyawan NVIDIA yang sebelumnya ikut menciptakan ACAV100M menjawab:
“Ya, mengunduh data dari Google sangat mahal. Namun, menjadwalkan 10.000 core dari dalam NVIDIA merupakan sebuah tantangan.
Selain itu, keterbatasan bandwidth NVIDIA di cloud menambah variabilitas besar yang dapat menimbulkan masalah. Mengunduh di Google Cloud berarti setiap tugas mendapatkan koneksi bandwidth tinggi yang stabil ke YouTube. "
“Lebih penting lagi, mendownload video YouTube dilarang oleh persyaratan layanan YouTube. Jadi saat mendownload YouTube 8m, kami berkomunikasi dengan Google dan YouTube terlebih dahulu dan menggunakan Google Cloud untuk mendownload sebagai insentif.Biasanya untuk 8 juta video, mereka mendapatkan banyak tayangan iklan yang diunduh saat digunakan untuk pelatihan dan mengakibatkan hilangnya pendapatan, sehingga mereka seharusnya mendapat penghasilan dari hal tersebut. Membayar $0,00625 per pengunduhan video masih merupakan tawaran yang bagus. "
Oke, jadi data ini diharapkan hanya digunakan untuk keperluan penelitian? Setahu saya, YouTube API Google bisa menanyakan persyaratan lisensi setiap video, jawab Ferroni. "Bisakah Anda juga mengomentari persyaratan lisensi ACAV100M dan YouTube8M?"
"Sejauh yang saya tahu, ketentuan layanan YouTube melarang pengunduhan apa pun lisensinya; batasannya adalah hilangnya pendapatan iklan mereka, bukan lisensinya," karyawan lain menanggapi. Mereka melanjutkan:
"Saya tidak tahu persyaratan lisensi apa yang difilter Google saat membuat kumpulan data; kami baru saja mengunduh apa yang mereka cantumkan sebagai bagian dari kumpulan data (mereka memposting fitur-fiturnya, bersama dengan tautan ke video aslinya). Saya mengunduh data YouTube 8m. set dilengkapi dengan metadata lengkap, sehingga Anda dapat memeriksa setiap video di sana. Saya masih perlu memeriksa kumpulan data ACAV100M. Secara umum, CC atau domain publik adalah yang terbaik, namun jika materi yang dilindungi hak cipta tersedia masalah hukum; sebagian besar perusahaan tampaknya menganggap ini sebagai penggunaan wajar. Saya yakin tim hukum kami telah menyetujui praktik ini untuk melatih model bahasa besar, dan kemungkinan besar juga akan menyetujui pelatihan video.”
“Saya pikir ada kesenjangan besar antara mengkomersialkan sesuatu tanpa persetujuan seseorang dan meneliti kemampuan AI generatif berdasarkan konten yang dirilis secara publik,” kata Shayne Longpre, mahasiswa doktoral di MIT Media Lab, kepada 404 Media. Pertanyaan tentang persyaratan layanan YouTube di saluran Cosmos Slack bukanlah kali terakhir muncul masalah hukum.
Kemudian, karyawan lainnya berkata, "Hai tim. Apakah kami menggunakan https://research.google.com/youtube8m/download.html untuk mengunduh video? Jika ya, apakah kami memiliki persetujuan hukum? Dalam satu proyek, departemen hukum Menolaknya digunakan karena lisensi untuk masing-masing video lebih baik daripada lisensi yang dibagikan di yt8m. "Ini adalah keputusan administratif. Kami memiliki lisensi master yang mencakup semua data," jawab Liu Mingyu. "Oke, terima kasih!" orang yang mengajukan pertanyaan itu menjawab.
Bender mengatakan kepada 404 Media bahwa perusahaannya memanfaatkan wilayah abu-abu hukum saat ini seputar konten berhak cipta yang digunakan untuk data pelatihan. “Bagi saya, jelas ada budaya 'jika kita bisa mendapatkannya, kita bisa menggunakannya',” katanya. “Hal ini lebih didasarkan pada keinginan orang-orang untuk mewujudkannya, bukan berdasarkan kajian yang cermat mengenai legalitasnya atau pemikiran mendalam mengenai dampaknya terhadap masyarakat.”
Penggunaan konten berhak cipta untuk pelatihan AI “jelas bukan merupakan hukum yang pasti,” kata Mahari. Sistem hukum belum menentukan apakah memperoleh data pelatihan untuk mengembangkan model AI sudah cukup transformatif, terutama karena model telah terbukti mampu mengingat atau memanggil kembali data pelatihan sebagai keluaran. “Maksud saya (yang dirangkum sebagian dalam artikel Sains ini) adalah bahwa melatih model AI memang merupakan penggunaan wajar, namun hal itu tidak berarti bahwa menghasilkan keluaran yang mirip dengan item tertentu dalam data pelatihan tidak melanggar.
Dalam kasus ini, tidak jelas apakah penyedia model yang mendasarinya atau pengguna tertentu yang menghasilkan keluaran akan melakukan pelanggaran (hal ini mungkin bergantung pada konteksnya). "
Pada bulan Mei, seorang ilmuwan peneliti menjatuhkan tautan ke beberapa saluran YouTube di saluran Cosmos Slack dan berkata, "Jika Anda masih terbuka terhadap saran saluran YouTube yang dapat Anda unduh, berikut beberapa yang mungkin layak untuk dipertimbangkan." . Termasuk saluran resmi Expedia dan Architectural Digest, serta pembuat konten individu seperti The Critical Drinker dan Marques Brownlee (MKBHD). Seorang manajer proyek berterima kasih atas saran mereka dan mengatakan mereka akan meneruskannya ke tim, yang ditanggapi Fidler, "Apakah Anda juga menyertakan video tutorial? Astronomi? Kedokteran?"
“Masalah hukum yang belum terselesaikan” dalam penggunaan karya berhak cipta untuk pelatihan model dasar komersial mungkin tidak akan terselesaikan dalam waktu lama.
Tuntutan hukum pelanggaran hak cipta yang diajukan oleh pemegang hak cipta terhadap perusahaan AI generatif semakin banyak, termasuk gugatan Getty Images terhadap pencipta Stable Diffusion, Stability AI, gugatan The New York Times terhadap OpenAI, dan artis serta pencipta terhadap Stability,tengah perjalanan , DeviantArt dan Runway mengajukan gugatan class action. Tim data pelatihan Cosmos juga membahas penggunaan Netflix untuk melatih generator.
"Dalam pertemuan hari ini, kami mendapat izin untuk mengunduh semua jenis data. Haruskah kami mengunduh seluruh Netflix? Bagaimana kami mengoperasionalkannya?" kata Liu di saluran Slack. "Kita harus mengunduh seluruh Discovery Channel!"
seseorang menjawab. "Kami memerlukan koordinator informasi proyek. Siapa yang ingin melakukan tangkapan layar sambil menonton semua film?" “Kita seharusnya mendapatkan banyak video wajah berkualitas tinggi darinya,” lanjut Liu. Seseorang dari tim infrastruktur Omniverse ditandai di thread tersebut dan menyatakan bahwa mereka bersedia membantu "mengoperasionalkan ini" karena mereka memiliki "pengalaman dengan perusahaan besar lainnya yang membangun kumpulan data besar".
Tim juga mempertimbangkan cara terbaik untuk menambahkan cuplikan video game ke data pelatihan. Jim Fan, ilmuwan riset senior di Nvidia, menyebutkan bahwa ada kendala "rekayasa dan peraturan" dalam merekam video gameplay langsung.
"Pembaruan: Saya telah bertemu dengan orang-orang di GeForce Now (GFN) dan akan bekerja sama dengan mereka dalam rencana data. Kami akan bekerja sama dengan GFN dan tim teknik terkait untuk membangun pengambilan data game secara real-time, meningkatkan skala pipeline, dan memproses data ini untuk pelatihan. Video gameplay berkualitas tinggi akan menjadi tambahan yang sangat berguna untuk proyek Sora kami," tulis Fan. “Kami belum memiliki statistik atau file video karena infrastruktur belum disiapkan untuk menangkap sejumlah besar video dan aksi pertandingan langsung. Kami perlu mengatasi kendala teknis dan peraturan. Namun, setelah data GFN dibersihkan dan diproses tiba, kami Ini akan ditambahkan ke tim-vfm sesegera mungkin."
Pada bulan Maret, proyek ini mencapai tonggak sejarah: 100.000 video diunduh dalam dua minggu. Seorang karyawan menyebutkan dalam thread yang membahas pencapaian tersebut bahwa Ferroni memiliki pengunduh yang mereka gunakan, dan Ferroni mengonfirmasi bahwa mereka telah mengunduh audio dan video. "Kemajuan luar biasa. Pertanyaannya sekarang adalah bagaimana kita mendapatkan URL berkualitas tinggi dalam jumlah besar," jawab Liu.
Pada akhir Mei, email strategi data untuk data video dikirimkan ke anggota tim proyek, mengumumkan bahwa mereka telah mengumpulkan 38,5 juta URL video. “Berdasarkan target distribusi kami, fokus untuk minggu mendatang tetap terfokus pada film, rekaman drone, video orang pertama, dan beberapa video perjalanan dan alam,” bunyi email tersebut. Email tersebut juga menyertakan grafik yang menunjukkan persentase jenis konten yang mereka unduh.
Dalam email tersebut, manajer produk menyarankan untuk menambahkan empat kumpulan data tambahan ke data pelatihan model. Mereka menulis:

1. Ego-Exo4D: Kumpulan data dan tolok ukur video multi-modal dan multi-view berskala besar yang dikumpulkan oleh 740 pemakai kamera di 13 kota di seluruh dunia, merekam 1.286,3 jam video aktivitas manusia yang terampil.

2. Ego4D: Kumpulan data perspektif orang pertama dan rangkaian benchmark berskala besar dengan lebih dari 3670 jam video aktivitas kehidupan sehari-hari yang dikumpulkan di 74 lokasi dan 9 negara di seluruh dunia.

3. HOI4D: Kumpulan data tampilan pertama empat dimensi berskala besar dengan anotasi yang kaya untuk memfasilitasi studi interaksi manusia-objek tingkat kategori.

4. GeForce Sekarang: Data permainan.
HOI4D dibuat oleh para peneliti dari Universitas Tsinghua, Universitas Peking, dan Institut Penelitian Qizhi Shanghai. Ini dilisensikan di bawah CC BY-NC 4.0 dan penggunaan komersial tidak diperbolehkan.
“Menurut saya, jika suatu perusahaan mengambil dataset yang hanya untuk tujuan penelitian dan menggunakannya untuk penelitian, maka mereka tetap mematuhi lisensi dataset tersebut,” kata Bender.
“Tetapi untuk memastikan hal itu, mereka harus sangat berhati-hati dalam membangun firewall antara penelitian yang mereka lakukan dan pekerjaan yang mereka lakukan dalam pengembangan produk.”
Dalam email pembaruan lainnya pada bulan Mei, Liu berkata, "Tim peneliti sekarang melatih model dengan 1 miliar parameter menggunakan banyak konfigurasi berbeda, masing-masing dengan 16 node. Ini adalah proses debug yang penting sebelum perluasan lebih lanjut. Kami berencana untuk menarik kesimpulan dalam a beberapa minggu dan kemudian meningkatkan model parameter menjadi 10 miliar.”
CEO Nvidia Jensen Huang menjawab dalam email tersebut, "Pembaruan yang bagus. Banyak perusahaan harus membangun model berbasis video. Kami dapat menyediakan saluran yang dipercepat sepenuhnya."
Pada bulan Juni, karyawan mendiskusikan jenis konten dalam model apa yang paling berguna agar produk Nvidia tetap kompetitif di industri AI.
“NVIDIA memiliki robot, mobil self-driving, Omniverse, dan Avatar yang tidak dimiliki sebagian besar perusahaan konten. Untuk memberikan dampak terbesar pada perusahaan, data yang kami kumpulkan harus dapat diterapkan dengan baik pada aplikasi-aplikasi mematikan ini,” kata Liu.
"Saya memahami data yang berdampak pada robot dan mobil self-driving. Adakah yang bisa membagikan detail data yang berdampak pada kasus penggunaan Omniverse dan Avatar?" “Ini akan menjadi video tentang bagaimana manusia berinteraksi dengan benda. Seperti memasang furnitur, memotong buah, melipat cucian,” jawab Liu.
Apakah kemajuan model AI didasarkan pada kreasi Anda dan saya?
Meskipun Nvidia berkontribusi pada penelitian akademis, percakapan dan email yang diperoleh 404 Media menunjukkan bahwa model yang sedang dikerjakan oleh tim Cosmos ditujukan untuk penggunaan komersial di berbagai produknya.
Sampai preseden hukum ditetapkan tentang bagaimana data pelatihan dikumpulkan, atau sampai perusahaan diharuskan transparan mengenai data ini, perusahaan akan terus mengeksploitasi wilayah abu-abu hukum dalam menghilangkan data pelatihan yang dilindungi hak cipta. Kebocoran percakapan internal seperti ini adalah satu-satunya cara orang dapat mengetahui apakah pekerjaan mereka digunakan untuk melatih model yang menghasilkan miliaran dolar bagi perusahaan seperti Nvidia atau Runway atau OpenAI.
Industri AI telah mendorong transparansi yang lebih besar selama bertahun-tahun, baik melalui peraturan pemerintah atau standar industri.
Awal tahun ini, Jack Hardinges, Elena Simperl, dan Nigel Shadbolt dari MIT menulis: “Sangat penting untuk memahami apa yang ada dalam kumpulan data yang digunakan untuk melatih model dan bagaimana mereka dikumpulkan membiaskan atau menghapus konten berbahaya dari data akan terhambat.
Informasi tentang data pelatihan juga penting bagi pembuat undang-undang untuk menilai apakah model yang mendasarinya menyerap data pribadi atau materi berhak cipta. Di sektor hilir, operator sistem AI yang dituju dan mereka yang terkena dampak penggunaannya akan lebih mempercayai sistem ini jika mereka memahami cara pengembangannya. "
Anggota parlemen memperkenalkan beberapa undang-undang tahun lalu untuk mengatasi masalah ini, termasuk Undang-Undang Transparansi Model yang Mendasari AI pada bulan Desember, yang akan mengharuskan perusahaan yang membuat model AI yang mendasarinya untuk bekerja sama dengan lembaga federal seperti FTC dan Kantor Hak Cipta untuk mengembangkan standar Transparansi, termasuk mewajibkan mereka untuk mengungkapkan informasi tertentu kepada konsumen.
Undang-Undang Pengungkapan Hak Cipta AI Generatif, yang diusulkan pada bulan April tahun ini, akan mengharuskan produsen kumpulan data untuk menyerahkan “ringkasan yang cukup rinci dari setiap karya berhak cipta” kepada registrar atau akan dikenakan denda.
“Secara teknis, sangat sulit untuk menentukan apakah pekerjaan Anda digunakan untuk pelatihan,” kata Mahari. “Secara internal, kebijakan terbaik adalah tidak memberi tahu orang-orang tentang pelatihan apa yang Anda gunakan karena sangat sulit bagi pihak ketiga mana pun untuk benar-benar mengaudit dan mengetahuinya. Jadi, selama Anda tidak memberi tahu siapa pun, sangat sulit untuk membuktikannya.”
Terlampir alamat asli laporan:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/