berita

Sora versi NVIDIA terkena pengambilan data dalam jumlah besar secara ilegal, dan pejabat tersebut menyatakan ketidakpuasannya

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Sora versi NVIDIA terekspos——

Dengan nama sandi Cosmos, Wakil Presiden Riset Liu Mingyu bertindak sebagai penanggung jawab.

Namun dengan bocornya beberapa dokumen internal, mereka pun ikut terekspos perampasan data secara ilegal.



(Memang, ini bukan hanya sekali atau dua kali...)

Karyawan secara diam-diam diperbolehkan merayapi data apa pun yang tidak sah dan non-konsensual di Internet setiap hari, seperti YouTube, Netflix, dan platform lainnya.

Secara keseluruhan, data visual yang ditangkap setiap hari hampir sama dengan yang dapat dilihat seseorang dalam 80 tahun.

Hasilnya, Nvidia menjawab: Apa yang kami lakukan,Benar-benar sah!



Sora versi Nvidia terekspos: nama kode Cosmos

Menurut bocoran dokumen yang diperoleh 404Media, NVIDIA menangkap data ilegal setiap hari untuk melatih model baru.

Tujuan Cosmos adalah membangun model basis video yang canggih. Menurut email yang bocor, model tersebut mengintegrasikan simulasi transmisi cahaya, fisika, dan kecerdasan untuk membuka berbagai aplikasi hilir.

Misalnya, digunakan dalam generator dunia 3D Omniverse, sistem mobil tanpa pengemudi, dan produk manusia digital.

Ming-Yu Liu, wakil presiden penelitian di NVIDIA, menjabat sebagai pemimpin proyek Cosmos.



Dia juga merupakan Anggota IEEE. Dia memimpin tim riset NVIDIA Deep Imagination dan meluncurkan produk seperti NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] dan NVIDIA Maxine [LivePortrait].

Email sebelumnya dari bulan Mei menyatakan:

Kami sedang menyelesaikan pipeline data v1 dan mengamankan sumber daya komputasi yang diperlukan untuk membangun pabrik data video yang dapat menghasilkan pengalaman visual data pelatihan harian yang setara dengan pengalaman manusia seumur hidup.

Gambar ini menunjukkan kepala ilmuwan NVIDIA Francesco Ferroni memberikan tautan ke tabel yang menyatukan berbagai kumpulan data video, termasuk MovieNet (database 60.000 trailer film), WebVid, InternVid-10M, dan beberapa kumpulan data rekaman video Game yang diambil secara internal.

Kini, menurut seorang mantan karyawan, karyawan akan diminta untuk mengikis data dari sumber seperti YouTube dan Netflix.

Mereka akan menggunakan pengunduh video YouTube sumber terbuka bernama yt-dlp, yang menggunakan mesin virtual untuk menyegarkan alamat IP agar tidak diblokir oleh YouTube.

Untuk tujuan ini, Nvidia menanggapi 404 Media:

Kami menghormati hak semua pembuat konten dan percaya bahwa model dan karya penelitian kami sepenuhnya mematuhi isi dan semangat undang-undang hak cipta.
Undang-undang hak cipta melindungi ekspresi tertentu tetapi tidak melindungi fakta, ide, data, atau informasi. Siapapun bebas memperoleh fakta, gagasan, data atau informasi dari sumber lain dan menggunakannya untuk menyatakan pendapatnya. Penggunaan wajar juga melindungi kemampuan untuk menggunakan karya tersebut untuk tujuan transformatif, seperti pelatihan model. "

Google memberikan tautan ke 404 Media. Pada bulan April tahun ini, CEO YouTube mengatakan bahwa jika OpenAI menggunakan video YouTube untuk melatih Sora, makapelanggaran yang jelasKetentuan Penggunaan YouTube.

Netflix mengatakan mereka tidak memiliki perjanjian ekstraksi konten dengan Nvidia dan persyaratan layanan platform tidak mengizinkan pengambilan konten.

Menariknya, pada hari yang sama, blogger YouTube mengajukan gugatan class action terhadap OpenAI, menuduh perusahaan tersebut menggunakan jutaan rekaman video YouTube untuk melatih model AI generatifnya tanpa memberi tahu atau memberikan kompensasi kepada pemilik video tersebut.

Tidak jarang perusahaan-perusahaan besar ini pernah terkena perampasan data secara ilegal sebelumnya.

Tapi harus dikatakan bahwa data mentah semacam ini sangat berguna...

Sebelumnya, NVIDIA juga menggunakan video game untuk meningkatkan kualitas data pelatihan.

Studi yang baru-baru ini muncul di sampul Nature menunjukkan bahwa model besar yang dilatih dengan data Internet asli ini memiliki keunggulan sebagai penggerak pertama, memiliki kualitas data terbaik, dan performa model terkait juga yang terbaik.

Belakangan, seiring dengan semakin melimpahnya data AI, model besar akan mudah runtuh.

Sampah masuk sampah keluar

Apa pendapat Anda tentang masalah ini?

Tautan referensi:
[1]https://techcrunch.com/2024/08/05/youtuber-ajukan-gugatan-kelas-atas-transkrip-kreator-openais/
[2]https://www.gamedeveloper.com/business/report-nvidia-menggunakan-rekaman-video-game-yang-diambil-untuk-melatih-produk-ai

[3]https://www.404media.co/nvidia-ai-mengikis-model-dasar-proyek-kosmos/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-tertangkap-memakai-sebanyak-banyak-youtube-sebisa-mungkin/