Model dasar video misterius Nvidia “Cosmos” terungkap, dan semua datanya dicuri

2024-08-06

Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Untuk model video ini, NVIDIA dengan panik merayapi data video yang setara dengan 80 tahun setiap hari.

Hari ini, berita tentang keputusan Nvidia untuk berhenti membuat model video meledak di Reddit.

Sumber beritanya berasal dari media asing 404 Media. Menurut Slack chat (platform chat internal Nvidia), email dan dokumen yang diperolehnya, Nvidia mengambil video dari Youtube dan beberapa sumber lain untuk mengumpulkan data pelatihan produk AI-nya.

Percakapan internal di Nvidia yang ditinjau oleh 404 Media menunjukkan bahwa ketika karyawan yang terlibat dalam proyek tersebut menyampaikan kekhawatiran tentang kemungkinan masalah hukum yang timbul dari penggunaan "kumpulan data penelitian yang dilarang secara komersial" dan "video YouTube", para manajer memberi tahu mereka bahwa mereka mendapat persetujuan dari tingkat tertinggi perusahaan. perusahaan yang dapat digunakan.

Seorang mantan karyawan Nvidia yang tidak disebutkan namanya mengatakan para karyawan diminta untuk mengambil video dari Netflix, YouTube, dan sumber lain untuk melatih model AI untuk generator dunia 3D Omniverse, sistem mobil tanpa pengemudi, dan produk "manusia digital".

Proyek tersebut, yang secara internal diberi nama Cosmos (tetapi berbeda dari produk pembelajaran mendalam Cosmos yang sudah ada), belum dirilis ke publik. Menurut email yang dikirimkan kepada karyawan oleh pimpinan proyek, tujuan Cosmos adalah membangun model infrastruktur video canggih yang “merangkum transportasi ringan, fisika, dan simulasi cerdas di satu tempat untuk membuka berbagai aspek hilir yang penting bagi Aplikasi Nvidia.”

Untuk mengumpulkan video pelatihan, karyawan NVIDIA menggunakan pengunduh video YouTube sumber terbuka yang disebut "yt-dlp". Mereka mencoba mengunduh video lengkap dari berbagai sumber seperti Netflix tetapi sebagian besar fokus pada video YouTube. Email yang ditinjau oleh 404 Media menunjukkan bahwa manajer proyek memilih untuk menggunakan 20 hingga 30 mesin virtual di Amazon Web Services untuk mengunduh video berusia 80 tahun setiap hari.

“Kami sedang menyelesaikan pipeline data v1 dan mengamankan sumber daya komputasi yang diperlukan untuk membangun pabrik data video yang dapat menghasilkan data Pelatihan harian yang setara dengan pengalaman visual manusia seumur hidup.”

Ketika ditanya tentang penggunaan video YouTube oleh Nvidia sebagai data pelatihan untuk modelnya, juru bicara Google mengatakan kepada 404 Media bahwa "posisi sebelumnya tetap valid". Sebelumnya, CEO YouTube Neal Mohan mengatakan bahwa jika OpenAI menggunakan video YouTube untuk meningkatkan generator video AI Sora, hal itu jelas merupakan "pelanggaran" terhadap persyaratan penggunaan YouTube.

Demikian pula, juru bicara Netflix mengatakan kepada 404 Media bahwa perusahaan tersebut tidak memiliki perjanjian dengan Nvidia untuk akuisisi konten, dan persyaratan layanan platform tidak mengizinkan penghapusan konten.

Namun, Nvidia nampaknya tak peduli. Kekhawatiran hukum yang diajukan oleh karyawan yang terlibat dalam proyek sering kali diabaikan oleh manajer proyek yang mengatakan bahwa keputusan untuk menghapus video tersebut tanpa izin adalah "keputusan eksekutif" yang tidak perlu mereka khawatirkan, dan merupakan penggunaan yang adil dan etis atas hak cipta. konten dan masalah penggunaan kumpulan data akademis dan non-komersial dianggap sebagai "masalah hukum yang luar biasa" yang akan mereka selesaikan di masa depan.

Awal dan akhir proyek model video NVIDIA

Mirip dengan raksasa teknologi lainnya, Nvidia mempekerjakan talenta peneliti akademis untuk mempublikasikan hasil akademis, namun dari email internal yang diperoleh 404 Media, terlihat bahwa Cosmos jelas akan digunakan untuk tujuan komersial.

Pada bulan Maret tahun ini, seorang peneliti NVIDIA memposting di Slack dan menyarankan bahwa penggunaan film Hollywood seperti "Avatar" atau "Lord of the Rings" untuk melatih OpenAI Sora mungkin lebih efektif.

Selanjutnya, usulannya diakui di dalam perusahaan, namun dia juga menambahkan bahwa Hollywood sangat sensitif terhadap kemungkinan AI melanggar hak cipta. Pada bulan Juli 2023, SAG-AFTRA, salah satu dari tiga serikat pekerja besar di Hollywood dengan 160.000 anggota, mengumumkan pemogokan, menargetkan produk AI generatif seperti ChatGPT dan Stable Diffusion. Sebelumnya, Writers Guild of America telah melakukan pemogokan lebih dari 70 hari. Ada situasi di Difusi Stabil. Bahkan jika Anda tidak memasukkan kata prompt yang sesuai dan memasukkan deskripsi yang tidak jelas seperti "tukang ledeng gaya Anime", Difusi Stabil akan langsung menghasilkan gambar klasik Mario.

Di bawah postingan ini, seorang karyawan bernama "Liu" (yaitu Ming-Yu Liu (Liu Mingyu), wakil presiden penelitian di NVIDIA) menjawab: "Jika makalah tersebut tidak dipublikasikan ke publik, maka tidak akan menimbulkan masalah negatif di atas. Kita harus pertama-tama gunakan video yang dapat diunduh untuk eksperimen."

Setelah itu, peneliti NVIDIA lainnya memposting postingan di intranet. Ia menemukan daftar file yang harus diunduh terlebih dahulu untuk model video pelatihan. Namun, kumpulan data HD-VILA-100M yang digunakan oleh NVIDIA kekurangan sekitar 2,3 juta file video asli. Daftar yang terus bertambah ini juga mencakup video asli dari beberapa YouTuber terkenal, seperti Marques Brownlee (MKBHD), seorang blogger ulasan digital dengan reputasi di Amerika Utara seperti "Halo semuanya, Saya Teman Sekelas Dia".

Karena perlindungan hak cipta, kumpulan data video umum sering kali menyertakan tautan URL atau ID YouTube. Setelah pembuat menghapus video asli, konten tersebut tidak akan disertakan lagi dalam kumpulan data kecuali pembuat video secara eksplisit menyetujui penyimpanan dan penggunaan konten tersebut. .

Meskipun Microsoft secara eksplisit melarang semua penggunaan komersial dalam pernyataan penggunaan kumpulan data HD-VILA-100M, karyawan Nvidia yang memposting pesan tersebut tampaknya tidak peduli. Dia segera memposting tautan YouTube yang sesuai dengan daftar tersebut dan membagikannya dengan rekan-rekannya Kami membahas solusi untuk menggunakan mesin virtual AWS untuk mengubah IP guna menghindari mekanisme anti-perayapan YouTube.

Selain itu, karyawan NVIDIA juga menggunakan YouTube-8M, kumpulan data pemahaman video berskala besar yang dirilis oleh Google. Alih-alih melengkapi kumpulan data Microsoft sendiri, mereka mencapai "kesepakatan" dengan YouTube dan Google, perusahaan induk YouTube saat ini, Nvidia membeli 800 video dengan harga US$0,00625 (sekitar 4 sen) per video dan akan diunduh melalui Google Cloud. Terlepas dari masalah penjualan hak cipta, Google mungkin berpikir bahwa mereka telah mendapatkan kembali biaya iklan untuk video-video ini, tetapi Nvidia sudah memiliki beberapa batasan dalam bandwidth cloud. Pengunduhan di Google Cloud dapat memperoleh koneksi yang lebih stabil dan dapat diprediksi. Oleh karena itu, bagaimanapun Anda melihatnya, "kesepakatan" ini tampaknya bermanfaat bagi Nvidia.

Yang lebih mengejutkan lagi adalah ketika seorang karyawan Nvidia bertanya di intranet: “Apakah masuk akal jika kami mendownload video YouTube seperti ini?”

"Ini adalah keputusan tingkat tinggi. Kami mendapat persetujuan penuh untuk menggunakan semua data."

Data yang diperbolehkan untuk keputusan ini juga mencakup produksi video di Netflix. Data Netflix berisi banyak data wajah berkualitas tinggi. Setelah disetujui, seseorang meminta bantuan rekan-rekan di intranet perusahaan yang memiliki pengalaman dalam “membangun kumpulan data besar” di perusahaan besar lainnya.

Pada saat yang sama, tim Cosmos juga mempertimbangkan masalah bagaimana cara menambahkan cuplikan pertandingan secara efektif ke data pelatihan. Ilmuwan riset senior NVIDIA, Jim Fan, juga menemui kendala "peraturan" saat merekam cuplikan game secara real-time.

Jim Fan memposting:

Pembaruan: Saya telah bertemu dengan orang-orang di GeForce Now (GFN) dan menyusun rencana dengan mereka. Kami akan bekerja sama dengan GFN dan tim teknik terkait untuk mengembangkan metode guna menangkap data game secara real-time, memperluas skala pipeline, dan memproses data untuk pelatihan. Video gameplay berkualitas tinggi akan menjadi tambahan yang sangat berguna untuk "Sora kami"... Karena peralatan untuk merekam video dan aksi gameplay langsung belum tersedia, statistik belum dibuat, tetapi kami akan membersihkan dan GFN yang diproses data ditambahkan ke tim-vfm.

Pada bulan Maret tahun ini, pengumpulan data video Project Cosmo mencapai tonggak sejarah: Nvidia menyelesaikan 100.000 pengunduhan video dalam dua minggu.

"Kemajuannya luar biasa. Pertanyaannya sekarang adalah bagaimana kita bisa mendapatkan URL berkualitas tinggi dalam jumlah besar." Jawab Liu di postingan ini.

Pada akhir Mei, anggota tim proyek menerima email mengenai strategi data video, mengumumkan bahwa mereka telah mengumpulkan 38,5 juta URL video. “Rencananya, fokus pengumpulan video minggu depan masih berupa film, rekaman drone, rekaman perspektif orang pertama, dan pemandangan alam,” isi email tersebut juga menyertakan grafik yang menunjukkan jenis konten yang mereka unduh. persentase.

Email tersebut mengungkapkan beberapa informasi teknis penting, termasuk empat kumpulan data dari data pelatihan model:

Ego Exo4D: Kumpulan data dan tolok ukur video yang beragam, berskala besar, multi-modal, multi-tampilan, dikumpulkan oleh 740 pemakai kamera di 13 kota di seluruh dunia, merekam 1.286,3 jam video aktivitas manusia yang terampil.
Ego4D: Ini adalah kumpulan data dan rangkaian benchmark egosentris berskala besar yang mengumpulkan lebih dari 3.670 jam video aktivitas kehidupan sehari-hari di 74 lokasi di 9 negara di seluruh dunia.
HOI4D : Kumpulan data egosentris 4D berskala besar dengan anotasi yang kaya untuk memfasilitasi penelitian interaksi manusia-objek tingkat kategori. HOI4D dibuat oleh para peneliti dari Universitas Tsinghua, Universitas Peking dan Institut Penelitian Qizhi Shanghai. Ini dilisensikan di bawah CC BY-NC 4.0 dan penggunaan komersial dilarang.
GeForce Sekarang: Data permainan.

Dalam email lain, anggota proyek Cosmos mengatakan: "Tim peneliti sekarang sedang melatih 1 miliar model parameter dengan berbagai konfigurasi, masing-masing dengan 16 node. Ini adalah langkah debugging penting sebelum penskalaan lebih lanjut. . Kami berencana untuk mendapatkan kesimpulan dalam a beberapa minggu dan kemudian meningkatkan model parameter menjadi 10 miliar."

"Pembaruan ini luar biasa!" CEO Nvidia Jen-Hsun Huang menanggapi email tersebut. Dia berkata: "Banyak perusahaan telah menetapkan tujuan untuk membangun model video dasar, dan kami pasti dapat membangun jalur yang dipercepat."

Pada bulan Juni, anggota tim proyek mendiskusikan jenis konten apa dalam model yang paling berguna untuk produk Nvidia dalam rangka menjaga daya saing di industri AI.

“NVIDIA memiliki robotika, mengemudi otonom, Omniverse, dan Avatar yang tidak dimiliki sebagian besar perusahaan konten. Untuk memaksimalkan pertumbuhan perusahaan, data yang kami kelola harus dapat diterapkan dengan baik pada aplikasi 'pembunuh' ini,” kata anggota Proyek Cosmos.

Tidak ada keraguan bahwa model yang dikembangkan tim Cosmos ditujukan untuk penggunaan komersial di banyak produknya.

Hingga undang-undang diberlakukan yang mengharuskan perusahaan-perusahaan ini untuk mengungkapkan sepenuhnya data pelatihan mereka, mereka akan terus mengeksploitasi wilayah abu-abu hukum untuk mengambil data berhak cipta. Tanpa kebocoran email internal atau percakapan intranet, tidak ada yang akan tahu apa yang terjadi di balik layar, dan model seperti itu dapat menghasilkan miliaran dolar bagi raksasa teknologi seperti Nvidia, Runway, atau OpenAI.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

berita

Model dasar video misterius Nvidia “Cosmos” terungkap, dan semua datanya dicuri

Perkenalan

informasi kontak saya