berita

Melibatkan 170.000 video!NVIDIA dan raksasa lainnya terungkap karena menggunakan data YouTube secara ilegal untuk melatih model

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Raksasa teknologi diketahui menggunakan konten YouTube tidak sah untuk melatih model AI (kecerdasan buatan).

Pada 16 Juli waktu setempat, media asing melaporkan bahwa beberapa perusahaan teknologi besar, termasuk Apple, Nvidia, Salesforce, dan Anthrophic, terpapar menggunakan data tidak sah dari YouTube, situs video milik Google, saat melatih model AI. Perusahaan tersebut menggunakan kumpulan data yang disediakan oleh pihak ketiga yang berisi teks subtitle video dalam jumlah besar yang diambil dari YouTube, sehingga melanggar aturan YouTube yang melarang pengambilan konten dari platform tanpa izin.

Laporan tersebut menunjukkan bahwa perusahaan teknologi ini menggunakan kumpulan data yang disebut "Subtitel YouTube" saat melatih model AI. Data tersebut berukuran 5,7 GB dan berisi 489 juta kata dari lebih dari 48.000 saluran di Youtube. Kumpulan data ini terdiri dari teks biasa subtitle video, termasuk bagian yang diunggah oleh vlogger dan teks yang ditranskripsi secara otomatis oleh Youtube. Selain bahasa Inggris, biasanya juga dilengkapi dengan terjemahan dalam bahasa seperti Jepang, Jerman, dan Arab.

Organisasi nirlaba EleutherAI adalah pembuat kumpulan data kontroversial tersebut, dan perusahaan tersebut belum menanggapi cerita ini. Menurut situs resminya, tujuan EleutherAI adalah untuk “menurunkan ambang batas pengembangan AI dan memberi semua orang akses terhadap teknologi AI mutakhir melalui pelatihan dan peluncuran model.” Sebelumnya EleutherAI merilis kompilasi data bernama "Pile" yang sebagian besar terbuka untuk umum, termasuk Subtitle YouTube.

Data menunjukkan bahwa beberapa minggu sebelum Apple merilis model OpenELM model kecil sisi akhir pada bulan April tahun ini, perusahaan menggunakan Pile untuk pelatihan. Namun, perlu dicatat bahwa Apple sendiri tidak mengunduh data ini. Jadi, secara teknis, EleutherAI-lah yang melanggar ketentuan penggunaan YouTube.

Juru bicara startup AI Anthropic mengonfirmasi bahwa kumpulan data Pile telah digunakan untuk melatih asisten AI generatif perusahaan, Claude, dan bahwa persyaratan YouTube hanya mencakup "penggunaan langsung platformnya" dan merekomendasikan untuk mendiskusikan segala pelanggaran dengan penulis asli Pile Mengadakan. Apple, Nvidia, Salesforce, dan perusahaan lain belum menanggapi masalah ini.

Kreator yang terkena dampak insiden ini antara lain blogger terkenal seperti Marques Brownlee, MrBeast, dan PewDiePie, serta penerbit berita besar seperti The New York Times, British Broadcasting Corporation (BBC), dan ABC News di Amerika Serikat. Selain itu, beberapa materi dalam kumpulan data mempromosikan teori konspirasi seperti "Bumi Datar" dan bahkan berisi konten dari video yang telah dihapus. Kini, Pile telah dihapus dari situs download resminya, namun masih dapat diakses melalui layanan berbagi file.

Dalam hal ini, blogger teknologi terkenal Marques Brownlee mengatakan di Termasuk video saya. Secara teknis Apple tidak 'membuat kesalahan', mereka tidak secara proaktif mengikis data, tetapi ini akan menjadi masalah yang sudah berlangsung lama."


Tweet dari Marques Brownlee.Sumber: platform X

Meskipun Apple dan perusahaan lain mungkin telah menggunakan kumpulan data publik dan tidak ada pelanggaran, insiden ini sekali lagi menarik perhatian pada masalah data di balik pelatihan AI. Pada awal tahun ini, perusahaan induk YouTube, Google, diketahui menggunakan video platform tersebut untuk melatih modelnya. Google saat itu menjawab bahwa perilaku tersebut tidak melanggar perjanjian platform dengan pembuat konten.

Pada bulan Maret tahun ini, Chief Technology Officer OpenAI Mira Murati tidak menjelaskan secara jelas tentang sumber data pelatihan untuk model video Vincent Sora dalam sebuah wawancara. Pada bulan April, CEO YouTube Neal Mohan mengatakan dalam sebuah wawancara bahwa dia tidak memiliki bukti langsung untuk membuktikan bahwa OpenAI memang menggunakan video YouTube untuk meningkatkan alat AI video Vincent Sora. Jika itu benar-benar digunakan, Itu akan menjadi "pelanggaran yang jelas" terhadap Ketentuan penggunaan platform YouTube.