ニュース

170,000 本のビデオを収録!NVIDIA とその他の大手企業が YouTube データを違法に使用してモデルをトレーニングしたとして摘発される

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

テクノロジー大手が、AI(人工知能)モデルのトレーニングに未承認のYouTubeコンテンツを使用していたことが暴露された。

現地時間7月16日、海外メディアは、Apple、Nvidia、Salesforce、Anthrophicを含む一部の大手テクノロジー企業が、AIモデルのトレーニング時にGoogle所有の動画WebサイトであるYouTubeの不正データを使用していたことが暴露されたと報じた。両社は、サードパーティが提供したデータセットを使用しており、そこには YouTube から収集された大量のビデオ字幕テキストが含まれており、許可なくプラットフォームからコンテンツを収集することに対する YouTube の規則に違反していました。

報告書は、これらのテクノロジー企業が AI モデルをトレーニングする際に「YouTube 字幕」と呼ばれるデータセットを使用したと指摘しました。このデータセットのサイズは 5.7 GB で、Youtube の 48,000 以上のビデオからの 4 億 8,900 万ワードが含まれています。このデータセットは、ビデオブロガーによってアップロードされた部分と、Youtubeによって自動的に文字起こしされたテキストを含むビデオ字幕のプレーンテキストで構成されており、通常は英語に加えて、日本語、ドイツ語、およびドイツ語などの言語の翻訳も付属しています。アラビア語。

非営利団体 EleutherAI は物議を醸しているデータセットの作成者ですが、同社はまだこの話に反応していません。公式ウェブサイトによると、EleutherAI の目標は「AI 開発の敷居を下げ、モデルのトレーニングとリリースを通じて誰もが最先端の AI テクノロジーにアクセスできるようにする」ことです。以前、EleutherAI は「Pile」と呼ばれるデータ集をリリースしましたが、そのほとんどは YouTube の字幕を含めて一般に公開されています。

データによると、Apple が今年 4 月にエンドサイドの小規模モデル OpenELM モデルをリリースする数週間前に、同社はトレーニングに Pile を使用していました。ただし、Apple 自体がこのデータをダウンロードするわけではないことに注意してください。つまり、厳密に言えば、YouTube の利用規約に違反したのは EleutherAI でした。

AIスタートアップのAnthropicの広報担当者は、Pileのデータセットが同社の生成AIアシスタントであるクロードのトレーニングに使用されたことを認め、YouTubeの利用規約には「プラットフォームの直接使用」のみが含まれており、違反があればPileの元の作成者とYouTube利用規約について話し合うことを推奨していると述べた。行為。 Apple、Nvidia、Salesforceなどの企業はまだこの件に応じていない。

この事件の影響を受けたクリエイターには、Marques Brownlee、MrBeast、PewDiePie などの有名ブロガーのほか、ニューヨーク タイムズ、英国放送協会 (BBC)、米国の ABC ニュースなどの大手ニュース出版社も含まれます。さらに、データセット内の一部の素材は「地球平面説」などの陰謀論を促進し、削除されたビデオのコンテンツも含まれています。現在、Pile は公式ダウンロード サイトから削除されていますが、ファイル共有サービスを通じて引き続きアクセスできます。

これに関して、有名なテクノロジーブロガーのマーキス・ブラウンリー氏は、技術的にはAppleは「間違いを犯した」わけではなく、データを積極的に収集しなかったが、これは長年の問題になるだろうと述べた。


マーケス・ブラウンリーのツイート。出典: X プラットフォーム

Apple やその他の企業は公開データセットを使用していた可能性があり、違反はなかったものの、この事件により AI トレーニングの背後にあるデータの問題が改めて注目されることになりました。今年の初め、YouTube の親会社である Google は、モデルをトレーニングするためにプラットフォームの動画を使用していることが暴露されましたが、当時 Google は、この行為はプラットフォームとクリエイターとの契約に違反していないと回答しました。

今年 3 月、OpenAI の最高技術責任者であるミラ ムラティ氏はインタビューで、Vincent ビデオ モデル ソラのトレーニング データのソースについて曖昧にしました。 4月、YouTubeの最高経営責任者(CEO)ニール・モハン氏はインタビューで、OpenAIが自社のVincentビデオAIツールSoraを改善するために実際にYouTubeビデオを使用したことを証明する直接的な証拠はないと述べた。 YouTube プラットフォームの利用規約。