ニュース

Nvidiaの謎のビデオベースモデル「Cosmos」が暴露され、データがすべて盗まれる

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



マシンハートレポート

マシーンハート編集部

このビデオ モデルに関して、NVIDIA は毎日、80 年分に相当するビデオ データを必死でクロールしています。

今日、ビデオモデルの製造を中止するという Nvidia の決定に関するニュースが Reddit で爆発的に広まりました。

このニュースのソースは海外メディア 404 Media によるもので、Slack チャット (Nvidia の社内チャット プラットフォーム)、電子メール、および入手した文書によると、Nvidia は AI 製品のトレーニング データを収集するために Youtube やその他のいくつかのソースからビデオを取得しています。



404 Media が検証した Nvidia の内部会話によると、プロジェクトに関与した従業員が「商業的に禁止された研究データセット」や「YouTube 動画」の使用から生じる法的問題の可能性について懸念を表明したとき、管理者は最高レベルの承認を得ていると伝えたことがわかります。会社、使用することができます。

匿名の元エヌビディア従業員によると、従業員らはオムニバース3Dワールドジェネレーター、自動運転車システム、「デジタルヒューマン」製品向けのAIモデルをトレーニングするために、NetflixやYouTubeなどのソースからビデオをスクレイピングするよう求められたという。

このプロジェクトは社内では Cosmos と名付けられていますが (ただし、同社の既存の Cosmos 深層学習製品とは別のものです)、まだ一般公開されていません。プロジェクトのリーダーが従業員に送った電子メールによると、コスモスの目標は、「光輸送、物理学、インテリジェントなシミュレーションを 1 か所にカプセル化して、重要なさまざまな下流側の側面を明らかにする」最先端のビデオ インフラストラクチャ モデルを構築することです。エヌビディアのアプリケーションです。」

トレーニング ビデオを収集するために、NVIDIA の従業員は「yt-dlp」と呼ばれるオープンソースの YouTube ビデオ ダウンローダーを使用しました。彼らはNetflixなどのさまざまなソースから完全なビデオをダウンロードしようとしますが、主にYouTubeビデオに焦点を当てています。 404 Media が確認した電子メールによると、プロジェクト マネージャーは、アマゾン ウェブ サービスで 20 ~ 30 台の仮想マシンを使用して、80 年分のビデオを毎日ダウンロードすることにしました。

「私たちは v1 データ パイプラインを完成させ、人間の視覚体験の生涯に相当する毎日のトレーニング データを生成できるビデオ データ ファクトリーを構築するために必要なコンピューティング リソースを確保しています。」

Nvidia がモデルのトレーニング データとして YouTube 動画を使用していることについて尋ねられたとき、Google の広報担当者は 404 Media に対し、同社の「以前の立場は引き続き有効である」と述べた。以前、YouTube CEOのニール・モハン氏は、もしOpenAIがAIビデオジェネレーターSoraを改善するためにYouTubeビデオを使用した場合、それはYouTubeの利用規約の「明らかな違反」になるだろうと述べた。

同様に、Netflixの広報担当者は404 Mediaに対し、同社はコンテンツ取得に関してNvidiaと契約を結んでいず、プラットフォームの利用規約ではコンテンツのスクレイピングを許可していないと語った。

しかし、NVIDIA は気にしていないようです。プロジェクトに関与した従業員が提起した法的懸念は、プロジェクトマネージャーによってしばしば却下され、許可なくビデオをスクレイピングするという決定は心配する必要のない「経営判断」であり、これが著作権で保護されたコンテンツの公正かつ倫理的な使用に相当すると述べた。コンテンツとデータセットの学術的、非商業的使用の問題は「未解決の法的問題」とみなされ、将来解決される予定です。

NVIDIA ビデオ モデル プロジェクトの始まりと終わり

他のテクノロジー大手と同様に、Nvidiaは学術研究の人材を雇用して学術成果を発表しているが、404 Mediaが入手した内部電子メールからは、Cosmosが明らかに商業目的で利用されることが分かる。

今年 3 月、NVIDIA の研究者が Slack に投稿し、「アバター」や「ロード・オブ・ザ・リング」などのハリウッド映画を OpenAI Sora のトレーニングに使用する方がより効果的である可能性があると示唆しました。

その後、彼の提案は社内で認められたが、ハリウッドはAIによる著作権侵害の可能性に特に敏感であるとも付け加えた。 2023年7月、16万人の組合員を擁するハリウッドの3大労働組合の1つであるSAG-AFTRAが、ChatGPTやStable Diffusionなどの生成AI製品を対象としたストライキを発表した。これに先立ち、全米脚本家組合はストライキを行っていた。 70日以上。 Stable Diffusion には、対応するプロンプトワードを入力せずに「アニメ風配管工」などの曖昧な説明を入力した場合でも、Stable Diffusion はクラシックなマリオのイメージを直接生成します。

この投稿の下で、「Liu」という名前の従業員 (つまり、NVIDIA の研究担当副社長、Ming-Yu Liu (Liu Mingyu) です) は次のように答えています。まずはダウンロード可能なビデオを実験に使用してください。」



その後、別の NVIDIA 研究者がイントラネットに投稿し、ビデオ モデルをトレーニングするために最初にダウンロードする必要があるファイルのリストを発見しました。しかし、NVIDIA が使用した HD-VILA-100M データ セットには約 230 万のオリジナル ビデオがありませんでした。この拡大し続けるリストには、「こんにちは、皆さん、私はクラスメイトです」のような北米での評判を持つデジタル レビュー ブロガーのマーケス ブラウンリー (MKBHD) など、有名な YouTuber によるオリジナル ビデオも含まれています。

著作権保護のため、一般的なビデオ データ セットには URL リンクや YouTube ID が含まれることが多く、作成者が元のビデオを削除すると、ビデオの作成者がコンテンツの保持と使用に明示的に同意しない限り、これらのコンテンツはデータ セットに含まれなくなります。 。

Microsoft は HD-VILA-100M データ セットの使用声明ですべての商用利用を明示的に禁止していますが、メッセージを投稿した Nvidia 従業員は気にしていないようで、すぐにリストに対応する YouTube リンクを投稿し、同僚と共有しました。 AWS 仮想マシンを使用して IP を変更し、YouTube のクローラー対策メカニズムを回避するソリューションについて説明しました。

さらに、NVIDIA の従業員は、Google がリリースした大規模なビデオ理解データセットである YouTube-8M にも協力しました。 Microsoft のデータセットを独自に補完する代わりに、YouTube と YouTube の現在の親会社である Google との間で「契約」に達し、Nvidia は 1 ビデオあたり 0.00625 米ドル (約 4 セント) の価格で 800 ビデオを購入し、ダウンロードされることになりました。 Google Cloud経由。著作権の販売の問題とは関係なく、Google はこれらのビデオの広告料を取り戻したと考えているかもしれませんが、Nvidia はすでにクラウドの帯域幅に制限を設けており、Google Cloud でダウンロードすると、より安定した予測可能な接続を得ることができます。したがって、どう考えても、この「取引」はNvidiaにとって有利であるように思えます。

さらに驚くべきことは、Nvidia の従業員がイントラネットで「このような YouTube ビデオをダウンロードするのは合理的でしょうか?」と質問したことです。

「これはハイレベルな決定だ。我々はすべてのデータを使用することを完全に承認している」と彼は答えた。

この決定に許可されるデータには、Netflix のビデオ作品も含まれます。 Netflix のデータには高品質の顔データが大量に含まれており、承認後、誰かが他の大企業で「大規模なデータセットの構築」の経験を持つ社内イントラネット上の同僚に協力を求めました。

同時に、Cosmos チームは、トレーニング データにゲーム映像を効果的に追加する方法についても検討しました。 NVIDIA の上級研究科学者であるジム ファン氏も、リアルタイムのゲーム映像をキャプチャする際に「規制」の障害に遭遇しました。

ジム・ファンは次のように投稿しました。

最新情報: 私は GeForce Now (GFN) の人々と会い、計画に取り組んでいます。私たちは、GFN および関連するエンジニアリング チームと緊密に連携して、リアルタイムのゲーム データを取得し、パイプラインの規模を拡大し、トレーニング用にデータを処理する方法を開発します。高品質のゲームプレイビデオは、「私たちのソラ」に非常に役立つ追加になります...ライブゲームプレイビデオとアクションをキャプチャするための機器がまだ利用できないため、統計はまだ作成されていませんが、クリーンアップして処理されたGFNを作成しますデータがteam-vfmに追加されます。

今年 3 月、Project Cosmo のビデオ データ収集はマイルストーンに達しました。Nvidia は 2 週間で 100,000 件のビデオのダウンロードを完了しました。

「進歩は驚くべきものです。問題は、どうすれば大量の高品質の URL を入手できるかということです。」と Liu 氏はこの投稿で答えています。

5 月下旬、プロジェクト チームのメンバーはビデオ データ戦略に関する電子メールを受け取り、3,850 万件のビデオ URL を収集したと発表しました。 「計画によれば、来週のビデオコレクションの焦点は引き続き映画、ドローン映像、一人称視点の映像、自然風景だ」と電子メールには記載されており、ダウンロードしたコンテンツの種類を示す表も含まれていた。割合。

この電子メールでは、モデル トレーニング データからの 4 つのデータセットを含む、いくつかの重要な技術情報が明らかになりました。

  • エゴ-Exo4D: 世界 13 都市の 740 人のカメラ装着者によって収集された、多様で大規模なマルチモーダル、マルチビューのビデオ データセットとベンチマークで、熟練した人間の活動を記録した 1286.3 時間のビデオが記録されています。
  • エゴ4D: これは、世界 9 か国の 74 か所で 3,670 時間以上の日常生活活動ビデオを収集した、大規模で自己中心的なデータセットおよびベンチマーク スイートです。
  • HOI4D : カテゴリレベルの人間とオブジェクトのインタラクション研究を促進する豊富な注釈を備えた大規模な 4D 自己中心的データセット。 HOI4D は清華大学、北京大学、上海 Qizhi Research Institute の研究者によって作成され、CC BY-NC 4.0 に基づいてライセンスが付与されており、商用利用は禁止されています。
  • GeForce ナウ:ゲームデータ。

別の電子メールで、Cosmos プロジェクトのメンバーは次のように述べています。「研究チームは現在、それぞれ 16 ノードを持つ複数の構成で 10 億のパラメーター モデルをトレーニングしています。これは、さらなる拡張の前の重要なデバッグ手順です。数週間かけて、100 億のパラメーター モデルにスケールアップします。」

Nvidia CEO の Jen-Hsun Huang 氏は、「このアップデートは素晴らしいです!」とメールに返信し、「多くの企業が基本的なビデオ モデルを構築するという目標を設定しています。私たちは間違いなく高速化されたパイプラインを構築できます。」と述べました。

6 月、プロジェクト チームのメンバーは、AI 業界の競争力を維持するという観点から、モデル内のどのタイプのコンテンツが Nvidia 製品にとって最も役立つかについて議論しました。

「NVIDIAには、ほとんどのコンテンツ企業が持っていないロボティクス、自動運転、オムニバース、アバターがある。会社の成長を最大限に高めるためには、私たちが整理したデータがこれらの『キラー』アプリケーションにうまく適用できる必要がある」とコスモスプロジェクトのメンバーは述べた。

Cosmos チームが開発しているモデルが、その多くの製品にわたって商用利用を目的としていることに疑いの余地はありません。

これらの企業はトレーニング データの完全な開示を義務付ける法律が制定されるまで、法的なグレーゾーンを利用して著作権で保護されたデータを収集し続けるでしょう。社内電子メールやイントラネットでの会話が漏洩しなければ、舞台裏で何が起こっているのか誰も知ることができず、そのようなモデルは Nvidia、Runway、OpenAI などのテクノロジー大手に数十億ドルをもたらす可能性があります。

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/