ニュース

NVIDIA版Soraが大量データを不正取得していたことが発覚、公式が不満表明

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

バイジャオはアオフェイ寺院から来ています
パブリックアカウント QbitAI

Sora の NVIDIA バージョンが公開されました——

コードネーム「コスモス」の研究担当副社長リウ・ミンギュ氏が責任者を務める。

しかし、いくつかの内部文書の漏洩により、データの不法取得にもさらされました。



(確かに、一度や二度ではありませんが…)

従業員は、YouTube、Netflix、その他のプラットフォームなど、インターネット上の無許可かつ同意のないデータを毎日クロールすることが暗黙のうちに許可されています。

毎日収集される視覚データを合計すると、人間が 80 年間で認識できる量とほぼ同じになります。

その結果、Nvidia は次のように答えました。完全に合法です!



Sora の Nvidia バージョンが公開: コードネーム Cosmos

404Media が入手した漏洩文書によると、NVIDIA は新しいモデルをトレーニングするために毎日違法なデータをキャプチャしています。

Cosmos の目標は、最先端のビデオ ベース モデルを構築することです。漏洩した電子メールによると、このモデルは光透過、物理学、インテリジェンスのシミュレーションを統合して、さまざまな下流アプリケーションのロックを解除します。

たとえば、Omniverse 3D ワールド ジェネレーター、自動運転車システム、デジタル ヒューマン製品などに使用されています。

NVIDIA の研究担当副社長である Ming-Yu Liu は、Cosmos のプロジェクト リーダーを務めています。



彼はIEEEフェローでもあります。彼は NVIDIA Deep Imagination 研究チームを率い、NVIDIA Picasso [Edify]、NVIDIA Canvas [GauGAN]、NVIDIA Maxine [LivePortrait] などの製品を立ち上げました。

5月の以前のメールには次のように書かれていました。

私たちは v1 データ パイプラインを完成させ、人間の生涯に相当するトレーニング データの視覚体験を毎日生成できるビデオ データ ファクトリーを構築するために必要なコンピューティング リソースを確保しています。

この画像は、NVIDIA のチーフ サイエンティストである Francesco Ferroni が、MovieNet (60,000 の映画予告編のデータベース)、WebVid、InternVid-10M、および内部でキャプチャされたいくつかのビデオ ゲーム フッテージ データセットを含む、さまざまなビデオ データ セットをまとめたテーブルへのリンクを提供していることを示しています。

元従業員によると、従業員は今後、YouTubeやNetflixなどのソースからデータを収集するよう求められるという。

彼らは、yt-dlp と呼ばれるオープンソースの YouTube ビデオ ダウンローダーを使用します。これは、YouTube によるブロックを回避するために仮想マシンを使用して IP アドレスを更新します。

この目的に対して、Nvidia は 404 Media に次のように回答しました。

私たちはすべてのコンテンツ作成者の権利を尊重し、私たちのモデルと研究活動が著作権法の文言と精神に完全に準拠していると信じています。
著作権法は特定の表現を保護しますが、事実、アイデア、データ、情報は保護しません。誰もが他のソースから事実、アイデア、データ、または情報を自由に入手し、それを使用して自分の意見を表現することができます。フェアユースは、モデルのトレーニングなどの変革的な目的で作品を使用する能力も保護します。 」

今年 4 月、Google は 404 Media へのリンクを投げ、OpenAI が YouTube 動画を使用して Sora を訓練すれば、明らかな違反YouTube の利用規約。

Netflixは、Nvidiaとコンテンツ抽出契約を結んでいず、プラットフォームの利用規約ではコンテンツのスクレイピングを許可していないと述べた。

興味深いことに、同じ日に、YouTube ブロガーたちは OpenAI に対する集団訴訟を求めており、同社がビデオの所有者に通知も補償もせずに、生成 AI モデルのトレーニングに何百万もの YouTube ビデオ録画を使用していると非難しています。

これらの大手企業が以前にデータの違法取得にさらされたことは珍しいことではありません。

しかし、この種の生データは本当に役立つと言わざるを得ません...

以前、NVIDIA はトレーニング データの品質を向上させるためにゲーム ビデオも使用していました。

最近 Nature の表紙に掲載された研究では、元のインターネット データでトレーニングされたこの大規模モデルには先行者利益があり、データ品質が最高で、対応するモデルのパフォーマンスも最高であることが示されています。

その後、AI データがますます豊富になるにつれて、大規模なモデルは簡単に崩壊してしまいました。

ゴミを入れればゴミが出る

この件についてどう思いますか?

参考リンク:
[1]https://techcrunch.com/2024/08/05/youtuber-files-class-action-suit-over-openais-scrape-of-creators-transcripts/
[2]https://www.gamedeveloper.com/business/report-nvidia-used-scraped-video-game-footage-to-train-ai-products

[3]https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-caught-ingesting-as-much-of-youtube-as-possible/