ニュース

Nvidia はデータ盗難にさらされ、80 年以上のビデオ データを毎日クロールし、北京大学の学術データセットも影響を受けました

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

NVIDIA は最近、困難な時期に入ったようです。
最も強力な AI チップの量産が遅れ、その市場価値が 3,000 億米ドル以上蒸発したことが明らかになった後、Nvidia は、トレーニングするための許可なく YouTube や Netflix などのプラットフォームからビデオ コンテンツを取得したとして 404 Media によって摘発されました。 . まだ一般公開されていないAI動画モデル。
社内電子メールと Slack チャットによると、NVIDIA 従業員はこれらのデータセットの使用の合法性と倫理について疑問を呈しているが、同社経営陣はこれらの行為は上級管理職によって承認されており、その行為は著作権法に準拠していると主張した。
2 月末の社内議論で、NVIDIA が HD-VG-130M を含む複数のデータ セットを使用していることに言及したことは注目に値します。
後者は北京大学の研究者によって構築された 1 億 3,000 万件の YouTube 動画のデータセットであり、その使用ライセンスには学術研究に限定されることが明示的に規定されています。
Nvidia のアプローチは、今日のほとんどの AI 企業の縮図に似ています。
ユーザーが「データ現金自動支払機」とみなされている場合、内部関係者がそれを暴露しない限り、あなたや私の作品が AI トレーニングの栄養になっているかどうかを外部の世界が知ることは非常に困難です。
つまり、人間は食物連鎖の頂点に立つ消費者であることに変わりはありませんが、必然的にAI開発のサプライチェーンの一員となるのです。
以下、海外メディア404メディアのニュース原文、執筆 GPT-4o 翻訳、楽しんでください~
モデルに YouTube ビデオをフィードし、80 年分に相当するビデオを毎日ダウンロードします。
404 Media が入手した社内の Slack チャット、電子メール、文書によると、 Nvidia は、YouTube やその他の複数のソースからビデオを収集して、AI 製品のトレーニング データを編集しています。 AI モデルのトレーニングに著作権で保護されたコンテンツを使用することの法的および倫理的問題について尋ねられたとき、Nvidia は、自社のアプローチは「著作権法の文言と精神に完全に準拠している」と主張しました。
404 Media が調査した Nvidia の内部会話によると、研究目的で学者が編集したデータセットや YouTube 動画を使用することの法的影響の可能性について従業員が質問をしたところ、管理者が会社の上層部がそれらの使用を承認していると告げたことが分かりました。
Nvidia の元従業員 (Nvidia の内部プロセスについて話し合うために 404 Media から匿名を許可された) は、従業員が Nvidia の Omniverse 3D ワールド ジェネレーターをトレーニングするために Netflix、YouTube、その他のソースからビデオをスクレイピングするよう求められたと述べました。オートパイロット自動車システムと「デジタルマン「製品のAIモデル。
このプロジェクトは社内では Cosmos として知られていますが (ただし、同社の既存の Cosmos 深層学習製品とは別のものです)、まだ一般にはリリースされていません。
プロジェクト リーダーからの電子メールによると、Cosmos が「光輸送、物理学、インテリジェンスのシミュレーションを 1 か所にまとめて Nvidia にとって重要なさまざまなダウンストリーム アプリケーションを開発する」最先端のビデオ インフラストラクチャ モデルの構築を目指していることが明らかになりました。
404 Media が入手した電子メールには、Cosmos モデルがさまざまな Nvidia 製品にどのように適用されるかを示す図が示されています。
同社がプロジェクトのために設立したチャンネルの Slack メッセージによると、従業員は yt-dlp と呼ばれるオープンソースの YouTube ビデオ ダウンローダーを仮想マシンと組み合わせて使用​​し、YouTube によるブロックを回避するために IP アドレスを更新していることがわかります。
情報筋によると、彼らはNetflixを含む複数のソースから完全なビデオをダウンロードしようとしましたが、主にYouTubeビデオに焦点を当てていました。
404 Media が確認した電子メールには、プロジェクト マネージャーが 20 ~ 30 台のアマゾン ウェブ サービス仮想マシンを使用して 80 年分のビデオを毎日ダウンロードすることについて議論していることが示されています。
Nvidia の研究担当副社長で Cosmos プロジェクトのリーダーである Mingyu Liu 氏は、「私たちは v1 データ パイプラインを完成させ、毎日 100% に相当するビデオ データを生成できるビデオ データ ファクトリーを構築するために十分なコンピューティング リソースを確保しています」と述べました。 5月のメールで、人間の生涯の視覚体験におけるデータの量について述べた。
Nvidia 社内での会話や指示には、生成 AI の台頭を促進し、同社を世界で最も価値のある上場企業の 1 つに押し上げたチップと API を設計する際の、同社の法的および倫理的考慮事項について従業員が話し合っている様子が示されています。
また、Runway や オープンAI、AI モデルをトレーニングするためのデータとしてのコンテンツに対する満たされていない需要があります。
Nvidiaの広報担当者は404 Mediaへの電子メールで次のように述べた。
私たちはすべてのコンテンツ作成者の権利を尊重し、私たちのモデルと研究活動が著作権法の文言と精神に完全に準拠していると強く信じています。著作権法は特定の表現を保護しますが、事実、意見、データ、情報は保護しません。誰もが他のソースから事実、アイデア、データ、情報を学び、それらを使用して独自の表現を作成できます。フェアユースは、モデルのトレーニングなどの変革的な目的で作品を使用する権利も保護します。
Nvidia がモデルのトレーニング データとして YouTube 動画を使用していることについて尋ねられたとき、Google の広報担当者は 404 Media に対し、同社の「以前のコメントが引き続き適用される」と述べた。
その中で、YouTube CEOのニール・モハン氏は、OpenAIがAIビデオジェネレーターSoraを最適化するためにYouTubeビデオを使用する場合、これは明らかにYouTubeの利用規約に違反すると述べた。
Netflixの広報担当者は404 Mediaに対し、Netflixはコンテンツ取得に関してNvidiaと契約を結んでいておらず、プラットフォームの利用規約ではデータのスクレイピングを許可していないと述べた。
プロジェクトに関与した従業員が提起した法的問題に関する質問は、プロジェクトマネージャーによっておおむね却下され、許可なくビデオをスクレイピングするという決定は「ハイレベルな決定」であり、従業員は何が権利侵害にあたるのかについて何も心配する必要はないと述べた。著作権で保護されたコンテンツと、学術的、非営利目的でのデータセットの公正かつ倫理的な使用というテーマは「未解決の法的問題」とみなされており、将来的には解決される予定です。
私たちの調査は、世界で最も価値のある AI モデルの一部をトレーニングするために使用される膨大な量の著作権コンテンツをデータセットにスクレイピングするこれらのテクノロジー企業の「尋ねない」姿勢を浮き彫りにしました。
Nvidia幹部は北京大学の学術データセットも悪用されたと示唆
2024 年 2 月、NVIDIA のチーフ サイエンティストである Francesco Ferroni は、NVIDIA Slack チャネル #cosmos-dataset-creation に次のように書きました。
「みなさん、こんにちは。@Sanja Fidler が、生成モデリングのために厳選された多数のビデオ データセットを集約する取り組みについて私に話しました。私たちは、重複を避けるために、内部で利用可能な (公開または内部でダウンロードされた) すべてのビデオ データセットを集約することから始めることは非常に有意義だと考えました。 」
(注: Sanja Fidler は Nvidia の AI 研究担当副社長です。)
次に、Ferroni は、60,000 本の映画予告編のデータベースである MovieNet と、Github 上のストック画像から編集されたビデオ データセットである WebVid を含むデータセットへのリンクを含むスプレッドシートにリンクしました。WebVid は、後に通知を受けて作成者によって削除されました)、InternVid です。 -1,000 万 (Github 上の 1,000 万件の YouTube ビデオ ID のデータセット)、および内部でキャプチャされたビデオ ゲーム映像のいくつかのデータセット。 404 Mediaは、Slackの会話のスクリーンショットから若手社員の名前を削除した。
AI 業界のリーダーとして世間に知られているため、このプロジェクトに関与した数人の上級エンジニアや幹部の名前を含めました。
Ferroni によってリンクされたスプレッドシートには、プロジェクトで使用されるデータセットが表示されます
2 月のフォローアップ ディスカッションでは、エンジニアたちは、1 億 3,000 万本の YouTube ビデオのセットである HD-VG-130M など、取得したデータ セットについて話しました。このデータセットは中国の北京大学の研究者によって作成され、その使用ライセンスには学術目的にのみ使用できると記載されています。
このデータセットの Github ページには、「データをダウンロードまたは使用することにより、次の契約のすべての条項を理解し、承認し、同意したことになります」と記載されています。
このページでは、「学術用途のみ。HD-VG-130M データセットのコンテンツは学術研究のみを目的としています。商業目的でコピー、取引、または使用しないことに同意します。配布は禁止されています。プライバシーを尊重してください。」と強調しています。オリジナル ソースの個人情報。」。著作権所有者の許可がない限り、データ セットのコンテンツのブロードキャスト、変更、またはその他の同様の行為は許可されません。
プロジェクト全体を通じて、研究者や学者によって編集され公開されたデータセットは、NVIDIA モデルで自由に使用できると見なされていました。 AI 研究者は、倫理的および法的使用を含め、公開しているデータセットの適切な使用についてますます懸念を抱いています。
MIT Data Provenance Initiative の Robert Mahari 氏は 404 Media に対し、過去 1 年間で研究データセットの非営利使用ライセンスの使用が大幅に増加しており、学者たちが研究成果の商業利用を制限しようとしているのではないかと述べました。研究用に編集されたデータ セットは、商用目的で編集されたデータ セットとは目的が大きく異なります。
「学者が公開データセット、特にタスク固有のデータセットを公開する場合、西側中心主義のような特定の種類の偏見や問題についてデータを具体的に調査することはできません。それらが研究の焦点では​​ない場合、検査は行われません。」マハリさんは言いました。 「したがって、学者がライセンスに『学術利用のみ』または『これらのデータを意図しない方法で使用しないでください』と記載している場合、これらの規制に従う十分な理由があります。データは商用品質ではない可能性があるため、また、他の種類の環境ではパフォーマンスが低下します。」
他の多くのテクノロジー大手と同様に、Nvidia は学術研究を実施し、発表する人材を雇用しています。しかし、404 Media が調査した Nvidia の内部会話によると、Cosmos は競争の激しい AI 業界で商用サービスを強化する同社の取り組みを支援することを目的としていることがわかります。
公開された研究データセットは、多くの場合、URL または YouTube ID として配布されます。その理由は 1 つ目は、実用的な理由です。2 つ目は、法的および倫理的な理由です。たとえば、誰かが YouTube ビデオやツイートを削除した場合、所有者の知識や許可がなければ、コピーはデータ セット内に存在し続けることはありません。
「これは、データセットを部外者に配布しないことで法的制約を回避するようなものです」と、ワシントン大学の教授で計算言語学研究所所長のエミリー・ベンダー氏は404メディアに語った。 「他の人がデータセットを構築し、それを自分の目的に使用することができます。」
議論の詳細が明らかに、Nvidia はどのようにして法律のギリギリでデータを盗むのでしょうか?
3月、ある研究科学者がSlack上で、「アバター」や「ロード・オブ・ザ・リング」などのハリウッド映画をトレーニングデータとして使用するOpenAIのSoraビデオジェネレーターの可能性について議論を開始した。
「実際、映画はゲームのような 3D の連続性や架空のコンテンツの優れたデータソースですが、その品質はより高くなっています。キャラクターは完全に CGI であり、実写シーンの多くも CGI になっています。」と彼らは言いました。誰かが、チームはディスカバリー チャンネルの映画データ セットでトレーニングする必要があると答えました。
リウ・ミンギュさんは「すべての映画をダウンロードしてくれるボランティアが必要だ」と語った。
この映画を最初に提案した研究者はさらに次のように付け加えた。「彼らが何をしているのかは非常に明らかですが、『SD(安定した拡散)』の公開後にアーティストコミュニティに起こったように、ハリウッドがAIに過敏になることには細心の注意を払う必要があります」 ] そして今ハリウッドで起こっています。」
次に、彼らはチャットに 2 つのリンクを投稿しました。OpenAI の Sora を見て、タイラー ペリーが 8 億ドルのスタジオ拡張を一時停止したことに関する Hollywood Reporter の記事と、2023 年の SAG-AFTRA ストライキに関する Vanity Fair の記事が、スタジオ契約に AI 言語を含む記事につながるというものです。
Liu Mingyu氏は、「私たちがここで行っていることは、いかなる研究結果も公表するものではありません。私たちは、ダウンロード可能なすべてのデータを使用して実験を実施します。私たちは何も公表しないので、否定的な感情は存在しません。」と404メディアの元従業員に話した人は説明した。 「出版」とは研究出版物を指します。
「機密性の高さ」を挙げた人物は、「社内でそのようなプロジェクトを実施する場合、同様の例を示すと反発を招く可能性があるため、広く伝えるべきだ」と答え、劉明玉は「その通りだ」と答えた。
フェローニ氏は3月、別のプロジェクト関連のSlackチャンネルに次のように書いた:「ダウンロードする必要がある優先度の高いファイルがいくつか見つかった。我々が持っていたHDVILA(高解像度ビデオ言語)データセットから230万本の生ビデオが欠けていることが判明した」 !」彼らは、大規模で高解像度で多様なビデオ言語データセットである Microsoft の HD-VILA-100M について言及していました。彼らは Google ドライブのドキュメントへのリンクを送信し、「これが不足している YouTube リンクです」と言い、「これをダウンロード プロセスに追加しましょう!」と言いました。
HD-VILA-100M のライセンス ステートメントには次のように記載されています。
「あなたは、非営利研究のための計算目的にのみデータを使用することに同意します。この制限は、あなたが非営利研究活動(営利団体によって実施または資金提供された非営利研究を含む)に従事することはできるが、データを使用することはできないことを意味します。お客様が使用または他者に提供する(または製品またはサービスを改善するため)製品またはサービスの一部としての商用製品のデータまたは結果。
「ダウンロードされた URL のデータベースを作成しましょう」と別のエンジニアが答えました。 「YouTube ビデオには固有の ID があります。これらの ID を参照 ("?v=" の後の ID) として使用できますか? 今後、何度も URL を比較してマージします。" Ferroni 氏は、「はい、現在はそれを使用しています。」と答えました。セットアップ インフラストラクチャ」は、プロジェクト管理ツール Hive にインフラストラクチャを追加することを意味します。
彼らがタグ付けした Omniverse チームのメンバーは、「私たちは AWS 上にいますが、[仮想マシン] インスタンスを再起動すると新しいパブリック IP が与えられるので、現時点では問題ありません。」と答えました。
最高のビデオを見つける方法に関する #cosmos-dataset-creation チャンネルの Slack ディスカッションでは、従業員が時折、自分の仕事の法的および倫理的側面について言及しました。 2月、Googleが編集したYouTube IDの研究データセットであるYouTube-8Mの使用について誰かが言及した後、フェローニ氏は「研究以外の目的では[YT8M]を使用できないのではないか?」と質問した。
YouTube-8M の論文とプロジェクト ページでは著作権問題について言及していませんが、このデータセットが機械学習研究を推進するために作成されたと述べています。注釈付きのビデオ データセットをスケールし、ビデオ理解の研究を大幅に加速します。このデータセットが新しいビデオ表現学習アルゴリズム、特にノイズの多いラベルや不完全なラベルを効果的に処理する方法を開発するためのテストベッドとして機能することを願っています。」
Cosmos プロジェクトでの使用についての Ferroni の質問に対して、以前に ACAV100M を共同開発した NVIDIA 従業員は次のように答えました。
「はい、Google からのデータのダウンロードは非常に高価です。しかし、NVIDIA 内から 10,000 コアをスケジュールするのは困難でした。
さらに、クラウドにおける NVIDIA の帯域幅制限により、大幅な変動が生じ、問題が発生する可能性があります。 Google Cloud にダウンロードすると、すべてのタスクが安定した高帯域幅の YouTube 接続を取得できるようになります。 」
「さらに重要なことは、YouTube 動画のダウンロードは YouTube の利用規約で禁止されているということです。そのため、YouTube 8m をダウンロードする際には、事前に Google および YouTube と通信し、誘導としてダウンロードに Google Cloud を使用しました。結局のところ、通常は 800 万本のビデオの場合、トレーニングに使用すると大量の広告インプレッションがダウンロードされ、収益が失われるため、そこからある程度の収益を得る必要があります。動画のダウンロードごとに 0.00625 ドルを支払うのは、やはりお得です。 」
「それでは、このデータは研究目的でのみ使用されることが期待されていますか? 私の知る限り、Google の YouTube API は各ビデオのライセンス条項を照会できます」とフェローニ氏は答えました。 「ACAV100M と YouTube8M のライセンス条項についてもコメントしていただけますか?」
別の従業員は「私の知る限り、YouTubeの利用規約ではライセンスに関係なくダウンロードを禁止している。この制限は広告収入の損失に関するものであり、ライセンスに関するものではない」と答えた。彼らはこう続けた。
「データセットの作成時に Google がどのようなライセンス条項をフィルタリングしたかはわかりません。私たちは、データセットに含まれるものとして Google がリストしたものをダウンロードしただけです (オリジナルのビデオへのリンクとともに特徴が掲載されていました)。私は YouTube の 8 メートル データをダウンロードしました。このセットには完全なメタデータが付属しているため、そこで各ビデオを確認することができます。ただし、一般に、著作権で保護された素材を含めることができる場合は、CC またはパブリック ドメインが最適です。現在、トレーニングでの使用は合法です。この問題については、ほとんどの企業がこれをフェアユースであると考えているようです。当社の法務チームは大規模な言語モデルのトレーニングに関してこの慣行を承認しており、おそらくビデオ トレーニングも承認するでしょう。」
「誰かの同意なしに何かを商品化することと、公開されたコンテンツに基づいて生成 AI の機能を研究することの間には、大きな隔たりがあると思います」と MIT メディア ラボの博士課程の学生であるシェイン ロングプレ氏は 404 Media に語った。 Cosmos Slack チャンネルで YouTube の利用規約に関する質問が法的問題として浮上したのはこれが最後ではない。
その後、別の従業員が「やあ、チーム。動画のダウンロードに https://research.google.com/youtube8m/download.html を使用していますか? 使用している場合、法的な承認を得ていますか? あるプロジェクトでは、法務部門がその許可を拒否しました」と言いました。個々のビデオのライセンスは yt8m で共有されるライセンスよりも優れているため、使用してください。「これは管理上の決定です。私たちはすべてのデータをカバーするマスター ライセンスを持っています」と Liu Mingyu 氏は答えました。 「はい、質問した人が答えてくれました!」
ベンダー氏は404メディアに対し、同社はトレーニングデータに使用される著作権で保護されたコンテンツを巡る現在の法的なグレーゾーンを利用していると語った。 「『入手できれば使える』という文化が確かにあるように思えます」と彼女は言う。 「それは、その合法性についての慎重な研究や、人々への影響についての深い考えに基づくものではなく、それが真実であることを望む人々に大きく基づいています。」
AIトレーニングに著作権で保護されたコンテンツを使用することは「決して法律として確立されていない」とマハリ氏は述べた。 AI モデルを開発するためにトレーニング データを取得することが十分な変革をもたらすかどうかは、特にモデルが出力としてトレーニング データを記憶または呼び出すことができることが示されているため、法制度はまだ判断していません。 「私の言いたいことは(このサイエンス記事に部分的に要約されています)、AI モデルのトレーニングは確かにフェアユースに該当する可能性があるが、それはトレーニング データ内の特定の項目と同様の出力を生成することが侵害ではないという意味ではないということです。
この場合、基礎となるモデルのプロバイダーが侵害しているのか、出力を生成している特定のユーザーが侵害しているのかは不明です (これは状況によって異なる場合があります)。 」
5月、ある研究科学者はCosmos SlackチャンネルにいくつかのYouTubeチャンネルへのリンクを削除し、「ダウンロードできるYouTubeチャンネルの提案をまだ受け付けているのであれば、検討する価値があるかもしれないいくつかのチャンネルを紹介します」と述べた。 Expedia と Architectural Digest の公式チャンネルに加え、The Critical Drinker や Marques Brownlee (MKBHD) などの個人コンテンツ クリエイターも含まれます。プロジェクトマネージャーは彼らの提案に感謝し、それをチームに伝えると述べたが、フィドラー氏は「チュートリアルビデオも入れたのか?天文学?医学?」と答えた。
商用ベースモデルのトレーニングに著作物を使用するという「未解決の法的問題」は、長く解決されない可能性があります。
著作権者が生成 AI 企業に対して起こした著作権侵害訴訟は山積しており、その中には、Stable Diffusion の作成者である Stability AI に対するゲッティ イメージズの訴訟、OpenAI に対するニューヨーク タイムズの訴訟、Stability に対するアーティストやクリエイターの訴訟などが含まれます。旅の途中 , DeviantArtとRunwayは集団訴訟を起こした。 Cosmos トレーニング データ チームは、Netflix を使用してジェネレーターをトレーニングすることについても議論しました。
「今日の会議で、あらゆる種類のデータをダウンロードする許可を得た。Netflix全体をダウンロードする必要があるのか​​?どうやって運用できるのか?」とLiu氏はSlackチャンネルで述べた。 「ディスカバリー チャンネル全体をダウンロードする必要があります!」
誰かが答えた。 「プロジェクト情報コーディネーターが必要です。すべての映画を見ながらスクリーン キャプチャをやりたい人がいるでしょうか?」と Liu 氏は言いました。 「そこから高品質の顔ビデオをたくさん入手できるはずです」とリュー氏は続けた。このスレッドでは、Omniverse インフラストラクチャ チームの誰かがタグ付けされており、彼らは「他の大企業で大規模なデータセットを構築した経験がある」ため、「これを運用する」のに喜んで協力すると述べました。
チームはまた、トレーニング データにビデオ ゲームの映像を追加する最適な方法も検討しました。 Nvidia の上級研究員である Jim Fan 氏は、ライブ ゲームプレイ ビデオのキャプチャには「エンジニアリングと規制」の障害があると述べました。
「更新: GeForce Now (GFN) の担当者と会い、データ計画に協力する予定です。私たちは GFN および関連するエンジニアリング チームと緊密に連携して、リアルタイムのゲーム データ キャプチャを構築し、パイプラインを拡張し、これらのデータをトレーニング用に処理することで、高品質のゲームプレイ ビデオが私たちの Sora プロジェクトに非常に役立つでしょう」と Fan 氏は書いています。 「膨大な量のライブ ゲーム ビデオとアクションをキャプチャするためのインフラストラクチャがまだ確立されていないため、統計やビデオ ファイルはまだありません。ただし、GFN データをクリーンアップして処理したら、エンジニアリングと規制のハードルを克服する必要があります。到着したら、できるだけ早くteam-vfmに追加します。」
3 月にプロジェクトはマイルストーンに達し、2 週間で 100,000 本のビデオがダウンロードされました。従業員はマイルストーンについて議論するスレッドで、Ferroni がダウンローダーを使用していると言及し、Ferroni はオーディオとビデオをダウンロードしていることを認めました。 「驚くべき進歩だ。今の問題は、どうすれば大量の高品質の URL を入手できるかだ」と Liu 氏は答えた。
5月下旬、動画データのデータ戦略メールがプロジェクトチームのメンバーに送信され、3,850万件の動画URLを集計したことが発表された。 メールには「目標配信に基づいて、来週の焦点は引き続き映画、ドローン映像、一人称ビデオ、一部の旅行や自然のビデオに集中する」と書かれている。このメールには、ダウンロードしたコンテンツ タイプの割合を示すグラフも含まれていました。
その電子メールの中で、プロダクト マネージャーは、モデルのトレーニング データに 4 つの追加のデータセットを追加することを提案しました。彼らが書きました:

1. Ego-Exo4D: 世界 13 都市の 740 人のカメラ装着者によって収集された、多様で大規模なマルチモーダル、マルチビューのビデオ データセットおよびベンチマークで、熟練した人間の活動の 1286.3 時間のビデオをキャプチャします。

2. Ego4D: 世界 9 か国 74 か所で収集された 3,670 時間以上の日常生活活動ビデオを含む大規模な一人称視点のデータセットおよびベンチマーク スイート。

3. HOI4D: カテゴリレベルの人間とオブジェクトの相互作用の研究を容易にする豊富な注釈を備えた大規模な 4 次元ファーストビュー データセット。

4. GeForce Now: ゲームデータ。
HOI4D は清華大学、北京大学、上海 Qizhi Research Institute の研究者によって作成され、CC BY-NC 4.0 に基づいてライセンスが付与されており、商用利用は許可されていません。
「私の意見では、企業が研究目的のみのデータセットを取得して研究に使用したとしても、そのデータセットのライセンスは遵守していることになります」とベンダー氏は述べた。
「しかし、それを確実に行うには、研究と製品開発の作業の間にファイアウォールを構築するよう細心の注意を払う必要があります。」
5月の別の更新メールでLiu氏は、「研究チームは現在、それぞれ16ノードを持つ多くの異なる構成を使用して、10億のパラメータを持つモデルをトレーニングしている。これは、さらなる拡張の前に重要なデバッグである。我々は、期間内に結論を出す予定だ」と述べた。数週間かけて、100 億のパラメータ モデルにスケールアップします。」
Nvidia CEO の Jensen Huang 氏はその電子メールで「素晴らしい最新情報です。多くの企業はビデオベースのモデルを構築する必要があります。私たちは完全に高速化されたパイプラインを提供できます。」と返信しました。
6 月、従業員は、AI 業界で競争力を維持するために Nvidia 製品にとって最も役立つモデルのコンテンツの種類について話し合いました。
「NVIDIA には、ほとんどのコンテンツ企業が持っていないロボット、自動運転車、オムニバース、アバターがあります。会社に最大の影響を与えるためには、私たちが厳選したデータがこれらのキラー アプリケーションにうまく適用できる必要があります」と Liu 氏は述べています。
「ロボットと自動運転車に影響を与えるデータについては理解しています。オムニバースとアバターの使用例に影響を与えるデータの詳細を誰か共有できますか?」と、あるプロダクト マネージャーが答えました。 「それは人間が物体とどのように対話するかについてのビデオになるでしょう。家具を設置する、果物を切る、洗濯物をたたむなどです」とリュー氏は答えた。
AI モデルの進歩はあなたや私の創作物に基づいていますか?
Nvidia は学術研究に貢献していますが、404 Media が入手した会話や電子メールからは、Cosmos チームが取り組んでいるモデルが複数の製品にわたる商用利用を目的としていることがわかります。
トレーニング データの編集方法に関する判例が確立されるまで、または企業がこのデータについて透明性を保つことが要求されるまで、企業は著作権で保護されたトレーニング データのスクレイピングという法的なグレーゾーンを悪用し続けることになります。このような内部会話の漏洩は、人々が自分の仕事が Nvidia や Runway、OpenAI などの企業に何十億ドルもの利益をもたらすモデルのトレーニングに使用されているかどうかを知る唯一の方法です。
AI 業界は、政府の規制や業界標準を通じて、透明性の向上を長年にわたって求めてきました。
今年の初めに、MIT のジャック・ハーディングス、エレナ・シンパール、ナイジェル・シャドボルトは次のように書いています。偏見を持たせたり、データから有害なコンテンツを削除したりすることは妨げられます。
トレーニング データに関する情報は、基礎となるモデルが個人データや著作権で保護された素材を取り込んだかどうかを議員が評価するためにも重要です。下流では、AI システムの意図された運用者とその使用によって影響を受ける人々は、AI システムがどのように開発されたかを理解していれば、これらのシステムを信頼する可能性が高くなります。 」
議員らは昨年、この問題に対処するためにいくつかの法案を提出したが、その中には12月のAI基礎モデル透明性法も含まれており、同法では基礎となるAIモデルを作成する企業に対し、FTCや著作権局などの連邦機関と協力して透明性基準を策定することが求められる。消費者に特定の情報を開示するため。
今年 4 月に提案された生成 AI 著作権開示法は、データセット作成者に「著作権で保護された作品の十分に詳細な概要」をレジストラに提出することを義務付け、提出しなければ罰金を科せられることになる。
「技術的には、あなたの作品がトレーニングに使用されたかどうかを判断するのは非常に困難です」とマハリ氏は言う。 「社内的には、どのようなトレーニングを行っているかを周囲に伝えないことが最善の方針です。第三者が実際に監査して知ることは非常に難しいためです。したがって、誰にも言わない限り、証明することは非常に困難です。」
レポートの元のアドレスを添付します。

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/