AI データで「石油危機」が勃発、コンテンツ企業は黙って金儲けできる

AIデータで「石油危機」が勃発、コンテンツ企業は黙って金儲けできる

2024-07-23

“

大型の AI モデルを自動車に例えるなら、生データは原油です。

”

著者 | ジャン・ジャン

編集者｜満満州

ChatGPTの登場と旅の途中 AI の爆発的な導入により、AI は初めての大規模な応用、つまり大規模モデルの普及を実現することができました。

いわゆる大規模モデルとは、大量のパラメーターと複雑な構造を備えた機械学習モデルを指し、大量のデータを処理し、さまざまな複雑なタスクを完了できます。

AIデータの著作権紛争

現在の大型 AI モデルを自動車に例えるなら、生データは原油です。いずれにせよ、まず第一に、AIモデルには十分な「原油」が必要です。

AI 企業の「原油」の主な供給源には次のカテゴリが含まれます。

●ウィキペディア、ブログ、フォーラム、ニュース情報など、インターネット上のオープンで無料のデータソース。

●古い報道機関と出版社。

●大学等の研究機関。

●モデルを使用するC側ユーザー。

現実世界における石油の所有権にはすでに成熟した法規制が存在しますが、依然として混沌としたAI分野では「原油」の利用権はまだ明確ではなく、それに伴う紛争も数多くあります。

つい最近、いくつかの大手音楽レーベルがAI音楽制作会社を訴えたスノそしてオーディオ 、著作権侵害で告発した。この訴訟は、ニューヨーク・タイムズによる12月の訴訟に続くものであるオープンAI訴訟も同様です。

出典: ビルボード

2023年7月、一部の作家が同社に対して訴訟を起こした。チャットGPT著者の作品の概要は、著作権で保護されたコンテンツから生成されます。

同年12月にはニューヨーク・タイムズ紙も報じた。マイクロソフトそしてオープンAI両社が人工知能チャットボットの訓練に新聞のコンテンツを使用したとして、同様の著作権侵害訴訟が起こされた。

さらに、OpenAIがユーザーの同意なしにChatGPTをトレーニングするためにインターネットからユーザーの個人情報を取得したとして、カリフォルニア州で集団訴訟が起こされた。

OpenAIは最終的に、ニューヨーク・タイムズの告発には同意せず、ニューヨーク・タイムズが指摘した問題を再現することはできなかったと述べた。 York Times は OpenAI には関係ありません。

出典: https://openai.com/index/openai-and-journalism/

OpenAI にとって、おそらくこの事件からの最大の教訓は、データサプライヤーとの関係を適切に処理し、両当事者の権利と責任を明確にすることです。その結果、OpenAI は過去 1 年間で、The Atlantic、Vox Media、News Corp、Reddit、Financial Times、Le Monde、Prisa Media、Axel Springer、American Journalism Project を含むがこれらに限定されない多くのデータプロバイダーと提携することができました。もっと。

将来的には、OpenAI はこれらのメディアからのデータを合法的に使用し、これらのメディアも OpenAI のテクノロジーを自社の製品に統合することになります。

AI がコンテンツプラットフォームの収益化を推進

しかし、OpenAI がデータプロバイダーと提携する最も根本的な理由は、訴訟されることへの恐怖ではなく、機械学習が直面している差し迫ったデータ枯渇です。 MIT などの研究者は、機械学習データセットが 2026 年までにすべての「高品質言語データ」を使い果たす可能性があると推定する研究を実施しました。

したがって、「高品質データ」は、OpenAI や Google などのモデルメーカーにとって注目の商品となっています。コンテンツ企業とAIモデルメーカーは、定額収益モデルの開始に向けて協力を繰り返してきた。

従来のメディアプラットフォームである Shutterstock は、Meta、Alphabet、Amazon、Apple、OpenAI、Reka などの AI 企業と次々に提携に達しており、2023 年にはコンテンツを AI モデルにライセンス供与することで年間収益が 1 億 400 万米ドルに増加する予定です。 2027 年には 2 億 5,000 万米ドルの収益が見込まれる; Reddit は、Google にライセンスされたコンテンツ著作権からの収益が年間 6,000 万米ドルに達すると見込まれており、Apple は主流のニュースメディアと協力し、1 件当たり少なくとも 5,000 万米ドルの著作権料を提供することを目指している。年。コンテンツ企業がAI企業から受け取るロイヤルティは年率450％で増加している。

画像出典：CXスクープ

ここ数年、ストリーミングメディア以外のコンテンツを収益化することが難しくなり、これがコンテンツ業界の大きな課題となってきました。インターネット起業の時代と比較して、AI の出現はコンテンツ業界に大きな想像力とより強い収益期待をもたらしました。

高品質のデータは依然として不足している

もちろん、すべてのコンテンツが AI のニーズを満たしているわけではありません。

前述の OpenAI とニューヨークタイムズ間の論争に関して、もう 1 つの明るい点はデータの品質です。原油から石油を精製するには、第一に油そのものの品質が良くなければならず、第二に精製技術が優れていなければなりません。

OpenAIは、OpenAIが毎年数千万ドルを費やすことを可能にしているShutterstockと比較すると、New York TimesのコンテンツがOpenAIのモデルトレーニングに大きな貢献をしていないことを特に強調している。適時性はAI時代の寵児ではありません。 AI には詳細でユニークなデータが必要です。

しかし、質の高いデータが不足しすぎており、AI企業も「精製技術」や「ワンストップ申請」に力を入れ始めている。

6月25日、OpenAIはリアルタイム分析データベース会社Rocksetを買収した。同社は主にリアルタイムデータのインデックス作成とクエリ機能を提供しており、Rockset のテクノロジーを自社製品に統合してデータのリアルタイム利用価値を向上させます。

画像ソース: DePIN スキャン

OpenAI は、Rockset を買収することで、AI がリアルタイムデータをより有効に活用し、アクセスできるようにする予定です。これにより、OpenAI の製品は、リアルタイムレコメンデーションシステム、動的なデータ駆動型チャットロボット、リアルタイム監視および警報システムなど、より複雑なアプリケーションをサポートできるようになります。

Rocket は OpenAI に組み込まれた「石油化学部門」であり、通常のデータをアプリケーションが必要とする高品質のデータに直接変換します。

クリエイターデータの権利確認は幻想なのか？

インターネットメディアプラットフォーム (Facebook、Reddit など) からのデータは主に次のものから得られます。ユーザー作成コンテンツ、つまりユーザー投稿コンテンツです。多くのプラットフォームはAI企業に高額のデータ料金を請求する一方で、ユーザー規約に「プラットフォームはAIモデルをトレーニングするためにユーザーデータを使用する権利がある」という条項を密かに追加している。

ユーザー規約には AI モデルをトレーニングする権利が明確に示されていますが、多くの作成者は、自分が作成したコンテンツがどのモデルに使用されているかも知らず、それに料金を払っているかどうかも知らず、帰属すべき関連する権利や利益を取得することもできません。彼らへ。

2月のメタ社の四半期決算会見で、ザッカーバーグ氏はAI生成ツールのトレーニングにFacebookとInstagramの画像を使用することを明らかにした。

報道によると、Tumblrも不思議なことにOpenAiおよびMidjourneyとコンテンツライセンス契約を結んだが、具体的な契約内容は明らかにされていない。

写真ギャラリープラットフォーム EyeEm の作成者も最近、投稿した写真が AI モデルのトレーニングに使用されるという通知を受け取りました。この通知では、結果としてユーザーが製品を使用しないことを選択できると述べられていましたが、補償方針については言及されていませんでした。 EyeEmの親会社Freepikはロイターに対し、2億枚の画像のほとんどを1枚あたり約3セントでライセンス供与する契約を大手ハイテク企業2社と結んだと語った。ホアキン・クエンカ・アベラ最高経営責任者（ＣＥＯ）は、他にも５件の同様の取引が進行中だと述べたが、買い手の身元については明らかにしなかった。

Getty Images、Adobe、Photobucket、Flickr、Reddit などの UGC 主導のコンテンツプラットフォームはすべて、データ収益化という大きな誘惑にさらされ、ユーザーのコンテンツ所有権を無視してデータをパッケージ化し、AI モデルに販売することを選択しています。企業。

プロセス全体は暗闇の中で行われ、制作者には抵抗する余地がありませんでした。多くのクリエイターであっても、自分の以前の作品がモデルのトレーニングのために特定のプラットフォームによって AI 企業に販売されたのではないかと疑う機会が得られる前に、いつか将来、特定のモデルで自分の作品に類似したコンテンツをトレーニングする必要があるかもしれません。

クリエイターのデータ権利と収入を保護することが難しいという問題を解決するには、Web3 が良い選択になるかもしれません。米国株式市場でAI企業が新高値を更新すると、同時にweb3のAIコンセプト通貨も急騰した。ブロックチェーンは、分散型で改ざん不可能な特性を備えており、作成者の権利を保護する上で独自の利点を享受しています。

2021 年の強気市場では、写真や動画などのメディアコンテンツがチェーン上で大規模な導入を完了し、ソーシャルプラットフォーム上の UGC コンテンツもチェーン上で静かに発生しています。同時に、多くの web3 AI モデルプラットフォームは、データ所有者であろうとトレーナーであろうと、モデルのトレーニングに貢献する一般ユーザーにすでにインセンティブを与えています。

AI モデルの急激な発展により、データ検証に対する要求が高まっています。クリエイターは、なぜ私の作品が私の同意なしに AI モデル会社に 1 つあたり 5 セントで販売されたのかを考えるべきです。なぜ私はプロセス全体を知らされず、何の利益も得ることができなかったのでしょうか?

メディアプラットフォームが大物を捕まえようと努力しても、AIモデル企業のデータ不安を軽減することはできない。高品質なデータと高い出力を実現するための前提条件は、クリエイター、プラットフォーム、AI間の利害の合理的な配分であるデータの権利の確認である。モデル企業。

参照元:

Shutterstock は昨年、AI 開発者に 1 億 400 万ドル相当のライセンス資産を販売（PetaPixel）
AI企業とライセンス契約を結んだ写真会社一覧（PetaPixel）
Reddit がユーザーコンテンツを販売するための新たな AI トレーニング契約を締結（TheEverge）
GPT-4 は宇宙のすべてのデータを消費します。 OpenAIがデータ不足で訴訟相次ぎ、カリフォルニア大学バークレー校教授が警告（新志源）
OpenAIがRocksetを買収（OpenAI）

ニュース

AIデータで「石油危機」が勃発、コンテンツ企業は黙って金儲けできる

導入

私の連絡先情報