ニュース

Nature が衝撃的なインサイダー情報を明らかにしました: AI の餌として論文が超高値で売られていました!出版社は何億も稼ぐが、著者の収入はゼロ

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  新しい知恵のレポート

編集者:編集部
【新しい知恵の紹介】Nature の記事で明らかになりました: あなたが発表した論文はモデルのトレーニングに使用された可能性があります。データの販売によって 2,300 万ドルを稼いだパブリッシャーもいます。しかし、一生懸命論文のコードを書いた著者には一銭も入らないのは妥当なことでしょうか。

世界はデータ危機に陥っています。私たちは何をすべきでしょうか?
書類が集まってくる!
最近、Nature の記事で、科学研究論文さえも AI のトレーニングに使用されているという事実が明らかになりました...
多くの学術出版社が、AI モデルをトレーニングするためにテクノロジー企業に自社の論文にアクセスすることを許可していると報告されています。
論文は、発案から完成まで、著者の日夜努力を要しますが、知らず知らずのうちにAIを訓練するためのデータとなる可能性が非常に高いです。
これは合理的ですか?
さらに腹立たしいのは、彼の論文が出版社によって利益を上げるために利用されたことだ。
Nature の報道によると、先月英国の学術出版社 Taylor & Francis は Microsoft と 1,000 万ドルの契約を締結し、Microsoft が AI システムを改善するために自社のデータにアクセスできるようになりました。
6 月の投資家向け最新情報によると、アメリカの出版社 Wiley が、企業に自社のコンテンツ トレーニング モデルの使用を許可した後、2,300 万米ドルの巨額の利益を得たことが明らかになりました。
しかし、このお金はほとんどの論文の著者とは何の関係もありません。
さらに、ワシントン大学の AI 研究者であるルーシー・ルー・ワン氏も、たとえオープンアクセスのリポジトリにないとしても、オンラインで閲覧できるコンテンツはすべて LLM に入力されている可能性があると述べています。
さらに恐ろしいのは、論文がモデルの学習データとして使用されている場合、モデルの学習が完了した後はその論文を削除できないことです。
あなたの論文がまだ AI のトレーニングに使用されていない場合でも、心配する必要はありません。間もなく使用されるはずです。

データセットは金のようなもので、大手企業がそれに入札しています。


LLM は大量のデータでトレーニングする必要があることは誰もが知っていますが、これらのデータは通常インターネットから取得されます。
LLM は、これらのトレーニング データ内の数十億のトークンからパターンを導き出し、テキスト、画像、コードを生成します。
学術論文は長く、情報密度が高いため、LLM に供給できる最も貴重なデータの 1 つであることは明らかです。
さらに、大量の科学情報に基づいて LLM をトレーニングすると、科学的なトピックに関する推論能力も大幅に向上します。
Wang 氏は、8,110 万件の学術論文に基づくデータセットである S2ORC を共同作成しました。当初、S2ORC データセットはテキスト マイニング用に開発されましたが、後に LLM のトレーニングに使用されるようになりました。
非営利団体 Eleuther AI によって 2020 年に構築された Pile は、NLP 研究で最も広く使用されている大規模なオープンソース データ セットの 1 つで、総容量は 800 GB です。学術ソースからのテキストが多数含まれており、arXiv 論文の割合は 8.96% であり、PubMed、FreeLaw、NIH などの他の学術 Web サイトもカバーしています。
少し前に、オープンソースの 1T トークン データ セット MINT も宝物 arXiv を発見し、合計 870,000 のドキュメントと 9B トークンを抽出しました。
以下のデータ処理フローチャートから、論文データの品質がいかに高いかがわかります。多くのフィルタリングや重複排除がほとんど必要なく、使用率が非常に高いです。
現在、著作権紛争に対応して、大手モデル会社は高品質のデータセットを購入するために実際のお金を入札し始めています。
今年、フィナンシャル・タイムズはコンテンツを相当な価格でOpenAIに売却した。また、レディットもGoogleと同様の合意に達した。
今後、このような取引は避けられなくなるでしょう。

その紙がLLMによって使用されたことを証明することは非常に困難です


一部の AI 開発者は独自のデータセットを公開しますが、AI モデルを開発する多くの企業はトレーニング データのほとんどを機密に保ちます。
Mozilla Foundation の AI トレーニング データ アナリストである Stefan Baack 氏は、これらの企業がどのようなトレーニング データを保有しているのかは誰も知りません、と述べました。
業界関係者の間で最も人気のあるデータ ソースは、間違いなく、オープン ソース リポジトリ arXiv と学術データベース PubMed からの抄録です。
現在、arXiv には 250 万件を超える論文の全文が掲載されており、PubMed には 3,700 万件を超える驚くべき数の引用が含まれています。
PubMed などの Web サイト上の一部の論文の全文には有料の壁がありますが、論文の要約は無料で閲覧でき、この部分は大手テクノロジー企業によってクロールされている可能性があります。
では、自分の論文が使用されたかどうかを確認する技術的な方法はあるのでしょうか?
今のところ、まだ難しいです。
インペリアル・カレッジ・ロンドンのコンピューター科学者イヴ・アレクサンドル・ド・モンジョワ氏は、「LLMが特定の論文を使用したことを証明するのは非常に難しい」と述べた。
1 つの方法は、論文のテキスト内の非常にまれな文を使用してモデルにプロンプ​​トを出し、その出力が元のテキストの次の単語であるかどうかを確認することです。

かつて何人かの学者が「ハリー・ポッターと賢者の石」の第 3 章の冒頭で GPT-3 の使用を促したところ、モデルは本の内容のほぼページ全体を迅速かつ正確に吐き出しました。
もしそうなら、それはなくなっています。紙はモデルのトレーニングセットの中にあります。
そうでない場合はどうなりますか?これは、紙が使用されていないことを示す有効な証拠であるとは限りません。
開発者は、応答がトレーニング データとあまりにも密接に一致しないように応答をフィルタリングするように LLM をコーディングできるためです。
あらゆる努力にもかかわらず、まだそれを明確に証明できない可能性があります。
もう一つの手法は「メンバー推論攻撃」です。
この方法の原理は、モデルが以前に見たものを見たときに、出力に対してより自信を持つようになるということです。
この目的を達成するために、De Montjoye のチームは特別に「著作権トラップ」を開発しました。
罠を仕掛けるために、チームは、もっともらしいが意味のない文章を生成し、白い背景に白いテキストや、Web ページ上のゼロ幅のフィールドなど、作品内に隠します。
モデルがテキスト内に隠された制御文よりも未使用の制御文により混乱する場合、これはトラップが見られたという統計的証拠として使用できます。

著作権紛争


しかし、LLM が特定の論文に基づいて訓練されたことが証明できたとしても、何ができるでしょうか?
ここで長年にわたる論争がある。
発行者の見解では、開発者が許可を得ずに著作権で保護されたテキストをトレーニングで使用した場合、それは間違いなく侵害となります。
しかし、相手方は次のように反論することができます。「大きなモデルは盗作されていないのに、どうして侵害の主張があり得るでしょうか?」
実際、LLM は何もコピーせず、単にトレーニング データから情報を取得し、それを逆アセンブルして、新しいテキストの生成を学習するために使用します。
さらに複雑な問題は、商業利用と学術研究利用の間にどのように線を引くかということです。
arXiv Web サイトの現在の利用規約によれば、すべての電子プレプリント論文および Web サイトのメタデータのキャプチャ、保管、使用は準拠しており、個人または研究目的でサポートされています。
ただし、arXiv の商用利用は固く禁止されています。
そこで問題は、営利企業がビジネス モデルをトレーニングするために学術機関がリリースしたオープン ソース データ セットを使用し、そのデータ ソースに arXiv または同様の学術出版機関が含まれている場合、これはどのようにカウントされるのでしょうか?
さらに、出版社は、論文をモデルのトレーニング データとして使用できるかどうかをユーザーの購読規約に明確に規定していないことがよくあります。