私の連絡先情報
郵便管理者@information.bz
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
・人工知能(AI)モデルを訓練するために研究論文をテクノロジー企業に販売する学術出版社が増えているが、著者は収入がゼロである。
大規模言語モデル (LLM) は、トレーニング データの問題により再び論争を引き起こしました。最近、国際的に有名なジャーナル「ネイチャー」の編集者であるエリザベス・ギブニーは、「あなたの論文は人工知能モデルのトレーニングに使用されましたか?」というタイトルの記事を発表しました。ほぼ確実」の記事。この記事の著者は、現在、人工知能(AI)モデルのトレーニングのためにテクノロジー企業に研究論文のライセンスを供与する学術出版社が増えていると述べた。ある学術出版社はこれで 2,300 万ドルを稼ぎましたが、著者の収入はゼロでした。これらの取引は、多くの場合、著者に相談せずに行われ、一部の研究者の間で強い不満を引き起こしました。
「あなたの論文がAIトレーニングデータとして使用されていない場合、その論文はすぐにトレーニングの一部となる可能性が高い。」エリザベス・ジプニー氏は、現在、学術論文の著者が著作権で保護された作品を販売する出版社に直面した場合、ほとんど選択の余地がないと指摘した。干渉。公開論文については、その内容がAIの学習データとして利用されているかどうかを確認する仕組みは既存にありません。大規模な言語モデルの使用において、クリエイターの権利と利益を保護するためのより公平なメカニズムを確立する方法は、学術界および著作権界で広範な議論に値します。
大規模言語モデル (LLM) は、トレーニングのためにインターネットから収集した大量のデータに依存することがよくあります。このデータには数十億の言語情報 (「トークン」と呼ばれる) が含まれており、これらのトークン間のパターンを分析することで、モデルは流暢なテキストを生成できます。学術論文は内容が豊富で情報密度が高いため、大量の通常のデータよりも価値があり、AI トレーニングにおける重要なデータ ソースです。世界的な非営利組織 Mozilla Foundation のデータ アナリスト、Stefan Baack 氏は、科学論文は、特に科学的トピックに関する推論能力の点で、大規模な言語モデルのトレーニングに非常に役立つと分析しました。データの価値が高いからこそ、大手テクノロジー企業はデータセットの購入に巨額の資金を費やしてきました。
記事は、今年、フィナンシャル・タイムズがOpenAIとそのコンテンツを後者にライセンス供与する合意に達したことを指摘し、「American Post Bar」として知られるRedditもGoogleと同様の契約を結んだと述べた。これらの取引は、法的認可を通じて自社のコンテンツがAIモデルによって無料でクロールされることを回避しようとするパブリッシャーの試みを反映している。
この記事では、英国の学術出版社Taylor & Francisが先月、Microsoftと1000万ドルの契約を締結し、MicrosoftがAIシステムを改善するために同社のデータにアクセスできるようにしたことを明らかにした。アメリカの出版社ワイリーは6月、AIトレーニング用のコンテンツを企業に提供することで2300万ドルもの利益を上げた。そして、これらの莫大な収入は論文の著者とは何の関係もありません。
現在、研究者たちは技術的手段を利用して、著者が自分の作品が AI モデルのトレーニングに使用されているかどうかを特定できるようにしようとしています。ワシントン大学シアトルの人工知能研究者ルーシー・ルー・ワン氏は、論文がモデルのトレーニングデータとして使用された場合、モデルのトレーニングが完了した後にそれを削除することはできないと述べた。
ただし、たとえこの論文がAIのトレーニングに使用されたことが証明できたとしても、法的レベルでは依然として論争に直面している。この記事では、出版社は、著作権で保護された未承認のコンテンツをトレーニングに使用することは侵害であると考えていると指摘していますが、もう 1 つの法的見解は、大規模な言語モデルはコンテンツを直接コピーするのではなく、学習を通じて新しいテキストを生成するというものです。
すべての研究者が自分の研究を AI トレーニングに使用することに反対しているわけではないことは注目に値します。ステファン・バック氏は、自分の研究結果がAIの精度向上に利用されることを嬉しく思うし、AIが彼の文章スタイルを「模倣」しても構わないと述べた。しかし、彼はまた、誰もがこの問題に簡単に対処できるわけではないことも認め、特にアーティストや作家など、AIとの競争のプレッシャーに直面する職業に就いている人はそうだと述べた。
実際、AI モデルをトレーニングするための著作権で保護された知的著作物の使用に関する訴訟は、これまでにも広く注目を集めてきました。
8月14日、ワシントン・ポスト紙は、米国の複数のビジュアルアーティストやイラストレーターがAI画像生成ツールを相手に起こした集団訴訟が進展したと報じた。彼らは、MidjourneyやStability AIなどの新興企業が同意なしにAIモデルをトレーニングするために著作物を使用していると非難した。この事件は今週、重要な進展をもたらした。米国地方判事のウィリアム・オリック氏は、訴訟の主要部分の進行を許可した。これは裁判所が、特定の容疑を進めるのに十分な法的証拠があると判断したことを意味しており、社内での法的手続きが進展するにつれ、その内容が明らかになる可能性がある。 AIツール。