Nature は、「学術的盗作」の定義が AI によって曖昧になっているという記事を掲載しました。

2024-08-02

(出典: Piotr Kowalczyk、イラストレーター、グラフィックデザイナー)

【編集後記】今年4月、サイエンス誌はこれまでの鉄則を覆した。論文の「方法」の章が記載された後は、生成人工知能（AI）と大規模言語モデル（LLM）を図解の作成や論文の内容の執筆に合法的に使用できると規定している。。

今、 AI は研究者が考える時間を増やすのに役立ちますが、問題はこれが盗作とみなされるかということです。そして、どのような状況でこのテクノロジーの使用を許可すべきでしょうか?

最近、科学ジャーナリストのダイアナ・クォン氏は、学術論文における生成 AI ツールの応用と、それがもたらす課題と影響について論じた記事を Nature 誌に掲載しました。

彼女は、ChatGPT などの生成 AI ツールは、時間の節約、明瞭さの向上、言語の壁の軽減において大きな潜在的価値を示していますが、盗作や著作権侵害の問題も伴う可能性があると指摘しました。

彼女はまた、学術論文、特に生物医学分野で AI の使用が爆発的に増加していると指摘しました。しかし、AI によって生成されたテキストは、わずかな編集でほぼ検出できなくなるため、検出が困難です。 。同時に、AIツールの合法使用と違法使用の境界線はさらに曖昧になる可能性がある、AI 機能を統合するアプリケーションやツールが増えているためです。

最終的には、研究者やジャーナルが AI ツールをいつ使用するのが適切か、またその使用をどのように開示するかを判断できるように、学術論文における AI の使用に関してより明確なガイドラインが必要であると彼女は考えています。

学術頭条は、原典の主な考え方を変えることなく、シンプルに編集しました。内容は以下の通りです。

1月の告発によるハーバード大学学長の辞任から、2月の査読報告書に盗用文章があったことが発覚するまで、今年は学者の間で盗作事件が相次いでいる。

しかし学術論文はさらに大きな問題に直面している 。生成型人工知能 (AI) ツールの急速な普及により、これが盗作に該当するのか、またどのような状況で許可されるべきなのかという疑問が生じています。ルイジアナ州ニューオーリンズの著作権・盗作コンサルタント、ジョナサン・ベイリー氏は「AIは完全に人間が書いたものから完全にAIが書いたものまで幅広い範囲で使用されており、その間には大きな混乱が生じている」と語る。

ChatGPT などの大規模言語モデル (LLM) に基づく生成 AI ツールは、時間を節約し、テキストをより明瞭かつ理解しやすくし、言語の壁を軽減します。現在、多くの研究者は、特定の状況ではそれらが許容され、その使用は完全に開示されるべきであると信じています。

しかし、これらのツールは、他人の作品の不適切な使用をめぐるすでに白熱している議論を複雑にしています。 。 LLM は、大量の出版された文章から学習してテキストを生成するようにトレーニングされています。したがって、研究者が機械の成果を自分の手柄にする場合、または出典を明示せずに機械が生成したテキストが誰かの成果に非常に類似している場合、これは盗作のような行為につながる可能性があります。これらのツールは、意図的に盗用されたテキストを偽装するために使用することもでき、その使用を検出するのは困難です。英国プリマス大学の生態学者ピート・コットン氏は、「学術的不正や盗作が何を意味するのか、またその境界線がどこにあるのかを定義するのは、非常に困難になるだろう」と語る。

1,600人の研究者を対象とした2023年の調査では、回答者の 68% は、AI により盗作の検出が容易になり、検出が難しくなると回答しました。 。ベルリン応用科学大学の盗作特定専門家、デボラ・ウェーバー・ウルフ氏は、「誰もが他の人がこれらのシステムを使用していることを心配しており、また、使用すべきときに使用していないのではないかと心配している。これに関しては少しパニックになっています。」

盗作と AI が出会うとき

米国研究公正局の定義によると、盗作とは、「適切な引用や承認なしに、他人のアイデア、プロセス、結果、または文章を使用すること」です。 。 2015 年の調査では、科学者の 1.7% が盗作を認め、30% が同僚が盗作に関与していたことを知っていたと推定されています。

LLM はこの状況をさらに悪化させる可能性があります。人間が書いたテキストの意図的な盗用は、誰かが最初に LLM にテキストを書き直させれば簡単に隠蔽できる 。カナダのブリティッシュ・コロンビア大学のコンピューター科学者で言語学者のムハマド・アブドゥル・マギード氏は、このツールは学術誌のスタイルなど、洗練された方法で書き換えるように指示できると語る。

核心的な問題は、人間ではなく機械によって完全に書かれたクレジットのないコンテンツを使用することが盗作とみなされるかどうかです。必ずしもそうではない、と多くの研究者は言う。たとえば、European Academic Integrity Network は、執筆のための AI ツールの無許可または無申告の使用を、盗作ではなく「無許可のコンテンツ生成」と定義しています。「私にとって、盗作は別の識別可能な人物に起因するものであるべきです」とウェーバーウルフ氏は述べ、既存の人間が書いたコンテンツや状況とほぼ同一のテキストを生成AIが生成するケースはあるが、これはそうではない、と付け加えた。通常、盗作とみなされるには十分ではありません。

一部のメディア企業や著者は、AIによる著作権侵害とみなして抗議している。 2023年12月、ニューヨーク・タイムズはマイクロソフトとOpenAIに対して著作権訴訟を起こした。訴訟では、両社がLLMを訓練するために何百万ものニューヨーク・タイムズの記事をコピーして使用し、LLMで生成されたコンテンツが出版物のコンテンツと「競合」していると主張している。この訴訟には、GPT-4がプロンプトに従って新聞記事のいくつかの文章をほぼそのままコピーした例も含まれている。

OpenAIは今年2月、連邦裁判所に「ChatGPTは決してニューヨーク・タイムズの購読に代わるものではない」として、訴訟の一部を取り下げるよう申し立てを起こし、マイクロソフトの広報担当者は「合法的に開発されたAIツールだ」と述べた。責任ある開発が許可されるべきである」そして「ジャーナリストによって再生される重要なコンテンツを置き換えることもできない」。

裁判所が許可なくテキスト上で AI をトレーニングすることが著作権侵害に当たるとの判決を下した場合、「AI 企業にとっては大きなショックとなるだろう」とベイリー氏は述べた。

AIは爆発的に進化している

これが盗作と呼ばれるかどうかは別として、2022 年 11 月の ChatGPT のリリース以来、学術論文における AI の使用が爆発的に増加しました。

7月に更新されたプレプリントで研究者らは次のように推定した。2024 年上半期には、生物医学抄録の少なくとも 10% が LLM を使用して作成される予定です。これは年間約 150,000 件の論文に相当します。 。ドイツのテュービンゲン大学のデータサイエンティスト、ドミトリー・コバック氏が主導したこの研究は、2010年から2024年6月までに学術データベースPubMedに掲載された1,400万件の抄録を分析した。彼らは、LLM の出現が「詳細」、「ショーケース」、「アンダースコア」などの文体的な単語の使用の増加と関連していることを示し、次に、これらの珍しい語彙パターンを使用して、AI を使用して処理される要約の割合を推定します。「LLMベースの執筆アシスタントの出現は、科学文献に前例のない影響を与えた」と彼らは書いている。

図 | LLM の出現は、スタイル語彙の使用の増加に関連しています。

コバック氏はこう予測する。LLM の使用は「今後も確実に増加し」、「検出はさらに困難になる可能性が高い」。

学術論文におけるソフトウェアの非公開使用は新しいことではありません。 2015年以来、フランスのトゥールーズ大学のコンピューター科学者ギヨーム・カバナックと彼の同僚は、SCIgenと呼ばれるソフトウェアによって書かれた「意味不明な」論文や、自動翻訳ソフトウェアによって作成された「ねじれたフレーズ」を含む論文を暴露してきた。」論文を書き換えます。「生成 AI が登場する前から、人々はこれらのツールを持っていました」とカバナック氏は言います。

ただし、学術論文の執筆に AI を使用することにも一定の価値があります。 。研究者らは、これにより文章や概念がより明確になり、言語の壁が軽減され、実験や熟考のための時間が確保できると述べています。リヤドのキング・サウード大学の情報技術研究者ヘンド・アル・ハリファ氏は、生成AIツールが利用可能になる前は、英語を第二言語として話す同僚の多くは論文を書くのに苦労していただろうと語った。「現在、彼らは研究に集中しており、これらのツールを使用して執筆の手間を省いています」と彼女は言いました。

しかし、AI の使用がどのような場合に盗作に該当するか、または倫理に違反するかについては依然として混乱があります。メリーランド大学カレッジパーク校のコンピューター科学者ソヘイル・フェイジ氏は、LLMを使用して既存の論文の内容を書き換えることは明らかに盗作であると述べた。しかし、詳細なプロンプトに基づいてテキストを生成する場合でも、下書きを編集する場合でも、アイデアを表現するために LLM が透過的に使用される場合、罰せられるべきではありません。「LLM を使用して、人々が簡単かつ明確に自分自身を表現できるようにすべきです」と Feizi 氏は言います。

現在、多くのジャーナルには LLM の使用をある程度許可するポリシーがあります。 ChatGPT によって生成されたテキストを当初禁止した後、Science は 2023 年 11 月にポリシーを更新し、原稿執筆時の AI テクノロジーの使用は、使用されるシステムやプロンプトも含めて完全に公開されるべきであると述べました。正確性を確保し、「盗作がないことを確認する」のは著者の責任です。 Nature はまた、研究論文の著者は LLM の使用を方法のセクションに文書化する必要があると述べています。大手学術出版社 100 社と高ランクのジャーナル 100 社を分析した結果、2023 年 10 月の時点で出版社の 24%、ジャーナルの 87% が生成 AI の使用に関するガイドラインを持っていることがわかりました。ガイダンスを提供するほとんどすべてが、AI ツールを作成者としてリストすることはできないと述べていますが、許可される AI 使用の種類と必要な開示レベルによってポリシーが異なります。ウェーバーウルフ氏は、学術論文におけるAIの使用に関するより明確なガイドラインが緊急に必要であると述べた。

現在、アブドゥル・マギード氏は、科学論文を執筆する際の LLM の広範な使用は、その制限によって妨げられていると述べています。ユーザーは、対象読者、言語スタイル、および研究サブフィールドを説明する詳細なプロンプトを作成するように求められます。「実際には、あなたが望むものを正確に提供する言語モデルを入手するのは非常に困難です」と彼は言いました。

しかしアブドゥル・マギード氏はこう言った。開発者は、研究者が専門的な科学コンテンツを簡単に生成できるアプリを構築しています。 。将来的には、ユーザーは詳細なプロンプトを書かなくても、ドロップダウンメニューからオプションを選択してボタンを押すだけで、論文全体を最初から作成できるようになるかもしれない、と同氏は述べた。

境界線はさらに曖昧になる可能性がある

テキストの作成に LLM が急速に採用されるのに伴い、LLM を検出するために設計されたツールも多数登場しました。 。多くのツールは高い精度 (場合によっては 90% 以上) を主張していますが、調査によると、ほとんどのツールはその主張に応えていません。 12月に発表された研究で、Weber-Wulff氏らは学界で広く使用されている14のAI検出ツールを評価した。テキストの 70% 以上が AI または人間によって書かれたものであることを正確に識別できたのは 5 名のみで、スコアが 80% を超えるものはありませんでした。

AIが生成したテキストを誰かがわずかに編集したことが検出された場合、同義語を置き換えたり、文を並べ替えたりすると、検出器の精度が平均 50% を下回りました。 。このようなテキストは「現在のツールでは事実上検出できない」と著者らは書いている。他の研究では、AI にテキストの書き換えを複数回要求すると、検出器の精度が大幅に低下する可能性があることが示されています。

さらに、AI 検出器には他にも問題があります。ある研究によると、英語の記事が英語を母国語としない人によって書かれた場合、その文章は AI によって生成されたものとして誤って分類される可能性が高くなります。 Feizi 氏は、この検出器は、完全に AI によって書かれたテキストと、著者が AI ベースのサービスを使用してテキストを洗練し、文法と文章の明瞭さを助けることでテキストを改善する場合とを確実に区別することができないと述べた。」これらのケースを区別することは非常に困難で信頼性が低く、非常に高い誤報率につながる可能性があります。AIを使用しているとして無実の罪で告発されると、学者や学生の評判に「重大な損害」が生じる可能性があると付け加えた。

AI の合法的使用と非合法的使用の境界線はさらに曖昧になる可能性がある 。 2023 年 3 月、Microsoft は、Word、PowerPoint、Outlook などの自社アプリケーションへの生成 AI ツールの統合を開始しました。 AI アシスタント Copilot の一部のバージョンでは、コンテンツの下書きや編集が可能です。 Googleも6月に、生成AIモデルGeminiをDocsやGmailなどのツールに統合し始めた。

「AIは私たちが使うあらゆるものに深く組み込まれつつあるので、自分のやっていることがAIの影響を受けているかどうかを人々が知ることはますます困難になるだろう」とセント・マークス・アンド・セント・ルイス大学の高等教育専門家であるデビー氏は言う。イギリスにいるジョンのコットンさんは言った。「私たちはそのスピードについていけないかもしれないと思います。」

編纂者: 馬雪偉

原著者：ダイアナ・クォン、フリー科学ジャーナリスト

元のリンク: https://www.nature.com/articles/d41586-024-02371-z

ニュース