ニュース

「横暴な」CNKIによる著作権侵害で告発されたシークレットタワーAIは、もう少し一言言うべきかもしれない

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


著者 | 周暁暁
メール|[email protected]
編集者|王昭陽
メール|[email protected]

1

リンクを解除する

最近、Secret Tower AI 検索のユーザーは、Web サイトを開くと上部に「もう終わりです! CNKI から 28 ページの侵害通知レターを受け取りました。」という目を引くテキストが表示されます。

クリックすると、Secret Tower の声明が開きます。そこには、電子雑誌「中国学術雑誌 (CD 版)」有限公司から著作権侵害の通知書を受け取ったと記載されています。 1万元と5000万元の個人情報セキュリティ問題で物議を醸していたCNKIが、これに対する侵害告発を行った。


簡単にまとめると、MiTa AI 検索は CNKI コンテンツを検索できますが、CNKI はこれを侵害とみなし、検索サービスでの CNKI データの提供を直ちに停止することを要求しています。

「当社は、中国国家知識基盤のウェブサイトがMiTa Technologyによって検索されることを望んでいません。直ちに検索結果を当社のウェブサイトから切り離してください。業務協力が必要な場合は、当社までご連絡ください。」

MiTa Technologyはこの声明で、MiTa AI検索の「学術」セクションには論文の文献要約と参考文献のみが含まれており、論文そのものの内容は含まれていないと回答した。本文を読むには、Webサイトにジャンプする必要がある。ソースリンクから入手してください。学術基準によれば、文書の要約と参考文献は独立していて一目瞭然であり、読者が全文を読まなくても必要な情報を入手できるようにする必要があります。


現在、Secret Tower Academic Search の一部のリンクは万方データにジャンプします。

Secret Tower AI はまた、知識の価値はその流れにあると強調します。学術文書は人間の知的成果の重要な伝達手段であり、極めてかけがえのないものです。科学文書が贅沢品になると、知識への公平なアクセスや科学研究の発展には役立たなくなります。

しかし、人間の知恵から学術への移行について話した後、シークレット・タワーズがとった行動は「リンクを切る」ことでした。「理解できなくても、今後はシークレット・タワーズAIの選択を尊重します」。検索には含まれなくなります。CNKI 文書の書誌および要約データは、他の権威ある中国語および英語の知識ベースの書誌および要約データに含まれます。他のデータベースも協力および議論することを歓迎します。

つまり、シークレットタワーは最終的にCNKIの上訴要件に従って苦情を処理したということだ。

1

明確に説明されていない重要な問題

Secret Tower AI Search は、こ​​の AI ブームのスター製品であり、中国の Perplexity とよく比較されます。 Secret Tower は、今回の大型モデルスタートアップ企業のスター企業でもあり、最新のニュースでは 1 億元の資金調達を完了し、投資後の評価額は 1 億 5,000 万ドルとなった。 MiTaはビッグモデルブーム以前に設立されたが、主力製品であるMiTa AI searchは今年3月に正式に発売された。


湖南衛星テレビでのシークレットタワーの広告

CNKIの侵害通知には、MitaがCNKIの学術文献書誌と概要データをユーザーに提供しており、侵害の疑いがあると記載されていた。この点に関して、上海大邦法律事務所のシニアパートナー兼弁護士であるYou Yunting氏は、CNKIの学術文献参考文献と抄録のWebページは中国の学術文書であると述べた。中国:ネットワーク データベース サービス市場で支配的な地位を占める事業者には、Secret Tower Search が公開情報のこれら 2 つの部分を取得することを許可しない合理的な理由があるはずです。

基本的に、CNKIはSecret Towerに対し、ウェブサイトをクロールしないよう求めている。従来の検索エンジンのエコシステムには、このような情報取得クローラーの動作に関する基本的なルールがあります。各 Web サイトとさまざまな情報プロバイダーは、Robots.txt ファイルを使用して、どのコンテンツがクロール可能でどのコンテンツがクロールできないかを検索エンジンに伝えます。

Baidu や Google などの検索エンジンは、このプロセスで独自のクローラーに名前を付け、自分がそこにいたことと何を持ち去ったかを相手に知らせます。しかし、CNKI の Robots.txt ファイルから判断すると、どのクローラーもブロックしていません。

「興味深いのは、CNKI がリンクの切断を求める手紙を Mita に送ったということです。これは、Web コンテンツのクロールが許可されていないことを意味しますが、CNKI のロボット ファイル (https://www.cnki.cn/robots.txt) は、 CNKI のロボット ファイルの内容によると、Web ページのクロールは禁止されておらず、バックグラウンド管理インターフェイスに関係する cms、query.html?*、レポート、論文、qrcode、js、cs のみが禁止されています。静的リソース ディレクトリと特定のコンテンツ ディレクトリの Web ページはクロールできません。」

相手が業界ルールでクローリングを禁止されていないのに、なぜ通知レターを送る必要があるのでしょうか。

「現在、人工知能検索エンジンのクローラーの多くは、武道の倫理に従っていません。彼らは、従来の Baidu、Google、Sogou、Bing のような独自のクローラーに名前を付けず、静かに匿名でクロールします。」実際、これらの匿名クローラーは、必ずしもこれらの AI 検索会社の名前で実行されているわけではありません。市場には、さまざまな方法を使用してこれらのクロールの基本ガイドラインを回避するサードパーティのクローラー サービスが多数存在します。これらのサービスが使用されたかどうかについては、Secret Tower の回答では言及されていません。

Peroplexity は以前にも同様の論争に遭遇しました。

当時、Wired 誌と開発者の Robb Knight が調査した結果、Perplexity は robots.txt 標準に準拠していないことが判明しました。創設者の Aravind Srinivas 氏はインタビューで、Perplexity は Robot Exclusions Protocol を無視していないと答えました...問題の Web クローラーはサードパーティ ベンダーのものであることが判明しました。

しかし、サードパーティ製のクローラーの使用をやめるかとの質問には、「複雑だ」とだけ答えた。さらに、当時の調査では、Perplexityが実際の記事を要約したのではなく、URLや検索エンジンに残された抜粋やメタデータなどの痕跡に基づいてコンテンツを再構成した可能性があることも判明した。デジャブ。

MiTa が発行した記事によると、CNKI が MiTa に送った侵害通知は 28 ページでした。 Secret Tower は通知書を傍受して公開しただけで、投稿されたスクリーンショットから判断すると、残りのコンテンツは主に侵害の証拠を列挙したものであり、これらのコンテンツはさまざまな要約やタイトルのクロールを示しているだけではありません。


多くのユーザーが以前に共有した情報によると、シークレット タワーは非公開の論文を入手でき、シークレット タワーの Web ページで直接読むことができます。これらの PDF 文書は外部の図書館 Web サイトにリンクされていますが、実際にはシークレットに保存されている可能性があります。タワーサーバー。 You Yunting 氏は、Secret Tower が CNKI 論文の全文を含む索引データベースを構築した場合、著作権侵害に当たる可能性があると考えています。

「MiTa の AI 検索のポッドキャストとライブラリのセクションにはインデックス データベースがあります。私が理解しているインデックス ライブラリとは、MiTa がバッチで収集した文献のインデックス データベースを内部で直接構築したものかもしれません。ユーザーが検索すると、MiTa がネットワークを検索します。そして、人工知能を使用してリアルタイムの検索結果を統合し、ライブラリのコンテンツにインデックスを付けて答えを提供します」と You Yunting 氏は述べています。つまり、コアの表示結果ページでは注釈付きソースの形式でインデックスが表示されますが、「元のテキスト」も独自のサービス内に移動されます。

「インデックス データベースはおそらく本物です。実際、これを技術的に証明するのは難しくありません。私たちは訴訟を代理していたときにこの問題に遭遇しました。私たちは通常、パケット キャプチャ ソフトウェアを使用して文書の実際の IP アドレスを表示します。IP アドレスが秘密の塔のサーバー上にあるということは、秘密の塔から提供されたものということになります。」

さらに、事前学習済みモデルに基づく AI 検索エンジンとしては、これらの知的財産データが学習データに使用されているかどうかがより重要な問題となります。

モデルが通常持つ「過剰適合」問題により、ユーザーへの最終出力内容が原文との整合性が高い場合、トレーニング時の論文データが原文との整合性が高い場合、これは次のカテゴリに入ります。フェアユースによる「紙のクリーニング」と同様の著作権侵害。

しかし、そのような状況において、CNKIは個々の研究者によって書かれたこれらの論文を「保護」する権利があるのでしょうか?

「HowNet には Secret Tower Training の著作権侵害を主張する権利はありません。」と You Yunting 氏は考えています。

同氏は、CNKIのウェブサイト上の論文のほとんどが含まれているが、CNKIは雑誌または著者によって許可された情報をネットワーク上に広める権利を有し、論文がトレーニングに使用される場合、トレーニングに関わる著作権は権利であると述べた。著作権法に規定されている複製および複製の権利およびその他の権利は、CNKI の情報ネットワーク上の頒布権を侵害しません。もちろん、雑誌の権利保護シークレットタワートレーニングが侵害されれば、シークレットタワーはニューヨークタイムズがOpenAIを訴訟したのと同じ問題に直面することになる。


1

もっと真剣に議論する時が来た

したがって、秘密塔が「対応」したい対象は、ネチズンから「悪」と評されたCNKIだけではない。

CNKIへの反応に加えて、これらの反応は常に共感を呼び、記事への反応のコメントセクションから判断すると、人々は長い間CNKIの態度を取り続けており、秘密の塔を「停止」します-秘密の塔は可能性がありますトレーニング データの背後にある個々の作成者が、データがどのように使用されるかを説明します。

物議を醸している「学術」検索機能は、Secret Tower を他の Perplexities と区別する重要な設計であり、この機能も多くのユーザーから賞賛されています。これらのユーザーは、授業の課題、記事の二次創作、さらには論文の執筆などのタスクのために、大量の文献検索を行う必要があるユーザーであることがよくあります。

論文の実際の著者にとって、これらのデータの使用は別の問題を引き起こす可能性があります。

最近の Nature の記事は、多くの学術出版社がテクノロジー企業に AI モデルをトレーニングするために自社の論文にアクセスすることを許可していると指摘しました。たとえば、アメリカの出版社 Wiley は、企業に自社のコンテンツ トレーニング モデルの使用を許可した後、2,300 万米ドルの収益を直接受け取りました。そして、これらの収入は論文の著者とは何の関係もありません。

これらの研究者にとって、最終的には解決不可能である可能性が高い実質所得分配問題に加えて、この「AI学術調査」の生成過程において、学術界におけるいくつかの非常に重要な評価システムも混乱に陥っている。たとえば、学術界で非常に重要な指標である引用は、こうした AI 学術検索シナリオにはもはや存在していないようです。大規模なモデル自体のランダム性と解釈不可能性、およびデータの不完全性により、生成される学術検索結果は学術コミュニティ自体の判断基準とは異なります。

ある学者はSilicon Starに次のように語った:これらのAI検索が自ら答えを生成するとき、どの検索とどれを選択するための基準は何でしょうか?引用数をゴールドコンテンツの最も直接的な基準とみなしている学者にとって、これらの AI 結果がますます多くなり、多くの研究者が自分の論文で使用するようになったら、これも AI SEO 汚染の別の形になるでしょうか?



シークレットタワー法で質問した結果

紛争自体については、シークレットタワーがCNKI論文をインデックスデータベースから削除し、ユーザーにCNKI論文のオンライン閲覧機能を提供しなくなったとき、知的財産侵害をめぐる論争は最小限であり、「反政府団体」によるとYou Yunting氏は述べた。逆独占法とインターネット検索エンジン サービスの自己規律に関する条約に基づき、シークレット タワー サーチが公開情報のこれら 2 つの部分を取得することを CNKI が許可しないことはもはや合理的ではありません。

しかし、AI 検索企業が取り組んでいる製品を長期的かつ深刻な問題として捉えているのであれば、製品のささやかな恩恵や上品な態度を称賛するだけでなく、これらの複雑で現実的な問題にも直面する時期が来ています。そして、適切な方法でオープンに議論して初めて、彼らが挑戦したいと望んでいる今日の情報アクセス分野の真の核心に到達することを本当に望むことができるのです。