ニュース

CNKI、MITAをAI検索侵害で「告発」:直ちにウェブサイトのリンクを切断

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

(画像出典:unsplash)

8月16日のTitanium Media Appニュース国内のAIスタートアップ「Shanghai MiTa Network Technology Co., Ltd.」(以下、「MiTa Technology」)は声明を発表し、CNKIがAI検索結果に学術情報を表示しているとしてAI検索スタートアップMiTa Technologyに対して警告する書簡を発行したと発表した。文書のタイトル、目次、要約は重大な侵害を構成しており、侵害通知レターは 28 ページにも及びます。

Secret Tower Technology が強調するのは、たとえこの行動を理解できなかったとしても、同社は CNKI の選択を尊重します。今後、Secret Tower AI Search には CNKI 文書の書誌データと要約データが含まれなくなりますが、代わりに他の権威ある中国語および英語の知識ベースの書誌データと要約データが含まれるようになります。他のデータベースも協力および議論することを歓迎します。

MiTa Technologyは2018年に設立されたと報じられている。同社のCEOであるMin Kerui氏は、以前はCheetah Mobileの主任科学者であり、現在は北京大学の法的人工知能研究所の主任知能科学者である。

MiTaは、2018年に法律AI翻訳製品「MiTa Translation」、誤り訂正・校正製品「MiTa Writing Cat」を相次いでリリースし、2022年には記事生成製品「Quantum Sketch」をリリースし、1週間で1日の利用者数が1万人を超えた。オンライン化のこと。

今年3月以降、ミタテクノロジーが開発した「Mita AI Search」が急速に普及し、同月のWebサイトへのアクセス数は700万を超えた。ウェブサイトのアクセスデータ監視プラットフォームであるSimilar Webによると、3月のMiTa Searchへの訪問数は、中国のAI製品群の中で百度文新宜延河に次ぐ第3位にランクされた。月のダークサイドキミ; この月の成長率は 550% に達しました。

今年8月、MiTa Technologyは、Ant Group主導による1億人民元を超えるシリーズA資金調達の完了を発表し、ポストマネー評価額は1億5,000万米ドル(約10億7,700万人民元)となった。 Secret Tower の以前の株主には、Mingshi Capital、Cheetah Mobile、Fengyuan Capital が含まれます。

製品の観点から見ると、従来の検索エンジンと比較して、AI 検索はユーザーに質問に対する回答を直接提供し、ソース リンクを添付します。 MiTa AI検索公式サイトでは、「簡潔」「詳細」「リサーチ」の3つの回答モードが用意されており、検索範囲は「ネットワーク全体」「図書館」「学術」「ポッドキャスト」などに設定できます。他の情報源。

通知書のフォローアップに関して、Southern Metropolis Dailyによると、Mita Technologyの最高執行責任者であるWang Yiwei氏は、CNKIは通知書の中でどのような権利や利益が侵害されたのか具体的に示していないと述べた。 CNKI の「学術」セクションの MiTa AI 検索は、トラフィックを CNKI にもたらすこともでき、一部のユーザーは MiTA AI 検索を通じて CNKI アカウントをアクティブ化し、CNKI に料金を支払います。これ自体が CNKI にとってメリットとなります。 CNKIの切断要求を考慮して、「いかなる交差も強制しない」。

Wang Yiwei 氏によると、以前の AI 検索結果は CNKI にリンクしているだけでなく、他の権威ある中国語と英語のデータベースもまだ切断を要求していません。ただし、CNKI リンクを切断しても、MiTa 製品のエクスペリエンスには影響しません。

Titanium Media App は次のことを学びました。CNKI の親会社である Tongfang CNKI (Beijing) Technology Co., Ltd. は最近、Huawei と協力して、知識サービス、科学研究、探究学習、生産と運用、補助的な診断と治療、スマートジャスティスなどの分野のシナリオ。

Tongfang CNKIのゼネラルマネジャー、Zhang Honwei氏は今年7月、CNKIが業界をリードするデジタル出版および知識サービス企業であり、教育、科学研究、シンクタンク、政府、企業を含む世界90カ国以上のユーザーを抱えていることを明らかにした。 、および科学研究機関、特に国内の教育研究機関は基本的に 100% の市場シェアを持っています。現在、Tongfang CNKI は中国原子力公司の傘下にある国有企業であり、世界 70 か国以上の 20,000 以上の出版機関と協力関係を確立しており、世界の知識ビッグデータを構築しています。システムを構築し、世界最大の中国語知識リソース ライブラリを運営しています。

Zhang Honwei 氏は、同社は Huazhi 大型モデルに基づいて、処理や注釈付けからさまざまな業界向けのサービス プラットフォームへのこのツールの追加に至るまで、CNKI 製品ライン全体の徹底的な変革を実行したと指摘しました。今年5月中旬に正式公開されて以来、Huazhiユーザー数は急速に増加し、現在の個人ユーザー数は1000万人を超えた。

しかし、CNKIは何度も罰金を科されており、業界はその開発モデルに疑問を抱いている。 2022年12月26日、国家市場監督管理総局は法律に基づき行政罰決定を行い、CNKIに対し違法行為の停止を命じ、2021年の中国国内売上高17億5,200万元の5%の罰金を課した。 2023年9月、中国サイバースペース局はC​​NKIのネットワークセキュリティ審査に関連した行政罰を決定し、個人情報の違法な処理を停止するよう命じ、50元の罰金を課した。 14のアプリすべてが、必要性の原則に違反した個人情報の収集、同意のない個人情報の収集、収集と使用のルールの開示または明示の欠如など、関連する問題を抱えているとして告発された。 、アカウントのキャンセル機能を提供しないこと、ユーザーがアカウントをキャンセルした後にユーザーの個人情報を適時に削除しないことなど。

中国政法大学比較法研究所の教授であるLiu Wenjie氏は、インターネットユーザーに検索サービスが提供されている場合、抄録とは論文の内容、特に考えやアイデアを集中的に要約したものであると考えている。また、インターネット上の公開データをクロールして論文の要約を提供することは、著作権法に基づくフェアユースとみなされ、通常は著作権侵害とはなりません。

最近、国際的に有名な雑誌「ネイチャー」の編集者であるエリザベス・ギブニー氏は、AI モデルのトレーニングのために研究論文をテクノロジー企業にライセンス供与する学術出版社が増えていると述べた記事を発表しました。ある学術出版社はこれで 2,300 万ドルを稼ぎましたが、著者の収入はゼロでした。これらの取引は、多くの場合、著者に相談せずに行われ、一部の研究者の間で強い不満を引き起こしました。

「あなたの論文がAIトレーニングデータとして使用されていない場合、その論文はすぐにトレーニングの一部となる可能性が高い。」エリザベス・ジプニー氏は、現在、学術論文の著者が著作権で保護された作品を販売する出版社に直面した場合、ほとんど選択の余地がないと指摘した。干渉。公開論文については、その内容がAIの学習データとして利用されているかどうかを確認する仕組みは既存にありません。大規模な言語モデルの使用において、クリエイターの権利と利益を保護するためのより公平なメカニズムを確立する方法は、学術界および著作権界で広範な議論に値します。

大規模な言語モデル (法学修士) は通常、トレーニングのためにインターネットから収集した大量のデータに依存します。このデータには数十億の言語情報 (「トークン」と呼ばれる) が含まれており、これらのトークン間のパターンを分析することで、モデルは流暢なテキストを生成できます。学術論文は内容が豊富で情報密度が高いため、大量の通常のデータよりも価値があり、AI トレーニングにおける重要なデータ ソースです。 Mozilla Foundation のデータ アナリストである Stefan Baack 氏は、科学論文は、特に科学的なトピックに関する推論能力の点で、大規模な言語モデルのトレーニングに非常に役立つと分析しました。データの価値が高いからこそ、大手テクノロジー企業はデータセットの購入に巨額の資金を費やしてきました。

上海大邦法律事務所のシニアパートナーで弁護士のYou Yunting氏は、MiTa AI検索の「学術」セクションの最大の問題は、記事の内容を完全に表示できることであると述べ、「論文のPDFが含まれている」と述べた。研究結果はダウンロードすることはできませんが、ユーザーは結果ページで見つけることができます。「PDF リンクをクリックするとこの記事の全文を表示できますが、これはオンラインで情報を広める記事の権利を侵害します。」著作権法によれば、AIが記事の本質を吸収し、それを独自の方法でユーザーに伝える場合、ある問題を説明するために著作物の一部を合理的に引用することはフェアユースとみなされると規定されています。

大規模モデルのトレーニングに紙データを使用することに関して、You Yunting 氏は、この行為は中国の国家知識インフラストラクチャを侵害していないと述べました。著作権法によれば、学習プロセスはコピーと学習です。コピーとは、学習のためにインターネット上の記事をサーバーにコピーすることです。現時点では、学習が侵害に該当するかどうかを判断する明確な法的判断はありません。ただし、複製権、研究権、その他著作権に関わる権利については、CNKI が論文の権利者ではありません。

張宏偉氏は、大規模AIモデルの時代にはCNKIはエコシステムと協力を確立する必要があると率直に述べた。

「上流が存在せず、出版業界が存在せず、データ業界から高品質のデータが継続的に供給されなければ、人工知能産業が高品質の発展を維持することは実際には困難になります。そのような問題を解決するために、私たちは実際に業界全体が知恵を試す必要があります。エイジーシー時代の優れたエコロジーは、この業界の質の高い発展を共同で促進します。私たちCNKIは、業界の持続可能で質の高い発展を促進するために、この面で皆様と協力していきたいと考えています。と張宏偉は言った。