2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Auteur |
E-mail|[email protected]
Editeur|Wang Zhaoyang
Courriel|[email protected]
1
Rompre le lien
Récemment, les utilisateurs de la recherche Secret Tower AI trouveront une ligne de texte accrocheuse en haut lorsqu'ils ouvriront le site Web : « C'est fini ! Nous avons reçu une lettre de notification d'infraction de 28 pages de CNKI.
Cliquez pour ouvrir une déclaration de Secret Tower, qui déclare avoir reçu une lettre de notification d'infraction de la part du magazine électronique "Chinese Academic Journal (CD Edition)" Co., Ltd. - c'est-à-dire qu'elle a été condamnée à une amende de 8 760 pour un comportement monopolistique présumé et questions de sécurité des informations personnelles. 10 000 yuans et 50 millions de yuans, CNKI, qui a été controversée, a lancé une accusation de violation contre elle.
Pour résumer brièvement, la recherche MiTa AI peut rechercher du contenu CNKI considère cela comme une infraction et exige qu'elle cesse immédiatement de fournir des données CNKI dans les services de recherche.
"Notre société ne souhaite pas que MiTa Technology effectue des recherches sur notre site Web China National Knowledge Infrastructure. Veuillez immédiatement déconnecter les résultats de recherche de notre site Web. Si vous avez besoin d'une coopération commerciale, veuillez contacter notre société."
MiTa Technology a répondu dans cette déclaration que la section « académique » de la recherche MiTa AI inclut uniquement le résumé de la littérature et la bibliographie de l'article, et n'inclut pas le contenu de l'article lui-même. Pour lire le texte, vous devez accéder au site Web. via le lien source pour l'obtenir. Selon les normes académiques, le résumé et la bibliographie d'un document doivent être indépendants et explicites, permettant aux lecteurs d'obtenir les informations nécessaires sans lire le texte intégral.
Actuellement, certains liens dans Secret Tower Academic Search redirigent vers Wanfang Data.
Secret Tower AI souligne également que la valeur de la connaissance réside dans son flux. Les documents académiques sont un vecteur important des réalisations intellectuelles humaines et sont extrêmement irremplaçables. Si les documents scientifiques deviennent un produit de luxe, ils ne seront pas propices à un accès équitable à la connaissance ni au développement de la recherche scientifique.
Cependant, après avoir parlé de la transition de la sagesse humaine aux activités académiques, l'action donnée par Secret Towers a été de « rompre le lien » : « Même si nous ne comprenons pas, nous respectons le choix de CNKI désormais, Secret Towers AI. » la recherche n'inclura plus Les données bibliographiques et abstraites des documents CNKI seront incluses dans les données bibliographiques et abstraites d'autres bases de connaissances chinoises et anglaises faisant autorité. D'autres bases de données sont également invitées à coopérer et à discuter.
Autrement dit, Secret Tower a finalement traité la plainte conformément aux exigences d’appel de CNKI.
1
Problèmes importants qui ne sont pas clairement expliqués
Secret Tower AI Search est le produit phare de ce boom de l’IA et est souvent comparé à Perplexity en Chine. Secret Tower est également une entreprise vedette dans cette série de grandes startups modèles. Les dernières nouvelles montrent qu'elle a finalisé le dernier financement de 100 millions de yuans, avec une valorisation post-investissement de 150 millions de dollars. MiTa a été fondée avant le grand boom des modèles, mais son produit principal, MiTa AI Search, a été officiellement lancé en mars de cette année.
Publicité de Secret Tower sur Hunan Satellite TV
L'avis d'infraction de CNKI indiquait que Mita avait fourni aux utilisateurs la bibliographie de la littérature académique et les données récapitulatives de CNKI et qu'elle était soupçonnée de contrefaçon. À cet égard, You Yunting, associé principal et avocat du cabinet d'avocats Shanghai Dabang, a déclaré que les pages Web sont différentes des articles. La bibliographie de la littérature universitaire et les pages Web des résumés du CNKI sont accessibles au public aux utilisateurs nationaux. Chine. Les opérateurs occupant une position dominante sur le marché des services de bases de données en réseau doivent avoir des raisons raisonnables de ne pas autoriser Secret Tower Search à capturer ces deux parties de l'information publique.
Essentiellement, CNKI demande à Secret Tower de ne pas explorer son site Web. Dans l'écosystème des moteurs de recherche traditionnels, il existe des règles de base pour un tel comportement des robots d'exploration de récupération d'informations : chaque site Web et divers fournisseurs d'informations utilisent un fichier Robots.txt pour indiquer au moteur de recherche quel contenu peut être exploré et lequel ne le peut pas.
Les moteurs de recherche tels que Baidu et Google nommeront leurs propres robots d'exploration au cours de ce processus pour faire savoir à l'autre partie qu'ils ont été là et ce qu'ils ont emporté. Mais à en juger par le fichier Robots.txt de CNKI, il ne bloque aucun robot.
« Ce qui est intéressant, c'est que bien que CNKI ait envoyé une lettre à Mita demandant de déconnecter le lien, ce qui signifie qu'il n'est pas autorisé à explorer le contenu Web, son fichier robots (https://www.cnki.cn/robots.txt) ne le fait pas. Les robots des moteurs de recherche sont interdits. Selon le contenu du fichier robots de CNKI, personne n'est interdit d'explorer leurs pages Web, uniquement cms, query.html?*, report, paper, qrcode, js, cs, qui impliquent l'interface de gestion en arrière-plan. et le répertoire de ressources statiques et les pages Web du répertoire de contenu spécifique ne peuvent pas être explorées.
S'il n'est pas interdit à l'autre partie d'explorer conformément aux règles du secteur, pourquoi devons-nous quand même envoyer une lettre de notification ?
"De nombreux robots d'exploration des moteurs de recherche à intelligence artificielle ne suivent plus l'éthique martiale. Ils ne nomment pas leurs propres robots comme les traditionnels Baidu, Google, Sogou et Bing, mais explorent silencieusement et anonymement", a déclaré You Yunting. En fait, ces robots anonymes ne sont pas nécessairement exécutés au nom de ces sociétés de recherche d’IA. Il existe de nombreux services d'exploration tiers sur le marché qui utilisent diverses méthodes pour contourner ces directives de base en matière d'exploration. La réponse de Secret Tower n'a pas précisé si ces services avaient été utilisés.
La peroplexité a déjà fait l’objet de controverses similaires.
À cette époque, le magazine Wired et le développeur Robb Knight ont enquêté et ont découvert que Perplexity n'était pas conforme à la norme robots.txt. Le fondateur Aravind Srinivas a répondu dans une interview que Perplexity n'a pas ignoré le protocole d'exclusion des robots... Le robot d'exploration Web en question s'est avéré appartenir à un fournisseur tiers.
Mais lorsqu'on lui a demandé s'il arrêterait d'utiliser des robots d'exploration tiers, il a simplement répondu "c'est compliqué". De plus, l’enquête de l’époque a révélé que dans certains cas, Perplexity n’avait peut-être pas résumé les articles réels, mais avait plutôt reconstruit le contenu sur la base des URL et des traces laissées dans les moteurs de recherche, telles que des extraits et des métadonnées. Du déjà vu.
Selon l'article publié par MiTa, l'avis d'infraction envoyé par CNKI à MiTa comptait 28 pages. Secret Tower a seulement intercepté la lettre de notification et l'a publiée. À en juger par les captures d'écran publiées, le contenu restant répertorie principalement des preuves d'infraction. Ces contenus peuvent non seulement montrer l'exploration de divers résumés et titres.
Selon ce que de nombreux utilisateurs ont partagé précédemment, la Secret Tower peut obtenir des documents non publics et peuvent être lus directement sur la page Web de la Secret Tower. Bien que ces documents PDF soient liés à des sites Web de bibliothèques externes, ils peuvent en fait être stockés sur la Secret Tower. Serveur tour. You Yunting estime que si Secret Tower crée une base de données d'index contenant le texte intégral des articles du CNKI, cela pourrait constituer une contrefaçon.
"La section podcast et bibliothèque de la recherche AI de MiTa dispose d'une base de données d'index. La bibliothèque d'index que je comprends peut être que MiTa a directement construit une base de données d'index en interne pour la littérature collectée par lots. Lorsque l'utilisateur effectue une recherche, MiTa effectuera une recherche sur le réseau. Correspondant contenu en temps réel, puis utiliser l'intelligence artificielle pour intégrer les résultats de recherche en temps réel et indexer le contenu de la bibliothèque afin de fournir des réponses", a déclaré You Yunting. Autrement dit, bien que la page principale des résultats d'affichage présente l'index sous forme de sources annotées, le « texte original » est également déplacé dans son propre service.
"La base de données d'index est probablement réelle. En fait, ce n'est pas difficile à prouver techniquement. Nous avons rencontré ce problème lorsque nous représentions le procès. Nous utilisons généralement un logiciel de capture de paquets pour afficher la véritable adresse IP du document. Si l'adresse IP est situé sur le serveur de la tour secrète, cela signifie qu'il a été fourni par la tour secrète.
De plus, en tant que moteur de recherche d'IA basé sur des modèles pré-entraînés, la question de savoir si ces données de propriété intellectuelle sont utilisées dans les données de formation est une question plus importante.
Lorsque les données papier de la formation sont hautement cohérentes avec le texte original et que le contenu final envoyé à l'utilisateur est hautement cohérent avec le texte original en raison du problème de « sur-ajustement » que rencontre généralement le modèle, cela entre dans la catégorie des violation du droit d'auteur similaire au « nettoyage du papier » provenant d'une utilisation équitable.
Mais dans de telles circonstances, le CNKI a-t-il le droit de « protéger » ces articles rédigés par des chercheurs individuels ?
"HowNet n'a pas le droit de revendiquer une violation du droit d'auteur de Secret Tower Training", estime You Yunting.
Il a déclaré que bien que la plupart des articles sur le site Web du CNKI soient inclus, CNKI a le droit de diffuser des informations sur le réseau autorisé par le magazine ou l'auteur. Si l'article est utilisé pour la formation, le droit d'auteur impliqué dans la formation est le droit. de reproduction et de reproduction stipulés dans la loi sur le droit d’auteur. Les droits d’auteur et autres droits ne portent pas atteinte aux droits de diffusion du réseau d’information de CNKI. Bien sûr, si la formation sur la tour secrète du magazine en matière de protection des droits est enfreinte, alors la tour secrète sera confrontée au même problème que le New York Times poursuivant OpenAI.
1
Il est temps de discuter plus sérieusement
Par conséquent, la cible à laquelle les tours secrètes veulent « répondre » n’est pas seulement CNKI, qui a été qualifiée de « maléfique » par les internautes.
En plus de répondre à CNKI - ces réponses suscitent toujours de l'empathie, à en juger par la section commentaires de sa réponse à l'article, les gens ont encore longtemps l'attitude de CNKI, et "arrêtent" la tour secrète - les tours secrètes peuvent être capable de Les auteurs individuels derrière les données de formation expliquent comment les données sont utilisées.
La fonction de recherche « académique » controversée est une conception importante qui distingue Secret Tower des autres Perplexities. Cette fonction a également reçu les éloges de nombreux utilisateurs. Ces utilisateurs sont souvent ceux qui doivent effectuer un grand nombre de recherches documentaires pour des tâches telles que des devoirs en classe, la création secondaire d'articles et même la rédaction d'articles.
Pour les véritables auteurs de l’article, l’utilisation de ces données peut poser d’autres problèmes.
Un article récent de Nature soulignait que de nombreux éditeurs universitaires ont autorisé les entreprises technologiques à accéder à leurs propres articles pour former des modèles d’IA. Par exemple, l’éditeur américain Wiley a directement perçu 23 millions de dollars de revenus après avoir autorisé une entreprise à utiliser son modèle de formation de contenu. Et ces revenus n’ont rien à voir avec les auteurs des articles.
Outre ce problème réel de répartition des revenus qui risque d'être à terme insoluble, pour ces chercheurs, certains systèmes d'évaluation très importants dans le monde académique ont également été perturbés dans le processus de génération de cette « recherche académique de l'IA ». Par exemple, les citations, un indicateur très important dans le monde universitaire, semblent ne plus exister dans ces scénarios de recherche académique en IA. Le caractère aléatoire et ininterprétable du grand modèle lui-même, ainsi que le caractère incomplet des données, rendent les résultats de recherche universitaire qu'il génère différents des normes de jugement de la communauté universitaire elle-même.
Un universitaire a déclaré à Silicon Star : Lorsque ces recherches d’IA génèrent d’elles-mêmes des réponses, quels sont les critères pour choisir laquelle, laquelle et laquelle ? Pour les universitaires qui considèrent le nombre de citations comme le critère le plus direct de la teneur en or, si ces résultats de l’IA deviennent de plus en plus nombreux et sont ensuite utilisés par de nombreux chercheurs dans leurs propres articles, est-ce aussi une autre forme de pollution SEO par l’IA ?
Résultats des questions posées dans la loi sur la tour secrète
Quant au différend lui-même, lorsque Secret Tower a effacé les documents CNKI de la base de données d'indexation et n'a plus fourni aux utilisateurs la fonction de lecture en ligne des documents CNKI, le différend concernant la violation de la propriété intellectuelle était minime, et You Yunting a déclaré que selon le « Anti- Conformément à la loi sur le monopole inversé et à la Convention sur l'autodiscipline des services de moteurs de recherche Internet, il n'est plus raisonnable pour CNKI de ne pas autoriser Secret Tower Search à capturer ces deux parties de l'information publique.
Mais si les sociétés de recherche en IA considèrent les produits sur lesquels elles travaillent comme une affaire sérieuse et à long terme, alors en plus de célébrer quelques petites bénédictions du produit et certaines attitudes chics, il est également temps d'affronter ces problèmes complexes et réalistes. , et en en discutant ouvertement et de manière appropriée, ce n'est qu'alors qu'ils pourront réellement espérer atteindre le véritable nœud du domaine actuel de l'accès à l'information qu'ils espèrent contester.