nouvelles

CNKI "accuse" MITA de violation de la recherche AI : déconnectez immédiatement le lien de notre site Web

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

(Source de l'image : unsplash)

Actualités Titanium Media App du 16 aoûtLa startup nationale d'IA "Shanghai MiTa Network Technology Co., Ltd." (appelée "MiTa Technology") a publié une déclaration indiquant que CNKI a récemment publié une lettre avertissant la startup de recherche d'IA MiTa Technology de présenter des informations académiques dans les résultats de recherche d'IA. sans autorisation. Le titre, la table des matières et le résumé du document constituent une infraction grave, et la lettre de notification d'infraction compte 28 pages.

Secret Tower Technology souligne :Même si elle ne comprend pas ce comportement, l’entreprise respecte le choix de CNKI. À partir de maintenant, Secret Tower AI Search n'inclura plus les données bibliographiques et abstraites des documents CNKI, mais inclura à la place les données bibliographiques et abstraites d'autres bases de connaissances chinoises et anglaises faisant autorité. D'autres bases de données sont également invitées à coopérer et à discuter.

Il est rapporté que MiTa Technology a été fondée en 2018. Le PDG de la société, Min Kerui, était auparavant le scientifique en chef de Cheetah Mobile et est actuellement le scientifique en chef du laboratoire d'intelligence artificielle juridique de l'Université de Pékin.

En 2018, MiTa a lancé successivement le produit de traduction juridique par IA « MiTa Translation » et le produit de correction d'erreurs et de relecture « MiTa Writing Cat ». En 2022, elle a lancé le produit de génération d'articles « Quantum Sketch », avec plus de 10 000 utilisateurs quotidiens en une semaine ; d'aller en ligne.

Depuis mars de cette année, le « Mita AI Search » créé par Mita Technology est soudainement devenu populaire et a attiré l'attention du marché. Le site Web a été visité plus de 7 millions de fois ce mois-là. Selon Similar Web, une plateforme de surveillance des données d'accès aux sites Web, le nombre de visites sur MiTa Search en mars se classait au troisième rang parmi un groupe de produits d'IA en Chine, juste derrière Baidu Wenxin Yiyanhe.face cachée de la luneKimi;Le taux de croissance du mois a atteint 550%.

En août de cette année, MiTa Technology a annoncé la finalisation d'un financement de série A de plus de 100 millions de RMB, dirigé par Ant Group, avec une valorisation post-money de 150 millions de dollars américains (environ 1,077 milliard de RMB). Les anciens actionnaires précédents de Secret Tower comprennent Mingshi Capital, Cheetah Mobile et Fengyuan Capital.

Du point de vue du produit, par rapport aux moteurs de recherche traditionnels, la recherche IA donne directement aux utilisateurs des réponses aux questions et joint des liens sources. Le site officiel de recherche MiTa AI propose trois modes de réponse : "concis", "approfondi" et "recherche", et la portée de la recherche peut être définie sur "réseau entier", "bibliothèque", "académique", "podcast" et d'autres sources.

Concernant le suivi de la lettre de notification, selon le Southern Metropolis Daily, Wang Yiwei, directeur de l'exploitation de Mita Technology, a déclaré que CNKI n'avait pas spécifiquement indiqué dans la lettre de notification quels droits et intérêts avaient été violés. La recherche MiTa AI pour la section « académique » de CNKI peut également générer du trafic vers CNKI. Certains utilisateurs activent leurs comptes CNKI via la recherche MiTA AI et paient pour CNKI, ce qui en soi est un avantage pour CNKI. Compte tenu de l’obligation de déconnexion de CNKI, « nous ne forcerons aucune intersection ».

Selon Wang Yiwei, les résultats de recherche précédents d'IA non seulement étaient liés à CNKI, mais d'autres bases de données chinoises et anglaises faisant autorité n'ont pas encore demandé à se déconnecter.Cependant, la déconnexion du lien CNKI n'affectera pas l'expérience des produits MiTa.

Titanium Media App a appris que,Tongfang CNKI (Beijing) Technology Co., Ltd., la société mère de CNKI, a récemment travaillé avec Huawei pour créer un modèle appelé Chinese Knowledge Big Model (Huazhi Big Model), qui peut prendre en charge les services de connaissances, la recherche scientifique, l'apprentissage par enquête, production et exploitation, diagnostic et traitement auxiliaires, scénarios dans des domaines tels que la justice intelligente.

Zhang Hongwei, directeur général de Tongfang CNKI, a révélé en juillet de cette année que CNKI était une société leader dans l'édition numérique et les services de connaissances avec des utilisateurs dans plus de 90 pays à travers le monde, y compris l'éducation, la recherche scientifique, les groupes de réflexion, les gouvernements, les entreprises. , et les utilisateurs du CNKI, en particulier les établissements nationaux d'enseignement et de recherche, détiennent essentiellement une part de marché de 100 %. À l'heure actuelle, Tongfang CNKI est affiliée à la China National Nuclear Corporation et est une entreprise publique. L'organisation a établi des relations de coopération avec plus de 20 000 organismes d'édition dans plus de 70 pays à travers le monde. Elle a initialement construit une connaissance mondiale du Big Data. et exploite la plus grande bibliothèque de ressources de connaissances chinoises au monde.

Zhang Hongwei a souligné que sur la base du grand modèle Huazhi, la société a procédé à une transformation en profondeur de toute la gamme de produits CNKI, du traitement et de l'annotation jusqu'à l'ajout de cet outil à la plateforme de services pour diverses industries. Depuis son ouverture officielle au public à la mi-mai de cette année, le nombre d'utilisateurs de Huazhi a augmenté rapidement et le nombre actuel d'utilisateurs individuels a dépassé les 10 millions.

Cependant, CNKI a été condamnée à plusieurs amendes et l'industrie a des doutes sur son modèle de développement. Le 26 décembre 2022, l'Administration d'État pour la régulation du marché a pris une décision de sanction administrative conformément à la loi, ordonnant à CNKI de mettre fin à ses activités illégales et lui a imposé une amende de 5 % de ses ventes intérieures en Chine de 1,752 milliard de yuans en 2021. pour un montant total de 87,6 millions de yuans ; en septembre 2023, l'Administration chinoise du cyberespace a pris une décision concernant les sanctions administratives liées à l'examen de la sécurité du réseau de CNKI conformément à la loi, lui a ordonné de mettre fin au traitement illégal d'informations personnelles et lui a infligé une amende de 50 RMB. millions, citant les opérations mobiles CNKI et CNKI qu'elle exploite. Les 14 applications ont été accusées d'avoir des problèmes connexes, notamment la collecte d'informations personnelles en violation du principe de nécessité, la collecte d'informations personnelles sans consentement, la non-divulgation ou l'indication explicite des règles de collecte et d'utilisation. , ne fournissant pas de fonction d'annulation de compte et ne supprimant pas les informations personnelles de l'utilisateur en temps opportun après que l'utilisateur a annulé les informations de compte, etc.

Liu Wenjie, professeur à l'Institut de droit comparé de l'Université chinoise des sciences politiques et du droit, estime qu'un résumé est un résumé concentré du contenu d'un article, en particulier des pensées et des idées si des services de recherche sont fournis aux utilisateurs d'Internet. et l'exploration de données publiques sur Internet pour fournir des résumés d'articles, cela doit être considéré comme une utilisation équitable en vertu de la loi sur le droit d'auteur et ne constitue généralement pas une violation du droit d'auteur.

Récemment, Elizabeth Gibney, rédactrice en chef de la revue de renommée internationale Nature, a publié un article indiquant que de plus en plus d'éditeurs universitaires accordent des licences d'articles de recherche à des entreprises technologiques pour la formation de modèles d'IA. Un éditeur universitaire a gagné 23 millions de dollars grâce à cette somme, tandis que l'auteur n'en a gagné aucun. Ces transactions, souvent effectuées sans consulter les auteurs, ont suscité un fort mécontentement chez certains chercheurs.

"Si votre article n'a pas été utilisé comme données de formation en IA, il fera probablement bientôt partie de la formation." Elizabeth Jipney a souligné dans l'article qu'actuellement, les auteurs d'articles universitaires n'ont pratiquement pas le choix face aux éditeurs qui vendent leurs œuvres protégées par le droit d'auteur. ingérence. Pour les articles publiés publiquement, il n’existe aucun mécanisme permettant de confirmer si ces contenus sont utilisés comme données de formation à l’IA. Dans le cadre de l'utilisation de grands modèles linguistiques, la manière d'établir un mécanisme plus équitable pour protéger les droits et les intérêts des créateurs mérite un débat approfondi dans les cercles universitaires et du droit d'auteur.

Grand modèle de langage (Maîtrise en droit (LL.M.)) s'appuient généralement sur de grandes quantités de données récupérées sur Internet à des fins de formation. Ces données comprennent des milliards d'informations linguistiques (appelées « jetons »), et en analysant les modèles entre ces jetons, le modèle est capable de générer un texte fluide. En raison de leur contenu riche et de leur haute densité d’informations, les articles universitaires ont plus de valeur que de grandes quantités de données ordinaires et constituent une source de données importante pour la formation en IA. Stefan Baack, analyste de données de la Fondation Mozilla, a analysé que les articles scientifiques sont très utiles pour la formation de grands modèles de langage, notamment en termes de capacités de raisonnement sur des sujets scientifiques. C’est précisément en raison de la grande valeur des données que les grandes entreprises technologiques ont dépensé d’énormes sommes d’argent pour acheter des ensembles de données.

You Yunting, associé principal et avocat du cabinet d'avocats Shanghai Dabang, a déclaré que le plus gros problème avec la section « académique » de la recherche MiTa AI est qu'elle peut afficher entièrement le contenu de l'article « Le PDF de l'article est inclus dans ». les résultats de la recherche. Bien qu'ils ne puissent pas être téléchargés, l'utilisateur peut les retrouver sur la page des résultats. " Vous pouvez consulter le texte intégral de cet article en cliquant sur le lien PDF, ce qui porte atteinte au droit de l'article de diffuser des informations en ligne. " Mais si l'IA absorbe l'essence de l'article et la transmet à l'utilisateur à sa manière, conformément à la loi sur le droit d'auteur, elle stipule que la citation raisonnable d'une partie de l'œuvre afin d'expliquer un certain problème est considérée comme une utilisation équitable.

Concernant l'utilisation de données papier pour la formation de grands modèles, You Yunting a déclaré que ce comportement ne porte pas atteinte à l'infrastructure nationale des connaissances de la Chine. Selon la loi sur le droit d'auteur, le processus de formation consiste à copier et à apprendre. Copier consiste à copier des articles d'Internet vers le serveur à des fins de formation. Il n'existe actuellement aucun jugement juridique clair permettant de déterminer si l'apprentissage constitue une contrefaçon. Cependant, qu'il s'agisse du droit de reproduction, d'étude, ou d'autres droits voisins du droit d'auteur, CNKI n'est pas titulaire des droits sur le papier.

Zhang Hongwei a déclaré franchement qu'à l'ère des grands modèles d'IA, CNKI doit établir un écosystème et une coopération.

« S'il n'y a pas d'industrie en amont, d'édition et d'approvisionnement continu en données de haute qualité provenant de l'industrie des données, il sera en réalité difficile pour notre industrie de l'intelligence artificielle de maintenir un développement de haute qualité. Pour résoudre un tel problème, nous Nous avons besoin de toute notre industrie pour tester la sagesse. Nous devons travailler ensemble pour construire un.AIGCLa bonne écologie de l’époque favorisera conjointement le développement de haute qualité de cette industrie. Nous, CNKI, sommes disposés à coopérer avec tout le monde dans cet aspect afin de promouvoir le développement durable et de haute qualité de l'industrie. ", a déclaré Zhang Hongwei.