nouvelles

Copyright Trap : Une version littérale du « jeu du chat et de la souris » à l’ère de l’IA

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

depuisintelligence artificielle générative Depuis que l’épidémie a balayé le monde, de nombreux créateurs de contenu affirment que leurs œuvres sont utilisées sans autorisation pour entraîner des modèles d’intelligence artificielle. Mais jusqu’à présent, il a été difficile de déterminer si le travail, selon eux, était réellement utilisé dans certains ensembles de données de formation.

Aujourd’hui, les chercheurs ont développé une nouvelle façon de le prouver. Récemment, une équipe de chercheurs de l'Imperial College de Londres a développé des « pièges de droit d'auteur », un type de texte caché qui permet aux écrivains et aux éditeurs de marquer subtilement leurs œuvres pour détecter plus tard si elles ont été protégées par le droit d'auteur. Utilisé pour entraîner des modèles d'intelligence artificielle. L'idée est similaire aux tactiques précédemment utilisées par les détenteurs de droits d'auteur, telles que l'ajout de faux emplacements sur des cartes ou de faux mots dans des dictionnaires.

Ces pièges liés au droit d’auteur sur l’IA ont déclenché l’un des plus grands débats dans le domaine de l’IA. De nombreux éditeurs et auteurs mènent des poursuites contre des entreprises technologiques, affirmant que leur propriété intellectuelle est incluse sans autorisation dans les ensembles de données de formation à l’intelligence artificielle.Par exemple, le New York TimesOpenAI Le procès est peut-être le cas le plus typique.

Jusqu'à présent, le code permettant de générer et de détecter les pièges a été lancé sur GitHub. Ensuite, l'équipe prévoit de développer un outil permettant aux utilisateurs de générer et d'injecter eux-mêmes des pièges liés aux droits d'auteur.

Yves-Alexandre de Montjoye, professeur de mathématiques appliquées et d'informatique à l'Imperial College de Londres, qui a dirigé la recherche, a déclaré cette semaine à l'International Machine Learning Conference, une conférence majeure sur l'intelligence artificielle à Vienne : « Il n'y a actuellement aucun consensus sur ce qu'il faut faire. "

Pour créer le piège, lui et son équipe ont utilisé un générateur de mots pour créer des milliers de phrases synthétiques. Les phrases sont longues et fondamentalement charabia, comme "Quand les temps turbulents arrivent... Ce qui est en vente, et plus important encore, quand c'est le meilleur, cette liste vous indique qui est le jeudi. Ouverture le soir avec leurs heures de vente habituelles et autres heures d'ouverture. pour toi. "

Yves-Alexandre de Montjoye a expliqué : « Nous avons généré 100 phrases pièges, puis avons sélectionné une phrase au hasard pour l'injecter plusieurs fois dans le texte. » En même temps, le piège peut également être injecté dans le texte de différentes manières. par exemple, dans Utiliser du texte blanc sur fond blanc ou intégrez-le dans le code source de l'article. Cette phrase doit être répétée 100 à 1000 fois dans le texte.

Pour détecter ces pièges, ils ont introduit 100 phrases synthétiques générées dans un grand modèle de langage et ont vu si le modèle les qualifiait de nouvelles phrases. Si le modèle a vu des phrases pièges dans ses données d'entraînement, il affiche un « score de perplexité » plus faible mais si le modèle est « surpris » par les phrases, cela signifie que le modèle les a rencontrées pour la première fois et donc ces phrases ne le sont pas ; pièges.

Dans le passé, les chercheurs ont suggéré d'utiliser des modèles linguistiques pour mémoriser les données d'entraînement afin de déterminer si quelque chose est présent dans les données. Cette technique, connue sous le nom d'« attaques par inférence d'adhésion », fonctionne mieux dans les grands modèles avancés, car ces modèles ont tendance à mémoriser de grandes quantités de données pendant l'entraînement.

"En revanche, les modèles plus petits qui sont de plus en plus populaires et peuvent être exécutés sur des appareils mobiles sont moins sensibles aux attaques par inférence d'adhésion en raison de plus petites quantités de données en mémoire. Cela permet de déterminer plus facilement s'ils ciblent un droit d'auteur spécifique. Il devient plus difficile de former sur le texte », a déclaré Gautam Kamath, professeur adjoint d'informatique à l'Université de Waterloo. Il n'a pas participé à l'étude.

Piège du droit d'auteur, comme moyen de mener des attaques par inférence d'adhésion, même sur des modèles plus petits. L'équipe d'Yves-Alexandre de Montjoye a injecté son piège dans le jeu de données d'entraînement de CroissantLLM. CroissantLLM est un modèle linguistique bilingue français-anglais nouvellement développé, formé par une équipe de recherche de l'Imperial College de Londres en collaboration avec des partenaires de l'industrie et du monde universitaire. CroissantLLM possède 1,3 milliard de paramètres, soit une fraction des modèles de pointe (par exemple, GPT-4 aurait 1,76 billion de paramètres).

"La recherche montre que de tels pièges peuvent effectivement être introduits dans les données textuelles, améliorant considérablement l'efficacité des attaques par inférence d'appartenance, même pour des modèles plus petits", a déclaré Gautam Kamath, mais il a ajouté qu'il y avait encore beaucoup à faire à ce stade. être terminé.

"Répéter 1 000 fois une phrase de 75 caractères dans un texte a un impact important sur le texte original. Cela pourrait permettre à un entraîneur entraînant un modèle d'IA de repérer un piège et d'ignorer le contenu qui le contient, ou simplement de le supprimer et d'ignorer le reste. le texte. Cela rend également le texte original difficile à lire", a souligné Gautam Kamath.

"Cela rend les pièges du droit d'auteur peu pratiques pour le moment. De nombreuses entreprises procéderont à la déduplication, en d'autres termes, elles nettoieront les données, et ces pièges du droit d'auteur pourront être supprimés. Professeur d'informatique à l'UC Irvine, startup Sameer Singh, co- a déclaré le fondateur de Spiffy AI. Il n’a pas non plus participé à l’étude.

Selon Gautam Kamath, une autre façon d'améliorer les pièges du droit d'auteur est de trouver d'autres moyens de marquer le contenu protégé par le droit d'auteur afin que les attaques par inférence d'adhésion fonctionnent mieux contre eux, ou d'améliorer les attaques par inférence d'adhésion elles-mêmes.

Yves-Alexandre de Montjoye reconnaît que ces écueils ne sont pas infaillibles. "Un attaquant motivé pourrait retirer le piège s'il savait qu'il existe", a-t-il déclaré.

"Mais on ne sait pas s'ils pourront tous les supprimer, et cela pourrait être un peu un jeu du chat et de la souris", a-t-il déclaré. "Même ainsi, plus vous installez de pièges, sans y consacrer beaucoup de ressources d'ingénierie, plus vous en avez. mieux. Il devient plus difficile d’éliminer tous les pièges.

"Il est important de se rappeler que les pièges liés au droit d'auteur peuvent être une mesure provisoire ou simplement un inconvénient pour les formateurs de mannequins. Il est impossible pour quiconque de publier un contenu contenant un piège et de garantir qu'il s'agira toujours d'un piège valide", a déclaré Gautam Kamath.

Lien d'origine :

https://www.technologyreview.com/2024/07/25/1095347/a-new-tool-for-copyright-holders-can-show-if-their-work-is-in-ai-training-data/