nouvelles

Contraste apprendre à abuser des données privées ! L'Académie chinoise des sciences et d'autres ont publié la méthode de « minimisation des erreurs en plusieurs étapes » |

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : LRST Tellement endormi

[Introduction à la nouvelle sagesse] Les chercheurs proposent une nouvelle méthode de minimisation des erreurs (MEM) en plusieurs étapes pour générer des échantillons multimodaux impossibles à apprendre afin de protéger les données personnelles contre les abus causés par des modèles d'apprentissage contrastifs multimodaux. En optimisant le bruit de l'image et les déclencheurs de texte, la méthode MEM induit effectivement le modèle en erreur, réduisant sa capacité d'apprentissage sur des données privées, et démontre une forte transférabilité entre différents modèles.

L'apprentissage contrastif multimodal (tel que CLIP) a réalisé des progrès significatifs dans la classification zéro-shot en apprenant à partir de millions de paires image-légende récupérées sur Internet.

Cependant, cette dépendance présente des risques pour la vie privée, car les pirates peuvent exploiter sans autorisation les données image-texte pour la formation de modèles, qui peuvent inclure des informations personnelles et sensibles à la vie privée.

Des travaux récents proposent que des raccourcis avec protection puissent être établis en générant des exemples impossibles à apprendre en ajoutant des perturbations imperceptibles aux images d'entraînement.

Cependant, ces méthodes sont conçues pour des tâches de classification monomodales et restent sous-explorées en apprentissage contrastif multimodal. Cet article explore d'abord ce contexte en évaluant les performances des méthodes existantes sur les paires image-légende, où les méthodes précédentes ne peuvent pas se généraliser efficacement aux données multimodales en raison du manque d'étiquettes dans ce scénario, et ont une efficacité limitée dans l'établissement de raccourcis.

Dans cet article, nous proposons la minimisation des erreurs en plusieurs étapes (MEM), un nouveau processus d'optimisation pour générer des échantillons multimodaux non apprenables. Il étend le cadre de minimisation des erreurs (EM) pour optimiser le bruit de l'image et les déclencheurs de texte supplémentaires, élargissant ainsi l'espace d'optimisation et induisant efficacement le modèle en erreur pour apprendre des raccourcis entre les fonctionnalités de bruit et les déclencheurs de texte.


Lien papier : https://arxiv.org/abs/2407.16307

Lien du code : https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

Plus précisément, la descente de gradient projetée est adoptée pour résoudre le problème de minimisation du bruit, et la méthode HotFlip est utilisée pour approximer le gradient et remplacer les mots afin de trouver le déclencheur de texte optimal.

Un grand nombre d'expériences ont prouvé l'efficacité de la méthode, les résultats de récupération après protection sont près de la moitié de ceux d'une estimation aléatoire et elle est hautement transférable entre différents modèles. Le papier et le code de ce travail sont open source.

Fond de recherche

Ces dernières années, avec l’essor de l’apprentissage multimodal, les chercheurs se sont vivement intéressés aux modèles combinant plusieurs types de données tels que le texte, les images et l’audio.

Parmi eux, l'apprentissage contrastif multimodal est devenu une méthode importante dans ce domaine. Des modèles tels que CLIP et ALIGN utilisent l'entraînement à la perte contrastive pour améliorer la corrélation entre les images et le texte, réduisant ainsi le besoin d'annotation manuelle et démontrant les avantages de l'image. classification, potentiel dans des tâches telles que la génération.

Cependant, la formation de ces modèles repose sur de grandes quantités de données multimodales, qui proviennent souvent d'ensembles de données accessibles au public tels que CC12M, YFCC100M et LAION5B, mais ces ensembles de données peuvent encore être insuffisants et contenir une grande quantité d'informations personnelles sensibles. déclenchant des inquiétudes concernant les atteintes à la vie privée.

Nous considérons un scénario axé sur la génération d'échantillons multimodaux non apprenables pour faire face aux risques pour la vie privée associés à l'apprentissage contrastif multimodal. Dans ce scénario, nous nous concentrons sur les paires image-texte en tant qu'ensembles de données multimodaux représentatifs. On suppose que les utilisateurs partagent souvent des photos personnelles accompagnées de texte sur les plateformes de médias sociaux telles que Facebook, y compris certaines informations d'identification privées telles que des visages, des noms, des numéros de téléphone et des adresses.

Actuellement, les pirates informatiques tentent de collecter un grand nombre de ces paires image-texte sur Internet et de former ou d'affiner de grands modèles à l'aide de techniques d'apprentissage contrastif multimodal, comme le montre la moitié gauche de la figure 1.

Ces modèles capturent par inadvertance les informations privées et les caractéristiques faciales des utilisateurs, ce qui entraîne des fuites potentielles de confidentialité. Les protecteurs visent à empêcher toute exploitation non autorisée de ces données sensibles en mettant en œuvre des méthodes non apprenables sur les données multimodales. Ces méthodes rendent les fonctionnalités privées de l'utilisateur inaccessibles au modèle formé sur de tels échantillons multimodaux impossibles à apprendre, tout en n'entrave pas l'interaction sociale de l'utilisateur après la publication d'images et de textes, comme le montre la moitié droite de la figure 1.


Figure 1 : Les publications sur Facebook peuvent révéler par inadvertance des informations personnelles (à gauche), mais les données peuvent être protégées en utilisant des échantillons multimodaux non mémorisables pour empêcher les modèles non autorisés d'accéder aux fonctionnalités privées (à droite)

motivation

Des recherches récentes se concentrent sur la prévention de l’utilisation non autorisée des données dans la classification d’images à travers des exemples impossibles à apprendre. Ces méthodes empêchent le modèle d'apprendre les caractéristiques de l'image en appliquant des perturbations subtiles aux données, également connues sous le nom d'attaques de disponibilité ou d'attaques d'empoisonnement aveugles.

Il est principalement divisé en attaques de modèle sans agent et en attaques de modèle basées sur agent, où les attaques de modèle sans agent génèrent du bruit au niveau des pixels, tandis que les attaques de modèle basées sur agent génèrent du bruit au niveau des fonctionnalités via le modèle d'agent.

Cependant, toutes les méthodes de classification sans agent ne parviennent pas à générer du bruit d'image dans des scénarios multimodaux, car ces méthodes visent à trouver une série de modèles de bruit spécifiques pour les images liées à une catégorie spécifique, tandis que les paires image-texte ne contiennent aucune étiquette. les données.

Par conséquent, seules les méthodes basées sur des modèles d'agent peuvent être appliquées, et nous étendons deux méthodes typiques pour générer des exemples multimodaux non apprenables (EM et UAP).

La méthode EM (Error-Minimizing Noise) :


Méthode de perturbation contradictoire non ciblée (UAP) :


Bien que EM et UAP puissent être appliqués aux paires image-sous-titre, ils ne parviennent pas à assurer une protection efficace, en particulier UAP. Nous explorons les raisons pour lesquelles l'efficacité de ces méthodes diminue depuis la classification d'images jusqu'à l'apprentissage contrastif multimodal.

Dans la classification d'images, EM et UAP optimisent les images portant la même étiquette pour qu'elles convergent dans l'espace des caractéristiques, ce qui permet au modèle de capturer facilement ces bruits supplémentaires et d'apprendre la corrélation avec l'étiquette, comme le montre la figure 2 (a).


Figure 2 : Comparaison de différentes méthodes de classification traditionnelle et d'apprentissage contrastif multimodal. Représente une image et est le titre associé.La zone bleue est la limite de décision attendue pour un modèle formé sur des échantillons non apprenables

Mais dans l'apprentissage contrastif multimodal, afin d'appliquer efficacement les méthodes EM et UAP, la direction du bruit d'image optimisé doit être liée aux caractéristiques du texte, ce qui amène les caractéristiques de l'image à se rapprocher ou à s'éloigner de ces caractéristiques. .

Cependant, différentes paires de caractéristiques de texte peuvent être largement dispersées dans les ensembles de données image-texte. Comme le montrent les figures 2 (b) et (c), contrairement à la classification, il est plus difficile pour le modèle de capturer la corrélation entre les sous-titres et le bruit généré par EM et UAP.

Dans la figure 2 (c), l'espace de décision d'apprentissage de l'UAP est plus complexe, son effet de protection n'est donc pas bon.

méthode


Figure 3 : Cadre de la méthode de minimisation des erreurs en plusieurs étapes (MEM)

En raison de la dispersion des paires image-texte, les méthodes basées sur des modèles proxy ne peuvent toujours pas assurer une protection efficace. Une stratégie d'amélioration intuitive consiste à optimiser simultanément les images et le texte pour obtenir un espace d'optimisation plus grand et favoriser leur convergence sur différentes paires dans l'espace de fonctionnalités.

Par conséquent, les représentations de caractéristiques optimisées des ensembles d'images et de textes présentent des distributions similaires, ce qui facilite l'apprentissage par le modèle de leurs raccourcis, comme le montre la figure 2 (d).

À cette fin, nous prenons la méthode EM comme cadre de base et proposons d'ajouter des déclencheurs de texte courts supplémentaires avant les sous-titres afin de minimiser la perte de contraste, suite à la mise en place d'attaques contradictoires sur les tâches de texte. Notre méthode peut être conceptualisée comme un problème d’optimisation itérative à trois niveaux, similaire au processus multi-étapes de l’EM.

Plus précisément, nous optimisons le bruit δ et le déclencheur de texte t séquentiellement pour réduire la perte de contraste entre l'image optimisée I + δ et le texte optimisé T ⊕ t, où ⊕ représente un déclencheur pouvant insérer du texte propre T à différentes positions.

Par souci de simplicité, dans cet article nous choisissons d'ajouter un déclencheur de texte au début du texte. Par conséquent, notre méthode de minimisation des erreurs en plusieurs étapes (MEM) peut être formulée comme suit :


Les problèmes ci-dessus sont optimisés de manière itérative en se référant aux méthodes d’EM. La descente de gradient projetée (PGD) est utilisée pour résoudre le problème de minimisation du bruit dans l'équation.

Notamment, pour atténuer le surajustement du bruit pour nettoyer les sous-titres, nous les améliorons en brouillant les sous-titres clairs par lots et en ajoutant des déclencheurs de texte correctement adaptés. Par conséquent, face à des sous-titres sémantiquement incorrects, ce bruit généré peut se concentrer davantage sur des déclencheurs textuels plutôt que sur des sous-titres partiels. Par conséquent, nous pouvons obtenir le δ optimal selon la formule itérative suivante :

Pour le problème de minimisation du déclencheur de texte, la séquence de déclenchement est d'abord initialisée en répétant le mot « le » ou « a » devant toutes les entrées.

De plus, le déclencheur de texte est optimisé sur la base de HotFlip et l'effet du remplacement de la marque est approximé par un dégradé. En mettant à jour l'intégration de chaque jeton de déclenchement pour minimiser l'approximation de Taylor de premier ordre de la perte CLIP autour de l'intégration actuelle du jeton :


Enfin, nous pouvons utiliser la recherche par faisceau pour rechercher chaque déclencheur de texte optimal dans l'ensemble des balises candidates. Nous considérons les k meilleurs candidats de l'équation ci-dessus et recherchons d'avant en arrière à chaque position de la bascule et notons chaque paquet en utilisant la perte du lot actuel.

Nous suivons l'approche de Wallace et al. et utilisons de petites tailles de bundles pour un calcul efficace. Dans la figure 3, nous pouvons voir le cadre d'utilisation de notre MEM pour générer des échantillons multimodaux non apprenables.

Effet expérimental

Protection efficace


Tableau 1 : Comparaison de l'efficacité des échantillons impossibles à apprendre générés par plusieurs méthodes sur différents ensembles de données

Le tableau 1 montre leurs résultats de récupération sur différents ensembles de données. De toute évidence, l’UAP n’offre pratiquement aucune protection aux données multimodales, tandis que l’EM présente un certain niveau de protection.

Cependant, notre MEM offre toujours une protection solide pour les données multimodales, réduisant les performances de récupération à près de la moitié de celles d'une estimation aléatoire. MEM-5, en particulier, a obtenu un effet plus important en termes de réduction des performances du modèle de pirate informatique que MEM-3 en raison de son déclencheur de texte plus long.

La figure 4 montre les courbes de baisse de perte de formation pour la formation sur des échantillons non apprenables générés par différentes méthodes et la récupération Medr sur l'ensemble de tests propre. On peut observer à partir de (a) que bien que l'EM fasse chuter la perte plus rapidement que l'entraînement normal, nos méthodes MEM-3 et MEM-5 ont des pertes plus faibles à la première époque, ce qui montre que le modèle peut apprendre rapidement des raccourcis.

D'après (b), nous constatons que le Medr de tous les modèles est inférieur à celui d'une estimation aléatoire, mais le modèle formé sur des échantillons non apprenables cesse d'apprendre le plus rapidement, atteint les pires résultats de récupération et n'augmente pas à mesure que l'époque augmente. Les observations ci-dessus sont cohérentes avec les résultats du tableau 1.


Figure 4 : enregistrements de changement de courbe de perte d'entraînement et indicateur de test Medr

Portabilité entre modèles


Tableau 2 : Transférabilité des échantillons non apprenables générés par la méthode MEM-3 basée sur le modèle ResNet50 sur différentes architectures de modèles

Nous supposons que la protection des données est une configuration totalement noire, dans laquelle le protecteur ignore l’architecture du modèle du pirate informatique. Par conséquent, nous évaluons les performances du MEM généré sur le modèle proxy ResNet50 sur différents modèles de piratage, notamment ResNet101 et ViT. Les résultats sont présentés dans le tableau 2. Nous avons constaté que ces échantillons peuvent être transférés avec succès entre différents modèles et peuvent dégrader les performances des modèles CLIP.

Analyse visuelle


Figure 5 : Visualisation de la carte d'attention : comparaison de quatre modèles sur des données propres et des échantillons non apprenables avec différentes méthodes

La figure 5 montre les cartes thermiques d'attention des modèles formés sur des données propres et des échantillons non apprenables générés par différentes méthodes. Pour les images, nous utilisons Grad-CAM pour visualiser l'attention du modèle, tandis que pour le texte, nous utilisons les dégradés intégrés pour visualiser l'attention. Plus la couleur est claire, plus le modèle attire l’attention.

Il convient de noter que pour les modèles des figures 5(1), (2) et (3), ils se concentrent tous sur la zone centrale, liée aux sous-titres.

Cependant, le modèle formé sur les échantillons générés par MEM-3 dans la figure 5(4) ne peut pas identifier avec précision les images nettes car il n'apprend que les caractéristiques du bruit. Également dans le texte, les modèles des trois premiers se concentrent sur le mot-clé « verre », tandis que le modèle du dernier se concentre sur les trois premiers mots. Cela peut être dû au fait que MEM-3 optimise toujours le bruit et les trois premiers mots. déclencheurs pour créer des raccourcis.

Ces résultats de visualisation montrent que EM et UAP ne sont pas efficaces pour protéger les données multimodales, alors que MEM est significativement efficace.


Figure 6 : Visualisation t-SNE d'échantillons propres et d'échantillons non apprenables optimisés MEM-3 sous modèle propre et modèle empoisonné

Nous visualisons la distribution des caractéristiques des échantillons propres sous le modèle normal et la distribution des caractéristiques des échantillons non apprenables optimisés par MEM3 sur le modèle empoisonné dans la figure 6. Nous utilisons des triangles pour représenter les caractéristiques de l'image, des cercles pour représenter les caractéristiques du texte, et la même couleur représente les cinq images identiques mais transformées dans l'ensemble de données et leurs différentes descriptions correspondantes.

À partir de (a), nous pouvons observer que sous le modèle propre, les mêmes images et textes sont regroupés en interne et les paires image-texte correspondantes sont proches les unes des autres.

Cependant, en (b), la même image et le même texte divergent, et seules les paires d’images et de texte sont proches les unes des autres. Cela montre que notre méthode favorise efficacement le modèle pour apprendre les raccourcis entre les déclencheurs de bruit et de texte.

Étude de cas : Protection de la vie privée du visage

Nous avons mené une étude de cas en appliquant notre bruit MEM à un scénario réel : protéger les images de visages personnels et les informations associées telles que les noms sur les plateformes de médias sociaux.

Nous avons mené des expériences en utilisant la base de données PubFig, un vaste ensemble de données de visages réels contenant 58 797 images de 200 individus collectées sur Internet. Pour l'évaluation de la récupération, nous sélectionnons au hasard une photo de chaque célébrité comme ensemble de test et utilisons toutes les images restantes pour la formation.

Pour un réglage plus réaliste, nous avons modifié leurs noms et fourni un ensemble de modèles de texte liés à ce nom pour la génération de sous-titres. Par la suite, nous utilisons MEM pour générer des échantillons impossibles à apprendre et les évaluer à l’aide de différents modèles de piratage. Les résultats sont présentés dans le tableau 3.

MEM empêche ces modèles affinés d’apprendre les corrélations entre les caractéristiques du visage et du nom, entravant ainsi la récupération précise des personnes sur l’ensemble de test.


Tableau 3 : Effet de protection des échantillons impossibles à apprendre générés par le réglage fin de ResNet50 sur différents modèles pré-entraînés

Conclusion

Dans cet article, nous explorons la protection des données multimodales, en nous concentrant spécifiquement sur les paires image-texte, où nous générons des échantillons multimodaux non apprenables pour empêcher leur exploitation par apprentissage contrastif multimodal. Nous étendons les méthodes de classification précédentes à ce contexte, révélant des limites dues à des modalités accrues et à des données dispersées.

À la lumière de ces résultats, nous introduisons une nouvelle méthode générative appelée minimisation des erreurs en plusieurs étapes (MEM), basée sur le cadre EM. MEM établit efficacement des raccourcis entre les déclencheurs de bruit et de texte et démontre la transférabilité entre différents modèles de piratage.

De plus, nous vérifions l’efficacité de notre approche à l’aide de divers outils de visualisation. Notre travail ouvre une nouvelle direction qui devrait être applicable à d’autres paires de modalités telles que les paires audio-texte et audio-image.

A propos de l'auteur

Les auteurs de cet article proviennent de l’Institut des technologies de l’information, de l’Académie chinoise des sciences, de l’Université technologique de Nanyang, de l’Université nationale de Singapour et de l’Université Sun Yat-sen. Liste des auteurs : Liu Xinwei, Jia Xiaojun, Xunyuan, Liang Siyuan, Cao Xiaochun.

Parmi eux, le premier auteur Liu Xinwei est doctorant à l’Institut des technologies de l’information de l’Académie chinoise des sciences. Les auteurs correspondants sont le professeur Cao Xiaochun de l'Université Sun Yat-sen et le chercheur postdoctoral Jia Xiaojun de l'Université technologique de Nanyang.

Les références:

https://scst.sysu.edu.cn/members/caoxiaochun.html

https://jiaxiaojunqaq.github.io