Nachricht

Lernen Sie im Gegensatz dazu, private Daten zu missbrauchen! Die Chinesische Akademie der Wissenschaften und andere haben die Methode „Mehrstufige Fehlerminimierung“ veröffentlicht |

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: LRST So schläfrig

[Einführung in die neue Weisheit] Forscher schlagen eine neuartige mehrstufige Fehlerminimierungsmethode (MEM) zur Generierung multimodaler nicht lernbarer Stichproben vor, um personenbezogene Daten vor Missbrauch durch multimodale kontrastive Lernmodelle zu schützen. Durch die Optimierung von Bildrauschen und Textauslösern führt die MEM-Methode das Modell effektiv in die Irre, verringert seine Lernfähigkeit bei privaten Daten und zeigt eine starke Übertragbarkeit zwischen verschiedenen Modellen.

Multimodales kontrastives Lernen (wie CLIP) hat erhebliche Fortschritte bei der Zero-Shot-Klassifizierung erzielt, indem es aus Millionen von Bildunterschriftenpaaren gelernt hat, die aus dem Internet stammen.

Diese Abhängigkeit birgt jedoch Risiken für den Datenschutz, da Hacker Bildtextdaten, die persönliche und datenschutzrelevante Informationen enthalten können, ohne Genehmigung für das Modelltraining ausnutzen können.

Neuere Arbeiten schlagen vor, dass Abkürzungen mit Schutz durch die Generierung nicht lernbarer Beispiele durch das Hinzufügen nicht wahrnehmbarer Störungen zu Trainingsbildern eingerichtet werden können.

Diese Methoden sind jedoch für einmodale Klassifizierungsaufgaben konzipiert und werden beim multimodalen kontrastiven Lernen noch wenig erforscht. Dieser Artikel untersucht zunächst diesen Kontext, indem er die Leistung bestehender Methoden für Bild-Bildunterschriften-Paare bewertet, wobei frühere Methoden aufgrund fehlender Beschriftungen in diesem Szenario nicht effektiv auf multimodale Daten verallgemeinern können und bei der Einrichtung von Verknüpfungen nur begrenzt wirksam sind.

In diesem Artikel schlagen wir die mehrstufige Fehlerminimierung (MEM) vor, einen neuartigen Optimierungsprozess zur Generierung multimodaler, nicht lernbarer Stichproben. Es erweitert das Fehlerminimierungs-Framework (EM) zur Optimierung für Bildrauschen und zusätzliche Textauslöser, wodurch der Optimierungsraum vergrößert und das Modell effektiv dazu verleitet wird, Abkürzungen zwischen Rauschfunktionen und Textauslösern zu lernen.


Link zum Papier: https://arxiv.org/abs/2407.16307

Code-Link: https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

Insbesondere wird der projizierte Gradientenabstieg verwendet, um das Problem der Rauschminimierung zu lösen, und die HotFlip-Methode wird verwendet, um den Gradienten anzunähern und Wörter zu ersetzen, um den optimalen Textauslöser zu finden.

Eine große Anzahl von Experimenten hat die Wirksamkeit der Methode bewiesen, die Abrufergebnisse nach dem Schutz sind fast halb so hoch wie bei zufälligen Schätzungen und sie ist in hohem Maße zwischen verschiedenen Modellen übertragbar. Das Papier und der Code dieser Arbeit sind Open Source.

Forschungshintergrund

In den letzten Jahren haben Forscher mit dem Aufkommen des multimodalen Lernens ein starkes Interesse an Modellen entwickelt, die mehrere Datentypen wie Text, Bilder und Audio kombinieren.

Unter anderem ist multimodales kontrastives Lernen zu einer wichtigen Methode in diesem Bereich geworden. Modelle wie CLIP und ALIGN verwenden Kontrastverlusttraining, um die Korrelation zwischen Bildern und Text zu verbessern, wodurch die Notwendigkeit manueller Anmerkungen verringert und die Vorteile im Bild demonstriert werden Klassifizierung, Potenzial in Aufgaben wie Generierung.

Das Training dieser Modelle ist jedoch auf große Mengen multimodaler Daten angewiesen, die häufig aus öffentlich zugänglichen Datensätzen wie CC12M, YFCC100M und LAION5B stammen. Diese Datensätze sind jedoch möglicherweise immer noch unzureichend und enthalten möglicherweise große Mengen vertraulicher persönlicher Informationen. Anlass zur Besorgnis über Datenschutzverletzungen.

Wir betrachten ein Szenario, das sich auf die Generierung multimodaler nicht lernbarer Stichproben konzentriert, um den Datenschutzrisiken zu begegnen, die mit multimodalem kontrastivem Lernen verbunden sind. In diesem Szenario konzentrieren wir uns auf Bild-Text-Paare als repräsentative multimodale Datensätze. Es wird davon ausgegangen, dass Benutzer häufig persönliche Fotos mit Text auf Social-Media-Plattformen wie Facebook teilen, einschließlich einiger privater Identifikationsinformationen wie Gesichter, Namen, Telefonnummern und Adressen.

Derzeit versuchen Hacker, eine große Anzahl solcher Bild-Text-Paare aus dem Internet zu sammeln und große Modelle mithilfe multimodaler kontrastiver Lerntechniken zu trainieren oder zu verfeinern, wie in der linken Hälfte von Abbildung 1 dargestellt.

Diese Modelle erfassen versehentlich die privaten Informationen und Gesichtsmerkmale der Benutzer, was zu potenziellen Datenschutzlecks führen kann. Ziel der Beschützer ist es, die unbefugte Ausbeutung dieser sensiblen Daten zu verhindern, indem sie nicht erlernbare Methoden für multimodale Daten implementieren. Diese Methoden machen die privaten Funktionen des Benutzers für das auf solchen multimodalen, nicht lernbaren Beispielen trainierte Modell unzugänglich, ohne die soziale Interaktion des Benutzers nach dem Posten von Bildern und Texten zu behindern, wie in der rechten Hälfte von Abbildung 1 dargestellt.


Abbildung 1: Beiträge auf Facebook können versehentlich persönliche Informationen preisgeben (links), aber Daten können durch die Verwendung multimodaler, nicht lernbarer Muster geschützt werden, um zu verhindern, dass nicht autorisierte Modelle auf private Funktionen zugreifen (rechts)

Motivation

Aktuelle Forschung konzentriert sich auf die Verhinderung der unbefugten Nutzung von Daten bei der Bildklassifizierung durch nicht lernbare Beispiele. Diese Methoden hindern das Modell daran, Bildmerkmale zu lernen, indem sie subtile Störungen auf die Daten anwenden, was auch als Verfügbarkeitsangriffe oder wahllose Vergiftungsangriffe bekannt ist.

Es wird hauptsächlich in agentenlose Modellangriffe und agentenbasierte Modellangriffe unterteilt, wobei agentenlose Modellangriffe Rauschen auf Pixelebene erzeugen, während agentenbasierte Modellangriffe Rauschen auf Funktionsebene durch das Agentenmodell erzeugen.

Alle agentenfreien Modellmethoden zur Klassifizierung erzeugen jedoch in multimodalen Szenarien kein Bildrauschen, da diese Methoden darauf abzielen, eine Reihe spezifischer Rauschmuster für Bilder zu finden, die sich auf eine bestimmte Kategorie beziehen, während Bild-Text-Paare keine Beschriftungen enthalten die Daten.

Daher können nur agentenmodellbasierte Methoden angewendet werden, und wir erweitern zwei typische Methoden, um nicht lernbare multimodale Beispiele zu generieren (EM und UAP).

Die Methode des fehlerminimierenden Rauschens (EM):


Untargeted Adversarial Perturbation.(UAP)-Methode:


Obwohl EM und UAP auf Bild-Untertitel-Paare angewendet werden können, erzielen sie keinen wirksamen Schutz, insbesondere UAP. Wir untersuchen die Gründe, warum diese Methoden von der Bildklassifizierung bis zum multimodalen kontrastiven Lernen an Wirksamkeit verlieren.

Bei der Bildklassifizierung optimieren EM und UAP Bilder mit derselben Beschriftung so, dass sie im Merkmalsraum konvergieren, wodurch das Modell diese zusätzlichen Geräusche problemlos erfassen und die Korrelation mit der Beschriftung lernen kann, wie in Abbildung 2(a) dargestellt.


Abbildung 2: Vergleich verschiedener Methoden der traditionellen Klassifikation und des multimodalen kontrastiven Lernens. Stellt ein Bild dar und ist der gepaarte Titel.Der blaue Bereich ist die erwartete Entscheidungsgrenze für ein Modell, das auf nicht lernbaren Stichproben trainiert wurde

Beim multimodalen kontrastiven Lernen muss die Richtung des optimierten Bildrauschens jedoch mit den Merkmalen des Textes in Zusammenhang stehen, um EM- und UAP-Methoden effektiv anwenden zu können, was dazu führt, dass die Bildmerkmale diesen Merkmalen entweder nahe kommen oder sich von ihnen entfernen .

Allerdings können unterschiedliche Paare von Textmerkmalen in Bild-Text-Datensätzen weit verstreut sein. Wie in Abbildung 2(b) und (c) dargestellt, ist es im Gegensatz zur Klassifizierung für das Modell schwieriger, die Korrelation zwischen Untertiteln und dem durch EM und UAP erzeugten Rauschen zu erfassen.

In Abbildung 2 (c) ist der Lernentscheidungsraum von UAP komplexer, sodass seine Schutzwirkung nicht gut ist.

Methode


Abbildung 3: Rahmenwerk der mehrstufigen Fehlerminimierungsmethode (MEM)

Aufgrund der Streuung von Bild-Text-Paaren können Proxy-Modell-basierte Methoden immer noch keinen wirksamen Schutz erreichen. Eine intuitive Verbesserungsstrategie besteht darin, Bilder und Text gleichzeitig zu optimieren, um einen größeren Optimierungsraum zu erhalten und ihre Konvergenz auf verschiedenen Paaren im Merkmalsraum zu fördern.

Daher weisen die optimierten Merkmalsdarstellungen von Bild- und Textsätzen ähnliche Verteilungen auf, was dem Modell das Erlernen ihrer Verknüpfungen erleichtert, wie in Abbildung 2(d) dargestellt.

Zu diesem Zweck verwenden wir die EM-Methode als Grundgerüst und schlagen vor, vor den Untertiteln zusätzliche kurze Textauslöser hinzuzufügen, um den Kontrastverlust nach der Einstellung gegnerischer Angriffe auf Textaufgaben zu minimieren. Unsere Methode kann als dreistufiges iteratives Optimierungsproblem konzipiert werden, ähnlich dem mehrstufigen Prozess von EM.

Konkret optimieren wir nacheinander das Rauschen δ und den Text-Trigger t, um den Kontrastverlust zwischen dem optimierten Bild I + δ und dem optimierten Text T ⊕ t zu reduzieren, wobei ⊕ einen Trigger darstellt, der sauberen Text T an verschiedenen Positionen einfügen kann.

Der Einfachheit halber haben wir uns in diesem Artikel dafür entschieden, am Anfang des Textes einen Textauslöser hinzuzufügen. Daher kann unsere mehrstufige Fehlerminimierungsmethode (MEM) wie folgt formuliert werden:


Die oben genannten Probleme werden iterativ optimiert, indem auf die Methoden in EM zurückgegriffen wird. Der projizierte Gradientenabstieg (Projected Gradient Descent, PGD) wird verwendet, um das Rauschminimierungsproblem in Gleichung zu lösen.

Um insbesondere die übermäßige Anpassung von Rauschen an saubere Untertitel zu verringern, verbessern wir diese, indem wir die sauberen Untertitel stapelweise verschlüsseln und korrekt passende Textauslöser hinzufügen. Daher kann sich dieses erzeugte Rauschen bei semantisch falschen Untertiteln eher auf Textauslöser als auf Teiluntertitel konzentrieren. Daher können wir das optimale δ gemäß der folgenden iterativen Formel erhalten:

Für das Texttriggerminimierungsproblem wird die Triggersequenz zunächst durch Wiederholen des Wortes „the“ oder „a“ vor allen Eingaben initialisiert.

Darüber hinaus wird der Textauslöser basierend auf HotFlip optimiert und der Effekt des Ersetzens der Markierung wird durch den Farbverlauf angenähert. Durch Aktualisieren der Einbettung jedes auslösenden Tokens, um die Taylor-Näherung erster Ordnung des CLIP-Verlusts um die aktuelle Token-Einbettung herum zu minimieren:


Schließlich können wir die Strahlsuche verwenden, um nach jedem optimalen Textauslöser im Satz von Kandidaten-Tags zu suchen. Wir betrachten die besten k Kandidaten aus der obigen Gleichung, suchen von vorne nach hinten an jeder Position des Flip-Flops und bewerten jedes Bündel anhand des Verlusts des aktuellen Stapels.

Wir folgen dem Ansatz von Wallace et al. und verwenden kleine Bündelgrößen für eine effiziente Berechnung. In Abbildung 3 sehen wir den Rahmen für die Verwendung unseres MEM zur Generierung multimodaler nicht lernbarer Stichproben.

Experimenteller Effekt

Effektiver Schutz


Tabelle 1: Vergleich der Wirksamkeit nicht lernbarer Stichproben, die mit verschiedenen Methoden für verschiedene Datensätze generiert wurden

Tabelle 1 zeigt ihre Abrufergebnisse für verschiedene Datensätze. Offensichtlich bietet UAP fast keinen Schutz für multimodale Daten, während EM ein gewisses Maß an Schutz bietet.

Allerdings bietet unser MEM immer einen starken Schutz für multimodale Daten, wodurch die Abrufleistung auf fast die Hälfte der Leistung beim zufälligen Erraten reduziert wird. Insbesondere MEM-5 erzielte aufgrund seines längeren Textauslösers einen größeren Effekt bei der Reduzierung der Leistung des Hackermodells als MEM-3.

Abbildung 4 zeigt die Trainingsverlust-Abnahmekurven für das Training an nicht lernbaren Proben, die mit verschiedenen Methoden generiert wurden, und für den Abruf von Medr auf dem sauberen Testsatz. Aus (a) lässt sich beobachten, dass EM zwar den Verlust schneller sinken lässt als normales Training, unsere Methoden MEM-3 und MEM-5 jedoch in der ersten Epoche geringere Verluste aufweisen, was zeigt, dass das Modell Abkürzungen schnell lernen kann.

Aus (b) stellen wir fest, dass der Medr aller Modelle niedriger ist als bei zufälligen Schätzungen, aber das auf nicht lernbaren Stichproben trainierte Modell hört am schnellsten auf zu lernen, erzielt die schlechtesten Abrufergebnisse und nimmt mit zunehmender Epoche nicht zu. Lernen Sie weiter. Die obigen Beobachtungen stimmen mit den Ergebnissen in Tabelle 1 überein.


Abbildung 4: Kurvenänderungsaufzeichnungen von Trainingsverlust und Testindikator Medr

Modellübergreifende Portabilität


Tabelle 2: Übertragbarkeit nicht lernbarer Proben, die mit der MEM-3-Methode basierend auf dem ResNet50-Modell auf verschiedene Modellarchitekturen generiert wurden

Wir gehen davon aus, dass es sich beim Datenschutz um ein reines Black-Box-System handelt, bei dem der Beschützer die Architektur des Hackermodells nicht kennt. Daher bewerten wir die Leistung des auf dem ResNet50-Proxy-Modell generierten MEM bei verschiedenen Hacking-Modellen, einschließlich ResNet101 und ViT. Die Ergebnisse sind in Tabelle 2 dargestellt. Wir haben festgestellt, dass diese Beispiele erfolgreich zwischen verschiedenen Modellen übertragen werden können und die Leistung von CLIP-Modellen beeinträchtigen können.

Visuelle Analyse


Abbildung 5: Visualisierung der Aufmerksamkeitskarte: Vergleich von vier Modellen auf sauberen Daten und nicht lernbaren Stichproben mit unterschiedlichen Methoden

Abbildung 5 zeigt die Aufmerksamkeits-Heatmaps von Modellen, die auf sauberen Daten und nicht lernbaren Proben trainiert wurden, die mit verschiedenen Methoden generiert wurden. Für Bilder verwenden wir Grad-CAM, um die Aufmerksamkeit des Modells zu visualisieren, während wir für Text integrierte Farbverläufe verwenden, um die Aufmerksamkeit zu visualisieren. Je heller die Farbe, desto höher ist die Aufmerksamkeit des Models.

Es ist erwähnenswert, dass sich bei den Modellen in Abbildung 5(1), (2) und (3) alle auf den zentralen Bereich konzentrieren, der mit den Untertiteln zusammenhängt.

Allerdings kann das Modell, das auf von MEM-3 generierten Proben in Abbildung 5(4) trainiert wurde, saubere Bilder nicht genau identifizieren, da es nur Rauschmerkmale lernt. Auch im Text konzentrieren sich die Modelle in den ersten drei auf das Schlüsselwort „Glas“, während sich das Modell in letzterem auf die ersten drei Wörter konzentriert. Dies kann daran liegen, dass MEM-3 immer für Rauschen und die ersten drei Wörter optimiert Trigger zum Erstellen von Verknüpfungen.

Diese Visualisierungsergebnisse zeigen, dass EM und UAP beim Schutz multimodaler Daten nicht effektiv sind, während MEM deutlich effektiver ist.


Abbildung 6: t-SNE-Visualisierung von sauberen Proben und MEM-3-optimierten nicht lernbaren Proben unter einem sauberen Modell und einem vergifteten Modell

Wir visualisieren die Merkmalsverteilung sauberer Proben unter dem Normalmodell und die Merkmalsverteilung nicht lernbarer Proben, die durch MEM3 auf dem vergifteten Modell optimiert wurden, in Abbildung 6. Wir verwenden Dreiecke zur Darstellung von Bildmerkmalen, Kreise zur Darstellung von Textmerkmalen und dieselbe Farbe repräsentiert die fünf identischen, aber transformierten Bilder im Datensatz und ihre entsprechenden unterschiedlichen Beschreibungen.

Aus (a) können wir erkennen, dass im sauberen Modell dieselben Bilder und Texte intern gruppiert sind und die entsprechenden Bild-Text-Paare nahe beieinander liegen.

In (b) weichen jedoch das gleiche Bild und der gleiche Text voneinander ab und nur Paare von Bildern und Text liegen nahe beieinander. Dies zeigt, dass unsere Methode das Modell effektiv dabei unterstützt, Verknüpfungen zwischen Rausch- und Textauslösern zu lernen.

Fallstudie: Schutz der Privatsphäre im Gesicht

Wir haben eine Fallstudie durchgeführt, in der wir unser MEM-Rauschen auf ein reales Szenario angewendet haben: den Schutz persönlicher Gesichtsbilder und zugehöriger Informationen wie Namen auf Social-Media-Plattformen.

Wir haben Experimente mit der PubFig-Datenbank durchgeführt, einem großen Datensatz realer Gesichter mit 58.797 Bildern von 200 Personen, die aus dem Internet gesammelt wurden. Für die Retrieval-Bewertung wählen wir zufällig ein Foto jeder Berühmtheit als Testsatz aus und verwenden alle verbleibenden Bilder für das Training.

Für eine realistische Feinabstimmung haben wir ihre Namen geändert und eine Reihe von Textvorlagen mit Bezug zu diesem Namen für die Untertitelgenerierung bereitgestellt. Anschließend generieren wir mithilfe von MEM nicht lernbare Proben und werten diese mithilfe verschiedener Hacking-Modelle aus. Die Ergebnisse sind in Tabelle 3 dargestellt.

MEM verhindert, dass diese fein abgestimmten Modelle Korrelationen zwischen Gesichts- und Namensmerkmalen lernen, und behindert so die genaue Suche nach Personen im Testsatz.


Tabelle 3: Schutzwirkung nicht lernbarer Proben, die durch ResNet50-Feinabstimmung auf verschiedenen vorab trainierten Modellen generiert wurden

Abschluss

In diesem Artikel untersuchen wir den multimodalen Datenschutz und konzentrieren uns dabei insbesondere auf Bild-Text-Paare, bei denen wir multimodale, nicht lernbare Stichproben generieren, um eine Ausnutzung durch multimodales kontrastives Lernen zu verhindern. Wir erweitern frühere Klassifizierungsmethoden auf diesen Kontext und zeigen Einschränkungen aufgrund erhöhter Modalitäten und verstreuter Daten auf.

Vor dem Hintergrund dieser Erkenntnisse stellen wir eine neuartige generative Methode namens Multi-Step Error Minimization (MEM) vor, die auf dem EM-Framework basiert. MEM stellt effektiv Verknüpfungen zwischen Rausch- und Textauslösern her und demonstriert die Übertragbarkeit zwischen verschiedenen Hacking-Modellen.

Darüber hinaus überprüfen wir die Wirksamkeit unseres Ansatzes mithilfe verschiedener Visualisierungstools. Unsere Arbeit eröffnet eine neue Richtung, die voraussichtlich auf andere Modalitätspaare wie Audio-Text- und Audio-Bild-Paare anwendbar ist.

Über den Autor

Die Autoren dieses Artikels sind vom Institut für Informationstechnologie der Chinesischen Akademie der Wissenschaften, der Nanyang Technological University, der National University of Singapore und der Sun Yat-sen University. Autorenliste: Liu Xinwei, Jia Xiaojun, Xunyuan, Liang Siyuan, Cao Xiaochun.

Unter ihnen ist der Erstautor Liu Xinwei Doktorand am Institut für Informationstechnologie der Chinesischen Akademie der Wissenschaften. Die entsprechenden Autoren sind Professor Cao Xiaochun von der Sun Yat-sen-Universität und Postdoktorand Jia Xiaojun von der Nanyang Technological University.

Verweise:

https://scst.sysu.edu.cn/members/caoxiaochun.html

https://jiaxiaojunqaq.github.io