notizia

Contrasta imparare ad abusare dei dati privati! L'Accademia cinese delle scienze e altri hanno rilasciato il metodo di "minimizzazione degli errori in più fasi" |

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Redattore: LRST Che sonno

[Introduzione alla Nuova Saggezza] I ricercatori propongono un nuovo metodo di minimizzazione degli errori in più fasi (MEM) per generare campioni multimodali non apprendibili per proteggere i dati personali dagli abusi mediante modelli di apprendimento contrastivo multimodale. Ottimizzando il rumore dell'immagine e i trigger del testo, il metodo MEM inganna effettivamente il modello, riducendo la sua capacità di apprendimento sui dati privati ​​e dimostra una forte trasferibilità tra modelli diversi.

L'apprendimento contrastivo multimodale (come CLIP) ha ottenuto progressi significativi nella classificazione zero-shot apprendendo da milioni di coppie di immagini-didascalie recuperate da Internet.

Tuttavia, questa dipendenza comporta rischi per la privacy, poiché gli hacker possono sfruttare dati di immagini e testi per l’addestramento dei modelli senza autorizzazione, che possono includere informazioni personali e sensibili alla privacy.

Un lavoro recente propone che si possano stabilire scorciatoie con protezione generando esempi non apprendibili aggiungendo perturbazioni impercettibili alle immagini di addestramento.

Tuttavia, questi metodi sono progettati per compiti di classificazione monomodale e rimangono sottoesplorati nell’apprendimento contrastivo multimodale. Questo articolo esplora innanzitutto questo contesto valutando le prestazioni dei metodi esistenti su coppie immagine-didascalia, dove i metodi precedenti non possono essere generalizzati efficacemente a dati multimodali a causa della mancanza di etichette in questo scenario e hanno un'efficacia limitata nello stabilire scorciatoie.

In questo articolo proponiamo la minimizzazione degli errori multifase (MEM), un nuovo processo di ottimizzazione per la generazione di campioni multimodali non apprendibili. Estende il framework di minimizzazione degli errori (EM) per ottimizzare il rumore dell'immagine e trigger di testo aggiuntivi, ampliando così lo spazio di ottimizzazione e fuorviando di fatto il modello per apprendere scorciatoie tra le funzionalità di rumore e i trigger di testo.


Link al documento: https://arxiv.org/abs/2407.16307

Collegamento al codice: https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

Nello specifico, viene adottata la discesa del gradiente proiettato per risolvere il problema di minimizzazione del rumore e il metodo HotFlip viene utilizzato per approssimare il gradiente e sostituire le parole per trovare l'attivatore di testo ottimale.

Un gran numero di esperimenti hanno dimostrato l'efficacia del metodo, i risultati del recupero dopo la protezione sono quasi la metà di quelli dell'ipotesi casuale ed è altamente trasferibile tra diversi modelli. Il documento e il codice di questo lavoro sono open source.

Contesto della ricerca

Negli ultimi anni, con l’avvento dell’apprendimento multimodale, i ricercatori si sono fortemente interessati ai modelli che combinano più tipi di dati come testo, immagini e audio.

Tra questi, l'apprendimento contrastivo multimodale è diventato un metodo importante in questo campo. Modelli come CLIP e ALIGN utilizzano l'addestramento alla perdita contrastiva per migliorare la correlazione tra immagini e testo, riducendo così la necessità di annotazioni manuali e dimostrando i vantaggi nell'immagine. classificazione, potenziale in compiti come la generazione.

Tuttavia, l'addestramento di questi modelli si basa su grandi quantità di dati multimodali, che spesso provengono da set di dati disponibili al pubblico come CC12M, YFCC100M e LAION5B, ma questi set di dati potrebbero essere ancora insufficienti e contenere una grande quantità di informazioni personali sensibili, innescando preoccupazioni circa le violazioni della privacy.

Consideriamo uno scenario che si concentra sulla generazione di campioni multimodali non apprendibili per affrontare i rischi per la privacy associati all'apprendimento contrastivo multimodale. In questo scenario, ci concentriamo sulle coppie immagine-testo come set di dati multimodali rappresentativi. Si presuppone che gli utenti spesso condividano foto personali con testo su piattaforme di social media come Facebook, comprese alcune informazioni identificative private come volti, nomi, numeri di telefono e indirizzi.

Attualmente, gli hacker cercano di raccogliere un gran numero di tali coppie immagine-testo da Internet e addestrano o perfezionano modelli di grandi dimensioni utilizzando tecniche di apprendimento contrastivo multimodale, come mostrato nella metà sinistra della Figura 1.

Questi modelli catturano inavvertitamente le informazioni private e le caratteristiche facciali degli utenti, portando a potenziali fughe di privacy. I protettori mirano a impedire che questi dati sensibili vengano sfruttati non autorizzati implementando metodi non apprendibili su dati multimodali. Questi metodi rendono le funzionalità private dell'utente inaccessibili al modello addestrato su tali campioni multimodali non apprendibili, senza ostacolare l'interazione sociale dell'utente dopo aver pubblicato immagini e testi, come mostrato nella metà destra della Figura 1.


Figura 1: I post su Facebook possono rivelare inavvertitamente informazioni personali (a sinistra), ma i dati possono essere protetti utilizzando campioni multimodali non apprendibili per impedire a modelli non autorizzati di accedere a funzionalità private (a destra)

motivazione

La ricerca recente si concentra sulla prevenzione dell'uso non autorizzato dei dati nella classificazione delle immagini attraverso esempi non apprendibili. Questi metodi impediscono al modello di apprendere le caratteristiche dell'immagine applicando sottili perturbazioni ai dati, noti anche come attacchi di disponibilità o attacchi di avvelenamento indiscriminato.

Si divide principalmente in attacchi modello senza agente e attacchi modello basato su agente, dove gli attacchi modello senza agente generano rumore a livello di pixel, mentre gli attacchi modello basati su agente generano rumore a livello di funzionalità attraverso il modello agente.

Tuttavia, tutti i metodi di classificazione basati su modelli senza agenti non riescono a generare rumore dell'immagine in scenari multimodali perché questi metodi mirano a trovare una serie di modelli di rumore specifici per le immagini correlate a una categoria specifica, mentre le coppie immagine-testo non sono presenti etichette in i dati.

Pertanto, possono essere applicati solo metodi basati su modelli di agenti ed estendiamo due metodi tipici per generare esempi multimodali non apprendibili (EM e UAP).

Il metodo del rumore di minimizzazione degli errori (EM):


Metodo della perturbazione avversaria non mirata (UAP):


Sebbene EM e UAP possano essere applicati alle coppie immagine-sottotitolo, non riescono a raggiungere una protezione efficace, soprattutto UAP. Esploriamo le ragioni per cui questi metodi diminuiscono di efficacia dalla classificazione delle immagini all'apprendimento contrastivo multimodale.

Nella classificazione delle immagini, EM e UAP ottimizzano le immagini con la stessa etichetta per convergere nello spazio delle caratteristiche, facendo sì che il modello catturi facilmente questi rumori aggiuntivi e apprenda la correlazione con l'etichetta, come mostrato nella Figura 2 (a).


Figura 2: Confronto tra diversi metodi nella classificazione tradizionale e nell'apprendimento contrastivo multimodale. Rappresenta un'immagine ed è il titolo abbinato.L'area blu rappresenta il limite decisionale previsto per un modello addestrato su campioni non apprendibili

Ma nell'apprendimento contrastivo multimodale, per applicare efficacemente i metodi EM e UAP, la direzione del rumore dell'immagine ottimizzato deve essere correlata alle caratteristiche del testo, facendo sì che le caratteristiche dell'immagine si avvicinino o si allontanino da queste caratteristiche .

Tuttavia, diverse coppie di caratteristiche del testo possono essere ampiamente sparse nei set di dati immagine-testo. Come mostrato nella Figura 2(b) e (c), a differenza della classificazione, è più difficile per il modello catturare la correlazione tra sottotitoli e rumore generato da EM e UAP.

Nella Figura 2 (c), lo spazio decisionale dell'apprendimento dell'UAP è più complesso, quindi il suo effetto di protezione non è buono.

metodo


Figura 3: Quadro del metodo di minimizzazione degli errori in più fasi (MEM)

A causa della dispersione delle coppie immagine-testo, i metodi basati su modelli proxy non riescono ancora a garantire una protezione efficace. Una strategia di miglioramento intuitiva consiste nell'ottimizzare immagini e testo simultaneamente per ottenere uno spazio di ottimizzazione più ampio e promuovere la loro convergenza su coppie diverse nello spazio delle funzionalità.

Pertanto, le rappresentazioni ottimizzate delle caratteristiche dei set di immagini e testo mostrano distribuzioni simili, il che facilita l'apprendimento delle scorciatoie da parte del modello, come mostrato nella Figura 2 (d).

A tal fine, prendiamo il metodo EM come quadro di base e proponiamo di aggiungere ulteriori trigger di testo breve prima dei sottotitoli per ridurre al minimo la perdita di contrasto, seguendo l'impostazione di attacchi contraddittori sulle attività di testo. Il nostro metodo può essere concettualizzato come un problema di ottimizzazione iterativo a tre livelli, simile al processo a più fasi dell’EM.

Nello specifico, ottimizziamo il rumore δ e il trigger di testo t in sequenza per ridurre la perdita di contrasto tra l'immagine ottimizzata I + δ e il testo ottimizzato T ⊕ t, dove ⊕ rappresenta un trigger che può inserire testo pulito T in diverse posizioni.

Per semplicità, in questo articolo scegliamo di aggiungere un trigger di testo all'inizio del testo. Pertanto, il nostro metodo di minimizzazione degli errori in più passaggi (MEM) può essere formulato come:


I problemi di cui sopra vengono ottimizzati in modo iterativo facendo riferimento ai metodi in EM. La discesa del gradiente proiettata (PGD) viene utilizzata per risolvere il problema di minimizzazione del rumore nell'Eq.

In particolare, per mitigare l'eccessivo adattamento del rumore ai sottotitoli puliti, li miglioriamo rimescolando i sottotitoli puliti in batch e aggiungendo attivatori di testo correttamente abbinati. Pertanto, di fronte a sottotitoli semanticamente errati, il rumore generato può concentrarsi maggiormente su trigger testuali piuttosto che su sottotitoli parziali. Pertanto, possiamo ottenere il δ ottimale secondo la seguente formula iterativa:

Per il problema di minimizzazione del trigger di testo, la sequenza di trigger viene prima inizializzata ripetendo la parola "the" o "a" davanti a tutti gli input.

Inoltre, l'attivazione del testo è ottimizzata in base a HotFlip e l'effetto della sostituzione del segno è approssimato dal gradiente. Aggiornando l'incorporamento di ciascun token di attivazione per ridurre al minimo l'approssimazione di Taylor del primo ordine della perdita CLIP attorno all'attuale incorporamento del token:


Infine, possiamo utilizzare la ricerca del raggio per cercare ciascun trigger di testo ottimale nell'insieme dei tag candidati. Consideriamo i primi k candidati dell'equazione di cui sopra e cerchiamo da davanti a dietro in ciascuna posizione del flip-flop e attribuiamo un punteggio a ciascun pacchetto utilizzando la perdita sul lotto corrente.

Seguiamo l'approccio di Wallace et al e utilizziamo bundle di piccole dimensioni per un calcolo efficiente. Nella Figura 3, possiamo vedere il quadro per l'utilizzo del nostro MEM per generare campioni non apprendibili multimodali.

Effetto sperimentale

Protezione efficace


Tabella 1: Confronto dell'efficacia di campioni non apprendibili generati da diversi metodi su diversi set di dati

La tabella 1 mostra i risultati del loro recupero su diversi set di dati. Chiaramente, l’UAP non fornisce quasi alcuna protezione per i dati multimodali, mentre l’EM mostra un certo livello di protezione.

Tuttavia, il nostro MEM fornisce sempre una forte protezione per i dati multimodali, riducendo le prestazioni di recupero a quasi la metà di quelle delle ipotesi casuali. MEM-5, in particolare, ha ottenuto un effetto maggiore nel ridurre le prestazioni del modello hacker rispetto a MEM-3 grazie al suo trigger di testo più lungo.

La Figura 4 mostra le curve di declino della perdita di addestramento per l'addestramento su campioni non apprendibili generati con metodi diversi e il recupero Medr sul set di test pulito. Si può osservare da (a) che sebbene l’EM faccia diminuire la perdita più velocemente rispetto al normale allenamento, i nostri metodi MEM-3 e MEM-5 hanno perdite minori nella prima epoca, il che dimostra che il modello può apprendere rapidamente le scorciatoie.

Da (b) troviamo che il Medr di tutti i modelli è inferiore rispetto a quando si indovina in modo casuale, ma il modello addestrato su campioni non apprendibili smette di apprendere più velocemente, raggiunge i peggiori risultati di recupero e non aumenta all'aumentare dell'epoca. Impara meglio ulteriormente. Le osservazioni di cui sopra sono coerenti con i risultati della Tabella 1.


Figura 4: Registrazioni del cambiamento della curva della perdita di allenamento e indicatore del test Medr

Portabilità tra modelli


Tabella 2: Trasferibilità dei campioni non apprendibili generati dal metodo MEM-3 basato sul modello ResNet50 su diverse architetture di modelli

Partiamo dal presupposto che la protezione dei dati sia una configurazione completamente a scatola nera, in cui il protettore non è a conoscenza dell’architettura del modello hacker. Pertanto, valutiamo le prestazioni del MEM generato sul modello proxy ResNet50 su diversi modelli di hacking, tra cui ResNet101 e ViT. I risultati sono mostrati nella Tabella 2. Abbiamo scoperto che questi campioni possono essere trasferiti con successo tra diversi modelli e possono peggiorare le prestazioni dei modelli CLIP.

Analisi visiva


Figura 5: Visualizzazione della mappa di attenzione: confronto di quattro modelli su dati puliti e campioni non apprendibili con metodi diversi

La Figura 5 mostra le mappe di calore dell'attenzione dei modelli addestrati su dati puliti e campioni non apprendibili generati con metodi diversi. Per le immagini utilizziamo Grad-CAM per visualizzare l'attenzione del modello, mentre per il testo utilizziamo i gradienti integrati per visualizzare l'attenzione. Più chiaro è il colore, maggiore è l'attenzione del modello.

Vale la pena notare che i modelli della Figura 5(1), (2) e (3) si concentrano tutti sull'area centrale, correlata ai sottotitoli.

Tuttavia, il modello addestrato sui campioni generati da MEM-3 nella Figura 5(4) non è in grado di identificare con precisione immagini pulite perché apprende solo le caratteristiche del rumore. Anche nel testo, i modelli dei primi tre si concentrano sulla parola chiave "glass", mentre il modello del secondo si concentra sulle prime tre parole. Ciò potrebbe essere dovuto al fatto che MEM-3 ottimizza sempre il rumore e le prime tre parole del testo trigger per creare scorciatoie.

Questi risultati di visualizzazione mostrano che EM e UAP non sono efficaci nel proteggere i dati multimodali, mentre MEM è significativamente efficace.


Figura 6: visualizzazione t-SNE di campioni puliti e campioni non apprendibili ottimizzati MEM-3 con modello pulito e modello avvelenato

Visualizziamo la distribuzione delle caratteristiche dei campioni puliti nel modello normale e la distribuzione delle caratteristiche dei campioni non apprendibili ottimizzati da MEM3 sul modello avvelenato nella Figura 6. Usiamo triangoli per rappresentare le caratteristiche dell'immagine, i cerchi per rappresentare le caratteristiche del testo e lo stesso colore rappresenta le cinque immagini identiche ma trasformate nel set di dati e le corrispondenti diverse descrizioni.

Da (a) possiamo osservare che nel modello pulito, le stesse immagini e testi sono raggruppati insieme internamente e le corrispondenti coppie immagine-testo sono vicine l'una all'altra.

Tuttavia, in (b), la stessa immagine e testo divergono e solo le coppie di immagini e testo sono vicine l'una all'altra. Ciò dimostra che il nostro metodo promuove efficacemente il modello per apprendere le scorciatoie tra rumore e trigger di testo.

Caso di studio: protezione della privacy del viso

Abbiamo condotto un caso di studio applicando il nostro rumore MEM a uno scenario del mondo reale: proteggere le immagini dei volti personali e le informazioni correlate come i nomi sulle piattaforme di social media.

Abbiamo condotto esperimenti utilizzando il database PubFig, un ampio set di dati sui volti del mondo reale contenente 58.797 immagini di 200 individui raccolti da Internet. Per la valutazione del recupero, selezioniamo casualmente una foto di ciascuna celebrità come set di prova e utilizziamo tutte le immagini rimanenti per l'addestramento.

Per una messa a punto realistica, abbiamo cambiato i loro nomi e fornito una serie di modelli di testo relativi a quel nome per la generazione dei sottotitoli. Successivamente, utilizziamo MEM per generare campioni non apprendibili e valutarli utilizzando diversi modelli di hacking. I risultati sono mostrati nella Tabella 3.

MEM impedisce a questi modelli ottimizzati di apprendere le correlazioni tra le caratteristiche del viso e del nome, ostacolando così il recupero accurato della persona sul set di test.


Tabella 3: Effetto di protezione dei campioni non apprendibili generati dalla messa a punto di ResNet50 su diversi modelli pre-addestrati

Conclusione

In questo articolo esploriamo la protezione dei dati multimodali, concentrandoci in particolare sulle coppie immagine-testo, in cui generiamo campioni multimodali non apprendibili per prevenire lo sfruttamento da parte dell'apprendimento contrastivo multimodale. Estendiamo i precedenti metodi di classificazione a questo contesto, rivelando limitazioni dovute all'aumento delle modalità e alla dispersione dei dati.

Alla luce di questi risultati, introduciamo un nuovo metodo generativo chiamato minimizzazione degli errori multi-step (MEM), basato sul framework EM. MEM stabilisce in modo efficace scorciatoie tra rumore e trigger di testo e dimostra la trasferibilità tra diversi modelli di hacking.

Inoltre, verifichiamo l'efficacia del nostro approccio utilizzando vari strumenti di visualizzazione. Il nostro lavoro apre una nuova direzione che dovrebbe essere applicabile ad altre coppie di modalità come le coppie audio-testo e audio-immagine.

Circa l'autore

Gli autori di questo articolo provengono dall'Istituto di tecnologia dell'informazione, dall'Accademia cinese delle scienze, dall'Università tecnologica di Nanyang, dall'Università nazionale di Singapore e dall'Università Sun Yat-sen. Elenco degli autori: Liu Xinwei, Jia Xiaojun, Xunyuan, Liang Siyuan, Cao Xiaochun.

Tra questi, il primo autore Liu Xinwei è uno studente di dottorato presso l'Istituto di tecnologia dell'informazione, Accademia cinese delle scienze. Gli autori corrispondenti sono il professor Cao Xiaochun dell'Università Sun Yat-sen e il ricercatore post-dottorato Jia Xiaojun della Nanyang Technological University.

Riferimenti:

https://scst.sysu.edu.cn/members/caoxiaochun.html

https://jiaxiaojunqaq.github.io