notícias

Compare aprender a abusar de dados privados! A Academia Chinesa de Ciências e outros lançaram o método "Minimização de erros em várias etapas" |

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: LRST Tão sonolento

[Introdução à Nova Sabedoria] Os pesquisadores propõem um novo método de minimização de erros em várias etapas (MEM) para gerar amostras multimodais não aprendíveis para proteger dados pessoais contra abuso por modelos de aprendizagem contrastivos multimodais. Ao otimizar o ruído da imagem e os acionadores de texto, o método MEM engana efetivamente o modelo, reduzindo sua capacidade de aprendizagem em dados privados, e demonstra forte transferibilidade entre diferentes modelos.

A aprendizagem contrastiva multimodal (como CLIP) alcançou um progresso significativo na classificação zero-shot, aprendendo com milhões de pares de legendas de imagens extraídos da Internet.

No entanto, esta confiança representa riscos de privacidade, uma vez que os hackers podem explorar dados de imagem-texto para treino de modelos sem autorização, o que pode incluir informações pessoais e sensíveis à privacidade.

Trabalhos recentes propõem que atalhos com proteção podem ser estabelecidos gerando exemplos não aprendíveis, adicionando perturbações imperceptíveis às imagens de treinamento.

No entanto, esses métodos são projetados para tarefas de classificação unimodal e permanecem pouco explorados na aprendizagem contrastiva multimodal. Este artigo explora primeiro este contexto avaliando o desempenho dos métodos existentes em pares imagem-legenda, onde os métodos anteriores não podem generalizar efetivamente para dados multimodais devido à falta de rótulos neste cenário, e têm eficácia limitada no estabelecimento de atalhos.

Neste artigo propomos a Minimização de Erros em Várias Etapas (MEM), um novo processo de otimização para gerar amostras multimodais não aprendíveis. Ele estende a estrutura de minimização de erros (EM) para otimizar o ruído da imagem e gatilhos de texto adicionais, ampliando assim o espaço de otimização e enganando efetivamente o modelo para aprender atalhos entre recursos de ruído e gatilhos de texto.


Link do artigo: https://arxiv.org/abs/2407.16307

Link do código: https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

Especificamente, a descida do gradiente projetada é adotada para resolver o problema de minimização de ruído, e o método HotFlip é usado para aproximar o gradiente e substituir palavras para encontrar o gatilho de texto ideal.

Um grande número de experimentos comprovou a eficácia do método, os resultados da recuperação após a proteção são quase metade daqueles da adivinhação aleatória e é altamente transferível entre diferentes modelos. O papel e o código deste trabalho são de código aberto.

Antecedentes da Pesquisa

Nos últimos anos, com o surgimento da aprendizagem multimodal, os pesquisadores tornaram-se profundamente interessados ​​em modelos que combinam vários tipos de dados, como texto, imagens e áudio.

Entre eles, a aprendizagem contrastiva multimodal tornou-se um método importante neste campo. Modelos como CLIP e ALIGN utilizam treinamento de perda contrastiva para aumentar a correlação entre imagens e texto, reduzindo assim a necessidade de anotação manual e demonstrando as vantagens na imagem. classificação, potencial em tarefas como geração.

No entanto, o treino destes modelos depende de grandes quantidades de dados multimodais, que muitas vezes provêm de conjuntos de dados disponíveis publicamente, como CC12M, YFCC100M e LAION5B, mas estes conjuntos de dados podem ainda ser insuficientes e conter uma grande quantidade de informações pessoais sensíveis, desencadeando preocupações sobre violações de privacidade.

Consideramos um cenário que se concentra na geração de amostras multimodais não aprendíveis para lidar com os riscos de privacidade associados à aprendizagem contrastiva multimodal. Neste cenário, nos concentramos em pares imagem-texto como conjuntos de dados multimodais representativos. Presume-se que os usuários frequentemente compartilham fotos pessoais com texto em plataformas de mídia social como o Facebook, incluindo algumas informações de identificação privada, como rostos, nomes, números de telefone e endereços.

Atualmente, os hackers tentam coletar um grande número desses pares imagem-texto da Internet e treinar ou ajustar grandes modelos usando técnicas de aprendizagem contrastiva multimodal, conforme mostrado na metade esquerda da Figura 1.

Esses modelos capturam inadvertidamente informações privadas e características faciais dos usuários, levando a possíveis vazamentos de privacidade. Os protetores visam evitar a exploração não autorizada desses dados confidenciais, implementando métodos não aprendíveis em dados multimodais. Esses métodos tornam os recursos privados do usuário inacessíveis ao modelo treinado nessas amostras multimodais não aprendíveis, ao mesmo tempo que não prejudicam a interação social do usuário após postar imagens e textos, conforme mostrado na metade direita da Figura 1.


Figura 1: Postagens no Facebook podem revelar inadvertidamente informações pessoais (esquerda), mas os dados podem ser protegidos usando amostras multimodais não aprendíveis para evitar que modelos não autorizados acessem recursos privados (direita)

motivação

Pesquisas recentes concentram-se na prevenção do uso não autorizado de dados na classificação de imagens por meio de exemplos que não podem ser aprendidos. Esses métodos impedem o modelo de aprender características da imagem, aplicando perturbações sutis aos dados, também conhecidas como ataques de disponibilidade ou ataques de envenenamento indiscriminado.

É dividido principalmente em ataques de modelo sem agente e ataques de modelo baseado em agente, onde os ataques de modelo sem agente geram ruído no nível de pixel, enquanto os ataques de modelo baseados em agente geram ruído em nível de recurso através do modelo de agente.

No entanto, todos os métodos de modelo livre de agente para classificação falham em gerar ruído de imagem em cenários multimodais porque esses métodos visam encontrar uma série de padrões de ruído específicos para imagens relacionadas a uma categoria específica, enquanto pares imagem-texto Não há rótulos em os dados.

Portanto, apenas métodos baseados em modelos de agentes podem ser aplicados, e estendemos dois métodos típicos para gerar exemplos multimodais não aprendíveis (EM e UAP).

O método de minimização de erros (EM):


Método de perturbação adversária não direcionada (UAP):


Embora EM e UAP possam ser aplicados a pares imagem-legenda, eles não conseguem obter proteção eficiente, especialmente UAP. Exploramos as razões pelas quais esses métodos diminuem em eficácia desde a classificação de imagens até o aprendizado contrastivo multimodal.

Na classificação de imagens, EM e UAP otimizam imagens com o mesmo rótulo para convergir no espaço de recursos, fazendo com que o modelo capture facilmente esses ruídos adicionais e aprenda a correlação com o rótulo, conforme mostrado na Figura 2 (a).


Figura 2: Comparação de diferentes métodos de classificação tradicional e aprendizagem contrastiva multimodal. Representa uma imagem e é o título emparelhado.A área azul é o limite de decisão esperado para um modelo treinado em amostras não aprendíveis

Mas na aprendizagem contrastiva multimodal, para aplicar eficazmente os métodos EM e UAP, a direção do ruído otimizado da imagem deve estar relacionada às características do texto, fazendo com que as características da imagem fiquem próximas ou distantes dessas características. .

No entanto, diferentes pares de recursos de texto podem estar amplamente dispersos em conjuntos de dados de imagem-texto. Conforme mostrado na Figura 2 (b) e (c), diferentemente da classificação, é mais difícil para o modelo capturar a correlação entre legendas e ruído gerado por EM e UAP.

Na Figura 2 (c), o espaço de decisão de aprendizagem do UAP é mais complexo, portanto seu efeito de proteção não é bom.

método


Figura 3: Estrutura do método de minimização de erros em várias etapas (MEM)

Devido à dispersão dos pares imagem-texto, os métodos baseados em modelos proxy ainda não conseguem obter uma proteção eficaz. Uma estratégia de aprimoramento intuitiva é otimizar imagens e texto simultaneamente para obter um espaço de otimização maior e promover sua convergência em diferentes pares no espaço de recursos.

Portanto, as representações otimizadas de recursos de conjuntos de imagens e textos exibem distribuições semelhantes, o que facilita ao modelo aprender seus atalhos, conforme mostrado na Figura 2 (d).

Para este fim, tomamos o método EM como estrutura básica e propomos adicionar gatilhos adicionais de texto curto antes das legendas para minimizar a perda de contraste, seguindo a configuração de ataques adversários em tarefas de texto. Nosso método pode ser conceituado como um problema de otimização iterativo de três níveis, semelhante ao processo de múltiplas etapas do EM.

Especificamente, otimizamos o ruído δ e o gatilho de texto t sequencialmente para reduzir a perda de contraste entre a imagem otimizada I + δ e o texto otimizado T ⊕ t, onde ⊕ representa um gatilho que pode inserir texto limpo T em diferentes posições.

Para simplificar, neste artigo optamos por adicionar um gatilho de texto no início do texto. Portanto, nosso método de minimização de erros em várias etapas (MEM) pode ser formulado como:


Os problemas acima são otimizados iterativamente referindo-se aos métodos em EM. A descida gradiente projetada (PGD) é usada para resolver o problema de minimização de ruído na Eq.

Notavelmente, para mitigar o excesso de ruído nas legendas limpas, nós as aprimoramos embaralhando as legendas limpas em lotes e adicionando acionadores de texto correspondentes corretamente. Portanto, diante de legendas semanticamente incorretas, esse ruído gerado pode se concentrar mais em gatilhos textuais do que em legendas parciais. Portanto, podemos obter o δ ótimo de acordo com a seguinte fórmula iterativa:

Para o problema de minimização do acionador de texto, a sequência do acionador é inicializada primeiro repetindo a palavra "o" ou "a" na frente de todas as entradas.

Além disso, o acionador de texto é otimizado com base no HotFlip e o efeito de substituição da marca é aproximado pelo gradiente. Ao atualizar a incorporação de cada token de acionamento para minimizar a aproximação de Taylor de primeira ordem da perda CLIP em torno da incorporação do token atual:


Finalmente, podemos usar a pesquisa em feixe para procurar cada gatilho de texto ideal no conjunto de tags candidatas. Consideramos os k principais candidatos da equação acima e pesquisamos de frente para trás em cada posição do flip-flop e pontuamos cada pacote usando a perda no lote atual.

Seguimos a abordagem de Wallace et al e usamos pacotes pequenos para computação eficiente. Na Figura 3, podemos ver a estrutura para usar nosso MEM para gerar amostras multimodais não aprendíveis.

Efeito experimental

Proteção eficaz


Tabela 1: Comparação da eficácia de amostras não aprendíveis geradas por vários métodos em diferentes conjuntos de dados

A Tabela 1 mostra os resultados de recuperação em diferentes conjuntos de dados. Claramente, os UAP quase não oferecem proteção para dados multimodais, enquanto os EM exibem algum nível de proteção.

No entanto, nosso MEM sempre oferece forte proteção para dados multimodais, reduzindo o desempenho de recuperação para quase metade do desempenho de adivinhação aleatória. O MEM-5, em particular, obteve um efeito maior na redução do desempenho do modelo hacker do que o MEM-3 devido ao seu acionamento de texto mais longo.

A Figura 4 mostra as curvas de declínio de perda de treinamento para treinamento em amostras não aprendíveis geradas por diferentes métodos e recuperação Medr no conjunto de teste limpo. Pode-se observar em (a) que embora o EM faça a perda cair mais rápido que o treinamento normal, nossos métodos MEM-3 e MEM-5 apresentam perdas menores na primeira época, o que mostra que o modelo pode aprender atalhos rapidamente.

Em (b), descobrimos que o Medr de todos os modelos é menor do que quando adivinhado aleatoriamente, mas o modelo treinado em amostras não aprendíveis para de aprender mais rápido, atinge os piores resultados de recuperação e não aumenta à medida que a época aumenta. As observações acima são consistentes com os resultados da Tabela 1.


Figura 4: Registros de mudança de curva de perda de treinamento e indicador de teste Medr

Portabilidade entre modelos


Tabela 2: Transferibilidade de amostras não aprendíveis geradas pelo método MEM-3 com base no modelo ResNet50 em diferentes arquiteturas de modelo

Assumimos que a proteção de dados é uma configuração completamente de caixa preta, onde o protetor desconhece a arquitetura do modelo hacker. Portanto, avaliamos o desempenho do MEM gerado no modelo proxy ResNet50 em diferentes modelos de hacking, incluindo ResNet101 e ViT. Os resultados são mostrados na Tabela 2. Descobrimos que essas amostras podem ser transferidas com sucesso entre diferentes modelos e podem degradar o desempenho dos modelos CLIP.

Análise visual


Figura 5: Visualização do mapa de atenção: comparando quatro modelos em dados limpos e amostras não aprendíveis com métodos diferentes

A Figura 5 mostra os mapas de calor de atenção de modelos treinados em dados limpos e amostras não aprendíveis geradas por diferentes métodos. Para imagens usamos Grad-CAM para visualizar a atenção do modelo, enquanto para texto usamos Gradientes Integrados para visualizar a atenção. Quanto mais clara a cor, maior será a atenção do modelo.

Vale ressaltar que para os modelos da Figura 5(1), (2) e (3) todos focam na área central, que está relacionada às legendas.

No entanto, o modelo treinado em amostras geradas pelo MEM-3 na Figura 5(4) não consegue identificar com precisão imagens limpas porque apenas aprende características de ruído. Também no texto, os modelos dos três primeiros focam na palavra-chave “vidro”, enquanto o modelo do último foca nas três primeiras palavras. Isso pode ocorrer porque o MEM-3 sempre otimiza o ruído e as três primeiras palavras. gatilhos para criar atalhos.

Estes resultados de visualização mostram que EM e UAP não são eficazes na proteção de dados multimodais, enquanto o MEM é significativamente eficaz.


Figura 6: visualização t-SNE de amostras limpas e amostras não aprendíveis otimizadas para MEM-3 sob modelo limpo e modelo envenenado

Visualizamos a distribuição de características de amostras limpas no modelo normal e a distribuição de características de amostras não aprendíveis otimizadas por MEM3 no modelo envenenado na Figura 6. Usamos triângulos para representar recursos de imagem, círculos para representar recursos de texto e a mesma cor representa as cinco imagens idênticas, mas transformadas no conjunto de dados e suas descrições diferentes correspondentes.

Em (a), podemos observar que no modelo limpo, as mesmas imagens e textos estão agrupados internamente, e os pares imagem-texto correspondentes estão próximos um do outro.

Porém, em (b), a mesma imagem e texto divergem, e apenas pares de imagens e texto estão próximos um do outro. Isso mostra que nosso método promove efetivamente o modelo para aprender atalhos entre ruído e gatilhos de texto.

Estudo de caso: Proteção de privacidade facial

Conduzimos um estudo de caso aplicando nosso ruído MEM a um cenário do mundo real: protegendo imagens faciais pessoais e informações relacionadas, como nomes, em plataformas de mídia social.

Conduzimos experimentos usando o banco de dados PubFig, um grande conjunto de dados faciais do mundo real contendo 58.797 imagens de 200 indivíduos coletadas da Internet. Para avaliação de recuperação, selecionamos aleatoriamente uma foto de cada celebridade como conjunto de teste e usamos todas as imagens restantes para treinamento.

Para um ajuste realista, alteramos seus nomes e fornecemos um conjunto de modelos de texto relacionados a esse nome para geração de legendas. Posteriormente, usamos MEM para gerar amostras não aprendíveis e avaliá-las usando diferentes modelos de hacking. Os resultados são mostrados na Tabela 3.

O MEM evita que esses modelos ajustados aprendam correlações entre características de rosto e nome, dificultando assim a recuperação precisa de pessoas no conjunto de teste.


Tabela 3: Efeito de proteção de amostras não aprendíveis geradas pelo ajuste fino do ResNet50 em diferentes modelos pré-treinados

Conclusão

Neste artigo, exploramos a proteção de dados multimodais, focando especificamente em pares imagem-texto, onde geramos amostras multimodais não aprendíveis para evitar a exploração pela aprendizagem contrastiva multimodal. Estendemos métodos de classificação anteriores a este contexto, revelando limitações devido ao aumento de modalidades e dados dispersos.

À luz dessas descobertas, apresentamos um novo método generativo chamado minimização de erros em várias etapas (MEM), que é baseado na estrutura EM. O MEM estabelece atalhos eficazes entre gatilhos de ruído e texto e demonstra transferibilidade entre diferentes modelos de hacking.

Além disso, verificamos a eficácia da nossa abordagem utilizando diversas ferramentas de visualização. Nosso trabalho abre uma nova direção que se espera que seja aplicável a outros pares de modalidades, como pares de áudio-texto e áudio-imagem.

Sobre o autor

Os autores deste artigo são do Instituto de Tecnologia da Informação, da Academia Chinesa de Ciências, da Universidade Tecnológica de Nanyang, da Universidade Nacional de Cingapura e da Universidade Sun Yat-sen. Lista de autores: Liu Xinwei, Jia Xiaojun, Xunyuan, Liang Siyuan, Cao Xiaochun.

Entre eles, o primeiro autor Liu Xinwei é doutorando no Instituto de Tecnologia da Informação da Academia Chinesa de Ciências. Os autores correspondentes são o professor Cao Xiaochun da Universidade Sun Yat-sen e o pesquisador de pós-doutorado Jia Xiaojun da Universidade Tecnológica de Nanyang.

Referências:

https://scst.sysu.edu.cn/members/caoxiaochun.html

https://jiaxiaojunqaq.github.io