noticias

¡Compárese con aprender a abusar de los datos privados! La Academia de Ciencias de China y otros lanzaron el método de "minimización de errores de varios pasos" ACM MM2024

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: LRST Qué sueño

[Introducción a la Nueva Sabiduría] Los investigadores proponen un novedoso método de minimización de errores de varios pasos (MEM) para generar muestras multimodales que no se pueden aprender para proteger los datos personales del abuso por parte de modelos de aprendizaje contrastivo multimodal. Al optimizar el ruido de la imagen y los activadores de texto, el método MEM efectivamente engaña al modelo, reduce su capacidad de aprendizaje sobre datos privados y demuestra una fuerte transferibilidad entre diferentes modelos.

El aprendizaje contrastivo multimodal (como CLIP) ha logrado avances significativos en la clasificación de disparo cero al aprender de millones de pares de imágenes y títulos extraídos de Internet.

Sin embargo, esta dependencia plantea riesgos para la privacidad, ya que los piratas informáticos pueden explotar datos de imágenes y texto para el entrenamiento de modelos sin autorización, lo que puede incluir información personal y sensible a la privacidad.

Un trabajo reciente propone que se pueden establecer atajos con protección generando ejemplos que no se pueden aprender agregando perturbaciones imperceptibles a las imágenes de entrenamiento.

Sin embargo, estos métodos están diseñados para tareas de clasificación unimodal y siguen sin explorarse en el aprendizaje contrastivo multimodal. Este artículo primero explora este contexto evaluando el desempeño de los métodos existentes en pares de imagen-título, donde los métodos anteriores no pueden generalizarse de manera efectiva a datos multimodales debido a la falta de etiquetas en este escenario, y tienen una efectividad limitada para establecer atajos.

En este artículo proponemos la Minimización de errores de múltiples pasos (MEM), un novedoso proceso de optimización para generar muestras multimodales no aprendibles. Amplía el marco de minimización de errores (EM) para optimizar el ruido de la imagen y los activadores de texto adicionales, ampliando así el espacio de optimización y engañando efectivamente al modelo para que aprenda atajos entre las características de ruido y los activadores de texto.


Enlace del artículo: https://arxiv.org/abs/2407.16307

Enlace de código: https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

Específicamente, se adopta el descenso de gradiente proyectado para resolver el problema de minimización de ruido y se utiliza el método HotFlip para aproximar el gradiente y reemplazar palabras para encontrar el activador de texto óptimo.

Una gran cantidad de experimentos han demostrado la eficacia del método, los resultados de recuperación después de la protección son casi la mitad de los de las adivinanzas aleatorias y es altamente transferible entre diferentes modelos. El documento y el código de este trabajo son de código abierto.

Antecedentes de la investigación

En los últimos años, con el auge del aprendizaje multimodal, los investigadores se han interesado mucho en modelos que combinan múltiples tipos de datos, como texto, imágenes y audio.

Entre ellos, el aprendizaje contrastivo multimodal se ha convertido en un método importante en este campo. Modelos como CLIP y ALIGN utilizan entrenamiento de pérdida de contraste para mejorar la correlación entre imágenes y texto, reduciendo así la necesidad de anotaciones manuales y demostrando las ventajas en imágenes. clasificación, potencial en tareas como la generación.

Sin embargo, el entrenamiento de estos modelos se basa en grandes cantidades de datos multimodales, que a menudo provienen de conjuntos de datos disponibles públicamente como CC12M, YFCC100M y LAION5B, pero estos conjuntos de datos pueden aún ser insuficientes y contener una gran cantidad de información personal confidencial. Desencadenando preocupaciones sobre violaciones de la privacidad.

Consideramos un escenario que se centra en generar muestras multimodales que no se pueden aprender para hacer frente a los riesgos de privacidad asociados con el aprendizaje contrastivo multimodal. En este escenario, nos centramos en pares imagen-texto como conjuntos de datos multimodales representativos. Se supone que los usuarios suelen compartir fotografías personales con texto en plataformas de redes sociales como Facebook, incluida cierta información de identificación privada, como caras, nombres, números de teléfono y direcciones.

Actualmente, los piratas informáticos intentan recopilar una gran cantidad de estos pares de imagen y texto de Internet y entrenar o ajustar modelos grandes utilizando técnicas de aprendizaje contrastivo multimodal, como se muestra en la mitad izquierda de la Figura 1.

Estos modelos capturan inadvertidamente la información privada y los rasgos faciales de los usuarios, lo que genera posibles filtraciones de privacidad. Los protectores tienen como objetivo evitar que estos datos confidenciales sean explotados no autorizados mediante la implementación de métodos que no se pueden aprender en datos multimodales. Estos métodos hacen que las funciones privadas del usuario sean inaccesibles para el modelo entrenado en dichas muestras multimodales que no se pueden aprender, sin obstaculizar la interacción social del usuario después de publicar imágenes y textos, como se muestra en la mitad derecha de la Figura 1.


Figura 1: Las publicaciones en Facebook pueden revelar inadvertidamente información personal (izquierda), pero los datos se pueden proteger mediante el uso de muestras multimodales que no se pueden aprender para evitar que modelos no autorizados accedan a funciones privadas (derecha).

motivación

Investigaciones recientes se centran en prevenir el uso no autorizado de datos en la clasificación de imágenes mediante ejemplos que no se pueden aprender. Estos métodos impiden que el modelo aprenda las características de la imagen mediante la aplicación de perturbaciones sutiles a los datos, también conocidas como ataques de disponibilidad o ataques de envenenamiento indiscriminados.

Se divide principalmente en ataques de modelo sin agente y ataques de modelo basado en agente, donde los ataques de modelo sin agente generan ruido a nivel de píxel, mientras que los ataques de modelo basado en agente generan ruido a nivel de característica a través del modelo de agente.

Sin embargo, todos los métodos de clasificación de modelos sin agentes no logran generar ruido de imagen en escenarios multimodales porque estos métodos tienen como objetivo encontrar una serie de patrones de ruido específicos para imágenes relacionadas con una categoría específica, mientras que los pares imagen-texto no hay etiquetas en los datos.

Por lo tanto, solo se pueden aplicar métodos basados ​​en modelos de agentes y ampliamos dos métodos típicos para generar ejemplos multimodales no aprendibles (EM y UAP).

El método de ruido de minimización de errores (EM):


Método de perturbación adversaria no dirigida (UAP):


Aunque EM y UAP se pueden aplicar a pares imagen-subtítulo, no logran una protección eficiente, especialmente UAP. Exploramos las razones por las que estos métodos disminuyen en efectividad desde la clasificación de imágenes hasta el aprendizaje contrastivo multimodal.

En la clasificación de imágenes, EM y UAP optimizan las imágenes con la misma etiqueta para que converjan en el espacio de características, lo que hace que el modelo capture fácilmente estos ruidos adicionales y aprenda la correlación con la etiqueta, como se muestra en la Figura 2 (a).


Figura 2: Comparación de diferentes métodos en clasificación tradicional y aprendizaje contrastivo multimodal. Representa una imagen y es el título emparejado.El área azul es el límite de decisión esperado para un modelo entrenado con muestras que no se pueden aprender.

Pero en el aprendizaje contrastivo multimodal, para aplicar eficazmente los métodos EM y UAP, la dirección del ruido de la imagen optimizada debe estar relacionada con las características del texto, lo que hace que las características de la imagen se acerquen o se alejen de estas características. .

Sin embargo, diferentes pares de características de texto pueden estar muy dispersos en conjuntos de datos de imagen y texto. Como se muestra en las Figuras 2 (b) y (c), a diferencia de la clasificación, es más difícil para el modelo capturar la correlación entre los subtítulos y el ruido generado por EM y UAP.

En la Figura 2 (c), el espacio de decisión de aprendizaje de UAP es más complejo, por lo que su efecto de protección no es bueno.

método


Figura 3: Marco del método de minimización de errores de varios pasos (MEM)

Debido a la dispersión de los pares imagen-texto, los métodos basados ​​en modelos proxy aún no pueden lograr una protección efectiva. Una estrategia de mejora intuitiva es optimizar imágenes y texto simultáneamente para obtener un espacio de optimización más grande y promover su convergencia en diferentes pares en el espacio de características.

Por lo tanto, las representaciones de características optimizadas de conjuntos de imágenes y texto exhiben distribuciones similares, lo que facilita que el modelo aprenda sus atajos, como se muestra en la Figura 2 (d).

Para este fin, tomamos el método EM como marco básico y proponemos agregar activadores de texto breves adicionales antes de los subtítulos para minimizar la pérdida de contraste, luego del establecimiento de ataques adversarios en tareas de texto. Nuestro método puede conceptualizarse como un problema de optimización iterativo de tres niveles, similar al proceso de múltiples pasos de EM.

Específicamente, optimizamos el ruido δ y el disparador de texto t secuencialmente para reducir la pérdida de contraste entre la imagen optimizada I + δ y el texto optimizado T ⊕ t, donde ⊕ representa un disparador que puede insertar texto limpio T en diferentes posiciones.

En aras de la simplicidad, en este artículo elegimos agregar un activador de texto al principio del texto. Por lo tanto, nuestro método de minimización de errores de múltiples pasos (MEM) se puede formular como:


Los problemas anteriores se optimizan iterativamente haciendo referencia a los métodos en EM. El descenso de gradiente proyectado (PGD) se utiliza para resolver el problema de minimización de ruido en la ecuación.

En particular, para mitigar el exceso de ruido en los subtítulos limpios, los mejoramos codificando los subtítulos limpios en lotes y agregando activadores de texto que coincidan correctamente. Por lo tanto, cuando nos enfrentamos a subtítulos semánticamente incorrectos, este ruido generado puede centrarse más en desencadenantes textuales que en subtítulos parciales. Por tanto, podemos obtener el δ óptimo según la siguiente fórmula iterativa:

Para el problema de minimización del disparador de texto, la secuencia del disparador se inicializa primero repitiendo la palabra "el" o "a" delante de todas las entradas.

Además, el disparador de texto está optimizado en función de HotFlip y el efecto de reemplazar la marca se aproxima mediante gradiente. Actualizando la incorporación de cada token de activación para minimizar la aproximación de Taylor de primer orden de la pérdida CLIP alrededor de la incorporación del token actual:


Finalmente, podemos utilizar la búsqueda por haz para buscar cada activador de texto óptimo en el conjunto de etiquetas candidatas. Consideramos los k candidatos principales de la ecuación anterior y buscamos de adelante hacia atrás en cada posición del flip-flop y calificamos cada paquete usando la pérdida en el lote actual.

Seguimos el enfoque de Wallace et al. y utilizamos paquetes de tamaños pequeños para un cálculo eficiente. En la Figura 3, podemos ver el marco para usar nuestro MEM para generar muestras multimodales que no se pueden aprender.

efecto experimental

Protección efectiva


Tabla 1: Comparación de la efectividad de muestras no aprendibles generadas por varios métodos en diferentes conjuntos de datos

La Tabla 1 muestra los resultados de su recuperación en diferentes conjuntos de datos. Claramente, UAP casi no proporciona protección para datos multimodales, mientras que EM muestra cierto nivel de protección.

Sin embargo, nuestro MEM siempre brinda una sólida protección para datos multimodales, lo que reduce el rendimiento de recuperación a casi la mitad que el de las conjeturas aleatorias. MEM-5, en particular, logró un mayor efecto en la reducción del rendimiento del modelo hacker que MEM-3 debido a su activación de texto más larga.

La Figura 4 muestra las curvas de disminución de la pérdida de entrenamiento para el entrenamiento en muestras no aprendibles generadas por diferentes métodos y recuperación Medr en el conjunto de prueba limpio. Se puede observar en (a) que aunque EM hace que la pérdida disminuya más rápido que el entrenamiento normal, nuestros métodos MEM-3 y MEM-5 tienen pérdidas más pequeñas en la primera época, lo que muestra que el modelo puede aprender atajos rápidamente.

De (b) encontramos que el Medr de todos los modelos es menor que cuando se adivina aleatoriamente, pero el modelo entrenado con muestras que no se pueden aprender deja de aprender más rápido, alcanza los peores resultados de recuperación y no aumenta a medida que aumenta la época. Las observaciones anteriores son consistentes con los resultados de la Tabla 1.


Figura 4: Registros de cambios de curva de pérdida de entrenamiento e indicador de prueba Medr

Portabilidad entre modelos


Tabla 2: Transferibilidad de muestras no aprendibles generadas por el método MEM-3 basado en el modelo ResNet50 en diferentes arquitecturas de modelo

Suponemos que la protección de datos es una configuración completamente de caja negra, donde el protector desconoce la arquitectura del modelo hacker. Por lo tanto, evaluamos el rendimiento del MEM generado en el modelo de proxy ResNet50 en diferentes modelos de piratería, incluidos ResNet101 y ViT. Los resultados se muestran en la Tabla 2. Descubrimos que estas muestras se pueden transferir con éxito entre diferentes modelos y pueden degradar el rendimiento de los modelos CLIP.

Análisis visual


Figura 5: Visualización del mapa de atención: comparación de cuatro modelos con datos limpios y muestras que no se pueden aprender con diferentes métodos

La Figura 5 muestra los mapas de calor de atención de modelos entrenados con datos limpios y muestras no aprendibles generadas por diferentes métodos. Para imágenes, usamos Grad-CAM para visualizar la atención del modelo, mientras que para texto usamos degradados integrados para visualizar la atención. Cuanto más claro es el color, mayor es la atención del modelo.

Vale la pena señalar que para los modelos de la Figura 5 (1), (2) y (3), todos se centran en el área central, que está relacionada con los subtítulos.

Sin embargo, el modelo entrenado con muestras generadas por MEM-3 en la Figura 5(4) no puede identificar con precisión imágenes limpias porque solo aprende características de ruido. También en el texto, los modelos de los tres primeros se centran en la palabra clave "vidrio", mientras que el modelo del último se centra en las tres primeras palabras. Esto puede deberse a que MEM-3 siempre optimiza el ruido y las tres primeras palabras. disparadores para crear atajos.

Estos resultados de visualización muestran que EM y UAP no son efectivos para proteger datos multimodales, mientras que MEM es significativamente efectivo.


Figura 6: Visualización t-SNE de muestras limpias y muestras no aprendibles optimizadas para MEM-3 bajo el modelo limpio y el modelo envenenado

Visualizamos la distribución de características de muestras limpias bajo el modelo normal y la distribución de características de muestras no aprendibles optimizadas por MEM3 en el modelo envenenado en la Figura 6. Usamos triángulos para representar características de la imagen, círculos para representar características del texto y el mismo color representa las cinco imágenes idénticas pero transformadas en el conjunto de datos y sus correspondientes descripciones diferentes.

De (a) podemos observar que bajo el modelo limpio, las mismas imágenes y textos están agrupados internamente, y los pares imagen-texto correspondientes están cerca uno del otro.

Sin embargo, en (b), la misma imagen y el mismo texto divergen, y sólo los pares de imágenes y texto están cerca uno del otro. Esto muestra que nuestro método promueve efectivamente que el modelo aprenda atajos entre los activadores de ruido y texto.

Estudio de caso: Protección de la privacidad facial

Realizamos un estudio de caso aplicando nuestro ruido MEM a un escenario del mundo real: proteger imágenes de rostros personales e información relacionada, como nombres en plataformas de redes sociales.

Realizamos experimentos utilizando la base de datos PubFig, un gran conjunto de datos de rostros del mundo real que contiene 58.797 imágenes de 200 personas recopiladas de Internet. Para la evaluación de la recuperación, seleccionamos al azar una foto de cada celebridad como conjunto de prueba y utilizamos todas las imágenes restantes para el entrenamiento.

Para un ajuste realista, cambiamos sus nombres y proporcionamos un conjunto de plantillas de texto relacionadas con ese nombre para la generación de subtítulos. Posteriormente, utilizamos MEM para generar muestras que no se pueden aprender y evaluarlas utilizando diferentes modelos de piratería. Los resultados se muestran en la Tabla 3.

MEM evita que estos modelos ajustados aprendan correlaciones entre las características de la cara y el nombre, lo que dificulta la recuperación precisa de personas en el conjunto de prueba.


Tabla 3: Efecto de protección de muestras no aprendibles generadas por el ajuste fino de ResNet50 en diferentes modelos previamente entrenados

Conclusión

En este artículo, exploramos la protección de datos multimodal, centrándonos específicamente en pares imagen-texto, donde generamos muestras multimodales que no se pueden aprender para evitar la explotación mediante el aprendizaje contrastivo multimodal. Extendemos los métodos de clasificación anteriores a este contexto, revelando limitaciones debido al aumento de modalidades y datos dispersos.

A la luz de estos hallazgos, presentamos un método generativo novedoso llamado minimización de errores de múltiples pasos (MEM), que se basa en el marco EM. MEM establece efectivamente atajos entre los activadores de ruido y texto y demuestra la transferibilidad entre diferentes modelos de piratería.

Además, verificamos la eficacia de nuestro enfoque utilizando diversas herramientas de visualización. Nuestro trabajo abre una nueva dirección que se espera que sea aplicable a otros pares de modalidades, como los pares audio-texto y audio-imagen.

Sobre el Autor

Los autores de este artículo pertenecen al Instituto de Tecnología de la Información, la Academia de Ciencias de China, la Universidad Tecnológica de Nanyang, la Universidad Nacional de Singapur y la Universidad Sun Yat-sen. Lista de autores: Liu Xinwei, Jia Xiaojun, Xunyuan, Liang Siyuan, Cao Xiaochun.

Entre ellos, el primer autor, Liu Xinwei, es estudiante de doctorado en el Instituto de Tecnología de la Información de la Academia de Ciencias de China. Los autores correspondientes son el profesor Cao Xiaochun de la Universidad Sun Yat-sen y el investigador postdoctoral Jia Xiaojun de la Universidad Tecnológica de Nanyang.

Referencias:

https://scst.sysu.edu.cn/members/caoxiaochun.html

https://jiaxiaojunqaq.github.io