noticias

Trampa de derechos de autor: una versión literal del “juego del gato y el ratón” en la era de la IA

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

desdeinteligencia artificial generativa Desde que la epidemia arrasó el mundo, muchos creadores de contenidos han afirmado que sus trabajos se utilizan para entrenar modelos de inteligencia artificial sin permiso. Pero hasta ahora, ha sido difícil determinar si el trabajo que dicen se utilizó realmente en ciertos conjuntos de datos de entrenamiento.

Ahora, los investigadores han desarrollado una nueva forma de demostrarlo. Recientemente, un equipo de investigadores del Imperial College de Londres desarrolló "trampas de derechos de autor", un tipo de texto oculto que permite a escritores y editores marcar sutilmente sus obras para detectar posteriormente si tienen derechos de autor y se utilizan para entrenar modelos de inteligencia artificial. La idea es similar a tácticas utilizadas anteriormente por los titulares de derechos de autor, como agregar ubicaciones falsas a mapas o palabras falsas a diccionarios.

Estos problemas de derechos de autor de la IA han provocado uno de los mayores debates en el campo de la IA. Muchos editores y autores están entablando demandas contra empresas de tecnología, alegando que su propiedad intelectual se incluye en conjuntos de datos de entrenamiento de inteligencia artificial sin permiso.Por ejemplo, el New York TimesIA abierta La demanda puede ser el caso más típico.

Hasta ahora, el código para generar y detectar trampas se lanzó en GitHub. A continuación, el equipo planea desarrollar una herramienta que permita a los usuarios generar e inyectar trampas de derechos de autor por sí mismos.

Yves-Alexandre de Montjoye, profesor de matemáticas aplicadas e informática en el Imperial College de Londres, que dirigió la investigación, dijo en la Conferencia Internacional de Aprendizaje Automático, una importante conferencia sobre inteligencia artificial celebrada en Viena esta semana: "Actualmente no hay consenso sobre qué hacer". "Se utiliza para entrenar inteligencia artificial. Hay una total falta de transparencia cuando se trata de modelos inteligentes, lo que creemos que impide que las empresas de inteligencia artificial y los creadores de contenido encuentren el equilibrio adecuado".

Para crear la trampa, él y su equipo utilizaron un generador de palabras para crear miles de oraciones sintéticas. Las frases son largas y básicamente galimatías, como, "Cuando lleguen tiempos turbulentos... Qué está en oferta y, lo que es más importante, cuándo es mejor, esta lista le indica quién abre el jueves por la noche con su horario habitual de venta y otros horarios de apertura. para ti. "

Yves-Alexandre de Montjoye explicó: "Generamos 100 oraciones trampa y luego seleccionamos una oración al azar para inyectarla en el texto varias veces. Al mismo tiempo, la trampa también se puede inyectar en el texto de varias maneras". por ejemplo, en Usar texto blanco sobre fondo blanco o incrustarlo en el código fuente del artículo. Esta frase debe repetirse entre 100 y 1000 veces en el texto.

Para detectar estos errores, introdujeron 100 oraciones sintéticas generadas en un modelo de lenguaje grande y vieron si el modelo las etiquetaba como oraciones nuevas. Si el modelo ha visto oraciones trampa en sus datos de entrenamiento, muestra una "puntuación de perplejidad" más baja, pero si el modelo está "sorprendido" por las oraciones, significa que el modelo las encontró por primera vez y, por lo tanto, estas oraciones no lo son; trampas.

En el pasado, los investigadores sugirieron utilizar modelos de lenguaje para memorizar datos de entrenamiento y determinar si hay algo presente en los datos. Esta técnica, conocida como "ataques de inferencia de membresía", funciona mejor en modelos grandes avanzados, porque estos modelos tienden a recordar grandes cantidades de datos durante el entrenamiento.

"Por el contrario, los modelos más pequeños que son cada vez más populares y pueden ejecutarse en dispositivos móviles son menos susceptibles a ataques de inferencia de membresía debido a cantidades más pequeñas de datos de memoria. Esto hace que sea más fácil determinar si se dirigen a un objetivo específico protegido por derechos de autor. Se vuelve más difícil entrenar en texto”, dijo Gautam Kamath, profesor asistente de informática en la Universidad de Waterloo. Él no estaba involucrado en el estudio.

Trampa de derechos de autor, como forma de realizar ataques de inferencia de membresía, incluso en modelos más pequeños. El equipo de Yves-Alexandre de Montjoye inyectó su trampa en el conjunto de datos de entrenamiento de CroissantLLM. CroissantLLM es un modelo de lenguaje bilingüe francés-inglés desarrollado recientemente y formado por un equipo de investigación del Imperial College de Londres en colaboración con socios de la industria y el mundo académico. CroissantLLM tiene 1.300 millones de parámetros, una fracción de los modelos más modernos (por ejemplo, GPT-4 supuestamente tiene 1,76 billones de parámetros).

"Las investigaciones muestran que este tipo de trampas pueden introducirse en datos de texto, mejorando significativamente la efectividad de los ataques de inferencia de membresía, incluso para modelos más pequeños", dijo Gautam Kamath, pero agregó que aún queda mucho trabajo por hacer. .

“Repetir una frase de 75 caracteres 1000 veces en un texto tiene un gran impacto en el texto original. Esto podría permitir a un entrenador que entrene un modelo de IA detectar una trampa y omitir el contenido que la contiene, o simplemente eliminarla e ignorar el resto. el texto. Esto también hace que el texto original sea difícil de leer", señaló Gautam Kamath.

"Esto hace que las trampas de derechos de autor parezcan poco prácticas en este momento. Muchas empresas harán la deduplicación, en otras palabras, limpiarán los datos, y estas trampas de derechos de autor pueden eliminarse, el profesor de informática de UC Irvine, la startup Sameer Singh, co- dijo el fundador de Spiffy AI. Tampoco participó en el estudio.

En opinión de Gautam Kamath, otra forma de mejorar las trampas de derechos de autor es encontrar otras formas de marcar el contenido protegido por derechos de autor para que los ataques de inferencia de membresía funcionen mejor contra ellos, o mejorar los propios ataques de inferencia de membresía.

Yves-Alexandre de Montjoye reconoce que estos obstáculos no son infalibles. "Un atacante motivado podría eliminar la trampa si supiera que existe", dijo.

"Pero se desconoce si podrán eliminarlas todas, y podría ser un juego del gato y el ratón", dijo. "Aun así, cuantas más trampas coloques, mejor sin dedicar muchos recursos de ingeniería". "Se vuelve más difícil eliminar todas las trampas."

"Es importante recordar que las trampas de derechos de autor pueden ser una medida provisional o simplemente un inconveniente para los entrenadores de modelos. Es imposible que alguien publique un contenido que contenga una trampa y garantice que siempre será una trampa válida", dijo Gautam Kamath.

Enlace original:

https://www.technologyreview.com/2024/07/25/1095347/a-new-tool-for-copyright-holders-can-show-if-their-work-is-in-ai-training-data/