notícias

Copyright Trap: uma versão literal do “jogo de gato e rato” na era da IA

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

desdeinteligência artificial generativa Desde que a epidemia varreu o mundo, muitos criadores de conteúdo têm afirmado que seus trabalhos estão sendo usados ​​para treinar modelos de inteligência artificial sem permissão. Mas até agora tem sido difícil determinar se o trabalho que dizem foi realmente usado em determinados conjuntos de dados de treinamento.

Agora, os pesquisadores desenvolveram uma nova maneira de provar isso. Recentemente, uma equipe de pesquisadores do Imperial College London desenvolveu "armadilhas de direitos autorais", um tipo de texto oculto que permite que escritores e editores marquem sutilmente seus trabalhos para posteriormente detectar se eles foram protegidos por direitos autorais. A ideia é semelhante às táticas usadas anteriormente pelos detentores de direitos autorais, como adicionar locais falsos a mapas ou palavras falsas a dicionários.

Essas armadilhas dos direitos autorais da IA ​​geraram um dos maiores debates no campo da IA. Muitos editores e autores estão enfrentando ações judiciais contra empresas de tecnologia, alegando que sua propriedade intelectual está incluída em conjuntos de dados de treinamento de inteligência artificial sem permissão.Por exemplo, o New York TimesIA aberta A ação judicial pode ser o caso mais típico.

Até agora, o código para gerar e detectar armadilhas foi lançado no GitHub. Em seguida, a equipe planeja desenvolver uma ferramenta que permita aos usuários gerar e injetar armadilhas de direitos autorais por conta própria.

Yves-Alexandre de Montjoye, professor de matemática aplicada e ciência da computação no Imperial College London, que liderou a pesquisa, disse na Conferência Internacional de Aprendizado de Máquina, uma importante conferência sobre inteligência artificial em Viena esta semana: “Atualmente não há consenso sobre o que fazer. usar para treinar inteligência artificial Há uma total falta de transparência quando se trata de modelos inteligentes, o que acreditamos impede que as empresas de IA e os criadores de conteúdo encontrem o equilíbrio certo.”

Para criar a armadilha, ele e sua equipe usaram um gerador de palavras para criar milhares de frases sintéticas. As frases são longas e basicamente sem sentido, como: "Quando chegam tempos turbulentos... O que está à venda e, mais importante, quando está melhor, esta lista informa quem abre na quinta-feira à noite com seus horários normais de vendas e outros horários de funcionamento para você. "

Yves-Alexandre de Montjoye explicou: “Geramos 100 frases-armadilha e, em seguida, selecionamos aleatoriamente uma frase para injetá-la no texto várias vezes”. por exemplo, em Use texto branco em fundo branco ou incorpore-o ao código-fonte do artigo. Esta frase deve ser repetida de 100 a 1000 vezes no texto.

Para detectar essas armadilhas, eles alimentaram 100 sentenças sintéticas geradas em um grande modelo de linguagem e verificaram se o modelo as rotulou como novas sentenças. Se o modelo viu frases armadilha em seus dados de treinamento, ele mostra uma "pontuação de perplexidade" mais baixa, mas se o modelo for "surpreendido" pelas frases, significa que o modelo as encontrou pela primeira vez e, portanto, essas frases não são; armadilhas.

No passado, os pesquisadores sugeriram o uso de modelos de linguagem para memorizar dados de treinamento e determinar se algo estava presente nos dados. Essa técnica, conhecida como “ataques de inferência de associação”, funciona melhor em grandes modelos avançados, porque esses modelos tendem a lembrar grandes quantidades de dados durante o treinamento.

"Em contraste, modelos menores que são cada vez mais populares e podem ser executados em dispositivos móveis são menos suscetíveis a ataques de inferência de associação devido a quantidades menores de dados de memória. Isso torna mais fácil determinar se eles têm como alvo um específico protegido por direitos autorais. Torna-se mais difícil treinar no texto”, disse Gautam Kamath, professor assistente de ciência da computação na Universidade de Waterloo. Ele não estava envolvido no estudo.

Armadilha de direitos autorais, como forma de conduzir ataques de inferência de associação, mesmo em modelos menores. A equipe de Yves-Alexandre de Montjoye injetou sua armadilha no conjunto de dados de treinamento do CroissantLLM. CroissantLLM é um modelo bilíngue francês-inglês recém-desenvolvido, treinado por uma equipe de pesquisa do Imperial College London em colaboração com parceiros da indústria e da academia. O CroissantLLM possui 1,3 bilhão de parâmetros, uma fração dos modelos de última geração (por exemplo, o GPT-4 supostamente possui 1,76 trilhão de parâmetros).

“A pesquisa mostra que tais armadilhas podem realmente ser introduzidas em dados de texto, melhorando significativamente a eficácia dos ataques de inferência de membros, mesmo para modelos menores, disse Gautam Kamath, mas acrescentou que ainda há muito a fazer nesta fase.” ser feito.

“Repetir uma frase de 75 caracteres 1.000 vezes em um texto tem um grande impacto no texto original. Isso poderia permitir que um treinador treinando um modelo de IA detecte uma armadilha e pule o conteúdo que a contém, ou simplesmente exclua-o e ignore o resto do texto. o texto. Isso também torna o texto original difícil de ler", destacou Gautam Kamath.

"Isso faz com que as armadilhas de direitos autorais pareçam impraticáveis ​​no momento. Muitas empresas farão a desduplicação, em outras palavras, limparão os dados, e essas armadilhas de direitos autorais podem ser excluídas, professor de ciência da computação da UC Irvine, startup Sameer Singh, co-". disse o fundador da Spiffy AI. Ele também não esteve envolvido no estudo.

Na opinião de Gautam Kamath, outra maneira de melhorar as armadilhas de direitos autorais é encontrar outras maneiras de marcar o conteúdo protegido por direitos autorais para que os ataques de inferência de associação funcionem melhor contra eles, ou para melhorar os próprios ataques de inferência de associação.

Yves-Alexandre de Montjoye reconhece que estas armadilhas não são infalíveis. “Um invasor motivado poderia remover a armadilha se soubesse que ela existia”, disse ele.

“Mas se eles conseguirão removê-los todos é uma incógnita, e pode ser um jogo de ‘gato e rato’”, disse ele. “Mesmo assim, quanto mais armadilhas você montar, sem dedicar muitos recursos de engenharia, mais. melhor. Fica mais difícil remover todas as armadilhas.”

“É importante lembrar que as armadilhas de direitos autorais podem ser uma medida provisória ou simplesmente uma inconveniência para os treinadores modelo. É impossível para alguém postar um conteúdo contendo uma armadilha e garantir que sempre será uma armadilha válida, disse Gautam Kamath.

Links originais:

https://www.technologyreview.com/2024/07/25/1095347/a-new-tool-for-copyright-holders-can-show-if-their-work-is-in-ai-training-data/