A natureza revela informações privilegiadas chocantes: os papéis foram vendidos a preços altíssimos para alimentar a IA! Os editores ganham centenas de milhões, os autores ganham zero
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Novo Relatório de Sabedoria
Editor: Departamento Editorial[Introdução à Nova Sabedoria]Um artigo na Nature revelou: O artigo que você publicou pode ter sido usado para treinar o modelo! Algumas editoras ganharam US$ 23 milhões com a venda de dados. No entanto, os autores que trabalharam duro para codificar o artigo não conseguem um centavo.
O mundo está em uma crise de dados, o que devemos fazer?Recentemente, um artigo na Nature revelou-nos o facto de que até trabalhos de investigação científica têm sido utilizados para treinar IA...É relatado que muitas editoras acadêmicas autorizaram empresas de tecnologia a acessar seus próprios artigos para treinar modelos de IA.Um artigo, da idealização à finalização, envolve o trabalho árduo do autor dia e noite. Agora, é muito provável que se transforme em dados para treinar IA sem saber.O que é ainda mais irritante é que o jornal dele foi usado pela editora para obter lucros.De acordo com um relatório da Nature, no mês passado a editora académica britânica Taylor & Francis assinou um acordo de 10 milhões de dólares com a Microsoft, permitindo à Microsoft aceder aos seus dados para melhorar os sistemas de IA.Uma atualização para investidores em junho mostrou que a editora americana Wiley obteve um enorme lucro de US$ 23 milhões depois de permitir que uma empresa usasse seu modelo de treinamento de conteúdo!Mas esse dinheiro não tem nada a ver com os autores da maioria dos artigos.Além disso, Lucy Lu Wang, pesquisadora de IA da Universidade de Washington, também disse que mesmo que não esteja em um repositório de acesso aberto, qualquer conteúdo que possa ser lido online provavelmente foi inserido no LLM.O que é ainda mais assustador é que se um documento tiver sido usado como dados de treinamento para o modelo, ele não poderá ser excluído após a conclusão do treinamento do modelo.Se o seu artigo ainda não foi usado para treinar IA, não se preocupe – deve ser em breve!Conjuntos de dados são como ouro, e grandes empresas estão licitando por eles
Todos nós sabemos que o LLM precisa ser treinado em dados massivos, e esses dados geralmente são obtidos da Internet.É dos bilhões de tokens nesses dados de treinamento que o LLM deriva padrões para gerar texto, imagens e código.Os artigos acadêmicos são longos e possuem alta densidade de informações, portanto são obviamente um dos dados mais valiosos que podem ser alimentados no LLM.Além disso, a formação de LLMs numa grande quantidade de informação científica também pode melhorar significativamente as suas capacidades de raciocínio sobre tópicos científicos.Wang co-criou o S2ORC, um conjunto de dados baseado em 81,1 milhões de artigos acadêmicos. Inicialmente, o conjunto de dados S2ORC foi desenvolvido para mineração de texto, mas posteriormente foi utilizado para treinar LLM.Pile, construído pela organização sem fins lucrativos Eleuther AI em 2020, é um dos conjuntos de dados de código aberto em grande escala mais amplamente utilizados na pesquisa de PNL, com um volume total de 800 GB. Contém um grande número de textos de fontes acadêmicas, com a proporção de artigos arXiv sendo de 8,96%. Também abrange outros sites acadêmicos, como PubMed, FreeLaw e NIH.Há algum tempo, o conjunto de dados de token 1T de código aberto MINT também descobriu o tesouro arXiv, extraindo um total de 870.000 documentos e 9B de tokens.No fluxograma de processamento de dados abaixo, podemos ver quão alta é a qualidade dos dados do papel - quase não há necessidade de muita filtragem e desduplicação, e a taxa de utilização é extremamente alta.Agora, em resposta a disputas de direitos autorais, as principais empresas de modelagem começaram a licitar dinheiro real para adquirir conjuntos de dados de alta qualidade.Este ano, o Financial Times vendeu o seu conteúdo à OpenAI por um preço considerável; o Reddit também chegou a um acordo semelhante com o Google.No futuro, tais transações tornar-se-ão inevitáveis.Provar que o papel foi utilizado pelo LLM é extremamente difícil
Alguns desenvolvedores de IA abrirão seus próprios conjuntos de dados, mas muitas empresas que desenvolvem modelos de IA manterão a maior parte de seus dados de treinamento confidenciais.Stefan Baack, analista de dados de treinamento de IA da Fundação Mozilla, disse que ninguém sabe quais dados de treinamento essas empresas possuem.As fontes de dados mais populares entre os especialistas do setor são, sem dúvida, resumos do repositório de código aberto arXiv e do banco de dados acadêmico PubMed.Atualmente, o arXiv hospeda o texto completo de mais de 2,5 milhões de artigos, e o PubMed contém um número surpreendente de citações, ultrapassando 37 milhões.Embora o texto completo de alguns artigos em sites como o PubMed tenha acesso pago, os resumos dos artigos são de navegação gratuita e esta parte pode ter sido rastreada por grandes empresas de tecnologia.Então, existe algum método técnico para identificar se o papel foi utilizado?Por enquanto, ainda é difícil.Yves-Alexandre de Montjoye, cientista da computação do Imperial College London, disse: É muito difícil provar que o LLM usou um determinado papel.Uma maneira é usar frases muito raras no texto do artigo para solicitar o modelo e ver se sua saída é a próxima palavra no texto original.Certa vez, alguns estudiosos estimularam o GPT-3 com o início do terceiro capítulo de "Harry Potter e a Pedra Filosofal", e o modelo cuspiu rápida e corretamente uma página inteira do conteúdo do livro.Se sim, então desapareceu – o papel está no conjunto de treinamento do modelo.E se não? Esta não é necessariamente uma prova válida de que o papel não foi utilizado.Porque os desenvolvedores podem codificar LLMs para filtrar as respostas de forma que não correspondam muito aos dados de treinamento.É possível que, apesar de todos os nossos esforços, ainda não consigamos provar isso de forma inequívoca.Outro método é o "ataque de inferência de membros".O princípio deste método é que quando o modelo vir algo que já viu antes, ficará mais confiante no resultado.Para este fim, a equipe de De Montjoye desenvolveu especialmente uma “armadilha de direitos autorais”.Para armar a armadilha, a equipe geraria frases plausíveis, mas sem sentido, e as ocultaria no trabalho, como texto branco sobre fundo branco ou um campo de largura zero em uma página da web.Se o modelo ficar mais perplexo com sentenças de controle não utilizadas do que com sentenças de controle escondidas no texto, isso pode ser usado como evidência estatística de que a armadilha foi vista.Disputa de direitos autorais
Porém, mesmo que seja comprovado que o LLM foi treinado em um determinado papel, o que podemos fazer?Aqui há uma controvérsia de longa data.Na opinião do editor, se um desenvolvedor usar texto protegido por direitos autorais em treinamento sem obter permissão, isso é definitivamente uma violação.Mas a outra parte pode refutá-lo desta forma: o grande modelo não é plagiado, então como pode haver qualquer alegação de violação?Na verdade, o LLM não copia nada, ele simplesmente pega informações dos dados de treinamento, desmonta-os e usa-os para aprender a gerar um novo texto.A questão mais complicada é como traçar uma linha entre o uso da pesquisa comercial e a acadêmica.De acordo com os termos de uso atuais do site arXiv, a captura, armazenamento e uso de todos os documentos eletrônicos pré-impressos e metadados do site são compatíveis e suportados para fins pessoais ou de pesquisa.No entanto, o uso comercial do arXiv é estritamente proibido.Portanto, a questão é: se uma empresa comercial usa um conjunto de dados de código aberto divulgado por uma instituição acadêmica para treinar seu modelo de negócios, e a fonte de dados inclui arXiv ou instituições de publicação acadêmica semelhantes, como isso é contado?Além disso, os editores muitas vezes não estipulam claramente nos termos de assinatura dos usuários se os artigos podem ser usados como dados de treinamento para modelos.