notícias

Trabalhos acadêmicos estão sendo vendidos a preços altos para treinar grandes modelos, mas os autores recebem renda zero

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·Um número crescente de editores académicos vende trabalhos de investigação a empresas tecnológicas para treinarem modelos de inteligência artificial (IA), enquanto os autores recebem rendimentos nulos.

Os modelos de linguagem grande (LLM) mais uma vez causaram polêmica devido a problemas de dados de treinamento. Recentemente, Elizabeth Gibney, editora da revista internacionalmente renomada Nature, publicou um artigo intitulado “Seu artigo foi usado para treinar um modelo de inteligência artificial?” Artigo Quase Certo". O autor do artigo afirmou que cada vez mais editores acadêmicos estão licenciando trabalhos de pesquisa para empresas de tecnologia para treinamento de modelos de inteligência artificial (IA). Uma editora acadêmica ganhou US$ 23 milhões com isso, enquanto o autor ganhou zero. Estas transações, em muitos casos sem consulta aos autores, suscitaram forte insatisfação entre alguns investigadores.

“Se o seu artigo não foi usado como dados de treinamento de IA, é provável que se torne parte do treinamento em breve.” Elizabeth Jipney apontou no artigo que atualmente os autores de artigos acadêmicos quase não têm escolha quando enfrentam editores que vendem seus trabalhos protegidos por direitos autorais. interferência. Para artigos publicados publicamente, não existe nenhum mecanismo para confirmar se esses conteúdos são usados ​​como dados de treinamento de IA. Na utilização de grandes modelos de linguagem, a forma de estabelecer um mecanismo mais justo para proteger os direitos e interesses dos criadores merece ampla discussão nos círculos académicos e de direitos de autor.

Grandes modelos de linguagem (LLMs) geralmente dependem de grandes quantidades de dados extraídos da Internet para treinamento. Esses dados incluem bilhões de informações linguísticas (chamadas de “tokens”) e, ao analisar os padrões entre esses tokens, o modelo é capaz de gerar texto fluente. Devido ao seu rico conteúdo e alta densidade de informações, os artigos acadêmicos são mais valiosos do que grandes quantidades de dados comuns e são uma importante fonte de dados no treinamento em IA. O analista de dados Stefan Baack, da organização global sem fins lucrativos Mozilla Foundation, analisou que os artigos científicos são muito úteis para o treinamento de grandes modelos de linguagem, especialmente em termos de capacidade de raciocínio sobre temas científicos. É precisamente por causa do elevado valor dos dados que as principais empresas tecnológicas gastaram enormes somas de dinheiro na compra de conjuntos de dados.

A matéria destacava que este ano o Financial Times chegou a um acordo com a OpenAI para licenciar seu conteúdo para esta última; o Reddit, conhecido como "American Post Bar", também assinou um acordo semelhante com o Google. Esses acordos refletem as tentativas dos editores de evitar que seu conteúdo seja rastreado gratuitamente por modelos de IA por meio de autorização legal.

O artigo revelou que no mês passado, a editora acadêmica britânica Taylor & Francis assinou um acordo de US$ 10 milhões com a Microsoft, permitindo que a Microsoft acessasse seus dados para melhorar os sistemas de IA. Em junho, a editora americana Wiley ganhou até US$ 23 milhões fornecendo conteúdo a uma empresa para treinamento em IA. E estes enormes rendimentos não têm nada a ver com os autores dos artigos.

Atualmente, os pesquisadores estão tentando usar meios técnicos para ajudar os autores a identificar se seus trabalhos foram utilizados para treinamento de modelos de IA. Lucy Lu Wang, pesquisadora de inteligência artificial da Universidade de Washington em Seattle, disse que se um artigo tiver sido usado como dados de treinamento para um modelo, ele não poderá ser removido após a conclusão do treinamento do modelo.

No entanto, mesmo que seja comprovado que o papel é utilizado para treinamento em IA, ele ainda enfrenta polêmica no âmbito jurídico. O artigo aponta que o editor acredita que o uso de conteúdo protegido por direitos autorais não autorizado para treinamento é uma violação. Outra visão legal é que o grande modelo de linguagem não copia diretamente o conteúdo, mas gera novos textos por meio do aprendizado;

É importante notar que nem todos os investigadores se opõem a utilizar o seu trabalho para formação em IA. Stefan Back disse que ficaria feliz em ver os resultados de sua pesquisa usados ​​para melhorar a precisão da IA ​​e que não se importaria se a IA "imitasse" seu estilo de escrita. No entanto, ele também reconheceu que nem todos serão capazes de lidar facilmente com este problema, especialmente aqueles em profissões que enfrentam a pressão da concorrência da IA, como artistas e escritores.

Na verdade, os casos de litígio relativos à utilização de obras intelectuais protegidas por direitos de autor para treinar modelos de IA já atraíram a atenção generalizada no passado.

Em 14 de agosto, o Washington Post informou que uma ação coletiva movida por vários artistas visuais e ilustradores nos Estados Unidos contra ferramentas de geração de imagens de IA fez um grande avanço. Eles acusaram startups como Midjourney e Stability AI de usar trabalhos para treinar modelos de IA sem consentimento. O caso teve desenvolvimentos importantes esta semana. O juiz distrital dos EUA, William Orrick, permitiu que partes importantes do caso avançassem, o que significa que o tribunal decidiu que há evidências legais suficientes para que certas acusações avancem, o que pode ser revelado à medida que o processo legal avança. Ferramentas de IA.