A Nature publicou um artigo: A definição de “plágio acadêmico” está sendo confundida pela IA.

2024-08-02

(Fonte: Piotr Kowalczyk, ilustrador, designer gráfico)

【Nota do editor】Em abril deste ano, a Science derrubou a regra de ferro anterior: estipula que a inteligência artificial generativa (IA) e os grandes modelos de linguagem (LLM) podem ser legitimamente usados para criar ilustrações e escrever o conteúdo do artigo após o capítulo "Métodos" do artigo ser declarado .

agora, A IA pode ajudar os pesquisadores a ter mais tempo para pensar, mas a questão é: isso conta como plágio? E em que circunstâncias esta tecnologia deve ser permitida?

Recentemente, a jornalista científica Diana Kwon publicou um artigo na revista Nature discutindo a aplicação de ferramentas generativas de IA na escrita acadêmica e os desafios e impactos que isso traz.

Ela destacou que ferramentas generativas de IA, como ChatGPT, apresentam grande valor potencial na economia de tempo, melhorando a clareza e reduzindo barreiras linguísticas, mas também podem envolver questões de plágio e violação de direitos autorais.

Ela também observou que o uso da IA explodiu na escrita acadêmica, especialmente na área biomédica. No entanto,Detectar texto gerado por IA é difícil porque eles podem se tornar quase indetectáveis com pequenas edições . ao mesmo tempo,Os limites entre o uso legal e ilegal de ferramentas de IA podem ficar ainda mais confusos, à medida que mais e mais aplicações e ferramentas integram capacidades de IA.

Em última análise, ela acredita que são necessárias diretrizes mais claras sobre o uso de IA na redação acadêmica para ajudar pesquisadores e periódicos a determinar quando é apropriado usar ferramentas de IA e como divulgar seu uso.

O Acadêmico Toutião fez uma compilação simples, sem alterar a ideia central do texto original. O conteúdo é o seguinte:

Os académicos foram abalados por incidentes de plágio este ano, desde a demissão do presidente da Universidade de Harvard, no meio de acusações em Janeiro, até revelações, em Fevereiro, de textos plagiados que apareceram em relatórios de revisão por pares.

Mas a escrita acadêmica está enfrentando um problema maior . A rápida popularidade das ferramentas generativas de inteligência artificial (IA) levantou questões sobre se isto conta como plágio e em que circunstâncias deveria ser permitido. “A IA é usada em um amplo espectro, desde inteiramente escrita por humanos até inteiramente escrita por IA, e há uma enorme área de confusão entre eles”, disse Jonathan Bailey, consultor de direitos autorais e plágio em Nova Orleans, Louisiana.

Ferramentas generativas de IA baseadas em grandes modelos de linguagem (LLM), como o ChatGPT, podem economizar tempo, tornar o texto mais claro e compreensível e reduzir as barreiras linguísticas. Muitos investigadores acreditam agora que são aceitáveis em determinadas circunstâncias e que a sua utilização deve ser totalmente divulgada.

Mas estas ferramentas complicam um debate já acalorado sobre o uso inadequado do trabalho de outras pessoas. . O LLM é treinado para gerar texto aprendendo com um grande conjunto de escritos publicados. Portanto, isso poderia levar a um comportamento semelhante ao plágio se um pesquisador receber crédito pelo trabalho de uma máquina, ou se o texto gerado por máquina for muito semelhante ao trabalho de alguém sem atribuir a fonte. Essas ferramentas também podem ser usadas para disfarçar texto plagiado intencionalmente e seu uso é difícil de detectar. “Será muito, muito difícil definir o que entendemos por desonestidade académica ou plágio e onde estão os limites”, afirma o ecologista Pete Cotton, da Universidade de Plymouth, no Reino Unido.

Em uma pesquisa de 2023 com 1.600 pesquisadores,68% dos entrevistados disseram que a IA tornará o plágio mais fácil e mais difícil de detectar . Debora Weber-Wulff, especialista em identificação de plágio da Universidade de Ciências Aplicadas de Berlim, disse: “Todos estão preocupados com o fato de outras pessoas usarem esses sistemas, e também estão preocupados com o fato de não os estarem usando quando deveriam. está um pouco em pânico com isso."

Quando o plágio encontra a IA

Conforme definido pelo Escritório de Integridade de Pesquisa dos EUA,Plágio é “o uso de ideias, processos, resultados ou escritos de outra pessoa sem a devida citação ou reconhecimento”. . Um estudo de 2015 estimou que 1,7% dos cientistas admitiram plágio e 30% sabiam que os seus colegas se tinham envolvido neste comportamento.

O LLM pode piorar esta situação.O plágio intencional de texto escrito por humanos pode ser facilmente disfarçado se alguém primeiro permitir que um LLM reescreva o texto . Muhammad Abdul-Mageed, cientista da computação e linguista da Universidade de British Columbia, no Canadá, diz que as ferramentas podem ser direcionadas para reescrever de maneiras sofisticadas, como no estilo de uma revista acadêmica.

Uma questão central é se o uso de conteúdo não creditado escrito inteiramente por uma máquina e não por um ser humano conta como plágio. Não necessariamente, dizem muitos pesquisadores. Por exemplo, a Rede Europeia de Integridade Académica define a utilização não autorizada ou não declarada de ferramentas de IA para escrita como “geração não autorizada de conteúdos” em vez de plágio. “Para mim, o plágio deveria ser algo que pode ser atribuído a outra pessoa identificável”, disse Weber-Wulff, acrescentando que, embora existam exemplos de IA generativa produzindo texto que é quase idêntico ao conteúdo existente escrito por humanos, a situação, mas esta é geralmente não é suficiente para ser considerado plágio.

No entanto, algumas pessoas acreditam que as ferramentas generativas de IA violam os direitos autorais.O plágio e a violação de direitos autorais são usos inapropriados de obras de outras pessoas. O plágio é uma violação da ética acadêmica, enquanto o uso não autorizado de obras protegidas por direitos autorais pode violar a lei. . “Esses sistemas de IA são construídos com base no trabalho de milhões ou mesmo centenas de milhões de pessoas”, disse Rada Mihalcea, cientista da computação da Universidade de Michigan, em Ann Arbor.

Algumas empresas de mídia e autores protestaram contra o que consideram uma violação de direitos autorais por parte da IA. Em dezembro de 2023, o New York Times abriu um processo de direitos autorais contra a Microsoft e a OpenAI. O processo alega que as duas empresas copiaram e usaram milhões de artigos do New York Times para treinar o LLM, e que o conteúdo gerado pelo LLM está agora “competindo” com o conteúdo da publicação. O processo inclui casos em que solicitações levaram o GPT-4 a copiar quase literalmente várias passagens de um artigo de jornal.

Em fevereiro deste ano, a OpenAI entrou com uma moção no tribunal federal para rejeitar parte do processo, dizendo que “o ChatGPT não substitui de forma alguma uma assinatura do New York Times”. Um porta-voz da Microsoft disse: “As ferramentas de IA legalmente desenvolvidas deveriam ser”. permitiram um desenvolvimento responsável” e “nem podem substituir o importante conteúdo reproduzido pelos jornalistas”.

Se um tribunal decidir que treinar uma IA em texto sem permissão constitui violação de direitos autorais, disse Bailey, “será um grande choque para as empresas de IA”. Sem conjuntos de treinamento extensos, ferramentas como o ChatGPT “não podem existir”.

IA está explodindo

Quer isso seja chamado de plágio ou não, o uso de IA na redação acadêmica explodiu desde o lançamento do ChatGPT em novembro de 2022.

Em uma pré-impressão atualizada em julho, os pesquisadores estimaram quePelo menos 10% dos resumos biomédicos serão escritos usando LLM no primeiro semestre de 2024, equivalente a aproximadamente 150.000 artigos por ano . O estudo, liderado por Dmitry Kobak, cientista de dados da Universidade de Tübingen, na Alemanha, analisou 14 milhões de resumos publicados na base de dados acadêmica PubMed entre 2010 e junho de 2024. Eles mostram que o surgimento do LLM está associado ao aumento do uso de palavras estilísticas como “delves”, “showcasing” e “underscores”, e então usam esses padrões lexicais incomuns para estimar a proporção de resumos processados usando IA. “O surgimento de assistentes de redação baseados em LLM teve um impacto sem precedentes na literatura científica”, escrevem eles.

Figura | O surgimento do LLM está relacionado ao aumento do uso de vocabulário de estilo.

Kobak prevê,O uso de LLMs “continuará certamente a aumentar” e “provavelmente se tornará mais difícil de detectar”。

O uso não divulgado de software na redação acadêmica não é novo. Desde 2015, Guillaume Cabanac, cientista da computação da Universidade de Toulouse, na França, e seus colegas têm exposto artigos "abrangentes" escritos por um software chamado SCIgen, bem como artigos contendo "frases distorcidas" criadas por um software que traduz automaticamente ou reescreve o texto. “Mesmo antes do surgimento da IA generativa, as pessoas já tinham essas ferramentas”, disse Cabanac.

No entanto, também há algum valor em usar IA na redação acadêmica . Os pesquisadores dizem que isso pode tornar os textos e conceitos mais claros, reduzir as barreiras linguísticas e liberar tempo para experimentação e reflexão. Hend Al-Khalifa, pesquisador de tecnologia da informação na Universidade King Saud, em Riade, disse que antes que as ferramentas generativas de IA estivessem disponíveis, muitos colegas que falavam inglês como segunda língua teriam tido dificuldade em escrever artigos. “Agora, eles estão focados na pesquisa e no uso dessas ferramentas para facilitar a escrita”, disse ela.

Mas ainda há confusão sobre quando o uso da IA constitui plágio ou viola a ética. Soheil Feizi, cientista da computação da Universidade de Maryland, College Park, disse que usar o LLM para reescrever o conteúdo de um artigo existente é claramente plágio. Mas se o LLM for usado de forma transparente para ajudar a expressar ideias – seja para gerar texto com base em instruções detalhadas ou para editar um rascunho – ele não deve ser penalizado. “Devemos permitir que as pessoas se expressem com facilidade e clareza usando o LLM”, disse Feizi.

Muitos periódicos agora possuem políticas que permitem algum nível de uso do LLM. Depois de proibir inicialmente o texto gerado pelo ChatGPT, a Science atualizou sua política em novembro de 2023 para dizer que o uso da tecnologia de IA ao escrever manuscritos deve ser totalmente divulgado – incluindo os sistemas e prompts usados. É responsabilidade do autor garantir a precisão e “garantir que não haja plágio”. A Nature também diz que os autores de manuscritos de pesquisa devem documentar qualquer uso do LLM na seção de métodos. Uma análise de 100 grandes editoras acadêmicas e 100 periódicos de alto nível descobriu que, em outubro de 2023, 24% dos editores e 87% dos periódicos tinham diretrizes para o uso de IA generativa. Quase todos os que fornecem orientação dizem que as ferramentas de IA não podem ser citadas como autores, mas as políticas variam de acordo com os tipos de uso de IA permitidos e o nível de divulgação exigido. Weber-Wulff disse que são urgentemente necessárias diretrizes mais claras sobre o uso de IA na redação acadêmica.

Atualmente, Abdul-Mageed afirma que o uso generalizado do LLM na redação de artigos científicos é dificultado por suas limitações. Os usuários são solicitados a criar instruções detalhadas que descrevam o público, o estilo de linguagem e o subcampo de pesquisa. “Na verdade, é muito difícil conseguir um modelo de linguagem que forneça exatamente o que você deseja”, disse ele.

Mas Abdul-Mageed disse:Os desenvolvedores estão criando aplicativos que facilitarão aos pesquisadores a geração de conteúdo científico profissional . No futuro, disse ele, os usuários poderão simplesmente selecionar opções em um menu suspenso, pressionar um botão e gerar um artigo inteiro do zero, sem precisar escrever instruções detalhadas.

Os limites podem ficar ainda mais confusos

Junto com a rápida adoção do LLM para escrever textos, também surgiu um grande número de ferramentas projetadas para detectar o LLM. . Embora muitas ferramentas afirmem altas taxas de precisão – acima de 90% em alguns casos – a pesquisa mostra que a maioria das ferramentas não atende às suas reivindicações. Num estudo publicado em dezembro, Weber-Wulff e os seus colegas avaliaram 14 ferramentas de deteção de IA amplamente utilizadas no meio académico. Apenas cinco deles conseguiram identificar com precisão 70% ou mais do texto como sendo escrito por IA ou por humanos, e nenhum obteve pontuação acima de 80%.

Quando for detectado que alguém editou ligeiramente o texto gerado pela IA,Ao substituir sinônimos e reorganizar frases, a precisão do detector caiu abaixo de 50%, em média . Tal texto é “virtualmente indetectável pelas ferramentas atuais”, escreveram os autores. Outra pesquisa mostrou que pedir a uma IA para reescrever o texto várias vezes pode reduzir significativamente a precisão do detector.

Além disso, existem outros problemas com os detectores de IA. Um estudo mostrou que se os artigos em inglês fossem escritos por falantes não nativos de inglês, eles teriam maior probabilidade de classificar incorretamente a escrita como gerada por IA. Feizi disse que o detector não consegue distinguir com segurança entre texto escrito inteiramente por IA e casos em que o autor usa um serviço baseado em IA para aprimorar o texto, o que melhora o texto, auxiliando na gramática e na clareza das frases. "A distinção entre estes casos seria muito difícil e pouco fiável - levando potencialmente a taxas de falsos alarmes extremamente elevadas", disse ele. Ele acrescentou que ser falsamente acusado de usar IA pode causar "danos consideráveis" à reputação desses acadêmicos ou estudantes.

As fronteiras entre o uso legal e ilegal da IA podem confundir-se ainda mais . Em março de 2023, a Microsoft começou a integrar suas ferramentas generativas de IA em seus aplicativos, incluindo Word, PowerPoint e Outlook. Algumas versões de seu assistente de IA Copilot podem redigir ou editar conteúdo. Em junho, o Google também começou a integrar seu modelo generativo de IA Gemini em ferramentas como Docs e Gmail.

“A IA está a tornar-se tão profundamente enraizada em tudo o que usamos que penso que será cada vez mais difícil para as pessoas saberem se algo que estão a fazer foi afetado pela IA”, disse Debby, especialista em ensino superior da Universidade de St Mark's e St. John está no Reino Unido, disse Cotton. “Acho que talvez não consigamos acompanhar esse ritmo.”

Compilador: Ma Xuewei

Autor original: Diana Kwon, jornalista científica freelance

Link original: https://www.nature.com/articles/d41586-024-02371-z

notícias