Журнал Nature опубликовал статью: ИИ размывает определение «академического плагиата». Как нам реагировать?

2024-08-02

(Источник: Петр Ковальчик, иллюстратор, графический дизайнер)

【Примечание редактора】В апреле этого года журнал Science отменил предыдущее железное правило: оно предусматривает, что генеративный искусственный интеллект (ИИ) и модели большого языка (LLM) могут быть законно использованы для создания иллюстраций и написания содержания статьи после того, как в статье будет указана глава «Методы». .

сейчас, ИИ может помочь исследователям освободить больше времени для размышлений, но вопрос в том, считается ли это плагиатом? И при каких обстоятельствах следует разрешить использование этой технологии?

Недавно научный журналист Диана Квон опубликовала в журнале Nature статью, в которой обсуждается применение инструментов генеративного искусственного интеллекта в академических текстах, а также проблемы и последствия, которые оно приносит.

Она отметила, что инструменты генеративного искусственного интеллекта, такие как ChatGPT, демонстрируют большую потенциальную ценность в экономии времени, повышении ясности и сокращении языковых барьеров, но также могут вызывать проблемы плагиата и нарушения авторских прав.

Она также отметила, что использование ИИ резко возросло в академической литературе, особенно в биомедицинской области. Однако,Обнаружить текст, сгенерированный ИИ, сложно, поскольку его можно сделать практически необнаружимым при незначительном редактировании. . в то же время,Границы между законным и незаконным использованием инструментов ИИ могут еще больше стереться, поскольку все больше и больше приложений и инструментов интегрируют возможности ИИ.

В конечном счете, она считает, что необходимы более четкие рекомендации по использованию ИИ в научных трудах, чтобы помочь исследователям и журналам определить, когда уместно использовать инструменты ИИ и как раскрывать информацию об их использовании.

Академик Тутиао сделал простую компиляцию, не меняя основной идеи исходного текста. Содержание следующее:

В этом году учёные были потрясены случаями плагиата: от отставки президента Гарвардского университета на фоне обвинений в январе до разоблачений в феврале плагиата в отчётах о рецензировании.

Но академическое письмо сталкивается с более серьезной проблемой. . Быстрая популярность инструментов генеративного искусственного интеллекта (ИИ) подняла вопросы о том, считается ли это плагиатом и при каких обстоятельствах это следует допускать. «ИИ используется в широком спектре — от полностью написанного человеком до полностью написанного ИИ, и между ними существует огромная путаница», — сказал Джонатан Бэйли, консультант по авторскому праву и плагиату в Новом Орлеане, штат Луизиана.

Генеративные инструменты искусственного интеллекта, основанные на больших языковых моделях (LLM), таких как ChatGPT, могут сэкономить время, сделать текст более четким и понятным, а также снизить языковые барьеры. Многие исследователи теперь считают, что они приемлемы при определенных обстоятельствах и что их использование должно быть полностью раскрыто.

Но эти инструменты усложняют и без того жаркую дискуссию о ненадлежащем использовании чужой работы. . LLM обучен генерировать тексты, изучая большое количество опубликованных произведений. Следовательно, это может привести к поведению, напоминающему плагиат, если исследователь возьмет на себя ответственность за работу машины или если сгенерированный машиной текст очень похож на чью-то работу без указания источника. Эти инструменты также могут использоваться для маскировки намеренно заимствованного текста, и их использование трудно обнаружить. «Будет очень, очень сложно определить, что мы подразумеваем под академической нечестностью или плагиатом и где проходят границы», — говорит эколог Пит Коттон из Плимутского университета в Великобритании.

По данным опроса 1600 исследователей, проведенного в 2023 году,68% респондентов заявили, что ИИ упростит и усложнит обнаружение плагиата . Дебора Вебер-Вульф, эксперт по выявлению плагиата в Университете прикладных наук в Берлине, сказала: «Все беспокоятся о том, что другие люди используют эти системы, и они также обеспокоены тем, что они не используют их тогда, когда им следует их использовать. немного паники по этому поводу».

Когда плагиат встречается с ИИ

По определению Управления честности исследований США,Плагиат — это «использование идей, процессов, результатов или произведений другого человека без надлежащего цитирования или подтверждения». . По оценкам исследования 2015 года, 1,7% ученых признались в плагиате, а 30% знали, что их коллеги занимались подобным поведением.

LLM может усугубить ситуацию.Преднамеренный плагиат текста, написанного человеком, можно легко замаскировать, если кто-то сначала позволит LLM переписать текст. . Мухаммад Абдул-Магид, ученый-компьютерщик и лингвист из Университета Британской Колумбии в Канаде, говорит, что эти инструменты можно переписать сложными способами, например, в стиле академического журнала.

Основной вопрос заключается в том, считается ли использование неуказанного контента, полностью написанного машиной, а не человеком, плагиатом. Не обязательно, говорят многие исследователи. Например, Европейская сеть академической честности определяет несанкционированное или необъявленное использование инструментов искусственного интеллекта для написания статей как «несанкционированное создание контента», а не как плагиат. «Для меня плагиат должен быть чем-то, что можно приписать другому идентифицируемому лицу», — сказал Вебер-Вульф, добавив, что, хотя есть примеры генеративного ИИ, создающего текст, который почти идентичен существующему написанному человеком контенту, ситуация, но это обычно недостаточно, чтобы считаться плагиатом.

Однако некоторые люди считают, что инструменты генеративного искусственного интеллекта нарушают авторские права.Плагиат и нарушение авторских прав являются ненадлежащим использованием произведений других людей. Плагиат является нарушением академической этики, а несанкционированное использование произведений, защищенных авторским правом, может нарушать закон. . «Эти системы искусственного интеллекта созданы на основе работы миллионов или даже сотен миллионов людей», — сказала Рада Михалча, ученый-компьютерщик из Мичиганского университета в Анн-Арборе.

Некоторые медиакомпании и авторы протестовали против того, что они считают нарушением авторских прав со стороны ИИ. В декабре 2023 года газета New York Times подала иск о нарушении авторских прав против Microsoft и OpenAI. В иске утверждается, что обе компании скопировали и использовали миллионы статей New York Times для обучения LLM, и что контент, созданный LLM, теперь «конкурирует» с контентом публикации. В иске упоминаются случаи, когда подсказки заставили GPT-4 почти дословно скопировать несколько отрывков из газетной статьи.

В феврале этого года OpenAI подала ходатайство в федеральный суд об отклонении части иска, заявив, что «ChatGPT никоим образом не заменяет подписку на New York Times». Представитель Microsoft заявил: «Легально разработанные инструменты искусственного интеллекта должны быть использованы». разрешено ответственное развитие» и «они не могут заменить важный контент, который транслируют журналисты».

Если суд постановит, что обучение ИИ работе с текстом без разрешения действительно является нарушением авторских прав, сказал Бэйли, «это будет огромным шоком для компаний, занимающихся ИИ». Без обширных обучающих наборов такие инструменты, как ChatGPT, «не могут существовать».

ИИ взрывается

Независимо от того, называется это плагиатом или нет, использование искусственного интеллекта в академических текстах резко возросло с момента выпуска ChatGPT в ноябре 2022 года.

В препринте, обновленном в июле, исследователи подсчитали, чтоНе менее 10% биомедицинских рефератов будут написаны с использованием LLM в первой половине 2024 года, что эквивалентно примерно 150 000 статей в год. . В исследовании, проведенном Дмитрием Кобаком, специалистом по данным из Тюбингенского университета в Германии, было проанализировано 14 миллионов рефератов, опубликованных в академической базе данных PubMed в период с 2010 по июнь 2024 года. Они показывают, что появление LLM связано с более широким использованием стилистических слов, таких как «вникать», «демонстрация» и «подчеркивание», а затем использовать эти необычные лексические шаблоны для оценки доли резюме, обработанных с помощью ИИ. «Появление помощников по письму на базе LLM оказало беспрецедентное влияние на научную литературу», — пишут они.

Рисунок | Появление LLM связано с увеличением использования стилевой лексики.

Кобак предсказывает,Использование LLM «определенно будет продолжать расти» и «вероятно, его станет труднее обнаружить».。

Нераскрытое использование программного обеспечения в академических текстах не является чем-то новым. С 2015 года Гийом Кабанак, ученый-компьютерщик из Тулузского университета во Франции, и его коллеги разоблачают «тарабарщину» статей, написанных с помощью программного обеспечения под названием SCIgen, а также статей, содержащих «искривленные фразы», созданные программным обеспечением, которое автоматически переводит или переписывает текст» диссертации. «Даже до появления генеративного ИИ у людей были эти инструменты», — сказал Кабанак.

Тем не менее, использование ИИ в академических текстах также имеет определенную ценность. . Исследователи говорят, что это может сделать тексты и концепции более понятными, уменьшить языковые барьеры и высвободить время для экспериментов и размышлений. Хенд Аль-Халифа, исследователь информационных технологий из Университета короля Сауда в Эр-Рияде, сказал, что до того, как инструменты генеративного искусственного интеллекта стали доступны, многим коллегам, которые говорили на английском как на втором языке, было бы трудно писать статьи. «Теперь они сосредоточены на исследованиях и использовании этих инструментов, чтобы избавиться от хлопот при написании статей», — сказала она.

Но до сих пор неясно, когда использование ИИ является плагиатом или нарушает этику. Сохейл Фейзи, ученый-компьютерщик из Университета Мэриленда в Колледж-Парке, заявил, что использование LLM для переписывания содержания существующей статьи является явным плагиатом. Но если LLM используется прозрачно для выражения идей — будь то создание текста на основе подробных подсказок или редактирование черновика — это не должно наказываться. «Мы должны позволить людям легко и ясно выражать свои мысли, используя LLM», — сказал Фейзи.

Многие журналы теперь имеют политику, которая разрешает определенный уровень использования LLM. После первоначального запрета текста, генерируемого ChatGPT, в ноябре 2023 года Science обновила свою политику, заявив, что использование технологии искусственного интеллекта при написании рукописей должно быть полностью раскрыто, включая используемые системы и подсказки. Ответственность за точность и отсутствие плагиата лежит на авторе. Nature также утверждает, что авторы исследовательских рукописей должны документировать любое использование LLM в разделе «Методы». Анализ 100 крупных академических издателей и 100 высокорейтинговых журналов показал, что по состоянию на октябрь 2023 года 24% издателей и 87% журналов имеют рекомендации по использованию генеративного ИИ. Почти во всех руководствах говорится, что инструменты ИИ не могут упоминаться в качестве авторов, но политики различаются в зависимости от типов разрешенного использования ИИ и требуемого уровня раскрытия информации. Вебер-Вульф заявил, что срочно необходимы более четкие рекомендации по использованию ИИ в академических текстах.

В настоящее время, по словам Абдул-Магида, широкое использование LLM при написании научных работ сдерживается его ограничениями. Пользователям предлагается создать подробные подсказки, описывающие аудиторию, языковой стиль и подобласть исследования. «На самом деле очень сложно создать языковую модель, которая бы давала вам именно то, что вы хотите», — сказал он.

Но Абдул-Магид сказал:Разработчики создают приложения, которые упростят исследователям создание профессионального научного контента. . В будущем, по его словам, пользователи смогут просто выбирать параметры из раскрывающегося меню, нажимать кнопку и создавать всю статью с нуля без необходимости писать подробные подсказки.

Границы могут еще больше размыться

Наряду с быстрым внедрением LLM для написания текстов появилось также большое количество инструментов, предназначенных для обнаружения LLM. . Хотя многие инструменты заявляют о высокой точности (в некоторых случаях более 90%), исследования показывают, что большинство инструментов не оправдывают своих требований. В исследовании, опубликованном в декабре, Вебер-Вульф и ее коллеги оценили 14 инструментов обнаружения искусственного интеллекта, широко используемых в научных кругах. Только пятеро из них смогли точно определить, что 70% или более текста написаны искусственным интеллектом или людьми, и ни один из них не набрал более 80%.

Когда обнаруживается, что кто-то слегка отредактировал текст, сгенерированный ИИ,При замене синонимов и перестановке предложений точность детектора в среднем падала ниже 50%. . Подобный текст «практически невозможно обнаружить современными инструментами», пишут авторы. Другое исследование показало, что если попросить ИИ несколько раз переписать текст, это может значительно снизить точность детектора.

Кроме того, есть и другие проблемы с детекторами искусственного интеллекта. Одно исследование показало, что если статьи на английском языке были написаны людьми, для которых английский язык не является родным, они с большей вероятностью ошибочно классифицировали бы их как созданные искусственным интеллектом. Фейзи сказал, что детектор не может надежно отличить текст, полностью написанный искусственным интеллектом, от случаев, когда автор использует службу на основе искусственного интеллекта для доработки текста, что улучшает текст, помогая грамматике и ясности предложений. "Различить эти случаи будет очень сложно и ненадежно, что потенциально приведет к чрезвычайно высокому уровню ложных тревог.", - сказал он. Он добавил, что ложное обвинение в использовании ИИ может нанести "значительный ущерб" репутации этих ученых или студентов.

Границы между законным и незаконным использованием ИИ могут еще больше размыться . В марте 2023 года Microsoft начала интегрировать инструменты генеративного искусственного интеллекта в свои приложения, включая Word, PowerPoint и Outlook. Некоторые версии его AI-помощника Copilot могут создавать или редактировать контент. В июне Google также начал интегрировать свою генеративную модель искусственного интеллекта Gemini в такие инструменты, как Docs и Gmail.

«ИИ настолько глубоко внедряется во все, что мы используем, что, я думаю, людям будет все труднее узнать, повлиял ли ИИ на то, что вы делаете», — сказала Дебби, эксперт по высшему образованию из Университета Сент-Марка и Сент-Марка. Джон в Великобритании сказал Коттон. «Я думаю, что мы, возможно, не сможем идти в ногу с этим темпом».

Составитель: Ма Сюэвэй.

Автор оригинала: Диана Квон, независимый научный журналист.

Оригинальная ссылка: https://www.nature.com/articles/d41586-024-02371-z.

Новости