новости

Научные статьи продаются по высоким ценам для обучения больших моделей, но авторы получают нулевой доход.

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·Все большее число академических издателей продают исследовательские работы технологическим компаниям для обучения моделей искусственного интеллекта (ИИ), в то время как авторы получают нулевой доход.

Большие языковые модели (LLM) снова вызвали споры из-за проблем с обучающими данными. Недавно Элизабет Гибни, редактор всемирно известного журнала Nature, опубликовала статью под названием «Использовалась ли ваша статья для обучения модели искусственного интеллекта?» Почти наверняка» статья. Автор статьи заявил, что все больше и больше академических издателей в настоящее время лицензируют исследовательские работы технологическим компаниям для обучения моделей искусственного интеллекта (ИИ). Один академический издатель заработал на этом 23 миллиона долларов, а автор — ноль. Эти транзакции, во многих случаях без консультации с авторами, вызвали сильное недовольство некоторых исследователей.

«Если ваша статья еще не использовалась в качестве данных для обучения ИИ, она, скорее всего, скоро станет частью обучения». Элизабет Джипни отметила в статье, что в настоящее время у авторов научных работ почти нет выбора, когда они сталкиваются с издателями, продающими их работы, защищенные авторским правом. вмешательство. Для публично опубликованных статей не существует механизма подтверждения того, используется ли их содержимое в качестве данных для обучения ИИ. При использовании больших языковых моделей вопрос о том, как создать более справедливый механизм защиты прав и интересов авторов, заслуживает широкого обсуждения в академических и авторских кругах.

Большие языковые модели (LLM) часто используют для обучения большие объемы данных, полученных из Интернета. Эти данные включают в себя миллиарды фрагментов лингвистической информации (называемых «токенами»), и анализируя закономерности между этими токенами, модель способна генерировать беглый текст. Из-за богатого содержания и высокой плотности информации академические статьи более ценны, чем большие объемы обычных данных, и являются важным источником данных для обучения ИИ. Аналитик данных Стефан Баак из глобальной некоммерческой организации Mozilla Foundation проанализировал, что научные статьи очень полезны для обучения большим языковым моделям, особенно с точки зрения способности рассуждать по научным темам. Именно из-за высокой ценности данных крупные технологические компании тратят огромные суммы денег на приобретение наборов данных.

В статье указывалось, что в этом году Financial Times достигла соглашения с OpenAI о передаче последней лицензии на свой контент; Reddit, известный как «Американская Tieba», также подписал аналогичное соглашение с Google. Эти сделки отражают попытки издателей избежать бесплатного сканирования их контента моделями искусственного интеллекта посредством юридического разрешения.

В статье говорится, что в прошлом месяце британский академический издатель Taylor & Francisco подписал с Microsoft соглашение на сумму 10 миллионов долларов, позволяющее Microsoft получить доступ к своим данным для улучшения систем искусственного интеллекта. В июне американский издатель Wiley заработал целых 23 миллиона долларов, предоставив компании контент для обучения искусственному интеллекту. И эти огромные доходы не имеют никакого отношения к авторам статей.

В настоящее время исследователи пытаются использовать технические средства, чтобы помочь авторам определить, использовались ли их работы для обучения моделей ИИ. Люси Лу Ван, исследователь искусственного интеллекта из Вашингтонского университета в Сиэтле, сказала, что если статья использовалась в качестве данных для обучения модели, ее нельзя удалить после завершения обучения модели.

Однако даже если будет доказано, что документ используется для обучения ИИ, он все равно столкнется с разногласиями на юридическом уровне. В статье указывается, что издатель считает, что использование несанкционированного контента, защищенного авторским правом, для обучения является нарушением прав; другая правовая точка зрения заключается в том, что модель большого языка не копирует контент напрямую, а генерирует новый текст посредством обучения.

Стоит отметить, что не все исследователи против использования своей работы для обучения ИИ. Стефан Бэк сказал, что он был бы рад, если бы результаты его исследований использовались для повышения точности ИИ, и он не был бы против, если бы ИИ «подражал» его стилю письма. Однако он также признал, что не все смогут легко справиться с этой проблемой, особенно те, кто работает в профессиях, которые сталкиваются с давлением конкуренции со стороны ИИ, например, художники и писатели.

Фактически, судебные дела по поводу использования интеллектуальных произведений, защищенных авторским правом, для обучения моделей ИИ и раньше привлекали широкое внимание.

14 августа газета Washington Post сообщила, что коллективный иск, поданный несколькими художниками и иллюстраторами в Соединенных Штатах против инструментов генерации изображений с использованием искусственного интеллекта, достиг революционного прогресса. Они обвинили такие стартапы, как Midjourney и Stability AI, в использовании работ для обучения моделей ИИ без согласия. На этой неделе в деле произошли ключевые события. Окружной судья США Уильям Оррик разрешил продвигать ключевые части дела, а это означает, что суд решил, что имеется достаточно юридических доказательств для продвижения вперед определенных обвинений, которые могут быть раскрыты по мере продвижения судебного процесса в рамках внутренних коммуникаций компании по мере разработки ИИ. инструменты.