Природа раскрывает шокирующую инсайдерскую информацию: бумаги продавались по заоблачным ценам, чтобы накормить ИИ! Издатели зарабатывают сотни миллионов, авторы ничего не зарабатывают
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Редактор: Редакционный отдел[Введение в новую мудрость]Статья в журнале Nature показала: опубликованная вами статья могла быть использована для обучения модели! Некоторые издатели заработали 23 миллиона долларов на продаже данных. Однако авторы, усердно работавшие над кодированием статьи, не могут получить ни копейки. Разумно ли это?
Мир переживает кризис данных, что нам делать?Бумаги собираются вместе!Недавно статья в журнале Nature раскрыла нам тот факт, что для обучения ИИ использовались даже научные исследования...Сообщается, что многие академические издатели разрешили технологическим компаниям получить доступ к своим собственным статьям для обучения моделей ИИ.Работа, от идеи до завершения, включает в себя тяжелую работу автора день и ночь. Теперь весьма вероятно, что она станет данными для обучения ИИ, даже не подозревая об этом.Еще больше раздражает то, что его статья использовалась издателем для получения прибыли.Согласно отчету Nature, в прошлом месяце британское академическое издательство Taylor & Francisco подписало с Microsoft соглашение на сумму 10 миллионов долларов, которое позволяет Microsoft получить доступ к ее данным для улучшения систем искусственного интеллекта.Информация для инвесторов в июне показала, что американское издательство Wiley получило огромную прибыль в размере 23 миллионов долларов США после того, как разрешило компании использовать свою модель обучения контенту!Но эти деньги не имеют никакого отношения к авторам большинства статей.Более того, Люси Лу Ванг, исследователь искусственного интеллекта из Вашингтонского университета, также сказала, что даже если его нет в репозитории с открытым доступом, любой контент, который можно прочитать онлайн, вероятно, был введен в LLM.Что еще страшнее, так это то, что если документ использовался в качестве данных для обучения модели, его нельзя удалить после завершения обучения модели.Если ваша статья еще не использовалась для обучения ИИ, не волнуйтесь — это должно произойти скоро!Наборы данных подобны золоту, и на них делают ставки крупные компании.
Мы все знаем, что LLM необходимо обучать на больших объемах данных, и эти данные обычно берутся из Интернета.Именно из миллиардов токенов в этих обучающих данных LLM извлекает шаблоны для генерации текста, изображений и кода.Научные статьи объемны и имеют высокую плотность информации, поэтому они, очевидно, являются одними из наиболее ценных данных, которые можно передать в LLM.Более того, обучение LLM большому объему научной информации может также значительно улучшить их способности рассуждать по научным темам.Ван стал соавтором S2ORC — набора данных, основанного на 81,1 миллиона научных работ. Первоначально набор данных S2ORC был разработан для интеллектуального анализа текста, но позже его использовали для обучения LLM.Pile, созданный некоммерческой организацией Eleuther AI в 2020 году, представляет собой один из наиболее широко используемых крупномасштабных наборов данных с открытым исходным кодом в исследованиях НЛП общим объемом 800 ГБ. Он содержит большое количество текстов из академических источников, при этом доля статей arXiv составляет 8,96%. Он также охватывает другие академические сайты, такие как PubMed, FreeLaw и NIH.Некоторое время назад набор данных токенов 1T с открытым исходным кодом MINT также обнаружил сокровище arXiv, извлекая в общей сложности 870 000 документов и 9B токенов.Из приведенной ниже блок-схемы обработки данных мы видим, насколько велико качество данных статьи — практически нет необходимости в значительной фильтрации и дедупликации, а уровень использования чрезвычайно высок.Теперь, в ответ на споры об авторских правах, крупные модельные компании начали платить реальные деньги за приобретение высококачественных наборов данных.В этом году Financial Times продала свой контент OpenAI за значительную цену. Reddit также заключил аналогичное соглашение с Google;В будущем подобные сделки станут неизбежными.Доказать, что бумага использовалась LLM, крайне сложно.
Некоторые разработчики ИИ открывают свои собственные наборы данных, но многие компании, разрабатывающие модели ИИ, сохраняют конфиденциальность большей части своих обучающих данных.Стефан Баак, аналитик данных по обучению искусственного интеллекта в Mozilla Foundation, сказал, что никто не знает, какие данные по обучению есть у этих компаний.Самыми популярными источниками данных среди инсайдеров отрасли, несомненно, являются рефераты из репозитория с открытым исходным кодом arXiv и академической базы данных PubMed.В настоящее время на arXiv размещены полные тексты более 2,5 миллионов статей, а на PubMed ошеломляющее количество цитат, превышающее 37 миллионов.Хотя полный текст некоторых статей на таких веб-сайтах, как PubMed, имеет платный доступ, тезисы статей доступны для бесплатного просмотра, и эта часть могла быть просканирована крупными технологическими компаниями.Итак, существует ли какой-либо технический метод, позволяющий определить, была ли использована ваша бумага?Ив-Александр де Монжуа, ученый-компьютерщик из Имперского колледжа Лондона, сказал: «Очень сложно доказать, что LLM использовал определенную статью.Один из способов — использовать очень редкие предложения в тексте статьи, чтобы подсказать модели и посмотреть, является ли ее вывод следующим словом в исходном тексте.Некоторые учёные однажды подсказали GPT-3 с началом третьей главы «Гарри Поттера и философского камня», и модель быстро и правильно выплюнула примерно целую страницу содержания книги.Если да, то его больше нет — бумага находится в обучающем наборе модели.А что, если нет? Это не обязательно является веским доказательством того, что бумага не использовалась.Потому что разработчики могут кодировать LLM так, чтобы они фильтровали ответы, чтобы они не слишком точно соответствовали обучающим данным.Возможно, что, несмотря на все наши усилия, мы до сих пор не можем доказать это однозначно.Другой метод - «атака с выводом членов».Принцип этого метода заключается в том, что когда модель видит что-то, что она видела раньше, она будет более уверена в выводе.С этой целью команда Де Монтжуа разработала «ловушку авторского права».Чтобы поставить ловушку, команда генерировала правдоподобные, но бессмысленные предложения и скрывала их в работе, например, белый текст на белом фоне или поле нулевой ширины на веб-странице.Если модель больше сбивает с толку неиспользованные управляющие предложения, чем управляющие предложения, скрытые в тексте, это можно использовать как статистическое свидетельство того, что ловушка была замечена.
Однако даже если можно доказать, что LLM обучался по определенной бумаге, что мы можем сделать?Здесь существует давний спор.По мнению издателя, если разработчик использует в обучении текст, защищенный авторским правом, без получения разрешения, это определенно является нарушением.Но другая сторона может опровергнуть это следующим образом: большая модель не является плагиатом, так как же может быть какое-либо заявление о нарушении авторских прав?Действительно, LLM ничего не копирует, он просто берет информацию из обучающих данных, дизассемблирует их и использует для обучения, чтобы генерировать новый текст.Более сложный вопрос заключается в том, как провести грань между использованием коммерческих и академических исследований.В соответствии с текущими условиями использования веб-сайта arXiv сбор, хранение и использование всех электронных препринтов и метаданных веб-сайта соответствуют требованиям и поддерживаются в личных или исследовательских целях.Однако коммерческое использование arXiv строго запрещено.Итак, вопрос в том, что если коммерческая компания использует набор данных с открытым исходным кодом, выпущенный академическим учреждением, для обучения своей бизнес-модели, и источник данных включает arXiv или аналогичные академические издательские учреждения, как это считается?Кроме того, издатели часто не оговаривают в условиях подписки пользователей четко, можно ли использовать статьи в качестве обучающих данных для моделей.