Обвиненный в нарушении авторских прав «тиранической» CNKI, ИИ Секретной Башни мог бы сказать еще несколько слов

Обвиненный в нарушении авторских прав «тиранической» CNKI, ИИ Секретной Башни мог бы сказать еще несколько слов.

2024-08-19

Автор | Чжоу Сяосяо
Электронная почта｜[email protected]
Редактор｜Ван Чжаоян
Электронная почта｜[email protected]

Разорвать ссылку

Недавно пользователи поиска Secret Tower AI, открыв веб-сайт, обнаружили в верхней части привлекательного текста строку: «Все кончено! Мы получили 28-страничное письмо с уведомлением о нарушении авторских прав от CNKI».

Щелкните, чтобы открыть заявление компании Secret Tower, в котором говорится, что она получила письмо с уведомлением о нарушении прав от электронного журнала «Chinese Academic Journal (CD Edition)» Co., Ltd., то есть была оштрафована на 8760 долларов за подозрение в монополистическом поведении и вопросы безопасности личной информации 10 000 юаней и 50 миллионов юаней, CNKI, которая вызвала споры, выдвинула против нее обвинение в нарушении прав.

Подводя краткий итог, MiTa AI search может искать контент CNKI. CNKI считает это нарушением и требует немедленно прекратить предоставление данных CNKI в поисковые службы.

«Наша компания не хочет, чтобы MiTa Technology проводила поиск по нашему веб-сайту Китайской национальной инфраструктуры знаний. Пожалуйста, немедленно отключите результаты поиска от нашего веб-сайта. Если вам нужно деловое сотрудничество, свяжитесь с нашей компанией».

В этом заявлении MiTa Technology ответила, что «академический» раздел поиска MiTa AI включает только аннотацию литературы и библиографию статьи и не включает содержание самой статьи. Чтобы прочитать текст, вам нужно перейти на веб-сайт. по ссылке на источник, чтобы получить его. Согласно академическим стандартам, аннотация и библиография документа должны быть независимыми и не требующими пояснений, позволяющими читателям получить необходимую информацию, не читая полный текст.

В настоящее время некоторые ссылки в академическом поиске Secret Tower переходят на данные Wanfang.

Secret Tower AI также подчеркивает, что ценность знаний заключается в их потоке. Академические документы являются важным носителем интеллектуальных достижений человека и крайне незаменимы. Если научные документы станут предметом роскоши, это не будет способствовать справедливому доступу к знаниям или развитию научных исследований.

Однако после разговора о переходе от человеческой мудрости к академическим занятиям действия Secret Towers заключались в том, чтобы «разорвать связь»: «Даже если мы не понимаем, мы уважаем выбор CNKI. Отныне Secret Towers AI». поиск больше не будет включать Библиографические и реферативные данные документов CNKI будут включены в библиографические и реферативные данные других авторитетных баз знаний на китайском и английском языках. Другие базы данных также приглашаются к сотрудничеству и обсуждению.

То есть Secret Tower наконец рассмотрела жалобу в соответствии с апелляционными требованиями CNKI.

Важные вопросы, которые четко не объяснены

Secret Tower AI Search — звездный продукт на этом этапе бума искусственного интеллекта, и его часто сравнивают с китайской Perplexity. Secret Tower также является звездной компанией в этом раунде крупных модельных стартапов. Последние новости показывают, что она завершила последнее финансирование в размере 100 миллионов юаней с послеинвестиционной оценкой в 150 миллионов долларов США. Компания MiTa была основана до большого модельного бума, но ее основной продукт MiTa AI search был официально запущен в марте этого года.

Реклама Секретной башни на спутниковом телевидении провинции Хунань

В уведомлении CNKI о нарушении авторских прав говорилось, что Mita предоставила пользователям библиографию научной литературы CNKI и сводные данные и подозревается в нарушении авторских прав. В связи с этим Ю Юньтин, старший партнер и юрист юридической фирмы Shanghai Dabang, сказал, что веб-страницы отличаются от статей. Библиография академической литературы и реферативные веб-страницы CNKI общедоступны для отечественных пользователей. CNKI является китайским научным документом. Китайские операторы, занимающие доминирующее положение на рынке услуг сетевых баз данных, должны иметь разумные причины не позволять Secret Tower Search собирать эти две части общедоступной информации.

По сути, CNKI просит Secret Tower не сканировать ее сайт. В экосистеме традиционных поисковых систем существуют основные правила такого поведения сканеров, собирающих информацию: каждый веб-сайт и различные поставщики информации используют файл Robots.txt, чтобы сообщить поисковой системе, какой контент можно сканировать, а какой нет.

Поисковые системы, такие как Baidu и Google, в этом процессе будут давать имена своим сканерам, чтобы сообщить другой стороне, что они там были и что они забрали. Но, судя по файлу Robots.txt CNKI, он не блокирует сканеров.

«Что интересно, хотя CNKI отправила Мите письмо с просьбой отключить ссылку, что означает, что ей не разрешено сканировать веб-контент, ее файл robots (https://www.cnki.cn/robots.txt) не Сканеры поисковых систем запрещены. Согласно содержимому файла robots CNKI, никому не запрещено сканировать их веб-страницы, только cms, query.html?*, report, paper, qrcode, js, cs, которые включают интерфейс фонового управления. и статический каталог ресурсов и веб-страницы определенного каталога контента не могут быть просканированы».

Если другой стороне не запрещено сканирование в соответствии с отраслевыми правилами, почему нам все равно нужно отправлять письмо-уведомление?

«Многие сканеры поисковых систем с искусственным интеллектом теперь не следуют военной этике. Они не называют свои собственные сканеры, как традиционные Baidu, Google, Sogou и Bing, а сканируют молча и анонимно». На самом деле, эти анонимные сканеры не обязательно выполняются от имени поисковых компаний с искусственным интеллектом. На рынке существует множество сторонних сервисов сканирования, которые используют различные методы для обхода этих основных правил сканирования. В ответе Secret Tower не упоминалось, использовались ли эти услуги.

Пероплексия уже сталкивалась с подобными противоречиями и раньше.

В то время журнал Wired и разработчик Робб Найт провели расследование и обнаружили, что Perplexity не соответствует стандарту robots.txt. Основатель Аравинд Шринивас ответил в интервью, что Perplexity не игнорировала протокол исключений роботов... Было обнаружено, что рассматриваемый веб-сканер принадлежит стороннему поставщику.

Но когда его спросили, прекратит ли он использовать сторонние сканеры, он просто ответил: «Это сложно». Кроме того, проведенное тогда расследование показало, что в некоторых случаях Perplexity, возможно, не резюмировал реальные статьи, а вместо этого реконструировал контент на основе URL-адресов и следов, оставленных в поисковых системах, таких как выдержки и метаданные. Дежа вю.

Согласно статье, опубликованной MiTa, уведомление о нарушении, отправленное CNKI в MiTa, имело объем 28 страниц. Secret Tower лишь перехватила письмо-уведомление и опубликовала его. Судя по опубликованным скриншотам, остальной контент в основном содержит доказательства нарушения. Это содержимое может не только отражать сканирование различных аннотаций и заголовков.

Согласно тому, что ранее рассказывали многие пользователи, в Секретной башне можно получать закрытые документы, и их можно читать непосредственно на веб-странице Секретной башни. Хотя эти PDF-документы связаны с веб-сайтами внешних библиотек, на самом деле они могут храниться на Секретной башне. Башенный сервер. Ю Юньтин считает, что если Secret Tower создаст индексную базу данных, содержащую полный текст документов CNKI, это может представлять собой нарушение авторских прав.

«Раздел подкастов и библиотек поиска MiTa с использованием искусственного интеллекта имеет индексную базу данных. Насколько я понимаю, индексная библиотека может заключаться в том, что MiTa напрямую создала внутреннюю индексную базу данных для литературы, собранной в пакетном режиме. Когда пользователь выполняет поиск, MiTa будет искать в сети. Соответствующее контент в реальном времени, а затем использовать искусственный интеллект для интеграции результатов поиска в реальном времени и содержимого индексной библиотеки для предоставления ответов», — сказал Ю Юньтин. То есть, хотя основная страница результатов отображения представляет индекс в виде аннотированных источников, «исходный текст» также перемещается в отдельный сервис.

«Индексная база данных, вероятно, реальна. На самом деле, технически это несложно доказать. Мы столкнулись с этой проблемой, когда представляли иск. Обычно мы используем программное обеспечение для перехвата пакетов, чтобы отобразить реальный IP-адрес документа. Если IP-адрес находится на сервере секретной башни, это означает, что оно было предоставлено Секретной башней».

Кроме того, поскольку поисковая система ИИ основана на предварительно обученных моделях, более важным вопросом является то, используются ли эти данные об интеллектуальной собственности в обучающих данных.

Когда бумажные данные в обучении полностью соответствуют исходному тексту, когда окончательный выводимый для пользователя контент полностью соответствует исходному тексту из-за проблемы «переобучения», которая обычно возникает в модели, это переходит в категорию нарушение авторских прав, аналогичное «очистке бумаги» от добросовестного использования.

Но имеет ли CNKI при таких обстоятельствах право «защищать» эти статьи, написанные отдельными исследователями?

«HowNet не имеет права заявлять о нарушении авторских прав на Secret Tower Training», — считает Ю Юньтин.

Он сказал, что, хотя большинство статей на веб-сайте CNKI включены, CNKI имеет право распространять информацию в сети, разрешенную журналом или автором. Если статья используется для обучения, авторские права, связанные с обучением, являются правом. воспроизведения и воспроизведения, предусмотренные законом об авторском праве. Авторские права и другие права не нарушают права CNKI на распространение в сети. Конечно, если обучение секретной башне по защите прав журнала будет нарушено, то секретная башня столкнется с той же проблемой, что и New York Times, подающая в суд на OpenAI.

Пришло время для более серьезных дискуссий

Таким образом, цель, на которую секретные башни хотят «отвечать», — это не только CNKI, которую пользователи сети охарактеризовали как «злую».

Помимо ответов на CNKI - эти ответы всегда вызывают сочувствие, судя по разделу комментариев к ответу на статью, у людей еще давно сохраняется отношение CNKI, и "остановить" секретную башню - секретные башни могут быть Отдельные авторы обучающих данных объясняют, как используются эти данные.

Спорная «академическая» функция поиска — важная конструкция, отличающая Secret Tower от других Perplexities. Эта функция также заслужила похвалу многих пользователей. Этими пользователями часто являются те, кому необходимо выполнить большое количество поисков литературы для выполнения таких задач, как выполнение классных заданий, вторичное создание статей и даже написание статей.

Для реальных авторов статьи использование этих данных может вызвать другие проблемы.

В недавней статье в журнале Nature отмечалось, что многие академические издатели разрешили технологическим компаниям получать доступ к своим собственным статьям для обучения моделей ИИ. Например, американское издательство Wiley напрямую получило доход в размере 23 миллионов долларов США после того, как разрешило компании использовать свою модель обучения контенту. И эти доходы не имеют никакого отношения к авторам статей.

В дополнение к этой проблеме распределения реального дохода, которая, вероятно, будет в конечном итоге неразрешимой, для этих исследователей, некоторые очень важные системы оценки в академическом мире также были нарушены в процессе создания этого «академического поиска ИИ». Например, цитирования, очень важный показатель в академических кругах, похоже, больше не существуют в сценариях академического поиска ИИ. Случайность и неинтерпретируемость самой большой модели, а также неполнота данных делают результаты академического поиска, которые она генерирует, отличными от стандартов суждений самого академического сообщества.

Ученый рассказал Silicon Star: Когда эти поисковые запросы ИИ генерируют ответы сами по себе, каковы критерии выбора того, какой из них и какой? Для ученых, которые считают количество цитирований наиболее прямым критерием золотого содержания, если эти результаты ИИ становятся все более и более многочисленными и затем используются многими исследователями в их собственных статьях, является ли это еще одной формой загрязнения ИИ SEO?

Результаты задания вопросов в Законе о Тайной Башне

Что касается самого спора, когда Secret Tower удалила документы CNKI из индексной базы данных и больше не предоставляла пользователям функцию онлайн-чтения документов CNKI, спор о нарушении прав интеллектуальной собственности был минимальным, и Ю Юньтин сказал, что, согласно «Анти- Закона об обратной монополии и Конвенции о самодисциплине служб поисковых систем в Интернете, для CNKI больше не разумно запрещать Secret Tower Search собирать эти две части общедоступной информации.

Но если компании, занимающиеся поиском искусственного интеллекта, воспринимают продукты, над которыми они работают, как долгосрочное и серьезное дело, то, помимо празднования некоторых небольших преимуществ продукта и шикарного отношения, пришло время столкнуться с этими сложными и реалистичными проблемами. и открыто обсуждая это соответствующим образом, только тогда они смогут действительно надеяться добраться до реальной сути сегодняшней области доступа к информации, которую они надеются бросить вызов.

новости

Обвиненный в нарушении авторских прав «тиранической» CNKI, ИИ Секретной Башни мог бы сказать еще несколько слов.

Введение

Моя контактная информация