noticias

Acusada de infracción de derechos de autor por el "tiránico" CNKI, Secret Tower AI bien podría decir algunas palabras más

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Autor |
Correo electrónico|[email protected]
Editor|Wang Zhaoyang
Correo electrónico|[email protected]

1

romper enlace

Recientemente, los usuarios de la búsqueda de Secret Tower AI encontrarán una línea de texto llamativo en la parte superior cuando abran el sitio web: "¡Se acabó! Recibimos una carta de notificación de infracción de 28 páginas de CNKI".

Haga clic para abrir una declaración de Secret Tower, que afirma que recibió una carta de notificación de infracción de la revista electrónica Co., Ltd. "Chinese Academic Journal (CD Edition)", es decir, que ha sido multada con 8.760 por sospecha de comportamiento monopolístico y cuestiones de seguridad de la información personal. 10.000 yuanes y 50 millones de yuanes, CNKI, que ha sido controvertida, emitió una acusación de infracción en su contra.


Para resumir brevemente, la búsqueda de MiTa AI puede buscar contenido CNKI. CNKI considera que esto es una infracción y exige que deje de proporcionar datos CNKI inmediatamente en los servicios de búsqueda.

"Nuestra empresa no quiere que MiTa Technology busque en nuestro sitio web China National Knowledge Infrastructure. Desconecte inmediatamente los resultados de búsqueda de nuestro sitio web. Si necesita cooperación comercial, comuníquese con nuestra empresa".

MiTa Technology respondió en esta declaración que la sección "académica" de la búsqueda de MiTa AI solo incluye el resumen de la literatura y la bibliografía del artículo, y no incluye el contenido del artículo en sí. Para leer el texto, debe ir al sitio web. a través del enlace fuente para obtenerlo. Según los estándares académicos, el resumen y la bibliografía de un documento deben ser independientes y autoexplicativos, permitiendo a los lectores obtener la información necesaria sin tener que leer el texto completo.


Actualmente, algunos enlaces en Secret Tower Academic Search saltarán a Wanfang Data.

Secret Tower AI también enfatiza que el valor del conocimiento radica en su flujo. Los documentos académicos son un portador importante de los logros intelectuales humanos y son extremadamente insustituibles. Si los documentos científicos se convierten en un producto de lujo, no favorecerá un acceso justo al conocimiento ni al desarrollo de la investigación científica.

Sin embargo, después de hablar de la transición de la sabiduría humana a las actividades académicas, la acción de Secret Towers fue "romper el vínculo": "Incluso si no entendemos, respetamos la elección de CNKI de ahora en adelante, Secret Towers AI". La búsqueda ya no incluirá Los datos bibliográficos y abstractos de los documentos CNKI se incluirán en los datos bibliográficos y abstractos de otras bases de conocimientos autorizadas en chino e inglés. Otras bases de datos también son bienvenidas para cooperar y discutir.

Es decir, Secret Tower finalmente manejó la denuncia de acuerdo con los requisitos de apelación del CNKI.

1

Cuestiones importantes que no se explican claramente.

Secret Tower AI Search es el producto estrella en esta ronda de auge de la IA y a menudo se lo compara con el Perplexity de China. Secret Tower también es una empresa estrella en esta ronda de grandes empresas emergentes modelo. Las últimas noticias muestran que ha completado la última financiación de 100 millones de yuanes, con una valoración posterior a la inversión de 150 millones de dólares. MiTa se fundó antes del gran auge de los modelos, pero su producto principal, MiTa AI Search, se lanzó oficialmente en marzo de este año.


Anuncio de Secret Tower en Hunan Satellite TV

El aviso de infracción de CNKI establecía que Mita proporcionó a los usuarios la bibliografía de la literatura académica de CNKI y datos resumidos, y era sospechosa de infracción. En este sentido, You Yunting, socio principal y abogado del bufete de abogados Shanghai Dabang, dijo que las páginas web son diferentes de los artículos: la bibliografía de literatura académica y las páginas web de resúmenes de CNKI son de acceso público para los usuarios nacionales. Los operadores de China con una posición dominante en el mercado de servicios de bases de datos en red deben tener razones razonables para no permitir que Secret Tower Search capture estas dos partes de información pública.

Básicamente, CNKI le pide a Secret Tower que no rastree su sitio web. En el ecosistema de los motores de búsqueda tradicionales, existen reglas básicas para el comportamiento de los rastreadores que capturan información: cada sitio web y varios proveedores de información utilizan un archivo Robots.txt para indicarle al motor de búsqueda qué contenido se puede rastrear y cuál no.

Los motores de búsqueda como Baidu y Google nombrarán sus propios rastreadores en este proceso para que la otra parte sepa que estuvieron allí y lo que se llevaron. Pero a juzgar por el archivo Robots.txt de CNKI, no bloquea ningún rastreador.

“Lo interesante es que aunque CNKI envió una carta a Mita pidiéndole que desconectara el enlace, lo que significa que no está permitido rastrear contenido web, su archivo robots (https://www.cnki.cn/robots.txt) no lo hace. Los rastreadores de motores de búsqueda están prohibidos Según el contenido del archivo robots de CNKI, nadie tiene prohibido rastrear sus páginas web, solo cms, query.html?*, report, paper, qrcode, js, cs, que involucran la interfaz de administración en segundo plano. y el directorio de recursos estáticos y las páginas web del directorio de contenido específico no se pueden rastrear”.

Si la otra parte no tiene prohibido rastrear de acuerdo con las reglas de la industria, ¿por qué todavía necesitamos enviar una carta de notificación?

"Muchos rastreadores de motores de búsqueda de inteligencia artificial ahora no siguen la ética marcial. No nombran a sus propios rastreadores como los tradicionales Baidu, Google, Sogou y Bing, sino que rastrean de forma silenciosa y anónima". De hecho, estos rastreadores anónimos no necesariamente se realizan en nombre de estas empresas de búsqueda de IA. Hay muchos servicios de rastreo de terceros en el mercado que utilizan varios métodos para eludir estas pautas básicas de rastreo. En la respuesta de Secret Tower no se menciona si se utilizaron estos servicios.

Peroplexity se ha topado con controversias similares antes.

En ese momento, la revista Wired y el desarrollador Robb Knight investigaron y descubrieron que Perplexity no cumplía con el estándar robots.txt. El fundador Aravind Srinivas respondió en una entrevista que Perplexity no ignoró el Protocolo de exclusión de robots... Se descubrió que el rastreador web en cuestión pertenecía a un proveedor externo.

Pero cuando se le preguntó si dejaría de utilizar rastreadores de terceros, simplemente dijo "es complicado". Además, la investigación de ese momento reveló que, en algunos casos, es posible que Perplexity no haya resumido los artículos reales, sino que haya reconstruido el contenido basándose en las URL y los rastros dejados en los motores de búsqueda, como extractos y metadatos. Déjà vu.

Según el artículo publicado por MiTa, la notificación de infracción enviada por CNKI a MiTa tenía 28 páginas. Secret Tower solo interceptó la carta de notificación y la publicó. A juzgar por las capturas de pantalla publicadas, el contenido restante enumera principalmente evidencia de infracción. Es posible que estos contenidos no solo muestren el rastreo de varios resúmenes y títulos.


Según lo que muchos usuarios han compartido anteriormente, Secret Tower puede obtener documentos no públicos y se pueden leer directamente en la página web de Secret Tower. Aunque estos documentos PDF están vinculados a sitios web de bibliotecas externas, en realidad pueden estar almacenados en Secret. Servidor de torre. You Yunting cree que si Secret Tower crea una base de datos indexada que contenga el texto completo de los artículos CNKI, puede constituir una infracción.

"La sección de podcast y biblioteca de la búsqueda de IA de MiTa tiene una base de datos de índice. La biblioteca de índice que entiendo puede ser que MiTa haya creado directamente una base de datos de índice internamente para la literatura recopilada en lotes. Cuando el usuario busca, MiTa buscará en la red. Correspondiente contenido en tiempo real y luego utilizar inteligencia artificial para integrar resultados de búsqueda en tiempo real e indexar el contenido de la biblioteca para proporcionar respuestas", dijo You Yunting. Es decir, aunque la página principal de resultados de visualización presenta el índice en forma de fuentes comentadas, el "texto original" también se traslada a su propio servicio.

"La base de datos de índice probablemente sea real. De hecho, esto no es difícil de probar técnicamente. Encontramos este problema cuando representábamos la demanda. Generalmente usamos software de captura de paquetes para mostrar la dirección IP real del documento. Si la dirección IP está ubicado en el servidor de la torre secreta, significa que fue proporcionado por la Torre Secreta”.

Además, como motor de búsqueda de IA basado en modelos previamente entrenados, si estos datos de propiedad intelectual se utilizan en los datos de entrenamiento es una cuestión más importante.

Cuando los datos en papel en el entrenamiento son altamente consistentes con el texto original cuando el contenido de salida final para el usuario es altamente consistente con el texto original debido al problema de "sobreajuste" que generalmente tiene el modelo, esto ha entrado en la categoría de infracción de derechos de autor similar a la "limpieza de papel" por uso legítimo.

Pero en tales circunstancias, ¿tiene el CNKI derecho a “proteger” estos artículos escritos por investigadores individuales?

"HowNet no tiene derecho a reclamar una infracción de derechos de autor de Secret Tower Training", cree You Yunting.

Dijo que aunque la mayoría de los artículos en el sitio web de CNKI están incluidos, CNKI tiene derecho a difundir información en la red autorizada por la revista o el autor. Si el artículo se utiliza para capacitación, los derechos de autor involucrados en la capacitación son los derechos. de reproducción y reproducción estipulados en la ley de derechos de autor. Los derechos de autor y otros derechos no infringen los derechos de difusión de la red de información de CNKI. Por supuesto, si se infringe el entrenamiento de la torre secreta de protección de derechos de la revista, entonces la torre secreta enfrentará el mismo problema que el New York Times al demandar a OpenAI.


1

Es hora de discusiones más serias

Por lo tanto, el objetivo al que las torres secretas quieren "responder" no es sólo CNKI, que ha sido comentado como "malvado" por los internautas.

Además de responder a CNKI - estas respuestas siempre despiertan empatía, a juzgar por la sección de comentarios de su respuesta al artículo, la gente todavía tiene la actitud de CNKI durante mucho tiempo y "detiene" la torre secreta - las torres secretas pueden ser capaz de Los autores individuales detrás de los datos de entrenamiento explican cómo se utilizan los datos.

La controvertida función de búsqueda "académica" es un diseño importante que distingue a Secret Tower de otros Perplexities. Esta función también ha recibido elogios de muchos usuarios. Estos usuarios suelen ser aquellos que necesitan realizar una gran cantidad de búsquedas bibliográficas para tareas como tareas de clase, creación secundaria de artículos e incluso redacción de artículos.

Para los verdaderos autores del artículo, el uso de estos datos puede causar otros problemas.

Un artículo reciente de Nature señaló que muchas editoriales académicas han autorizado a las empresas de tecnología a acceder a sus propios artículos para entrenar modelos de IA. Por ejemplo, la editorial estadounidense Wiley recibió directamente 23 millones de dólares en ingresos después de permitir que una empresa utilizara su modelo de formación de contenidos. Y estos ingresos no tienen nada que ver con los autores de los artículos.

Además de este problema real de distribución del ingreso que probablemente sea irresoluble en última instancia, para estos investigadores, algunos sistemas de evaluación muy importantes en el mundo académico también se han visto interrumpidos en el proceso de generación de esta "búsqueda académica de IA". Por ejemplo, las citas, un indicador muy importante en el mundo académico, parecen ya no existir en estos escenarios de búsqueda académica de IA. La aleatoriedad y la falta de interpretabilidad del modelo grande en sí, así como lo incompleto de los datos, hacen que los resultados de la búsqueda académica que genera sean diferentes de los estándares de juicio de la propia comunidad académica.

Un académico le dijo a Silicon Star: Cuando estas búsquedas de IA generan respuestas por sí solas, ¿cuáles son los criterios para elegir cuál y cuál y cuál? Para los académicos que consideran el número de citas como el criterio más directo del contenido de oro, si estos resultados de la IA se vuelven cada vez más numerosos y luego son utilizados por muchos investigadores en sus propios artículos, ¿será esto también otra forma de contaminación del SEO de la IA?



Resultados de hacer preguntas en Secret Tower Law

En cuanto a la disputa en sí, cuando Secret Tower eliminó los documentos CNKI de la base de datos del índice y ya no proporcionó a los usuarios la función de lectura en línea de los documentos CNKI, la disputa sobre la infracción de propiedad intelectual fue mínima, y ​​You Yunting dijo que según el "Anti- La Ley de Monopolio Inverso y la Convención sobre Autodisciplina de los Servicios de Motores de Búsqueda de Internet, ya no es razonable que CNKI no permita que Secret Tower Search capture estas dos partes de información pública.

Pero si las empresas de búsqueda de IA toman los productos en los que están trabajando como un asunto serio y a largo plazo, entonces, además de celebrar algunas pequeñas bendiciones del producto y algunas actitudes elegantes, también es hora de enfrentar estos problemas complejos y realistas. y discutirlo abiertamente de manera apropiada, sólo entonces podrán realmente esperar llegar al verdadero meollo del campo actual del acceso a la información que esperan desafiar.