noticias

CNKI "acusó" a MITA de infracción de búsqueda de IA: desconecte inmediatamente el enlace de nuestro sitio web

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

(Fuente de la imagen: unsplash)

Novedades de la aplicación Titanium Media el 16 de agostoLa startup nacional de IA "Shanghai MiTa Network Technology Co., Ltd." (conocida como "MiTa Technology") emitió un comunicado diciendo que CNKI emitió recientemente una carta advirtiendo a la startup de búsqueda de IA MiTa Technology por presentar información académica en los resultados de búsqueda de IA. sin permiso. El título, el índice y el resumen del documento constituyen una infracción grave, y la carta de notificación de infracción tiene 28 páginas.

Secret Tower Technology enfatiza,Aunque no comprende este comportamiento, la empresa respeta la elección de CNKI. A partir de ahora, Secret Tower AI Search ya no incluirá datos bibliográficos y abstractos de documentos CNKI, sino que incluirá datos bibliográficos y abstractos de otras bases de conocimiento autorizadas en chino e inglés. Otras bases de datos también son bienvenidas para cooperar y discutir.

Se informa que MiTa Technology se fundó en 2018. El director ejecutivo de la compañía, Min Kerui, fue anteriormente el científico jefe de Cheetah Mobile y actualmente es el científico inteligente jefe del Laboratorio de Inteligencia Artificial Legal de la Universidad de Pekín.

En 2018, MiTa lanzó sucesivamente el producto de traducción legal de IA "MiTa Translation" y el producto de corrección y corrección de errores "MiTa Writing Cat". En 2022, lanzó el producto de generación de artículos "Quantum Sketch", con usuarios diarios que superaron los 10.000 en una semana; de conectarse a Internet.

Desde marzo de este año, la “Mita AI Search” creada por Mita Technology de repente se hizo popular y atrajo la atención del mercado. El sitio web fue visitado más de 7 millones de veces ese mes. Según Similar Web, una plataforma de monitoreo de datos de acceso a sitios web, el número de visitas a MiTa Search en marzo ocupó el tercer lugar entre un grupo de productos de inteligencia artificial en China, solo superado por Baidu Wenxin Yiyanhe.lado oscuro de la lunaKimi;La tasa de crecimiento del mes alcanzó el 550%.

En agosto de este año, MiTa Technology anunció la finalización de una financiación Serie A de más de 100 millones de RMB, liderada por Ant Group, con una valoración post-money de 150 millones de dólares estadounidenses (aproximadamente 1.077 millones de RMB). Los antiguos accionistas anteriores de Secret Tower incluyen Mingshi Capital, Cheetah Mobile y Fengyuan Capital.

Desde la perspectiva del producto, en comparación con los motores de búsqueda tradicionales, la búsqueda por IA brinda directamente a los usuarios respuestas a sus preguntas y adjunta enlaces de origen. El sitio web oficial de búsqueda de MiTa AI ofrece tres modos de respuesta: "conciso", "en profundidad" e "investigación", y el alcance de la búsqueda se puede configurar en "toda la red", "biblioteca", "académico", "podcast" y otras fuentes.

Con respecto al seguimiento de la carta de notificación, según Southern Metropolis Daily, Wang Yiwei, director de operaciones de Mita Technology, afirmó que CNKI no indicó específicamente en la carta de notificación qué derechos e intereses se infringieron. La búsqueda de MiTa AI para la sección "académica" de CNKI también puede atraer tráfico a CNKI. Algunos usuarios activan sus cuentas de CNKI a través de la búsqueda de MiTA AI y pagan por CNKI, lo que en sí mismo es un beneficio para CNKI. En vista del requisito de desconexión del CNKI, “no forzaremos ninguna intersección”.

Según Wang Yiwei, los resultados de búsqueda de IA anteriores no solo se han vinculado a CNKI, sino que otras bases de datos autorizadas en chino e inglés aún no han solicitado desconectarse.Sin embargo, desconectar el enlace CNKI no afectará la experiencia de los productos MiTa.

La aplicación Titanium Media descubrió que,Tongfang CNKI (Beijing) Technology Co., Ltd., la empresa matriz de CNKI, trabajó recientemente con Huawei para crear un modelo llamado Chinese Knowledge Big Model (Huazhi Big Model), que puede respaldar servicios de conocimiento, investigación científica, aprendizaje por investigación, producción y operación, diagnóstico y tratamiento auxiliar, Escenarios en campos como la justicia inteligente.

Zhang Hongwei, director general de Tongfang CNKI, reveló en julio de este año que CNKI es una empresa de servicios de conocimiento y publicación digital líder en la industria con usuarios en más de 90 países de todo el mundo, incluidos educación, investigación científica, grupos de expertos, gobiernos y empresas. , y las instituciones de investigación científica, especialmente las instituciones nacionales de educación e investigación, tienen básicamente una participación de mercado del 100%. En la actualidad, Tongfang CNKI está afiliada a la Corporación Nuclear Nacional de China y es una empresa de propiedad estatal. La organización ha establecido relaciones de cooperación con más de 20.000 organizaciones editoriales en más de 70 países de todo el mundo. Inicialmente ha construido un conocimiento mundial de big data. y opera la biblioteca de recursos de conocimiento chino más grande del mundo.

Zhang Hongwei señaló que, basándose en el modelo grande de Huazhi, la empresa ha llevado a cabo una transformación profunda de toda la línea de productos CNKI, desde el procesamiento y la anotación hasta la incorporación de esta herramienta a la plataforma de servicios para diversas industrias. Desde que se abrió oficialmente al público a mediados de mayo de este año, el número de usuarios de Huazhi ha crecido rápidamente y el número actual de usuarios individuales ha superado los 10 millones.

Sin embargo, CNKI ha sido multada muchas veces y la industria tiene algunas dudas sobre su modelo de desarrollo. El 26 de diciembre de 2022, la Administración Estatal de Regulación del Mercado tomó una decisión de sanción administrativa de conformidad con la ley, ordenando a CNKI que detuviera las actividades ilegales e impuso una multa del 5% de sus ventas nacionales en China de 1.752 millones de yuanes en 2021. por un total de 87,6 millones de yuanes, en septiembre de 2023, la Administración del Ciberespacio de China tomó una decisión sobre sanciones administrativas relacionadas con la revisión de la seguridad de la red de CNKI de conformidad con la ley, le ordenó detener el procesamiento ilegal de información personal e impuso una multa de 50 RMB; millones, citando las operaciones móviles CNKI y CNKI que opera. Las 14 aplicaciones fueron acusadas de tener problemas relacionados, incluida la recopilación de información personal en violación del principio de necesidad, la recopilación de información personal sin consentimiento y la no divulgación o declaración explícita de las reglas de recopilación y uso. , no proporcionar una función de cancelación de cuenta y no eliminar la información personal del usuario de manera oportuna después de que el usuario canceló la cuenta, etc.

Liu Wenjie, profesor del Instituto de Derecho Comparado de la Universidad de Ciencias Políticas y Derecho de China, cree que un resumen es un resumen concentrado del contenido de un artículo, especialmente de los pensamientos e ideas, si se proporcionan servicios de búsqueda a los usuarios de Internet. y rastrear datos públicos en Internet para proporcionar resúmenes de artículos, debe considerarse uso legítimo según la ley de derechos de autor y generalmente no constituye una infracción de derechos de autor.

Recientemente, Elizabeth Gibney, editora de la revista Nature, de renombre internacional, publicó un artículo en el que afirma que cada vez más editoriales académicas otorgan licencias de trabajos de investigación a empresas de tecnología para el entrenamiento de modelos de IA. Un editor académico ganó 23 millones de dólares con esto, mientras que el autor no ganó nada. Estas transacciones, en muchos casos sin consultar a los autores, han provocado un fuerte descontento entre algunos investigadores.

"Si su artículo no se ha utilizado como datos de entrenamiento de IA, es probable que pronto forme parte del entrenamiento". Elizabeth Jipney señaló en el artículo que actualmente los autores de artículos académicos casi no tienen otra opción cuando se enfrentan a editores que venden sus obras protegidas por derechos de autor. interferencia. Para los artículos publicados públicamente, no existe ningún mecanismo para confirmar si estos contenidos se utilizan como datos de entrenamiento de IA. En el uso de grandes modelos lingüísticos, cómo establecer un mecanismo más justo para proteger los derechos e intereses de los creadores merece un amplio debate en los círculos académicos y de derechos de autor.

Modelo de lenguaje grande (Máster en Derecho) generalmente dependen de grandes cantidades de datos extraídos de Internet para su capacitación. Estos datos incluyen miles de millones de datos lingüísticos (llamados "tokens") y, al analizar los patrones entre estos tokens, el modelo puede generar texto fluido. Debido a su rico contenido y alta densidad de información, los artículos académicos son más valiosos que grandes cantidades de datos ordinarios y son una fuente importante de datos en el entrenamiento de IA. El analista de datos de la Fundación Mozilla, Stefan Baack, analizó que los artículos científicos son muy útiles para el entrenamiento de grandes modelos lingüísticos, especialmente en términos de capacidad de razonamiento sobre temas científicos. Precisamente por el alto valor de los datos, las grandes empresas de tecnología han gastado enormes sumas de dinero en la compra de conjuntos de datos.

You Yunting, socio principal y abogado del bufete de abogados Shanghai Dabang, dijo que el mayor problema con la sección "académica" de la búsqueda de MiTa AI es que puede mostrar completamente el contenido del artículo "El PDF del artículo está incluido en". los resultados de la investigación. Aunque no se puede descargar, el usuario puede encontrarlo en la página de resultados". Puede ver el texto completo de este artículo haciendo clic en el enlace PDF, lo que infringe el derecho del artículo a difundir información en línea. "Pero Si AI absorbe la esencia del artículo y la transmite al usuario a su manera, según la Ley de derechos de autor, se considera uso legítimo la cita razonable de parte del trabajo para explicar un determinado tema.

Con respecto al uso de datos en papel para el entrenamiento de modelos grandes, You Yunting dijo que este comportamiento no infringe la infraestructura nacional de conocimiento de China. Según la Ley de Derechos de Autor, el proceso de formación es copiar y aprender. Copiar es copiar artículos de Internet al servidor para su formación. Actualmente no existe un juicio legal claro que determine si el aprendizaje constituye una infracción. Sin embargo, ya sea el derecho de reproducción, estudio u otros derechos relacionados con los derechos de autor, CNKI no es el titular de los derechos del artículo.

Zhang Hongwei dijo con franqueza que en la era de los grandes modelos de IA, CNKI necesita establecer un ecosistema y una cooperación.

"Si no existe una industria upstream, una industria editorial y un suministro continuo de datos de alta calidad de la industria de datos, en realidad será difícil para nuestra industria de inteligencia artificial sostener un desarrollo de alta calidad. Para resolver tal problema, en realidad Necesitamos que toda nuestra industria ponga a prueba la sabiduría. Necesitamos trabajar juntos para construir una solución.GCIALa buena ecología de los tiempos promoverá conjuntamente el desarrollo de alta calidad de esta industria. Nosotros, CNKI, estamos dispuestos a cooperar con todos en este aspecto para promover el desarrollo sostenible y de alta calidad de la industria. "Dijo Zhang Hongwei.