Acusada de violação de direitos autorais pelo "tirânico" CNKI, a Secret Tower AI poderia muito bem dizer mais algumas palavras

Acusada de violação de direitos autorais pelo "tirânico" CNKI, Secret Tower AI poderia muito bem dizer mais algumas palavras

2024-08-19

Autor | Zhou Xiaoxiao
E-mail｜[email protected]
Editor｜Wang Zhaoyang
E-mail｜[email protected]

Quebrar link

Recentemente, os usuários da pesquisa Secret Tower AI encontrarão uma linha de texto atraente na parte superior ao abrir o site: "Acabou! Recebemos uma carta de notificação de violação de 28 páginas do CNKI."

Clique para abrir um comunicado da Secret Tower, que afirma ter recebido uma carta de notificação de infração da revista eletrônica Co., Ltd. "Chinese Academic Journal (CD Edition)" - ou seja, foi multada em 8.760 por suspeita de comportamento monopolista e questões de segurança de informações pessoais 10.000 yuans e 50 milhões de yuans, o CNKI, que tem sido controverso, emitiu uma acusação de violação contra ele.

Para resumir brevemente, a pesquisa MiTa AI pode pesquisar conteúdo CNKI. A CNKI considera isso uma violação e exige que pare imediatamente de fornecer dados CNKI nos serviços de pesquisa.

"Nossa empresa não deseja que nosso site China National Knowledge Infrastructure seja pesquisado pela MiTa Technology. Desconecte imediatamente os resultados da pesquisa de nosso site. Se precisar de cooperação comercial, entre em contato com nossa empresa."

A MiTa Technology respondeu nesta declaração que a seção “acadêmica” da pesquisa MiTa AI inclui apenas o resumo da literatura e a bibliografia do artigo, e não inclui o conteúdo do artigo em si. Para ler o texto, você precisa acessar o site. através do link da fonte para obtê-lo. De acordo com os padrões acadêmicos, o resumo e a bibliografia de um documento devem ser independentes e autoexplicativos, permitindo ao leitor obter as informações necessárias sem a leitura do texto completo.

Atualmente, alguns links na Pesquisa Acadêmica da Secret Tower irão para Wanfang Data.

A Secret Tower AI também enfatiza que o valor do conhecimento reside no seu fluxo. Os documentos acadêmicos são um importante portador das realizações intelectuais humanas e são extremamente insubstituíveis. Se os documentos científicos se tornarem um produto de luxo, não será propício ao acesso justo ao conhecimento ou ao desenvolvimento da investigação científica.

Porém, depois de falar sobre a transição da sabedoria humana para as atividades acadêmicas, a ação da Secret Towers foi “quebrar o vínculo”: “Mesmo que não entendamos, respeitamos a escolha do CNKI A partir de agora, Secret Towers AI”. a pesquisa não incluirá mais Os dados bibliográficos e abstratos dos documentos CNKI serão incluídos nos dados bibliográficos e abstratos de outras bases de conhecimento autorizadas em chinês e inglês. Outras bases de dados também são bem-vindas para cooperar e discutir.

Ou seja, a Secret Tower finalmente tratou a reclamação de acordo com os requisitos de recurso do CNKI.

Questões importantes que não são claramente explicadas

Secret Tower AI Search é o produto estrela nesta rodada de boom de IA e é frequentemente comparado ao Perplexity da China. A Secret Tower também é uma empresa estrela nesta rodada de grandes startups de modelos. As últimas notícias mostram que concluiu o último financiamento de 100 milhões de yuans, com uma avaliação pós-investimento de US$ 150 milhões. A MiTa foi fundada antes do grande boom de modelos, mas seu produto principal, MiTa AI search, foi lançado oficialmente em março deste ano.

Anúncio da Torre Secreta na Hunan Satellite TV

O aviso de infração do CNKI afirmava que Mita forneceu aos usuários a bibliografia da literatura acadêmica e dados resumidos do CNKI e era suspeito de infração. A esse respeito, You Yunting, sócio sênior e advogado do Shanghai Dabang Law Firm, disse que as páginas da web são diferentes dos artigos. A bibliografia da literatura acadêmica e as páginas abstratas da web do CNKI são acessíveis ao público para usuários domésticos. Os operadores com posição dominante no mercado de serviços de bases de dados em rede devem ter razões razoáveis para não permitirem que a Secret Tower Search capture estas duas partes da informação pública.

Essencialmente, o CNKI está pedindo à Secret Tower que não rastreie seu site. No ecossistema dos mecanismos de pesquisa tradicionais, existem regras básicas para esse comportamento do rastreador de captura de informações - cada site e vários provedores de informações usam um arquivo Robots.txt para informar ao mecanismo de pesquisa qual conteúdo pode ser rastreado e qual não pode.

Mecanismos de busca como Baidu e Google nomearão seus próprios rastreadores nesse processo para que a outra parte saiba que eles estiveram lá e o que levaram embora. Mas, a julgar pelo arquivo Robots.txt do CNKI, ele não bloqueia nenhum rastreador.

“O que é interessante é que embora o CNKI tenha enviado uma carta a Mita pedindo para desconectar o link, o que significa que não é permitido rastrear conteúdo da web, seu arquivo de robôs (https://www.cnki.cn/robots.txt) não. rastreadores de mecanismos de pesquisa são proibidos De acordo com o conteúdo do arquivo de robôs do CNKI, ninguém está proibido de rastrear suas páginas da web, apenas cms, query.html?*, relatório, papel, qrcode, js, cs, que envolvem a interface de gerenciamento de segundo plano. e diretório de recursos estáticos e páginas da web de diretório de conteúdo específico não podem ser rastreados.

Se a outra parte não estiver proibida de rastrear de acordo com as regras do setor, por que ainda precisamos enviar uma carta de notificação?

"Muitos rastreadores de mecanismos de pesquisa de inteligência artificial agora não seguem a ética marcial. Eles não nomeiam seus próprios rastreadores como Baidu, Google, Sogou e Bing tradicionais, mas rastreiam silenciosamente e anonimamente." Na verdade, esses rastreadores anônimos não são necessariamente executados em nome dessas empresas de pesquisa de IA. Existem muitos serviços rastreadores de terceiros no mercado que usam vários métodos para contornar essas diretrizes básicas de rastreamento. Se estes serviços foram utilizados não foi mencionado na resposta da Secret Tower.

A peroplexidade já encontrou controvérsias semelhantes antes.

Naquela época, a revista Wired e o desenvolvedor Robb Knight investigaram e descobriram que o Perplexity não estava em conformidade com o padrão robots.txt. O fundador Aravind Srinivas respondeu em uma entrevista que Perplexity não ignorou o Protocolo de Exclusão de Robôs... Descobriu-se que o rastreador da web em questão pertencia a um fornecedor terceirizado.

Mas quando questionado se deixaria de usar rastreadores de terceiros, ele simplesmente disse “é complicado”. Além disso, a investigação da época revelou que, em alguns casos, a Perplexity pode não ter resumido os artigos reais, mas sim reconstruído o conteúdo com base em URLs e rastros deixados em mecanismos de busca, como trechos e metadados. Déjà vu.

De acordo com o artigo publicado pela MiTa, o aviso de infração enviado pela CNKI à MiTa tinha 28 páginas. A Secret Tower apenas interceptou a carta de notificação e a publicou, a julgar pelas capturas de tela postadas, o conteúdo restante lista principalmente evidências de violação. Esses conteúdos podem não apenas mostrar o rastreamento de vários resumos e títulos.

De acordo com o que muitos usuários compartilharam anteriormente, a Torre Secreta pode obter documentos não públicos e pode ser lida diretamente na página da Torre Secreta. Embora esses documentos PDF estejam vinculados a sites de bibliotecas externas, eles podem, na verdade, ser armazenados no Segredo. Servidor de torre. You Yunting acredita que se a Secret Tower construir um banco de dados de índice contendo o texto completo dos documentos do CNKI, isso poderá constituir uma violação.

"A seção de podcast e biblioteca da pesquisa de IA do MiTa tem um banco de dados de índice. A biblioteca de índice que entendo pode ser que o MiTa construiu diretamente um banco de dados de índice internamente para a literatura coletada em lotes. Quando o usuário pesquisa, o MiTa pesquisará na rede. Correspondente conteúdo em tempo real e, em seguida, usar inteligência artificial para integrar resultados de pesquisa em tempo real e indexar o conteúdo da biblioteca para fornecer respostas", disse You Yunting. Ou seja, embora a página principal de resultados de exibição apresente o índice na forma de fontes anotadas, o “texto original” também é transferido em seu próprio serviço.

"O banco de dados de índice provavelmente é real. Na verdade, isso não é difícil de provar tecnicamente. Encontramos esse problema quando estávamos representando o processo. Geralmente usamos software de captura de pacotes para exibir o endereço IP real do documento. Se o endereço IP está localizado no servidor da Torre Secreta, significa que foi fornecido pela Torre Secreta.”

Além disso, como um motor de busca de IA baseado em modelos pré-treinados, se esses dados de propriedade intelectual são usados nos dados de treinamento é uma questão mais importante.

Quando os dados do papel no treinamento são altamente consistentes com o texto original, quando o conteúdo final da saída para o usuário é altamente consistente com o texto original devido ao problema de "ajuste excessivo" que o modelo geralmente apresenta, isso entrou na categoria de violação de direitos autorais semelhante à "limpeza de papel" de uso justo.

Mas, sob tais circunstâncias, o CNKI tem o direito de “proteger” estes artigos escritos por investigadores individuais?

"HowNet não tem o direito de reivindicar violação de direitos autorais do Secret Tower Training."

Disse que embora a maior parte dos artigos do site do CNKI estejam incluídos, o CNKI tem o direito de divulgar informações na rede autorizada pela revista ou pelo autor. Se o artigo for utilizado para treinamento, os direitos autorais envolvidos no treinamento são de direito. de reprodução e reprodução estipulados na lei de direitos autorais Os direitos autorais e outros direitos não infringem os direitos de divulgação da rede de informação do CNKI. É claro que, se o treinamento da torre secreta de proteção de direitos da revista for violado, a torre secreta enfrentará o mesmo problema que o New York Times processando a OpenAI.

É hora de discussões mais sérias

Portanto, o alvo ao qual as torres secretas querem “responder” não é apenas o CNKI, que tem sido comentado como “malvado” pelos internautas.

Além de responder ao CNKI - essas respostas sempre despertam empatia, a julgar pela seção de comentários de sua resposta ao artigo, as pessoas ainda têm a atitude do CNKI há muito tempo, e "param" a torre secreta - as torres secretas podem ser capaz de Os autores individuais por trás dos dados de treinamento explicam como os dados são usados.

A polêmica função de pesquisa "acadêmica" é um design importante que distingue a Torre Secreta de outras Perplexidades. Essa função também recebeu elogios de muitos usuários. Esses usuários geralmente são aqueles que precisam fazer um grande número de pesquisas bibliográficas para tarefas como tarefas de aula, criação secundária de artigos e até mesmo redação de trabalhos.

Para os verdadeiros autores do artigo, o uso desses dados pode causar outros problemas.

Um artigo recente da Nature apontou que muitas editoras acadêmicas autorizaram empresas de tecnologia a acessar seus próprios artigos para treinar modelos de IA. Por exemplo, a editora americana Wiley recebeu diretamente US$ 23 milhões em receitas depois de permitir que uma empresa usasse seu modelo de treinamento de conteúdo. E essas receitas nada têm a ver com os autores dos artigos.

Além deste problema de distribuição de renda real que provavelmente será insolúvel, para esses pesquisadores, alguns sistemas de avaliação muito importantes no mundo acadêmico também foram interrompidos no processo de geração dessa “busca acadêmica de IA”. Por exemplo, as citações, um indicador muito importante no meio académico, parecem já não existir nestes cenários de pesquisa académica de IA. A aleatoriedade e a ininterpretabilidade do próprio modelo grande, bem como a incompletude dos dados, fazem com que os resultados da pesquisa acadêmica que ele gera sejam diferentes dos padrões de julgamento da própria comunidade acadêmica.

Um estudioso disse ao Silicon Star: Quando essas pesquisas de IA geram respostas por conta própria, quais são os critérios para escolher qual e qual e qual? Para os acadêmicos que consideram o número de citações o critério mais direto do conteúdo de ouro, se esses resultados de IA se tornarem cada vez mais numerosos e forem usados por muitos pesquisadores em seus próprios artigos, isso também será outra forma de poluição de SEO por IA?

Resultados de fazer perguntas na Lei da Torre Secreta

Quanto à disputa em si, quando a Secret Tower retirou os documentos do CNKI do banco de dados do índice e não forneceu mais aos usuários a função de leitura on-line dos documentos do CNKI, a disputa sobre a violação de propriedade intelectual foi mínima, e You Yunting disse que, de acordo com o "Anti- Com a Lei do Monopólio Reverso e a Convenção sobre Autodisciplina dos Serviços de Mecanismos de Busca na Internet, não é mais razoável que o CNKI não permita que a Secret Tower Search capture essas duas partes da informação pública.

Mas se as empresas de pesquisa de IA considerarem os produtos em que estão trabalhando como um assunto sério e de longo prazo, então, além de comemorar algumas pequenas bênçãos do produto e algumas atitudes chiques, também é hora de enfrentar essas questões complexas e realistas. , e discutindo-o abertamente e de forma apropriada, só então poderão realmente esperar chegar ao verdadeiro cerne do actual campo de acesso à informação que esperam desafiar.

notícias

Acusada de violação de direitos autorais pelo "tirânico" CNKI, Secret Tower AI poderia muito bem dizer mais algumas palavras

Introdução

Minhas informações de contato