notícias

CNKI "acusou" MITA de violação de pesquisa de IA: desconecte imediatamente o link do nosso site

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

(Fonte da imagem: unsplash)

Notícias do Titanium Media App em 16 de agostoA startup doméstica de IA "Shanghai MiTa Network Technology Co., Ltd." (referida como "MiTa Technology") emitiu um comunicado dizendo que a CNKI emitiu recentemente uma carta alertando a startup de pesquisa de IA MiTa Technology por apresentar informações acadêmicas nos resultados de pesquisa de IA. sem permissão O título, índice e resumo do documento constituem infração grave, e a carta de notificação de infração tem 28 páginas.

A Secret Tower Technology enfatiza,Mesmo que não compreenda este comportamento, a empresa respeita a escolha da CNKI. A partir de agora, o Secret Tower AI Search não incluirá mais dados bibliográficos e abstratos de documentos CNKI, mas incluirá dados bibliográficos e abstratos de outras bases de conhecimento autorizadas em chinês e inglês. Outros bancos de dados também são bem-vindos para cooperar e discutir.

É relatado que a MiTa Technology foi fundada em 2018. O CEO da empresa, Min Kerui, foi anteriormente o cientista-chefe da Cheetah Mobile e atualmente é o cientista-chefe inteligente do Laboratório de Inteligência Artificial Legal da Universidade de Pequim.

Em 2018, a MiTa lançou sucessivamente o produto de tradução legal de IA "MiTa Translation" e o produto de correção de erros e revisão "MiTa Writing Cat"; em 2022, lançou o produto de geração de artigos "Quantum Sketch", com usuários diários superiores a 10.000 em uma semana; de ficar on-line.

Desde março deste ano, o “Mita AI Search” criado pela Mita Technology repentinamente se tornou popular e atraiu a atenção do mercado. O site foi visitado mais de 7 milhões de vezes naquele mês. De acordo com a Similar Web, uma plataforma de monitoramento de dados de acesso a sites, o número de visitas ao MiTa Search em março ficou em terceiro lugar entre um grupo de produtos de IA na China, perdendo apenas para o Baidu Wenxin Yiyanhe.lado escuro da luaKimi;A taxa de crescimento do mês atingiu 550%.

Em agosto deste ano, a MiTa Technology anunciou a conclusão de um financiamento Série A de mais de 100 milhões de RMB, liderado pelo Ant Group, com uma avaliação pós-dinheiro de US$ 150 milhões (aproximadamente 1,077 bilhão de RMB). Os antigos acionistas anteriores da Secret Tower incluem Mingshi Capital, Cheetah Mobile e Fengyuan Capital.

Do ponto de vista do produto, em comparação com os mecanismos de pesquisa tradicionais, a pesquisa de IA fornece diretamente aos usuários respostas às perguntas e anexa links de origem. O site oficial de pesquisa MiTa AI oferece três modos de resposta: "conciso", "aprofundado" e "pesquisa", e o escopo da pesquisa pode ser definido como "rede inteira", "biblioteca", "acadêmico", "podcast" e outras fontes.

Em relação ao acompanhamento da carta de notificação, de acordo com o Southern Metropolis Daily, Wang Yiwei, diretor de operações da Mita Technology, afirmou que a CNKI não especificou na carta de notificação quais direitos havia infringido. A pesquisa MiTa AI para a seção "acadêmica" do CNKI também pode trazer tráfego para o CNKI. Alguns usuários ativam suas contas CNKI por meio da pesquisa MiTA AI e pagam pelo CNKI, o que por si só é um benefício para o CNKI. Tendo em vista a exigência de desconexão do CNKI, “não forçaremos nenhum cruzamento”.

De acordo com Wang Yiwei, os resultados anteriores da pesquisa de IA não apenas vincularam ao CNKI, mas outros bancos de dados oficiais em chinês e inglês ainda não solicitaram a desconexão.No entanto, desconectar o link CNKI não afetará a experiência dos produtos MiTa.

O Titanium Media App aprendeu isso,Tongfang CNKI (Pequim) Technology Co., Ltd., empresa-mãe da CNKI, trabalhou recentemente com a Huawei para criar um modelo chamado Chinese Knowledge Big Model (Huazhi Big Model), que pode apoiar serviços de conhecimento, pesquisa científica, aprendizagem por investigação, produção e operação, diagnóstico e tratamento auxiliar, Cenários em áreas como justiça inteligente.

Zhang Hongwei, gerente geral da Tongfang CNKI, revelou em julho deste ano que a CNKI é uma empresa líder do setor de publicação digital e serviços de conhecimento, com usuários em mais de 90 países ao redor do mundo, incluindo educação, pesquisa científica, grupos de reflexão, governos, empresas , e as instituições de pesquisa científica, especialmente as instituições nacionais de ensino e pesquisa, têm basicamente 100% de participação no mercado. Atualmente, a Tongfang CNKI é afiliada à China National Nuclear Corporation e é uma empresa estatal. A organização estabeleceu relações de cooperação com mais de 20.000 organizações editoras em mais de 70 países ao redor do mundo. Inicialmente, construiu um big data de conhecimento mundial. sistema e opera a maior biblioteca de recursos de conhecimento chinês do mundo.

Zhang Hongwei destacou que com base no grande modelo Huazhi, a empresa realizou uma transformação profunda de toda a linha de produtos CNKI, desde o processamento e anotação até a adição desta ferramenta à plataforma de serviços para diversos setores. Desde que foi oficialmente aberto ao público em meados de maio deste ano, o número de usuários Huazhi cresceu rapidamente e o número atual de usuários individuais ultrapassou 10 milhões.

No entanto, o CNKI já foi multado diversas vezes e a indústria tem algumas dúvidas sobre o seu modelo de desenvolvimento. Em 26 de dezembro de 2022, a Administração Estatal de Regulação de Mercado tomou uma decisão de sanção administrativa de acordo com a lei, ordenando que a CNKI cessasse as atividades ilegais, e impôs uma multa de 5% de suas vendas domésticas na China de 1,752 bilhão de yuans em 2021, totalizando 87,6 milhões de yuans; em setembro de 2023, a Administração do Ciberespaço da China tomou uma decisão sobre sanções administrativas relacionadas à revisão da segurança da rede no CNKI de acordo com a lei, ordenou que interrompesse o processamento ilegal de informações pessoais e impôs uma multa de 50 RMB. milhões, citando as operações móveis CNKI e CNKI que opera. Todos os 14 aplicativos foram acusados ​​de ter problemas relacionados, incluindo coleta de informações pessoais em violação do princípio da necessidade, coleta de informações pessoais sem consentimento, não divulgação ou declaração explícita das regras de coleta e uso. , não fornecendo uma função de cancelamento de conta e não excluindo as informações pessoais do usuário em tempo hábil após o usuário cancelar as informações da conta, etc.

Liu Wenjie, professor do Instituto de Direito Comparado da Universidade Chinesa de Ciência Política e Direito, acredita que um resumo é um resumo concentrado do conteúdo de um artigo, especialmente os pensamentos e ideias se os serviços de pesquisa forem fornecidos aos usuários da Internet. e rastrear dados públicos na Internet para fornecer resumos de artigos, isso deve ser considerado uso justo sob a lei de direitos autorais e geralmente não constitui violação de direitos autorais.

Recentemente, Elizabeth Gibney, editora da revista internacionalmente renomada Nature, publicou um artigo afirmando que cada vez mais editores acadêmicos estão licenciando artigos de pesquisa para empresas de tecnologia para treinamento de modelos de IA. Uma editora acadêmica ganhou US$ 23 milhões com isso, enquanto o autor ganhou zero. Estas transações, em muitos casos sem consulta aos autores, suscitaram forte insatisfação entre alguns investigadores.

“Se o seu artigo não foi usado como dados de treinamento de IA, é provável que se torne parte do treinamento em breve.” Elizabeth Jipney apontou no artigo que atualmente os autores de artigos acadêmicos quase não têm escolha quando enfrentam editores que vendem seus trabalhos protegidos por direitos autorais. interferência. Para artigos publicados publicamente, não existe nenhum mecanismo para confirmar se esses conteúdos são usados ​​como dados de treinamento de IA. Na utilização de grandes modelos linguísticos, a forma de estabelecer um mecanismo mais justo para proteger os direitos e interesses dos criadores merece ampla discussão nos círculos académicos e de direitos de autor.

Modelo de linguagem grande (Mestrado em Direito) geralmente dependem de grandes quantidades de dados extraídos da Internet para treinamento. Esses dados incluem bilhões de informações linguísticas (chamadas de “tokens”) e, ao analisar os padrões entre esses tokens, o modelo é capaz de gerar texto fluente. Devido ao seu rico conteúdo e alta densidade de informações, os trabalhos acadêmicos são mais valiosos do que grandes quantidades de dados comuns e são uma importante fonte de dados no treinamento em IA. O analista de dados da Mozilla Foundation, Stefan Baack, analisou que os artigos científicos são muito úteis para o treinamento de grandes modelos de linguagem, especialmente em termos de capacidade de raciocínio sobre tópicos científicos. É precisamente por causa do elevado valor dos dados que as principais empresas tecnológicas gastaram enormes somas de dinheiro na compra de conjuntos de dados.

You Yunting, sócio sênior e advogado do Shanghai Dabang Law Firm, disse que o maior problema com a seção "acadêmica" da pesquisa MiTa AI é que ela pode exibir totalmente o conteúdo do artigo "O PDF do artigo está incluído. os resultados da pesquisa. Embora não possa ser baixado, o usuário pode encontrá-lo na página de resultados." Você pode visualizar o texto completo deste artigo clicando no link do PDF, o que viola o direito do artigo de divulgar informações online. "Mas se a IA absorver a essência do artigo e retransmiti-la ao usuário à sua maneira, de acordo com a Lei de Direitos Autorais. Estipula que a cotação razoável de parte da obra para explicar determinado assunto é considerada uso justo.

Em relação ao uso de dados em papel para treinamento de grandes modelos, You Yunting disse que esse comportamento não infringe a Infraestrutura Nacional de Conhecimento da China. De acordo com a Lei de Direitos Autorais, o processo de treinamento é copiar e aprender. Copiar é copiar artigos da Internet para o servidor para treinamento. Atualmente, não há um julgamento legal claro para determinar se o aprendizado constitui violação. No entanto, seja o direito de reprodução, estudo ou outros direitos relacionados com direitos de autor, o CNKI não é o titular dos direitos do artigo.

Zhang Hongwei disse francamente que na era dos grandes modelos de IA, o CNKI precisa estabelecer um ecossistema e cooperação.

"Se não houver upstream, nenhuma indústria editorial e nenhum fornecimento contínuo de dados de alta qualidade da indústria de dados, será realmente difícil para nossa indústria de inteligência artificial sustentar o desenvolvimento de alta qualidade. Para resolver esse problema, nós realmente precisamos que toda a nossa indústria teste a sabedoria. Precisamos trabalhar juntos para construir um.AIGCA boa ecologia da época promoverá conjuntamente o desenvolvimento de alta qualidade desta indústria. Nós, CNKI, estamos dispostos a cooperar com todos neste aspecto para promover o desenvolvimento sustentável e de alta qualidade da indústria. “Zhang Hongwei disse.