Le mie informazioni di contatto
Posta[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Autore |.Zhou Xiaoxiao
Invia un'e-mail a |[email protected]
Redattore|Wang Zhaoyang
E-mail|[email protected]
1
Collegamento interrotto
Recentemente, gli utenti della ricerca Secret Tower AI troveranno una riga di testo accattivante in alto quando apriranno il sito web: "È finita! Abbiamo ricevuto una lettera di notifica di violazione di 28 pagine da CNKI."
Fare clic per aprire una dichiarazione di Secret Tower, in cui si dichiara di aver ricevuto una lettera di notifica di violazione dalla rivista elettronica "Chinese Academic Journal (CD Edition)" Co., Ltd. - ovvero di essere stata multata di 8.760 per sospetto comportamento monopolistico e problemi di sicurezza delle informazioni personali. 10.000 yuan e 50 milioni di yuan, CNKI, che è stata controversa, ha lanciato un'accusa di violazione contro di essa.
Per riassumere brevemente, MiTa AI search può cercare contenuti CNKI. CNKI considera ciò una violazione e richiede che interrompa immediatamente la fornitura di dati CNKI nei servizi di ricerca.
"La nostra azienda non vuole che il nostro sito web China National Knowledge Infrastructure venga cercato da MiTa Technology. Si prega di scollegare immediatamente i risultati della ricerca dal nostro sito web. Se avete bisogno di collaborazione commerciale, contattate la nostra azienda."
MiTa Technology ha risposto in questa dichiarazione che la sezione "accademica" della ricerca MiTa AI include solo l'abstract della letteratura e la bibliografia dell'articolo e non include il contenuto dell'articolo stesso. Per leggere il testo, è necessario passare al sito web tramite il collegamento sorgente per ottenerlo. Secondo gli standard accademici, l'abstract e la bibliografia di un documento dovrebbero essere indipendenti e autoesplicativi, consentendo ai lettori di ottenere le informazioni necessarie senza leggere il testo completo.
Attualmente, alcuni collegamenti in Secret Tower Academic Search passeranno a Wanfang Data.
Secret Tower AI sottolinea inoltre che il valore della conoscenza risiede nel suo flusso. I documenti accademici sono un importante vettore delle conquiste intellettuali umane e sono estremamente insostituibili. Se i documenti scientifici diventassero un prodotto di lusso, ciò non favorirebbe un accesso equo alla conoscenza o lo sviluppo della ricerca scientifica.
Tuttavia, dopo la discussione dalla saggezza umana alle attività accademiche, l'azione proposta da Secret Towers è stata quella di "spezzare il collegamento": "Anche se non capiamo, rispettiamo la scelta di CNKI D'ora in poi, la ricerca AI di Secret Towers non lo farà". includere più a lungo I dati bibliografici e astratti dei documenti CNKI saranno inclusi nei dati bibliografici e astratti di altre autorevoli basi di conoscenza cinese e inglese. Anche altri database sono invitati a collaborare e discutere.
Vale a dire, Secret Tower ha finalmente gestito il reclamo in conformità con i requisiti di ricorso di CNKI.
1
Problemi importanti che non sono spiegati chiaramente
Secret Tower AI Search è il prodotto di punta di questo boom dell’intelligenza artificiale ed è spesso paragonato a Perplexity della Cina. Secret Tower è anche un'azienda di punta in questo round di grandi startup modello. Le ultime notizie mostrano che ha completato l'ultimo finanziamento di 100 milioni di yuan, con una valutazione post-investimento di 150 milioni di dollari. MiTa è stata fondata prima del boom dei grandi modelli, ma il suo prodotto principale MiTa AI Search è stato lanciato ufficialmente a marzo di quest'anno.
Pubblicità di Secret Tower sulla TV satellitare Hunan
L'avviso di violazione della CNKI affermava che Mita aveva fornito agli utenti la bibliografia della letteratura accademica e i dati di sintesi della CNKI ed era sospettata di violazione. A questo proposito, You Yunting, socio senior e avvocato dello studio legale Shanghai Dabang, ha affermato che le pagine web sono diverse dai documenti. La bibliografia della letteratura accademica e le pagine web astratte di CNKI sono accessibili pubblicamente agli utenti nazionali. CNKI è un documento accademico cinese Gli operatori con una posizione dominante nel mercato dei servizi di database di rete devono avere ragioni ragionevoli per non consentire a Secret Tower Search di acquisire queste due parti di informazioni pubbliche.
In sostanza, CNKI chiede a Secret Tower di non eseguire la scansione del suo sito web. Nell'ecosistema dei motori di ricerca tradizionali, esistono regole di base per questo comportamento dei crawler che catturano informazioni: ogni sito Web e vari fornitori di informazioni utilizzano un file Robots.txt per indicare al motore di ricerca quali contenuti possono essere sottoposti a scansione e quali no.
I motori di ricerca come Baidu e Google nomineranno i propri crawler nel processo per far sapere all'altra parte che sono stati lì e cosa hanno portato via. Ma a giudicare dal file Robots.txt di CNKI, non blocca alcun crawler.
"La cosa interessante è che, sebbene CNKI abbia inviato una lettera a Mita chiedendo di disconnettere il collegamento, il che significa che non è consentito eseguire la scansione del contenuto web, il suo file robots (https://www.cnki.cn/robots.txt) non lo fa. i crawler dei motori di ricerca sono vietati. Secondo il contenuto del file robots di CNKI, a nessuno è vietato eseguire la scansione delle loro pagine web, solo cms, query.html?*, report, paper, qrcode, js, cs, che coinvolgono l'interfaccia di gestione in background. e la directory delle risorse statiche e le pagine Web di directory di contenuto specifiche non possono essere sottoposte a scansione.
Se all'altra parte non è vietato eseguire la scansione secondo le norme del settore, perché dobbiamo comunque inviare una lettera di notifica?
"Molti crawler di motori di ricerca di intelligenza artificiale ora non seguono l'etica marziale. Non nominano i propri crawler come i tradizionali Baidu, Google, Sogou e Bing, ma strisciano silenziosamente e in modo anonimo." You Yunting express. In effetti, questi crawler anonimi non vengono necessariamente eseguiti a nome di queste società di ricerca AI. Sul mercato sono presenti molti servizi di crawler di terze parti che utilizzano vari metodi per aggirare queste linee guida di base per la scansione. Nella risposta di Secret Tower non è stato menzionato se questi servizi siano stati utilizzati.
Peroplexity ha già incontrato controversie simili in precedenza.
A quel tempo, la rivista Wired e lo sviluppatore Robb Knight indagarono e scoprirono che Perplexity non era conforme allo standard robots.txt. Il fondatore Aravind Srinivas ha risposto in un'intervista che Perplexity non ha ignorato il protocollo di esclusione dei robot... Si è scoperto che il web crawler in questione appartiene a un fornitore di terze parti.
Ma quando gli è stato chiesto se avrebbe smesso di utilizzare crawler di terze parti, ha semplicemente risposto che "è complicato". Inoltre, l'indagine dell'epoca rivelò che in alcuni casi Perplexity potrebbe non aver riassunto gli articoli veri e propri, ma ricostruito invece il contenuto sulla base di URL e tracce lasciate nei motori di ricerca, come estratti e metadati. Deja vu.
Secondo l'articolo pubblicato da MiTa, l'avviso di violazione inviato da CNKI a MiTa era lungo 28 pagine. Secret Tower si è limitata a intercettare la lettera di notifica e a pubblicarla. A giudicare dagli screenshot pubblicati, il resto del contenuto elenca principalmente prove di violazione. Questi contenuti potrebbero non solo mostrare la scansione di vari abstract e titoli.
Secondo quanto molti utenti hanno condiviso in precedenza, la Secret Tower può ottenere documenti non pubblici e può essere letto direttamente sulla pagina web della Secret Tower. Sebbene questi documenti PDF siano collegati a siti web di biblioteche esterne, potrebbero effettivamente essere archiviati sulla Secret Tower server. You Yunting ritiene che se Secret Tower costruisse un database indice contenente il testo completo dei documenti CNKI, ciò potrebbe costituire una violazione.
"La sezione podcast e biblioteca della ricerca AI di MiTa ha un database di indice. Il database di indice che capisco potrebbe essere che MiTa ha creato direttamente un database di indice internamente per la letteratura raccolta in lotti. Quando l'utente effettua la ricerca, MiTa cercherà nella rete. Corrispondente contenuti in tempo reale, quindi utilizzare l'intelligenza artificiale per integrare i risultati di ricerca in tempo reale e indicizzare i contenuti della libreria per fornire risposte," ha affermato You Yunting. Ciò significa che, sebbene la pagina principale dei risultati di visualizzazione presenti l'indice sotto forma di fonti annotate, anche il "testo originale" viene spostato nel proprio servizio.
"Il database dell'indice è probabilmente reale. In effetti, questo non è difficile da dimostrare tecnicamente. Abbiamo riscontrato questo problema mentre rappresentavamo la causa. Di solito utilizziamo un software di acquisizione dei pacchetti per visualizzare il vero indirizzo IP del documento. Se l'indirizzo IP si trova sul server della Torre Segreta, significa che è stato fornito dalla Torre Segreta."
Inoltre, essendo un motore di ricerca AI basato su modelli pre-addestrati, la questione più importante è se questi dati sulla proprietà intellettuale vengono utilizzati nei dati di addestramento.
Quando i dati cartacei nell'addestramento fanno sì che il contenuto finale di output per l'utente sia altamente coerente con il testo originale a causa del problema di "adattamento eccessivo" che di solito ha il modello, questo è entrato nella categoria di violazione del copyright simile alla "pulizia della carta". "dal fair use.
Ma in tali circostanze, il CNKI ha il diritto di “proteggere” questi documenti scritti da singoli ricercatori?
"HowNet non ha il diritto di rivendicare la violazione del copyright di Secret Tower Training." You Yunting ritiene.
Ha detto che sebbene la maggior parte degli articoli sul sito web della CNKI siano inclusi, CNKI ha il diritto di diffondere informazioni sulla rete autorizzate dalla rivista o dall'autore. Se l'articolo viene utilizzato per la formazione, il diritto d'autore coinvolto nella formazione è legittimo di riproduzione e riproduzione previsti dalla legge sul diritto d'autore. I diritti d'autore e altri diritti non violano i diritti di diffusione della rete di informazioni di CNKI. Naturalmente, se la formazione della torre segreta sulla protezione dei diritti della rivista viene violata, allora la torre segreta dovrà affrontare lo stesso problema del New York Times che ha citato in giudizio OpenAI.
1
È tempo di discussioni più serie
Pertanto, l'obiettivo a cui le torri segrete vogliono "rispondere" non è solo CNKI, che è stata commentata come "malvagia" dai netizen.
Oltre a rispondere a CNKI, queste risposte suscitano sempre empatia, a giudicare dalla sezione dei commenti della sua risposta all'articolo, le persone hanno ancora lo stesso atteggiamento di CNKI. I singoli autori dietro i dati di formazione spiegano come vengono utilizzati i dati.
La controversa funzione di ricerca "accademica" è un design importante che distingue Secret Tower da altri Perplexities. Questa funzione ha anche ricevuto elogi da molti utenti. Questi utenti sono spesso quelli che hanno bisogno di effettuare un gran numero di ricerche bibliografiche per attività quali compiti in classe, creazione secondaria di articoli e persino scrittura di articoli.
Per i veri autori dell’articolo, l’utilizzo di questi dati potrebbe causare altri problemi.
Un recente articolo di Nature ha sottolineato che molti editori accademici hanno autorizzato le aziende tecnologiche ad accedere ai propri documenti per addestrare modelli di intelligenza artificiale. Ad esempio, l'editore americano Wiley ha ricevuto direttamente 23 milioni di dollari di entrate dopo aver consentito a un'azienda di utilizzare il suo modello di formazione sui contenuti. E questi redditi non hanno nulla a che fare con gli autori degli articoli.
Oltre a questo problema di distribuzione del reddito reale, che probabilmente alla fine sarà irrisolvibile, per questi ricercatori anche alcuni sistemi di valutazione molto importanti nel mondo accademico sono stati interrotti nel processo di generazione di questa "ricerca accademica sull'intelligenza artificiale". Ad esempio, le citazioni, un indicatore molto importante nel mondo accademico, sembrano non esistere più in questi scenari di ricerca accademica dell’IA. La casualità e l’ininterpretabilità del grande modello stesso, così come l’incompletezza dei dati, rendono i risultati della ricerca accademica che genera diversi dagli standard di giudizio della stessa comunità accademica.
Uno studioso ha detto a Silicon Star: Quando queste ricerche di intelligenza artificiale generano risposte da sole, quali sono i criteri per scegliere quali scegliere e quali non scegliere? Per gli accademici che considerano il numero di citazioni come il criterio più diretto del contenuto di oro, se questi risultati dell’IA diventano sempre più numerosi e vengono poi utilizzati da molti ricercatori nei propri articoli, è anche questa un’altra forma di inquinamento SEO dell’AI?
Risultati delle domande sulla legge sulle torri segrete
Per quanto riguarda la controversia in sé, quando Secret Tower ha cancellato i documenti CNKI dal database dell'indice e non ha più fornito agli utenti la funzione di lettura online dei documenti CNKI, la controversia sulla violazione della proprietà intellettuale è stata minima e You Yunting ha affermato che secondo l'"Anti- Legge sul monopolio inverso e Convenzione sull'autodisciplina dei servizi dei motori di ricerca su Internet, non è più ragionevole che CNKI non consenta a Secret Tower Search di acquisire queste due parti di informazioni pubbliche.
Ma se le società di ricerca basate sull’intelligenza artificiale considerano i prodotti su cui stanno lavorando come una questione seria e a lungo termine, allora oltre a celebrare alcune piccole benedizioni del prodotto e alcuni atteggiamenti chic, è anche il momento di affrontare questi problemi complessi e realistici , e discutendone apertamente in modo appropriato, solo allora potranno davvero sperare di arrivare al vero punto cruciale dell'odierno campo dell'accesso alle informazioni che sperano di sfidare.