Nachricht

Secret Tower AI wird vom „tyrannischen“ CNKI der Urheberrechtsverletzung beschuldigt und könnte genauso gut noch ein paar Worte sagen

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Autor |. Zhou Xiaoxiao
E-Mail|[email protected]
Herausgeber|Wang Zhaoyang
E-Mail: [email protected]

1

Link unterbrechen

Seit kurzem finden Benutzer der Secret Tower AI-Suche beim Öffnen der Website oben eine auffällige Textzeile: „Es ist vorbei! Wir haben von CNKI ein 28-seitiges Benachrichtigungsschreiben über Verstöße erhalten.“

Klicken Sie hier, um eine Erklärung von Secret Tower zu öffnen, in der es heißt, dass das Unternehmen ein Schreiben zur Benachrichtigung über eine Vertragsverletzung vom elektronischen Magazin „Chinese Academic Journal (CD Edition)“ Co., Ltd. erhalten hat – das heißt, es wurde wegen mutmaßlichen monopolistischen Verhaltens eine Geldstrafe von 8.760 US-Dollar verhängt 10.000 Yuan und 50 Millionen Yuan, was umstritten war, erhob dagegen eine Verletzungsvorwürfe.


Kurz gesagt: MiTa AI Search kann nach CNKI-Inhalten suchen. CNKI betrachtet dies als Verstoß und verlangt, dass die Bereitstellung von CNKI-Daten in Suchdiensten sofort eingestellt wird.

„Unser Unternehmen möchte nicht, dass unsere Website China National Knowledge Infrastructure von MiTa Technology durchsucht wird. Bitte trennen Sie die Suchergebnisse sofort von unserer Website. Wenn Sie eine geschäftliche Zusammenarbeit benötigen, wenden Sie sich bitte an unser Unternehmen.“

MiTa Technology antwortete in dieser Stellungnahme, dass der „akademische“ Abschnitt der MiTa AI-Suche nur die Literaturzusammenfassung und die Bibliographie des Artikels und nicht den Inhalt des Artikels selbst umfasst. Um den Text zu lesen, müssen Sie zur Website springen über den Quelllink, um es zu erhalten. Nach wissenschaftlichen Standards sollten Zusammenfassung und Literaturverzeichnis eines Dokuments unabhängig und selbsterklärend sein, sodass der Leser die notwendigen Informationen erhalten kann, ohne den gesamten Text lesen zu müssen.


Derzeit verweisen einige Links in der Secret Tower Academic Search auf Wanfang-Daten.

Secret Tower AI betont auch, dass der Wert des Wissens in seinem Fluss liegt. Akademische Dokumente sind ein wichtiger Träger menschlicher intellektueller Errungenschaften und äußerst unersetzlich. Wenn wissenschaftliche Dokumente zu einem Luxusprodukt werden, wird dies weder einem fairen Zugang zu Wissen noch der Entwicklung wissenschaftlicher Forschung förderlich sein.

Nachdem Secret Towers jedoch über den Übergang von menschlicher Weisheit zu akademischen Aktivitäten gesprochen hatte, bestand die Maßnahme darin, „die Verbindung zu lösen“: „Auch wenn wir es nicht verstehen, respektieren wir die Entscheidung von CNKI. Von nun an ist Secret Towers AI.“ Die Suche umfasst nicht mehr die bibliografischen und abstrakten Daten von CNKI-Dokumenten und wird in die bibliografischen und abstrakten Daten anderer maßgeblicher chinesischer und englischer Wissensdatenbanken einbezogen. Auch andere Datenbanken sind zur Zusammenarbeit und Diskussion willkommen.

Das heißt, Secret Tower hat die Beschwerde schließlich gemäß den Berufungsanforderungen von CNKI bearbeitet.

1

Wichtige Themen, die nicht klar erklärt werden

Secret Tower AI Search ist das Starprodukt in dieser Runde des KI-Booms und wird oft mit Chinas Perplexity verglichen. Secret Tower ist auch ein Starunternehmen in dieser Runde großer Modell-Startups. Die neuesten Nachrichten zeigen, dass es die jüngste Finanzierung in Höhe von 100 Millionen Yuan mit einer Post-Investment-Bewertung von 150 Millionen US-Dollar abgeschlossen hat. MiTa wurde vor dem großen Modellboom gegründet, sein Kernprodukt MiTa AI Search wurde jedoch erst im März dieses Jahres offiziell eingeführt.


Werbung für Secret Tower im Hunan-Satellitenfernsehen

In der CNKI-Verletzungsmitteilung hieß es, dass Mita den Nutzern die wissenschaftliche Literaturbibliographie und zusammenfassende Daten von CNKI zur Verfügung gestellt habe und des Verstoßes verdächtigt werde. In diesem Zusammenhang sagte You Yunting, Senior Partner und Anwalt der Anwaltskanzlei Shanghai Dabang, dass sich Webseiten von Veröffentlichungen unterscheiden. Die wissenschaftliche Literaturbibliographie und die abstrakten Webseiten von CNKI sind für inländische Benutzer öffentlich zugänglich China: Betreiber mit einer beherrschenden Stellung auf dem Markt für Netzwerk-Datenbankdienste müssen berechtigte Gründe dafür haben, dass Secret Tower Search diese beiden Teile öffentlicher Informationen nicht erfassen darf.

Im Wesentlichen fordert CNKI Secret Tower auf, seine Website nicht zu crawlen. Im Ökosystem traditioneller Suchmaschinen gibt es Grundregeln für ein solches Verhalten von Crawlern beim Sammeln von Informationen: Jede Website und verschiedene Informationsanbieter verwenden eine Robots.txt-Datei, um der Suchmaschine mitzuteilen, welche Inhalte gecrawlt werden können und welche nicht.

Suchmaschinen wie Baidu und Google benennen in diesem Prozess ihre eigenen Crawler, um der Gegenpartei mitzuteilen, dass sie dort waren und was sie mitgenommen haben. Der Robots.txt-Datei von CNKI zufolge werden jedoch keine Crawler blockiert.

„Interessant ist, dass CNKI zwar einen Brief an Mita geschickt hat, in dem er darum bittet, den Link zu trennen, was bedeutet, dass es nicht erlaubt ist, Webinhalte zu crawlen, seine Robots-Datei (https://www.cnki.cn/robots.txt) dies jedoch nicht tut.“ Dem Inhalt der CNKI-Robotsdatei zufolge ist es niemandem untersagt, ihre Webseiten zu crawlen, sondern nur cms, query.html?*, report, paper, qrcode, js, cs, die die Hintergrundverwaltungsschnittstelle betreffen und statisches Ressourcenverzeichnis und bestimmte Inhaltsverzeichnis-Webseiten können nicht gecrawlt werden.“

Wenn der Gegenpartei das Crawlen gemäß den Branchenregeln nicht untersagt ist, warum müssen wir dann trotzdem ein Benachrichtigungsschreiben senden?

„Viele Suchmaschinen-Crawler mit künstlicher Intelligenz befolgen jetzt keine Kampfethik. Sie benennen ihre Crawler nicht wie herkömmliche Baidu, Google, Sogou und Bing, sondern crawlen lautlos und anonym.“ Tatsächlich werden diese anonymen Crawler nicht unbedingt im Namen dieser KI-Suchunternehmen ausgeführt. Es gibt viele Crawler-Dienste von Drittanbietern auf dem Markt, die verschiedene Methoden verwenden, um diese grundlegenden Richtlinien für das Crawlen zu umgehen. Ob diese Dienste in Anspruch genommen wurden, wurde in der Antwort von Secret Tower nicht erwähnt.

Peroplexity war bereits zuvor auf ähnliche Kontroversen gestoßen.

Damals untersuchten das Wired-Magazin und der Entwickler Robb Knight dies und stellten fest, dass Perplexity nicht dem robots.txt-Standard entsprach. Gründer Aravind Srinivas antwortete in einem Interview, dass Perplexity das Robot Exclusions Protocol nicht ignoriert habe … Es wurde festgestellt, dass der fragliche Webcrawler einem Drittanbieter gehört.

Aber als er gefragt wurde, ob er keine Crawler von Drittanbietern mehr verwenden würde, antwortete er einfach: „Es ist kompliziert.“ Darüber hinaus ergab die damalige Untersuchung, dass Perplexity in einigen Fällen möglicherweise nicht die tatsächlichen Artikel zusammengefasst, sondern den Inhalt anhand von URLs und in Suchmaschinen hinterlassenen Spuren wie Auszügen und Metadaten rekonstruiert hatte. Déjà-vu.

Laut dem von MiTa veröffentlichten Artikel umfasste die von CNKI an MiTa gesendete Vertragsverletzungsmitteilung 28 Seiten. Secret Tower hat lediglich das Benachrichtigungsschreiben abgefangen und veröffentlicht. Den veröffentlichten Screenshots zufolge sind in den übrigen Inhalten hauptsächlich Beweise für einen Verstoß aufgeführt. Diese Inhalte zeigen möglicherweise nicht nur das Crawlen verschiedener Zusammenfassungen und Titel.


Nach Angaben vieler Benutzer kann der Secret Tower nicht öffentliche Dokumente erhalten und diese direkt auf der Webseite des Secret Tower lesen. Obwohl diese PDF-Dokumente mit externen Bibliothekswebsites verlinkt sind, können sie tatsächlich im Secret gespeichert sein Tower-Server. You Yunting ist der Ansicht, dass es einen Verstoß darstellen könnte, wenn Secret Tower eine Indexdatenbank erstellt, die den vollständigen Text der CNKI-Papiere enthält.

„Der Podcast- und Bibliotheksbereich der KI-Suche von MiTa verfügt über eine Indexdatenbank. Die Indexbibliothek, die ich verstehe, könnte sein, dass MiTa intern direkt eine Indexdatenbank für die in Stapeln gesammelte Literatur erstellt hat. Wenn der Benutzer sucht, durchsucht MiTa das Netzwerk. Entsprechend.“ Echtzeit-Inhalte und nutzen Sie dann künstliche Intelligenz, um Echtzeit-Suchergebnisse zu integrieren und Bibliotheksinhalte zu indizieren, um Antworten bereitzustellen“, sagte You Yunting. Das heißt, obwohl die Kern-Anzeigeergebnisseite den Index in Form von annotierten Quellen darstellt, wird der „Originaltext“ auch in einen eigenen Dienst übernommen.

„Die Indexdatenbank ist wahrscheinlich echt. Tatsächlich ist dies technisch nicht schwer zu beweisen. Wir sind auf dieses Problem gestoßen, als wir die Klage vertreten haben. Normalerweise verwenden wir Paketerfassungssoftware, um die tatsächliche IP-Adresse des Dokuments anzuzeigen. Wenn die IP-Adresse sich auf dem Server des Secret Tower befindet, bedeutet das, dass es vom Secret Tower bereitgestellt wurde.“

Darüber hinaus ist es bei einer KI-Suchmaschine, die auf vorab trainierten Modellen basiert, eine wichtigere Frage, ob diese Daten zum geistigen Eigentum in den Trainingsdaten verwendet werden.

Wenn die Papierdaten im Training in hohem Maße mit dem Originaltext übereinstimmen und der endgültige Ausgabeinhalt für den Benutzer aufgrund des Problems der „Überanpassung“, das das Modell normalerweise hat, in hohem Maße mit dem Originaltext übereinstimmt, ist dies in die Kategorie „Überanpassung“ eingetreten Urheberrechtsverletzung ähnlich der „Papierreinigung“ durch faire Nutzung.

Aber hat CNKI unter solchen Umständen das Recht, diese von einzelnen Forschern verfassten Arbeiten zu „schützen“?

„HowNet hat kein Recht, eine Urheberrechtsverletzung von Secret Tower Training geltend zu machen.“

Er sagte, dass, obwohl die meisten Artikel auf der CNKI-Website enthalten seien, CNKI das Recht habe, Informationen im Netzwerk mit Genehmigung der Zeitschrift oder des Autors zu verbreiten. Wenn der Artikel für Schulungen verwendet werde, liege das Urheberrecht an der Schulung Die im Urheberrechtsgesetz vorgesehene Vervielfältigung und Vervielfältigung verstößt nicht gegen die Verbreitungsrechte von CNKI im Informationsnetzwerk. Wenn das Training des Geheimturms gegen die Rechte des Magazins verstößt, steht der Geheimturm natürlich vor dem gleichen Problem wie die New York Times, die OpenAI verklagt.


1

Es ist Zeit für ernsthaftere Diskussionen

Daher ist das Ziel, auf das die geheimen Türme „reagieren“ wollen, nicht nur CNKI, das von Internetnutzern als „böse“ kommentiert wurde.

Abgesehen von der Reaktion auf CNKI – diese Antworten wecken immer Empathie, wie aus dem Kommentarbereich der Antwort auf den Artikel hervorgeht – haben die Menschen noch lange Zeit die Haltung von CNKI und „stoppen“ den geheimen Turm – die geheimen Türme mögen es sein In der Lage, die einzelnen Autoren hinter den Trainingsdaten zu erläutern, wie die Daten verwendet werden.

Die umstrittene „akademische“ Suchfunktion ist ein wichtiges Design, das Secret Tower von anderen Perplexities unterscheidet. Auch diese Funktion wurde von vielen Nutzern gelobt. Bei diesen Benutzern handelt es sich häufig um diejenigen, die eine große Anzahl von Literatursuchen für Aufgaben wie Unterrichtsaufgaben, sekundäres Erstellen von Artikeln und sogar das Verfassen von Aufsätzen durchführen müssen.

Für die tatsächlichen Autoren des Papiers kann die Verwendung dieser Daten andere Probleme mit sich bringen.

In einem kürzlich erschienenen Nature-Artikel wurde darauf hingewiesen, dass viele wissenschaftliche Verlage Technologieunternehmen den Zugriff auf ihre eigenen Veröffentlichungen zum Trainieren von KI-Modellen gestattet haben. Beispielsweise erzielte der amerikanische Verlag Wiley direkt Einnahmen in Höhe von 23 Millionen US-Dollar, nachdem er einem Unternehmen die Nutzung seines Content-Schulungsmodells gestattet hatte. Und diese Einkommen haben nichts mit den Autoren der Zeitungen zu tun.

Zusätzlich zu diesem wahrscheinlich letztendlich unlösbaren Problem der Verteilung des Realeinkommens wurden für diese Forscher auch einige sehr wichtige Bewertungssysteme in der akademischen Welt im Generierungsprozess dieser „wissenschaftlichen KI-Suche“ gestört. Beispielsweise scheinen Zitationen, ein sehr wichtiger Indikator in der Wissenschaft, in diesen akademischen KI-Suchszenarien nicht mehr zu existieren. Die Zufälligkeit und Uninterpretierbarkeit des großen Modells selbst sowie die Unvollständigkeit der Daten führen dazu, dass die von ihm generierten akademischen Suchergebnisse von den Beurteilungsstandards der akademischen Gemeinschaft selbst abweichen.

Ein Wissenschaftler sagte gegenüber Silicon Star: Wenn diese KI-Suchen selbst Antworten generieren, nach welchen Kriterien wird dann ausgewählt, welches und welches und welches? Wenn diese KI-Ergebnisse immer zahlreicher werden und dann von vielen Forschern in ihren eigenen Arbeiten verwendet werden, ist dies für Wissenschaftler, die die Anzahl der Zitate als das direkteste Kriterium für den Goldgehalt betrachten, auch eine weitere Form der KI-SEO-Verschmutzung?



Ergebnisse der Fragen im Secret Tower Law

Was den Streit selbst betrifft: Als Secret Tower CNKI-Papiere aus der Indexdatenbank löschte und Benutzern die Online-Lesefunktion von CNKI-Papieren nicht mehr zur Verfügung stellte, war der Streit über die Verletzung geistigen Eigentums minimal, und You Yunting sagte, dass laut „Anti- Aufgrund des Reverse-Monopol-Gesetzes und des Übereinkommens über die Selbstdisziplin von Internet-Suchmaschinendiensten ist es für CNKI nicht mehr sinnvoll, Secret Tower Search nicht zu erlauben, diese beiden Teile öffentlicher Informationen zu erfassen.

Aber wenn KI-Suchunternehmen die Produkte, an denen sie arbeiten, als eine langfristige und ernste Angelegenheit betrachten, dann ist es an der Zeit, sich neben einigen kleinen Segnungen des Produkts und einigen schicken Einstellungen auch diesen komplexen und realistischen Problemen zu stellen Nur dann können sie wirklich darauf hoffen, den eigentlichen Kern des heutigen Informationszugangsbereichs zu ergründen, den sie herauszufordern hoffen.