Die Natur enthüllt schockierende Insiderinformationen: Papiere wurden zu horrenden Preisen verkauft, um die KI zu ernähren! Verleger verdienen Hunderte Millionen, Autoren verdienen null
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
[Einführung in die neue Weisheit]Ein Artikel in Nature enthüllte: Das von Ihnen veröffentlichte Papier wurde möglicherweise zum Trainieren des Modells verwendet! Einige Verlage haben durch den Verkauf von Daten 23 Millionen US-Dollar verdient. Allerdings können die Autoren, die hart an der Codierung des Papiers gearbeitet haben, keinen Cent bekommen. Ist das vernünftig?
Die Welt befindet sich in einer Datenkrise. Was sollen wir tun?Kürzlich enthüllte uns ein Artikel in Nature, dass sogar wissenschaftliche Forschungsarbeiten zum Trainieren von KI genutzt wurden ...Berichten zufolge haben viele wissenschaftliche Verlage Technologieunternehmen den Zugriff auf ihre eigenen Veröffentlichungen zum Trainieren von KI-Modellen gestattet.Eine Arbeit ist von der Idee bis zur Fertigstellung Tag und Nacht mit harter Arbeit des Autors verbunden. Nun ist es sehr wahrscheinlich, dass daraus Daten für das Training der KI werden, ohne es zu wissen.Was noch ärgerlicher ist, ist, dass sein Papier vom Verleger für die Erzielung von Gewinnen verwendet wurde.Laut einem Nature-Bericht unterzeichnete der britische Wissenschaftsverlag Taylor & Francis letzten Monat eine 10-Millionen-Dollar-Vereinbarung mit Microsoft, die es Microsoft ermöglicht, auf seine Daten zuzugreifen, um KI-Systeme zu verbessern.Ein Investoren-Update im Juni zeigte, dass der amerikanische Verlag Wiley einen riesigen Gewinn von 23 Millionen US-Dollar erzielte, nachdem er einem Unternehmen die Nutzung seines Content-Training-Modells erlaubt hatte!Aber dieses Geld hat nichts mit den Autoren der meisten Artikel zu tun.Darüber hinaus sagte Lucy Lu Wang, eine KI-Forscherin an der University of Washington, dass alle Inhalte, die online gelesen werden können, wahrscheinlich in LLM eingegeben wurden, selbst wenn sie sich nicht in einem Open-Access-Repository befinden.Noch beängstigender ist, dass ein Papier, das als Trainingsdaten für das Modell verwendet wurde, nach Abschluss des Modelltrainings nicht gelöscht werden kann.Wenn Ihre Arbeit noch nicht zum Training von KI verwendet wurde, machen Sie sich keine Sorgen – das sollte bald der Fall sein!Datensätze sind wie Gold und große Unternehmen bieten darauf
Wir alle wissen, dass LLM auf der Grundlage umfangreicher Daten trainiert werden muss, und diese Daten werden normalerweise aus dem Internet abgerufen.Aus den Milliarden von Tokens in diesen Trainingsdaten leitet LLM Muster zur Generierung von Text, Bildern und Code ab.Wissenschaftliche Arbeiten sind lang und weisen eine hohe Informationsdichte auf, sodass sie offensichtlich zu den wertvollsten Daten gehören, die dem LLM zugeführt werden können.Darüber hinaus kann die Schulung von LLMs in einer großen Menge wissenschaftlicher Informationen auch ihre Denkfähigkeiten zu wissenschaftlichen Themen erheblich verbessern.Wang hat S2ORC mitentwickelt, einen Datensatz, der auf 81,1 Millionen wissenschaftlichen Arbeiten basiert. Ursprünglich wurde der S2ORC-Datensatz für Text Mining entwickelt, später wurde er jedoch zum Trainieren von LLM verwendet.Pile wurde 2020 von der gemeinnützigen Organisation Eleuther AI erstellt und ist mit einem Gesamtvolumen von 800 GB einer der am häufigsten verwendeten großen Open-Source-Datensätze in der NLP-Forschung. Es enthält eine große Anzahl von Texten aus akademischen Quellen, wobei der Anteil an arXiv-Artikeln 8,96 % beträgt. Darüber hinaus werden auch andere akademische Websites wie PubMed, FreeLaw und NIH abgedeckt.Vor einiger Zeit entdeckte der Open-Source-1T-Token-Datensatz MINT auch den Schatz arXiv und extrahierte insgesamt 870.000 Dokumente und 9B-Token.Aus dem Datenverarbeitungs-Flussdiagramm unten können wir erkennen, wie hoch die Qualität der Daten des Papiers ist – es besteht fast kein Bedarf an viel Filterung und Deduplizierung und die Nutzungsrate ist extrem hoch.Als Reaktion auf Urheberrechtsstreitigkeiten haben große Modelunternehmen nun damit begonnen, echtes Geld für den Kauf hochwertiger Datensätze zu bieten.In diesem Jahr hat die Financial Times ihre Inhalte zu einem beträchtlichen Preis an OpenAI verkauft; Reddit hat auch eine ähnliche Vereinbarung mit Google getroffen.In Zukunft werden solche Transaktionen unumgänglich sein.Der Nachweis, dass das Papier von LLM verwendet wurde, ist äußerst schwierig
Einige KI-Entwickler werden ihre eigenen Datensätze öffnen, aber viele Unternehmen, die KI-Modelle entwickeln, werden die meisten ihrer Trainingsdaten vertraulich behandeln.Stefan Baack, ein KI-Trainingsdatenanalyst bei der Mozilla Foundation, sagte, dass niemand weiß, über welche Trainingsdaten diese Unternehmen verfügen.Die unter Brancheninsidern beliebtesten Datenquellen sind zweifellos Abstracts aus dem Open-Source-Repository arXiv und der akademischen Datenbank PubMed.Derzeit hostet arXiv den Volltext von mehr als 2,5 Millionen Artikeln und PubMed enthält eine erstaunliche Anzahl von Zitaten, nämlich über 37 Millionen.Obwohl es für den vollständigen Text einiger Artikel auf Websites wie PubMed eine Paywall gibt, können die Abstracts der Artikel kostenlos durchsucht werden, und dieser Teil wurde möglicherweise von großen Technologieunternehmen gecrawlt.Gibt es also eine technische Methode, um festzustellen, ob die eigene Arbeit verwendet wurde?Im Moment ist es noch schwierig.Yves-Alexandre de Montjoye, Informatiker am Imperial College London, sagte: „Es ist sehr schwierig zu beweisen, dass LLM ein bestimmtes Papier verwendet hat.“Eine Möglichkeit besteht darin, sehr seltene Sätze im Papiertext zu verwenden, um das Modell aufzufordern und zu prüfen, ob seine Ausgabe das nächste Wort im Originaltext ist.Einige Gelehrte forderten GPT-3 einmal zu Beginn des dritten Kapitels von „Harry Potter und der Stein der Weisen“ auf, und das Modell spuckte schnell und korrekt etwa eine ganze Seite des Buchinhalts aus.Wenn ja, dann ist es weg – das Papier befindet sich im Trainingssatz des Modells.Was ist, wenn nicht? Dies ist nicht unbedingt ein gültiger Beweis dafür, dass das Papier nicht verwendet wurde.Weil Entwickler LLMs so codieren können, dass sie Antworten filtern, damit sie nicht zu genau mit den Trainingsdaten übereinstimmen.Es ist möglich, dass wir es trotz aller Bemühungen immer noch nicht zweifelsfrei beweisen können.Eine andere Methode ist der „Member-Inference-Angriff“.Das Prinzip dieser Methode besteht darin, dass das Modell mehr Vertrauen in die Ausgabe hat, wenn es etwas sieht, das es zuvor gesehen hat.Zu diesem Zweck entwickelte das Team um De Montjoye eigens eine „Urheberrechtsfalle“.Um die Falle zu stellen, generierte das Team plausible, aber bedeutungslose Sätze und versteckte sie in der Arbeit, beispielsweise weißen Text auf weißem Hintergrund oder ein Feld mit der Breite Null auf einer Webseite.Wenn das Modell durch nicht verwendete Kontrollsätze mehr verwirrt wird als durch im Text versteckte Kontrollsätze, kann dies als statistischer Beweis dafür verwendet werden, dass die Falle gesehen wurde.
Was können wir jedoch tun, selbst wenn nachgewiesen werden kann, dass LLM auf einem bestimmten Papier ausgebildet wurde?Hier gibt es eine seit langem bestehende Kontroverse.Nach Ansicht des Herausgebers handelt es sich eindeutig um einen Verstoß, wenn ein Entwickler in Schulungen urheberrechtlich geschützte Texte ohne vorherige Genehmigung verwendet.Aber die andere Partei kann es so widerlegen: Das große Modell ist kein Plagiat, wie kann also ein Verstoß behauptet werden?Tatsächlich kopiert LLM nichts, sondern entnimmt lediglich Informationen aus den Trainingsdaten, zerlegt sie und nutzt sie, um zu lernen, neuen Text zu generieren.Die kompliziertere Frage ist, wie man eine Grenze zwischen kommerzieller und akademischer Forschungsnutzung ziehen kann.Gemäß den aktuellen Nutzungsbedingungen der arXiv-Website sind die Erfassung, Speicherung und Nutzung aller elektronischen Vordrucke und Website-Metadaten konform und werden für persönliche oder Forschungszwecke unterstützt.Eine kommerzielle Nutzung von arXiv ist jedoch strengstens untersagt.Die Frage ist also: Wie wird dies gezählt, wenn ein kommerzielles Unternehmen einen von einer akademischen Einrichtung veröffentlichten Open-Source-Datensatz verwendet, um sein Geschäftsmodell zu trainieren, und die Datenquelle arXiv oder ähnliche akademische Verlagsinstitutionen umfasst?Darüber hinaus legen Verlage in den Abonnementbedingungen der Nutzer häufig nicht klar fest, ob Papiere als Trainingsdaten für Modelle verwendet werden dürfen.