Nachricht

Wissenschaftliche Arbeiten werden zu hohen Preisen verkauft, um große Modelle auszubilden, aber die Autoren erhalten kein Einkommen

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·Eine wachsende Zahl wissenschaftlicher Verlage verkauft Forschungsarbeiten an Technologieunternehmen, um Modelle für künstliche Intelligenz (KI) zu trainieren, während die Autoren kein Einkommen erhalten.

Große Sprachmodelle (LLM) haben aufgrund von Trainingsdatenproblemen erneut für Kontroversen gesorgt. Kürzlich veröffentlichte Elizabeth Gibney, Herausgeberin der international renommierten Zeitschrift Nature, einen Artikel mit dem Titel „Wurde Ihr Artikel zum Trainieren eines Modells für künstliche Intelligenz verwendet?“ „Fast sicher“-Artikel. Der Autor des Artikels gab an, dass immer mehr akademische Verlage derzeit Forschungsarbeiten an Technologieunternehmen lizenzieren, um Modelle für künstliche Intelligenz (KI) zu trainieren. Ein akademischer Verlag verdiente damit 23 Millionen Dollar, während der Autor null verdiente. Diese Transaktionen, in vielen Fällen ohne Rücksprache mit den Autoren, haben bei einigen Forschern große Unzufriedenheit hervorgerufen.

„Wenn Ihre Arbeit nicht als KI-Trainingsdaten verwendet wurde, wird sie wahrscheinlich bald Teil des Trainings werden.“ Elizabeth Jipney wies in dem Artikel darauf hin, dass Autoren wissenschaftlicher Arbeiten derzeit fast keine Wahl haben, wenn Verlage ihre urheberrechtlich geschützten Werke verkaufen. Interferenz. Für öffentlich veröffentlichte Artikel gibt es keinen Mechanismus zur Bestätigung, ob diese Inhalte als KI-Trainingsdaten verwendet werden. Wie bei der Verwendung großer Sprachmodelle ein gerechterer Mechanismus zum Schutz der Rechte und Interessen der Urheber geschaffen werden kann, bedarf einer ausführlichen Diskussion in akademischen und urheberrechtlichen Kreisen.

Große Sprachmodelle (LLMs) stützen sich zum Training häufig auf große Datenmengen, die aus dem Internet entnommen werden. Diese Daten umfassen Milliarden sprachlicher Informationen (sogenannte „Tokens“), und durch die Analyse der Muster zwischen diesen Tokens ist das Modell in der Lage, flüssigen Text zu generieren. Aufgrund ihres reichhaltigen Inhalts und ihrer hohen Informationsdichte sind wissenschaftliche Arbeiten wertvoller als große Mengen gewöhnlicher Daten und eine wichtige Datenquelle im KI-Training. Der Datenanalyst Stefan Baack von der globalen Non-Profit-Organisation Mozilla Foundation analysierte, dass wissenschaftliche Arbeiten für das Training großer Sprachmodelle sehr hilfreich sind, insbesondere im Hinblick auf die Argumentationsfähigkeiten zu wissenschaftlichen Themen. Gerade wegen des hohen Wertes von Daten haben große Technologieunternehmen riesige Summen für den Kauf von Datensätzen ausgegeben.

In dem Artikel wurde darauf hingewiesen, dass die Financial Times in diesem Jahr eine Vereinbarung mit OpenAI über die Lizenzierung ihrer Inhalte getroffen hat. Reddit, bekannt als „American Post Bar“, unterzeichnete ebenfalls einen ähnlichen Vertrag mit Google. Diese Deals spiegeln die Versuche der Verlage wider, durch gesetzliche Genehmigung zu vermeiden, dass ihre Inhalte kostenlos von KI-Modellen gecrawlt werden.

Der Artikel enthüllte, dass der britische Wissenschaftsverlag Taylor & Francis letzten Monat eine 10-Millionen-Dollar-Vereinbarung mit Microsoft unterzeichnet hat, die es Microsoft ermöglicht, auf seine Daten zuzugreifen, um KI-Systeme zu verbessern. Im Juni verdiente der amerikanische Verleger Wiley bis zu 23 Millionen US-Dollar, indem er einem Unternehmen Inhalte für KI-Schulungen zur Verfügung stellte. Und diese riesigen Einnahmen haben nichts mit den Autoren der Zeitungen zu tun.

Derzeit versuchen Forscher, Autoren mit technischen Mitteln dabei zu helfen, herauszufinden, ob ihre Werke für das Training von KI-Modellen verwendet wurden. Lucy Lu Wang, eine Forscherin für künstliche Intelligenz an der University of Washington in Seattle, sagte, dass ein Papier, das als Trainingsdaten für ein Modell verwendet wurde, nach Abschluss des Modelltrainings nicht entfernt werden kann.

Doch selbst wenn nachgewiesen werden kann, dass das Papier für das KI-Training verwendet wird, ist es auf rechtlicher Ebene immer noch umstritten. Der Artikel weist darauf hin, dass der Herausgeber der Ansicht ist, dass die Verwendung nicht autorisierter urheberrechtlich geschützter Inhalte für Schulungen einen Verstoß darstellt. Eine weitere rechtliche Ansicht besteht darin, dass das große Sprachmodell den Inhalt nicht direkt kopiert, sondern durch Lernen neuen Text generiert.

Es ist erwähnenswert, dass nicht alle Forscher dagegen sind, ihre Arbeit für die KI-Schulung zu nutzen. Stefan Back sagte, er würde sich freuen, wenn seine Forschungsergebnisse zur Verbesserung der Genauigkeit der KI genutzt würden, und es würde ihm nichts ausmachen, wenn KI seinen Schreibstil „imitieren“ würde. Allerdings räumte er auch ein, dass nicht jeder mit diesem Problem problemlos zurechtkommen wird, insbesondere diejenigen in Berufen, die dem Konkurrenzdruck durch KI ausgesetzt sind, wie etwa Künstler und Schriftsteller.

Tatsächlich haben Rechtsstreitigkeiten über die Verwendung urheberrechtlich geschützter geistiger Werke zum Trainieren von KI-Modellen bereits große Aufmerksamkeit erregt.

Am 14. August berichtete die Washington Post, dass eine von mehreren bildenden Künstlern und Illustratoren in den USA eingereichte Sammelklage gegen KI-Tools zur Bilderzeugung einen Durchbruch erzielt habe. Sie haben Start-ups wie Midjourney und Stability AI vorgeworfen, Arbeiten zum Trainieren von KI-Modellen ohne Zustimmung zu nutzen. Der Fall brachte diese Woche wichtige Entwicklungen. Der US-Bezirksrichter William Orrick ließ wesentliche Teile des Falles voranschreiten, was bedeutet, dass das Gericht entschieden hat, dass genügend rechtliche Beweise vorliegen, um bestimmte Anklagen fortzusetzen, und dass diese im weiteren Verlauf des Gerichtsverfahrens offengelegt werden könnten. Interne Kommunikation innerhalb des Unternehmens KI-Tools.