Nachricht

KI-Daten lösen eine „Ölkrise“ aus, Content-Unternehmen können sich einfach zurücklehnen und Geld verdienen

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Vergleicht man das große KI-Modell mit einem Auto, handelt es sich bei den Rohdaten um Rohöl.

Autor |. Jiang Jiang

Herausgeber|Manmanzhou

Die Entstehung von ChatGPT und Mitten auf der Reise Die explosionsartige Einführung der KI hat es der KI ermöglicht, ihre erste groß angelegte Anwendung zu erreichen, nämlich die Popularisierung großer Modelle.

Das sogenannte große Modell bezieht sich auf ein maschinelles Lernmodell mit einer großen Anzahl von Parametern und einer komplexen Struktur, das große Datenmengen verarbeiten und verschiedene komplexe Aufgaben erledigen kann.



01

Streitigkeiten über das Urheberrecht an KI-Daten

Vergleicht man die aktuellen großen KI-Modelle mit Autos, handelt es sich bei den Rohdaten um Rohöl. Auf jeden Fall braucht das KI-Modell zunächst einmal genügend „Rohöl“.

Zu den Hauptquellen für „Rohöl“ für KI-Unternehmen gehören die folgenden Kategorien:


●Offene und kostenlose Datenquellen im Internet, wie Wikipedia, Blogs, Foren, Nachrichteninformationen usw.;


●Alte Nachrichtenmedien und Verlage;


●Universitäten und andere Forschungseinrichtungen;


●C-seitige Benutzer, die das Modell verwenden.

 

Für die Eigentumsrechte an Erdöl gibt es in der realen Welt bereits ausgereifte gesetzliche Regelungen. Im immer noch chaotischen Bereich der KI sind die Rechte zur Ausbeutung von „Rohöl“ jedoch noch nicht klar und die daraus resultierenden Streitigkeiten sind zahlreich.

Erst kürzlich haben mehrere große Musiklabels KI-Musikproduktionsfirmen verklagtSunoUndHörbeispiele und wirft ihm Urheberrechtsverletzungen vor.Die Klage folgt auf eine Klage der New York Times vom DezemberOpenAIRechtsstreitigkeiten sind ähnlich.


Quelle: Billboard

Im Juli 2023 reichten einige Autoren eine Klage gegen das Unternehmen ein und behaupteten:ChatGPTAus urheberrechtlich geschützten Inhalten wird eine Zusammenfassung der Arbeit des Autors erstellt.


Im Dezember desselben Jahres berichtete auch die New York TimesMicrosoftUndOpenAIEs wurde eine ähnliche Klage wegen Urheberrechtsverletzung eingereicht, in der den beiden Unternehmen vorgeworfen wurde, die Inhalte der Zeitung zum Trainieren von Chatbots mit künstlicher Intelligenz zu nutzen.


Darüber hinaus wurde in Kalifornien eine Sammelklage eingereicht, in der OpenAI beschuldigt wird, ohne Zustimmung des Benutzers private Daten von Benutzern aus dem Internet zu erhalten, um ChatGPT zu trainieren.

 

OpenAI zahlte letztlich nicht für den Vorwurf. Sie gaben an, dass sie mit dem Vorwurf der New York Times nicht einverstanden seien und die von der New York Times genannten Probleme nicht reproduzieren könnten York Times war für OpenAI egal.

 

Quelle: https://openai.com/index/openai-and-journalism/

Für OpenAI besteht die vielleicht größte Lektion aus diesem Vorfall darin, die Beziehung zu Datenlieferanten richtig zu verwalten und die Rechte und Pflichten beider Parteien zu klären. Infolgedessen hat OpenAI im vergangenen Jahr Partnerschaften mit vielen Datenanbietern geschlossen, darunter unter anderem The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer und American Journalism Project und mehr.


In Zukunft wird OpenAI die Daten dieser Medien rechtmäßig nutzen und diese Medien werden auch die Technologie von OpenAI in ihre Produkte integrieren.



02

KI treibt die Monetarisierung von Content-Plattformen voran

Der grundlegendste Grund für OpenAI, Partnerschaften mit Datenanbietern einzugehen, ist jedoch nicht die Angst vor einer Klage, sondern die drohende Datenverknappung, mit der maschinelles Lernen konfrontiert ist. Forscher wie das MIT führten eine Studie durch, in der sie schätzten, dass die Datensätze für maschinelles Lernen bis 2026 alle „hochwertigen Sprachdaten“ erschöpfen könnten.

„Hochwertige Daten“ sind daher für Modellbauer wie OpenAI und Google zu einem begehrten Gut geworden. Content-Unternehmen und Hersteller von KI-Modellen haben wiederholt eine Zusammenarbeit erreicht, um ein Flat-Profit-Modell zu starten.

 

Die traditionelle Medienplattform Shutterstock hat sukzessive Kooperationen mit KI-Unternehmen wie Meta, Alphabet, Amazon, Apple, OpenAI, Reka usw. geschlossen und wird ihren Jahresumsatz durch die Lizenzierung von Inhalten an KI-Modelle im Jahr 2023 auf 104 Millionen US-Dollar steigern voraussichtlich 250 Millionen US-Dollar Umsatz im Jahr 2027; Reddit Die Einnahmen aus an Google lizenzierten Inhalten belaufen sich auf bis zu 60 Millionen US-Dollar pro Jahr; Jahr. Die Lizenzgebühren, die Content-Unternehmen von KI-Unternehmen erhalten, steigen mit einer jährlichen Wachstumsrate von 450 %.


Bildquelle: CX Scoop

 

In den letzten Jahren war es schwierig, andere Inhalte als Streaming-Medien zu monetarisieren, was ein großes Problem in der Content-Branche darstellte. Im Vergleich zur Ära des Internet-Unternehmertums hat das Aufkommen der KI der Content-Branche mehr Vorstellungskraft und höhere Umsatzerwartungen beschert.

03

Qualitativ hochwertige Daten sind weiterhin rar


Natürlich erfüllen nicht alle Inhalte die Anforderungen der KI.

 

In Bezug auf die oben erwähnte Debatte zwischen OpenAI und der New York Times ist die Datenqualität ein weiterer Lichtblick. Um Öl aus Rohöl zu raffinieren, muss erstens das Öl selbst von guter Qualität sein und zweitens muss die Reinigungstechnologie gut sein.

 

OpenAI betont ausdrücklich, dass der Inhalt der New York Times keinen wesentlichen Beitrag zum Modelltraining von OpenAI geleistet hat. Im Vergleich zu Shutterstock, das es OpenAI ermöglicht, jedes Jahr Dutzende Millionen Dollar auszugeben, stützen sich Textmedien wie die New York Times darauf Aktualität ist nicht der Liebling der KI-Ära. KI erfordert umfassende und einzigartige Daten.

 

Allerdings sind qualitativ hochwertige Daten zu knapp, und auch KI-Unternehmen haben begonnen, intensiv an „Reinigungstechnologie“ und „One-Stop-Anwendung“ zu arbeiten.

 

Am 25. Juni erwarb OpenAI das Echtzeitanalyse-Datenbankunternehmen Rockset. Dieses Unternehmen bietet hauptsächlich Echtzeit-Datenindizierungs- und Abfragefunktionen an und wird die Technologie von Rockset in seine Produkte integrieren, um den Echtzeit-Nutzwert von Daten zu verbessern.


Bildquelle: DePIN Scan


Durch die Übernahme von Rockset plant OpenAI, KI in die Lage zu versetzen, Echtzeitdaten besser zu nutzen und darauf zuzugreifen. Dadurch können die Produkte von OpenAI komplexere Anwendungen unterstützen, wie etwa Echtzeit-Empfehlungssysteme, dynamische datengesteuerte Chat-Roboter, Echtzeit-Überwachungs- und Alarmsysteme usw.

 

Rocket ist die integrierte „petrochemische Abteilung“ von OpenAI, die gewöhnliche Daten direkt in qualitativ hochwertige Daten umwandelt, die von Anwendungen benötigt werden.



04

Ist die Bestätigung der Datenrechte des Urhebers eine Fantasie?


Die Daten stammen größtenteils von Internet-Medienplattformen (Facebook, Reddit usw.).Benutzergenerierte Inhalte , also vom Benutzer beigesteuerte Inhalte. Während viele Plattformen KI-Unternehmen hohe Datengebühren in Rechnung stellen, fügen sie den Nutzerbedingungen auch stillschweigend eine Klausel hinzu, dass „die Plattform das Recht hat, Nutzerdaten zum Trainieren von KI-Modellen zu verwenden.“

Obwohl in den Nutzungsbedingungen klar die Rechte zum Trainieren von KI-Modellen angegeben sind, wissen viele Autoren nicht, welche Modelle die von ihnen produzierten Inhalte verwenden, noch wissen sie, ob sie dafür bezahlen, noch können sie die relevanten Rechte und Interessen erhalten, die dazu gehören sollten zu ihnen.

Während der vierteljährlichen Telefonkonferenz von Meta im Februar machte Zuckerberg deutlich, dass er Bilder von Facebook und Instagram verwenden würde, um seine KI-generierenden Tools zu trainieren.

Berichten zufolge hat Tumblr auf mysteriöse Weise auch Content-Lizenzvereinbarungen mit OpenAi und Midjourney getroffen, der konkrete Inhalt der konkreten Vereinbarungen wurde jedoch nicht bekannt gegeben.

Auch die Macher der Fotogalerie-Plattform EyeEm erhielten kürzlich eine Benachrichtigung, dass die von ihnen geposteten Fotos für das Training von KI-Modellen verwendet würden. In der Mitteilung wurde erwähnt, dass Benutzer sich daher dafür entscheiden können, das Produkt nicht zu verwenden, es wurden jedoch keine Entschädigungsrichtlinien erwähnt. Die Muttergesellschaft von EyeEm, Freepik, teilte Reuters mit, dass sie Verträge mit zwei großen Technologieunternehmen unterzeichnet habe, um die meisten ihrer 200 Millionen Bilder für etwa 3 Cent pro Bild zu lizenzieren. Geschäftsführer Joaquin Cuenca Abela sagte, fünf weitere ähnliche Deals seien in Arbeit, lehnte es jedoch ab, die Identität des Käufers preiszugeben.

 

UGC-basierte Content-Plattformen wie Getty Images, Adobe, Photobucket, Flickr und Reddit stehen alle vor ähnlichen Problemen. Unter der großen Versuchung der Datenmonetarisierung ignorieren die Plattformen das Eigentum der Benutzer an den Inhalten, verpacken die Daten und verkaufen sie an ein KI-Modell Firmen.

 

Der gesamte Prozess verlief im Dunkeln und die Schöpfer hatten keine Chance, Widerstand zu leisten. Sogar viele Schöpfer müssen eines Tages möglicherweise Inhalte, die ihren eigenen Werken ähneln, in einem bestimmten Modell trainieren, bevor sie den Verdacht haben, dass ihre vorherigen Werke von einer bestimmten Plattform an ein KI-Unternehmen zum Modelltraining verkauft wurden.

 

Web3 könnte eine gute Wahl sein, um das Problem des schwierigen Schutzes der Datenrechte und des Einkommens der Urheber zu lösen. Als KI-Unternehmen am US-Aktienmarkt neue Höchststände erreichten, schnellte gleichzeitig auch die KI-Konzeptwährung von web3 in die Höhe. Blockchain genießt aufgrund seiner dezentralen und nicht manipulierbaren Eigenschaften einzigartige Vorteile beim Schutz der Rechte der Urheber.

 

Medieninhalte wie Bilder und Videos haben im Bullenmarkt 2021 die groß angelegte Einführung in der Kette abgeschlossen, und auch UGC-Inhalte auf sozialen Plattformen finden in aller Stille in der Kette statt. Gleichzeitig bieten viele web3-KI-Modellplattformen bereits Anreize für normale Benutzer, die zum Modelltraining beitragen, unabhängig davon, ob sie Dateneigentümer oder Trainer sind.

 

Die exponentielle Entwicklung von KI-Modellen hat zu höheren Anforderungen an die Datenverifizierung geführt. Schöpfer sollten darüber nachdenken: Warum wurde meine Arbeit ohne meine Zustimmung für 5 Cent pro Stück an ein KI-Modellunternehmen verkauft? Warum wurde ich über den gesamten Prozess nicht informiert und konnte keinen Nutzen daraus ziehen?

 

Die Bemühungen der Medienplattform, den großen Fisch zu fangen, können die Datenangst der KI-Vorzeigeunternehmen nicht lindern. Voraussetzung für die Erzielung hochwertiger Daten und eines hohen Outputs ist die Bestätigung der Datenrechte, also eine vernünftige Interessenverteilung zwischen Urhebern, Plattformen und KI Modellunternehmen.

 

Referenzquellen:

  • Shutterstock erwirtschaftete im letzten Jahr 104 Millionen US-Dollar durch die Lizenzierung von Assets an KI-Entwickler (PetaPixel)

  • Alle Fotounternehmen, die Lizenzverträge mit KI-Unternehmen abgeschlossen haben (PetaPixel)

  • Reddit hat einen neuen KI-Trainingsvertrag zum Verkauf von Benutzerinhalten (TheEverge)

  • GPT-4 verbraucht alle Daten im Universum! OpenAI war wegen fehlender Daten in eine Klage nach der anderen verwickelt, und ein Professor der UC Berkeley gab eine Warnung heraus (Xinzhiyuan)

  • OpenAI erwirbt Rockset (OpenAI)