„Alle hochwertigen Textdaten im Internet werden bis 2028 genutzt“

„Bis 2028 werden alle hochwertigen Textdaten im Internet genutzt“

2024-08-01

Das Forschungsunternehmen Epoch AI prognostiziert, dass bis 2028 alle hochwertigen Textdaten im Internet genutzt werden und dass die Datensätze für maschinelles Lernen bis 2026 alle „hochwertigen Sprachdaten“ erschöpfen könnten.

Forscher weisen darauf hin, dass das Training zukünftiger Generationen von Modellen für maschinelles Lernen auf Datensätzen, die durch künstliche Intelligenz (KI) generiert werden, zum „Modellkollaps“ führen kann. Die Frage, ob es einen Mangel an Trainingsdaten für große KI-Modelle gibt, ist in letzter Zeit wieder zu einem heißen Thema in den Medien geworden.

Kürzlich veröffentlichte das Magazin „The Economist“ einen Artikel mit dem Titel „KI-Firmen werden bald die meisten Daten des Internets erschöpfen“ und wies darauf hin, dass KI-Firmen bald die meisten Daten des Internets erschöpfen werden, wenn die hochwertigen Daten des Internets versiegen „Datenwand“. Für große KI-Modellunternehmen besteht die Herausforderung nun darin, neue Datenquellen oder nachhaltige Alternativen zu finden.

Der Artikel zitierte die Prognose des Forschungsunternehmens Epoch AI, dass bis 2028 alle hochwertigen Textdaten im Internet genutzt werden und dass die Datensätze für maschinelles Lernen bis 2026 alle „hochwertigen Sprachdaten“ erschöpfen könnten. Dieses Phänomen ist in der Branche als „Datenwand“ bekannt. Der Umgang mit der „Datenmauer“ ist heute eines der größten Probleme, mit denen KI-Unternehmen konfrontiert sind, und möglicherweise auch das Problem, das den Schulungsfortschritt am wahrscheinlichsten verlangsamt. Der Artikel weist darauf hin, dass die Daten nach dem Training immer wichtiger werden, je weniger Daten im Internet vor dem Training verfügbar sind. Labeling-Unternehmen wie Scale AI und Surge AI verdienen jedes Jahr Hunderte Millionen Dollar mit der Erfassung von Post-Training-Daten.

Das Economist-Magazin zitiert das Epoch AI-Diagramm

Tatsächlich gibt es in der Branche seit langem Stimmen von der „Datenerschöpfung“. In der Zeitung wurde darauf hingewiesen, dass Stuart Russell, Professor für Informatik an der University of California, Berkeley und Autor von „Artificial Intelligence – Modern Approaches“, Anfang Juli 2023 davor warnte, dass von künstlicher Intelligenz angetriebene Roboter wie ChatGPT bald „erschöpfend“ sein könnten Text im Universum“, gerät die Technologie zum Trainieren von Robotern durch das Sammeln großer Textmengen „in Schwierigkeiten.“

Doch es gibt auch unterschiedliche Stimmen in der Branche. In einem Interview mit der Bloomberg-Technologiereporterin Emily Chang im Mai 2024 machte Li Feifei, eine berühmte Informatikerin, Co-Direktorin des Labors für künstliche Intelligenz der Stanford University und Professorin an der Stanford University, deutlich, dass sie mit „unserem“ nicht einverstanden sei „KI-Modellen gehen die Daten für das Training aus“ ist eine pessimistischere Sichtweise. Li Feifei glaubt, dass diese Sichtweise zu eng ist. Allein aus Sicht der Sprachmodelle gibt es immer noch eine große Menge differenzierter Daten, die darauf warten, ausgewertet zu werden, um individuellere Modelle zu erstellen.

Heutzutage besteht eine der Lösungen für das Problem der begrenzten Trainingsdaten darin, synthetische Daten zu verwenden, die maschinell erstellt werden und daher unbegrenzt sind. Aber synthetische Daten bergen auch das Risiko synthetischer Daten. Ein am 24. Juli in der internationalen Fachzeitschrift Nature veröffentlichter Informatikartikel wies darauf hin, dass das Training zukünftiger Generationen maschineller Lernmodelle mit Datensätzen, die durch künstliche Intelligenz (KI) generiert werden, ihre Daten verunreinigen könnte. Ausgabe: Dieses Konzept wird als „Modellkollaps“ bezeichnet. Da Modelle auf kontaminierten Daten trainiert werden, interpretieren sie die Realität letztendlich falsch.

Das Forschungsteam zeigte in der Studie, dass bei der Lernaufgabe großer Sprachmodelle das Ende der zugrunde liegenden Verteilung wichtig ist. Der groß angelegte Einsatz großer Sprachmodelle zur Veröffentlichung von Inhalten im Internet wird die Datenerfassungsbemühungen für die Schulung ihrer Nachfolger beeinträchtigen. In Zukunft werden reale Daten über große Sprachmodellinteraktionen für den Menschen immer wertvoller. Allerdings erwähnte das Forschungsteam auch, dass KI-generierte Daten nicht völlig unerwünscht seien, sondern die Daten streng gefiltert werden müssten. Behalten Sie beispielsweise in den Trainingsdaten jedes Generationsmodells 10 % oder 20 % der Originaldaten bei. Sie können auch verschiedene Daten verwenden, z. B. von Menschen generierte Daten, oder robustere Trainingsalgorithmen studieren.

Nachricht

„Bis 2028 werden alle hochwertigen Textdaten im Internet genutzt“

Einführung

meine Kontaktdaten