Nachricht

Oxbridge schaffte es nicht, die KI zu „vergiften“ und erschien neun Mal auf dem Cover von „Nature“, was in akademischen Kreisen heftige Debatten auslöste

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  Neuer Weisheitsbericht

Herausgeber: Aeneas ist so schläfrig
[Einführung in die neue Weisheit] Das Oxford- und Cambridge-Papier über neun Vergiftungen, die zum Zusammenbruch des Modells führten, erntete viel Kritik: Kann das auch in Nature aufgenommen werden? Dies wurde in akademischen Kreisen weiter diskutiert, und alle vertreten den gleichen Standpunkt: Synthetische Daten gelten für viele als Allheilmittel, aber es gibt kein kostenloses Mittagessen auf der Welt.

Im Zeitalter der KI sind Daten das neue Öl. Sind synthetische Daten in einer Zeit, in der die globalen menschlichen Daten allmählich erschöpft sind, unsere Zukunft?
Die jüngste Kontroverse, die durch einen Artikel auf dem Cover von Nature ausgelöst wurde, macht uns klar: Wichtig sind nicht „synthetische Daten“, sondern „die korrekte Verwendung synthetischer Daten“.
Am Donnerstag erschien ein Artikel aus Oxford, Cambridge, dem Imperial College, der University of Toronto und anderen Institutionen auf dem Cover von Nature.
Was die Leute jedoch nicht erwartet hatten, war, dass das Papier nach seiner Veröffentlichung viele Diskussionen in der KI-Community auslöste.
Manche Leute glauben, dass der Kern des Problems nicht „synthetische Daten“, sondern „Datenqualität“ sind.
Selbst wenn alle künstlichen Daten verwendet werden, ist die Qualität zu schlecht, das Ergebnis ist „Müll rein, Müll raus“.
Manche Leute glauben sogar, dass die Forscher absichtlich Methoden gewählt haben, die nicht mit der tatsächlichen Operation übereinstimmen und tatsächlich „herausragend“ sind.
In diesem Zusammenhang sagte Professor Ma Yi, dass wir jetzt in eine Ära eingetreten seien, in der es an wissenschaftlichen Ideen und Methoden mangele –
Viele Studien sind nichts anderes als die Wiederentdeckung eines wissenschaftlichen gesunden Menschenverstandes.

Wie vermeide ich einen Modellabsturz?


Die Frage ist also: Wie können wir einen Modellkollaps verhindern, wenn wir KI zur Datensynthese verwenden?

Hybride Daten sind die Zukunft

Alexandr Wang, CEO von Scale AI, stimmt diesem Artikel auf dem Cover von Nature voll und ganz zu.
Er sagte, dass die Verwendung rein synthetischer Daten zum Trainieren von Modellen keinen Informationsgewinn bringen werde.
Wenn eine Bewertungsmetrik aufgrund der Selbstdestillation steigt, liegt dies meist höchstwahrscheinlich an einigen subtileren Kompromissen:
  • Synthetische Daten können die Bewertungsergebnisse kurzfristig verbessern, aber dann zahlen Sie den Preis für den Zusammenbruch des Modells
  • Während des Trainings oder der Feinabstimmung des Modells sammeln Sie unsichtbare Schulden an, die nur schwer zurückzuzahlen sind

Insbesondere in aufeinanderfolgenden Generationen des synthetischen Trainings entstehen Fehler hauptsächlich aus drei Aspekten:
  • statistischer Näherungsfehler
  • funktionaler Ausdrucksfehler
  • funktionaler Approximationsfehler

Das heißt, jedes Mal, wenn Sie ein neues Modell mithilfe der vom vorherigen Modell generierten Daten trainieren, gehen einige Informationen und Genauigkeit verloren, was dazu führt, dass das Modell immer hohler wird und schließlich nicht mehr richtig funktioniert.
Obwohl diese Experimente an einem Modell im kleinen Maßstab (100 Millionen Parameter) durchgeführt wurden, werden die beobachteten grundlegenden Effekte im Laufe der Zeit auch bei Modellen im größeren Maßstab auftreten.
Beispielsweise sind die meisten Modelle heute aufgrund von Modellabstürzen nicht in der Lage, Blogbeiträge im Slate Star Codex-Stil zu generieren. Während wir Modelle kontinuierlich trainieren, verlieren sie nach und nach die Fähigkeit, Vorhersagen über eine breite Verteilung zu treffen.
Nach Ansicht von Wang sind Hybriddaten die zukünftige Entwicklungsrichtung, mit der alle heiklen Probleme im Zusammenhang mit dem Zusammenbruch des Modells vermieden werden können.
Das heißt, im Prozess der Datensynthese müssen diese durch eine neue Informationsquelle generiert werden:

(1) Verwenden Sie reale Daten als Ausgangspunkt

(2) Es nehmen menschliche Experten teil

(3) Formale Logikmaschine
Im Gegensatz dazu werden Entwickler, die ihre Modelle versehentlich auf synthetischen Daten ohne Informationsgewinn trainieren, mit der Zeit feststellen, dass ihre Modelle immer seltsamer und dümmer werden.

Reinforcement Learning ist alles, was Sie brauchen

Forscher von Meta, der New York University und der Peking University haben eine „Ranking-Pruning-Feedback“-Methode durch menschliche oder schwächere Modelle vorgeschlagen, die die ursprüngliche Leistung des Modells wiederherstellen oder sogar übertreffen kann.
Bezüglich dieser Forschung leitete LeCun sie ebenfalls weiter, um seine Unterstützung auszudrücken.
Wie wir alle wissen, ist es für Menschen und Maschinen viel einfacher, zwischen guten und schlechten Beispielen zu unterscheiden, als qualitativ hochwertige Beispiele von Grund auf zu generieren.
Auf dieser Grundlage schlägt der Autor eine völlig neue Methode vor, um einen Modellkollaps durch synthetisches Datenfeedback zu verhindern.

Um dieser Frage nachzugehen, liefern die Autoren zunächst analytische Ergebnisse in einem theoretischen Rahmen.
Hier schlagen die Autoren Gaußsche Mischungsmodelle und lineare Modelle im hochdimensionalen Grenzbereich als Klassifikatoren vor und überlassen es einem Prüfer (z. B. einem Menschen oder einem Orakel), die generierten Daten auszuwählen oder zu bereinigen.
Die Ergebnisse zeigen, dass Modelle, die auf ausgewählten Daten trainiert werden, optimale Ergebnisse erzielen können, wenn sich die Anzahl der synthetischen Datenpunkte der Unendlichkeit nähert, vergleichbar mit Modellen, die auf Rohdaten trainiert werden.
Simulationen mit synthetischen Daten zeigen, dass die Oracle-Überwachung im Vergleich zur Verwendung von Rohanmerkungen durchweg nahezu optimale Ergebnisse liefert.
Da die Unterscheidung hochwertiger Daten durch menschliche Aufsicht einfacher und kostengünstiger ist als die direkte Annotation durch Menschen, liefert dies darüber hinaus einen starken Beweis für die Wirksamkeit menschlicher Aufsicht.
Ein Gaußsches Mischungsmodell mit einem linearen Generator und einem linearen Pruner: Der Pruner verbessert die Leistung durch selektive Verstärkung synthetischer Daten
Als nächstes führten die Autoren zwei groß angelegte Experimente durch:
1. Trainieren Sie den Transformer für eine Rechenaufgabe (Matrix-Eigenwertvorhersage) und nutzen Sie den Abstand vom realen Wert, um große Mengen synthetischer Daten zu bereinigen
2. Nachrichtenzusammenfassung unter Verwendung eines großen Sprachmodells (Llama 2) und begrenzter synthetischer Daten
Die Ergebnisse zeigen, dass in beiden Fällen die ausschließliche Verwendung generierter Daten zu Leistungseinbußen und Modellabstürzen führt, selbst wenn die Datenmenge zunimmt.
Darüber hinaus führt die Auswahl der besten Lösung aus dem Generierungspool allein auf der Grundlage der Ratlosigkeit nicht zu einer Leistungsverbesserung, d. h. dem Modell selbst fehlt die Fähigkeit, die beste Vorhersage auf der Grundlage der Ratlosigkeit auszuwählen.
Im Gegensatz dazu kann unter der Aufsicht von Oracle ein Feedback-verstärkter synthetischer Datensatz erhalten werden, dessen Leistung mit zunehmender Datenmenge die des Originaldatensatzes übertrifft.

Die Erweiterung von Mensch und Modell verbessert die Leistung und verhindert Modellabstürze. Ohne Erweiterung kommt es zu Leistungseinbußen
Daher sollten Sie sich beim Training eines neuen Modells mit synthetischen Daten nicht nur auf die Qualität des Generators konzentrieren, sondern benötigen auch einen hochwertigen Verifizierer zur Auswahl der Daten.
In einem Satz: Verstärkung ist alles, was Sie brauchen!

Echte Daten + synthetische Daten

Bezüglich der Beschwerden der Leser über dieses Nature-Titelpapier äußerte Rylan Schaeffer, Doktorand an der Stanford University, sein Verständnis.
Er stellte fest, dass es häufig zum Zusammenbruch von Modellen kommt, wenn Forscher absichtlich Methoden anwenden, die nicht der tatsächlichen Praxis entsprechen.
Die Datenakkumulation kann zusammenbrechen oder auch nicht, es hängt alles von den spezifischen Betriebsdetails ab.
你们故意把它弄崩溃,它当然就会崩溃了。😂
In dem von Stanford, Maryland und MIT gemeinsam verfassten Artikel untersucht Schaeffer, wie sich die Ansammlung von Daten auf den Zusammenbruch des Modells auswirkt.
Nach Experimenten bestätigten sie, dass das Ersetzen der ursprünglichen realen Daten durch synthetische Daten in jeder Generation tatsächlich zum Zusammenbruch des Modells führen würde.
Der Zusammenbruch des Modells kann jedoch vermieden werden, wenn neben den ursprünglichen realen Daten aufeinanderfolgende Generationen synthetischer Daten akkumuliert werden.

Papieradresse: https://arxiv.org/abs/2404.01413
In der Praxis werden zukünftige LLM-Generationen im Laufe der Zeit auf immer größere Datenmengen trainiert. Beispielsweise benötigt Llama 1 1,4 Billionen Token, Llama 2 2 Billionen Token und Llama 3 15 Billionen Token.
In gewisser Weise ist diese Einstellung zur Datenakkumulation äußerst pessimistisch –
In dieser hypothetischen Zukunft werden synthetische Daten unkontrolliert im Internet abgelegt, um zum Trainieren der nächsten Iteration des Modells verwendet zu werden.

Wie auf der rechten Seite der Abbildung dargestellt, kann durch das Sammeln von Daten ein Zusammenbruch des Modells vermieden werden
Die Forscher verwendeten drei verschiedene experimentelle Einstellungen: Kausaltransformator, Diffusionsmodell und Autovariational-Encoder und trainierten jeweils an realen Text-, molekularen Konformations- und Bilddatensätzen.
Sie fanden heraus, dass das Ersetzen von Daten bei allen Modellen und für alle Datensätze zum Zusammenbruch des Modells führte, während die Akkumulation von Daten einen Zusammenbruch des Modells verhinderte.
Kausale Sprachmodellierung basierend auf Transformer
Zuerst trainierten sie den kausalen Transformer anhand von Textdaten.
Insbesondere wurden der 9M-Parameter GPT-2 einer einzelnen Epoche und das Llama 2-Sprachmodell mit 12M-, 42M- und 125M-Parametern auf TinyS-tories vorab trainiert.
Ersteres ist ein 470-Millionen-Token-Kurzgeschichtendatensatz, der von GPT-3.5/4 auf Leseniveau im Kindergarten generiert wurde.
Für jede Modellanpassungsiteration n ≥ 2 stichproben wir einen neuen Datensatz mit der gleichen Größe wie TinvStories aus den Sprachtypen der vorherigen Iteration und ersetzen oder verketten dann den vorherigen Datensatz durch den neu generierten Datensatz.
In jeder Modellanpassungsiteration trainieren sie vorab ein neues initialisiertes Modell auf dem Ersatz- oder verketteten Datensatz aus der vorherigen Iteration.
Die Ergebnisse zeigen, dass das Ersetzen der Daten für alle Architekturen, Parameterzahlen und Probentemperaturen zu einer Erhöhung der Testkreuzentropie führt, wenn die Anzahl der Modellanpassungsiterationen zunimmt (Abbildung 2 links).
Sie fanden außerdem heraus, dass die akkumulierten Daten für alle Architekturen, Parameteranzahlen und Probentemperaturen mit zunehmender Anzahl der Modellanpassungsiterationen zu einer Testkreuzentropie führen, die gleich oder niedriger ist (Abbildung 2, rechts).
Abbildung 3 zeigt die Lernkurve für jede Modellanpassungsiteration beim wiederholten Ersetzen von Daten (oben) und beim Sammeln von Daten (unten).
Die Ergebnisse zeigen, dass die Datenakkumulation einen Modellkollaps bei der Sprachmodellierung verhindert.
Sowohl das 125M Llama2 als auch das 9M GPT-2 zeigten Qualitätsverschlechterungen beim Ersetzen von Daten (R), behielten aber beim Sammeln von Daten eine qualitativ hochwertige Textgenerierung bei (A).
Diffusionsmodelle für molekulare Konformationsdaten
Als nächstes trainierten sie eine Folge von Diffusionsmodellen anhand der molekularen Konformationsdaten.
Konkret trainierten die Forscher GeoDiff, ein geometrisches Diffusionsmodell zur Erzeugung molekularer Konformationen, auf dem GEOMDrugs-Datensatz.
Sie haben den Trainingsteil des GEOM-Drugs-Datensatzes auf 40.000 molekulare Konformationen heruntergerechnet, ihn als anfänglichen Trainingssatz verwendet und 50 Diffusionsschritte für jede Vorhersage durchgeführt.
Ergebnisse Nach 8 Modellanpassungsiterationen stellten die Forscher fest, dass der Testverlust beim Ersetzen von Daten zunahm, was mit unseren Sprachmodellexperimenten übereinstimmte, und dass der Testverlust beim Sammeln von Daten relativ konstant blieb (Abbildung 4).
Im Gegensatz zu Sprachmodellen stellten sie fest, dass sich die Leistung beim Ersetzen der Daten in der ersten Modellanpassungsiteration des Trainings auf synthetischen Daten deutlich verschlechtert und in den nachfolgenden Iterationen nicht weiter deutlich abfällt.
Autovariationaler Encoder für Bilddaten
Am Ende des Experiments trainierten die Forscher eine Variational-Encoder-Sequenz (VAE) auf CelebA. Der Datensatz enthält 200.000 Gesichtsbilder und ist in einen Trainingssatz und einen Testsatz unterteilt.
Diese Wahl schafft ein Gleichgewicht zwischen realistischen Datensätzen mit vielen Beispielen, Farbbildern und Auflösungen und der rechnerischen Machbarkeit, das Modell für viele Iterationen anhand der gesammelten Daten zu trainieren.
Als Ergebnis stellten sie fest, dass das erneute Ersetzen der Daten in jeder Iteration einen Modellkollaps zeigte –
Der Testfehler steigt mit jeder weiteren Iteration schnell an und jede Iteration führt zu schlechterer Qualität und weniger vielfältigen Gesichtern, bis die gesamte Modellgenerierung ein einziges Muster darstellt.
Im Gegensatz dazu verlangsamt die Akkumulation von Daten bei jeder Iteration den Zusammenbruch des Modells erheblich –
Der Testfehler steigt mit jeder weiteren Iteration deutlich langsamer an.
Während die Vielfalt der Generationen im Vergleich zum mittleren und rechten Feld von Abbildung 6 abnimmt, stellt sie immer noch die Hauptvariationsachsen im Datensatz dar, wie z. B. das Geschlecht, aber das Modell scheint keine anderen entlang der kürzeren Achsen der Daten mehr zu generieren vielfältig. Details wie Gläser und Zubehör.
Ein weiteres interessantes Phänomen besteht darin, dass im Gegensatz zur Sprachmodellierung der Testfehler bei akkumulierten Daten mit der Anzahl der Iterationen zunimmt (wenn auch viel langsamer als bei Ersatzdaten).
Warum gibt es diesen Unterschied? Diese Forschungsrichtung wird der Zukunft überlassen.
Verweise:
https://arxiv.org/abs/2406.07515