Nachricht

Naturschutz: KI trainiert KI, je mehr sie trainiert, desto dümmer wird sie

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

KI-Training: KI kann KI dumm machen? !

Forscher aus Oxford, Cambridge und anderen Institutionen haben kürzlich herausgefunden, dass große Modelle zusammenbrechen können, wenn sie mit synthetischen Daten trainiert werden.Seine Forschungsergebnisse wurden als aktuellste ausgewähltNaturschutz

Direkt eins:MÜLL RAUS!



Sie wissen, dass die meisten großen Technologieunternehmen jetzt synthetische Daten verwenden, um den „Datenmangel“ zu lindern. Dies ist zweifellos eine Welle kalten Wassers, die über die gesamte Branche strömt.

Das Forschungsteam nannte ein solches Beispiel.

Sie testeten Metas OPT-125m-Modell und fragten nach Informationen über mittelalterliche Architektur.



Jede Feinabstimmung wird anhand der zuletzt generierten Daten trainiert. Die Antworten in den ersten paar Runden erwiesen sich als ziemlich gut. Infolgedessen fing ich beim neunten Mal an, Unsinn zu reden ...

Was zum Teufel ist das mit Kaninchen? !

Der Hauptautor des Papiers sagte, man habe angenommen, dass synthetische Daten zu Fehlern in großen Modellen führen könnten, habe aber nicht damit gerechnet, dass sich die Modelle so schnell verschlechtern würden.

Drei Fehler führen zum Zusammenbruch des Modells

Zunächst definierte das Team, was ein Modellkollaps ist.

Der Modellkollaps ist ein Degradationsprozess, bei dem modellgenerierte Inhalte die nächste Generation von Trainingsdatensätzen kontaminieren. Nach dem Training mit kontaminierten Daten neigt das Modell der neuen Generation dazu, die Realität falsch zu verstehen.

Dieser Zyklus geht immer weiter und jede Generation wird schlimmer als die nächste.



Im Laufe der Zeit gibt es hauptsächlich zwei Situationen: den frühen Modellzusammenbruch und den späten Modellzusammenbruch.

Beim frühen Modellkollaps beginnt das Modell, einige Tail-Informationen zu verlieren. (Ähnlich wie bei einigen Ereignissen mit geringer Wahrscheinlichkeit in einer Wahrscheinlichkeitsverteilung) Und beim späten Zusammenbruch des Modells wird das Modell so konvergieren, dass es fast keine Ähnlichkeit mehr mit der ursprünglichen Verteilung aufweist.

Das Auftreten dieses Prozesses hängt mit dem Modelldesign, dem Lernprozess und der Qualität der verwendeten Daten zusammen.

Spezifisch für die Theorie umfasst es hauptsächlich die Abweichung des großen Modells vom Originalmodell, die durch diese drei Fehler verursacht wird.

  • statistischer Näherungsfehler . Dies ist der Hauptfehlertyp, der aufgrund einer begrenzten Stichprobengröße auftritt und verschwindet, wenn die Stichprobengröße gegen Unendlich geht. Dies liegt daran, dass bei jedem Schritt des Resamplings Informationen mit einer Wahrscheinlichkeit ungleich Null verloren gehen können.
  • Funktionsausdrucksfehler . Dieser Fehler wird durch die eingeschränkte Ausdrucksfähigkeit der Funktionsnäherung verursacht. Insbesondere sind neuronale Netze nur dann eine universelle Näherung, wenn ihre Größe die Unendlichkeit erreicht. Ohne die beiden anderen Fehler würde dieser Fehler jedoch nur in der ersten Generation auftreten.
  • Funktionsnäherungsfehler . Hauptsächlich verursacht durch Einschränkungen des Lernprozesses, wie z. B. strukturelle Verzerrungen beim stochastischen Gradientenabstieg oder die Wahl der Ziele. Dieser Fehler kann als der Fehler angesehen werden, der bei unendlichen Daten und perfekter Ausdruckskraft in jeder Generation auftritt.
Auswirkungen auf Sprachmodelle

Anschließend bewerteten die Forscher die Auswirkungen des Modellkollapses auf das Sprachmodell. Da das Training eines großen Modells von Grund auf sehr kostspielig ist, entschieden sie sich für die Bewertung der gängigsten Einstellung für Sprachmodelle:Feinabstimmung der Einstellungen

Jeder Trainingszyklus beginnt mit einem vorab trainierten Modell mit den neuesten Daten. Die Trainingsdaten stammen von einem anderen fein abgestimmten vorab trainierten Modell.

Sie verwendeten das metakausale Sprachmodell OPT-125m, das auf Wikitext2 verfeinert wurde.

Um Daten aus dem trainierten Modell zu generieren, nutzte das Team die Fünf-Wege-Strahlsuche. Sie legten die Trainingssequenz auf eine Länge von 64 Token fest. Anschließend wurde das Modell für jede Token-Sequenz im Trainingssatz aufgefordert, die nächsten 64 Token vorherzusagen.

Sie gehen alle ursprünglichen Trainingsdatensätze durch und generieren einen künstlichen Datensatz derselben Größe.Wenn der Fehler des Modells 0 ist, wird der ursprüngliche Wikitext2-Datensatz generiert.

Um den Unterschied weiter zu spüren, verwendeten sie zwei unterschiedliche Einstellungen: Eine Gruppe hat mit Ausnahme des anfänglichen Trainings keine Original-Trainingsdaten im nachfolgenden Prozess, die andere Gruppe behält 10 % der Originaldaten bei.



Die Ergebnisse zeigten, dass die vom Modell verursachten Fehler mit der Zeit zunahmen. Dies führt auch dazu, dass das Modell Ereignisse mit geringer Wahrscheinlichkeit im Datensatz vergisst und ihre Ausgaben homogener werden, bevor das Modell vollständig zusammenbricht. Am Ende trat das Phänomen des Anfangs auf.

Darüber hinaus wurden ähnliche Modellkollaps-Phänomene in VAE- und GMM-Modellen beobachtet.





Professor Emily Wenger von der Duke University sagte, es sei bisher nicht einfach gewesen, das Problem zu mildern.

Führende Technologieunternehmen haben eine Technologie eingesetzt, die „Wasserzeichen“ einbettet –

Markieren Sie KI-generierte Inhalte, um sie aus den Trainingsdaten auszuschließen. Die Schwierigkeit besteht darin, dass dies eine Koordination zwischen Technologieunternehmen erfordert und daher wirtschaftlich weniger rentabel ist.

Auf diese Weise können Unternehmen, die Daten aus dem Internet beziehen, Modelle trainieren, die die reale Welt besser abbilden. Daher hatte die anfängliche Welle großer Modelle einen First-Mover-Vorteil.

Was halten Sie von diesem Standpunkt?

Referenzlinks:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y