studie: die wiederholte verwendung von ki-generierten inhalten zum trainieren von ki kann zum „modellkollaps“ führen

studie: wiederholte nutzung von ki-generierten inhalten zum trainieren von ki kann zum „modellkollaps“ führen

2024-09-05

it house news am 5. september. am 4. september ortszeit entdeckten dr. ilya shumelov von der universität oxford und sein team laut forbes, dass sich die qualität der antworten zu verschlechtern beginnt, wenn generative ki-software nur auf inhalten basiert. die forschung wurde in der zeitschrift nature veröffentlicht.

nach den ersten beiden abfragen verloren die antworten allmählich an genauigkeit, bei der fünften abfrage ließ die qualität erheblich nach und bei der neunten abfrage in folge waren die antworten völlig zu bedeutungslosem kauderwelsch verkommen. forscher bezeichnen diese zyklische übernutzung generativer ki-inhalte als „modellkollaps“, bei dem die ki-ausgabe allmählich von der realität abweicht und schließlich wertlos wird, nachdem sie ihren eigenen trainingssatz kontinuierlich kontaminiert hat.

„es ist überraschend, wie schnell und unmerklich ein modellkollaps auftritt“, sagte shumelov. „zuerst betrifft es eine kleine anzahl von daten – diejenigen, die unterrepräsentiert sind. dann wirkt es sich auf die vielfalt der ergebnisse aus, was zu einer verringerten variabilität führt. manchmal werden sie beobachten.“ kleine verbesserungen bei den meisten daten, aber diese verbesserung verdeckt eine verschlechterung der modellleistung bei einer minderheit der daten.“

die forscher identifizierten die existenz eines „modellkollapses“, indem sie eine vorab trainierte ki-gestützte wikipedia verwendeten und dann das ki-modell basierend auf den von ihm generierten inhalten aktualisieren ließen. der einfluss kontaminierter daten führt nach und nach dazu, dass der ursprüngliche trainingssatz erodiert und die ausgabeinformationen schwer zu verstehen sind. beispielsweise änderte sich der untersuchte wikipedia-eintrag nach dem neunten abfragezyklus auf komische weise von etwas über einen englischen kirchturm aus dem 14. jahrhundert zu einem artikel über bobtail-kaninchen in verschiedenen farben.

berichten zufolge wurden laut einer anderen vom amazon web services-team im juni veröffentlichten studie etwa 57 % der online-texte von ki-algorithmen übersetzt. wenn von menschen generierte daten im internet schnell durch ki-gefilterte inhalte überschrieben werden und wenn shumeilovs forschungsergebnisse wahr sind, dann könnte ki „selbstzerstörerisch“ sein – und gleichzeitig das internet zerstören.

die studie kam zu dem schluss, dass die einzige möglichkeit, eine langfristige nachhaltige entwicklung der ki zu erreichen, darin besteht, sicherzustellen, dass sie zugriff auf vorhandene, nicht von ki generierte inhalte hat und weiterhin neue von menschen erstellte inhalte einführt.

nachricht

studie: wiederholte nutzung von ki-generierten inhalten zum trainieren von ki kann zum „modellkollaps“ führen

einführung

meine kontaktdaten