wir müssen uns der gefahr eines ki-„modellkollapses“ bewusst sein.
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
bildquelle: „theweek“ in den vereinigten staaten
【heutiger standpunkt】
◎unser reporter zhang jiaxin
vom kundenservice bis zur inhaltserstellung hat künstliche intelligenz (ki) den fortschritt in zahlreichen bereichen beeinflusst. doch ein wachsendes problem namens „modellkollaps“ könnte alle errungenschaften der ki zunichte machen.
„modellkollaps“ ist ein problem, auf das in einem im juli dieses jahres in der britischen fachzeitschrift nature veröffentlichten forschungsbericht hingewiesen wird. es bezieht sich auf die verwendung von ki-generierten datensätzen zum trainieren zukünftiger generationen von modellen für maschinelles lernen, wodurch deren ergebnisse möglicherweise ernsthaft „verunreinigt“ werden.
mehrere ausländische medien berichteten, dass es sich hierbei nicht nur um ein technisches problem handele, über das sich datenwissenschaftler sorgen machen müssten, wenn der „modellkollaps“ nicht behoben werde, könne er tiefgreifende auswirkungen auf unternehmen, technologie und das gesamte digitale ökosystem haben. professor xiong deyi, leiter des natural language processing laboratory der tianjin university, erklärte in einem interview mit einem reporter von science and technology daily den „modellkollaps“ aus professioneller sicht.
was hat es mit dem „modellkollaps“ auf sich?
die meisten ki-modelle wie gpt-4 werden auf großen datenmengen trainiert, die größtenteils aus dem internet stammen. diese daten werden zunächst von menschen generiert und spiegeln die vielfalt und komplexität der menschlichen sprache, des menschlichen verhaltens und der menschlichen kultur wider. ki lernt aus diesen daten und generiert daraus neue inhalte.
wenn die ki jedoch das internet nach neuen daten durchsucht, um das modell der nächsten generation zu trainieren, absorbiert die ki wahrscheinlich einen teil des von ihr generierten inhalts und erzeugt so eine rückkopplungsschleife, in der die ausgabe einer ki zur eingabe wird ein anderer. wenn generative ki mit eigenen inhalten trainiert wird, kann der output auch von der realität abweichen. es ist, als würde man mehrere kopien eines dokuments anfertigen, wobei bei jeder version einige originaldetails verloren gehen und am ende ein verschwommenes, weniger genaues ergebnis entsteht.
die new york times berichtete, dass die qualität und vielfalt ihrer ergebnisse abnimmt, wenn ki von menschlichen eingabeinhalten getrennt wird.
xiong deyi erklärte: „die verteilung realer menschlicher sprachdaten entspricht normalerweise dem zipf-gesetz, das heißt, die worthäufigkeit ist umgekehrt proportional zur reihenfolge der wörter. das zipf-gesetz zeigt, dass es in menschlichen sprachdaten ein long-tail-phänomen gibt.“ es gibt eine große anzahl niederfrequenter und vielfältiger inhalte.“
xiong deyi erklärte weiter, dass aufgrund von fehlern wie der näherungsstichprobe das long-tail-phänomen der realen verteilung in den vom modell generierten daten allmählich verschwindet reale verteilung, und die vielfalt wird reduziert, was zum „modellkollaps“ führt.
ist es eine schlechte sache, dass ki sich selbst „ausschlachtet“?
zum thema „modellkollaps“ veröffentlichte das amerikanische magazin „theweek“ kürzlich einen artikel, in dem es hieß, dies bedeute, dass die ki sich selbst „ausschlachten“ würde.
xiong deyi glaubt, dass mit dem auftreten dieses phänomens das nachfolgende modell umso mehr informationen über reale daten verliert, je höher der anteil modellgenerierter daten im nachfolgenden iterativen modelltraining ist, was das modelltraining schwieriger macht.
auf den ersten blick scheint der „modellkollaps“ ein nischenproblem zu sein, um das sich derzeit nur ki-forscher im labor kümmern müssen, doch seine auswirkungen werden weitreichend und nachhaltig sein.
in einem artikel im amerikanischen „atlantic monthly“ wurde darauf hingewiesen, dass technologieriesen zur entwicklung fortschrittlicherer ki-produkte möglicherweise synthetische daten für programme bereitstellen müssen, also simulierte daten, die von ki-systemen generiert werden. da die ergebnisse einiger generativer ki jedoch voller voreingenommenheit, desinformation und absurder inhalte sind, werden diese an die nächste version des ki-modells weitergegeben.
das us-magazin „forbes“ berichtete, dass der „modellkollaps“ auch die probleme der voreingenommenheit und ungleichheit in der ki verschärfen könnte.
das bedeutet jedoch nicht, dass alle synthetischen daten schlecht sind. die new york times sagte, dass synthetische daten in einigen fällen der ki beim lernen helfen können. zum beispiel, wenn die ausgabe eines großen ki-modells verwendet wird, um ein kleineres modell zu trainieren, oder wenn die richtige antwort überprüft werden kann, etwa die lösung eines mathematischen problems oder die beste strategie für spiele wie schach, go usw.
übernimmt ki das internet?
das problem des trainings neuer ki-modelle könnte eine größere herausforderung darstellen. das magazin „scientific american“ erklärte, dass ki-inhalte das internet erobern und von großen sprachmodellen generierte texte hunderte von websites überschwemmen. im vergleich zu von menschen erstellten inhalten können ki-inhalte schneller und in größeren mengen erstellt werden.
sam altman, ceo von openai, sagte im februar dieses jahres, dass das unternehmen täglich etwa 100 milliarden wörter generiert, was dem text von 1 million romanen entspricht, von denen ein großer teil ins internet fließt.
die fülle an ki-inhalten im internet, darunter bot-tweets, lächerliche bilder und gefälschte kommentare, hat zu einer negativeren wahrnehmung geführt. das magazin „forbes“ gab an, dass die „theorie des toten internets“ davon ausgeht, dass der großteil des datenverkehrs, der beiträge und benutzer im internet durch roboter und ki-generierte inhalte ersetzt wurde und der mensch die richtung des internets nicht mehr bestimmen kann. die idee kursierte zunächst nur in online-foren, hat aber in letzter zeit mehr anklang gefunden.
glücklicherweise sagen experten, dass die „dead-internet-theorie“ noch keine realität geworden ist. das magazin „forbes“ wies darauf hin, dass die überwiegende mehrheit der weit verbreiteten beiträge, darunter einige tiefgründige meinungen, scharfe sprache, scharfsinnige beobachtungen und definitionen neuer dinge in neuen kontexten, nicht von ki generiert werden.
xiong deyi betonte jedoch weiterhin: „mit der weit verbreiteten anwendung großer modelle kann der anteil synthetischer ki-daten an internetdaten immer höher werden. eine große menge synthetischer ki-daten geringer qualität wird nicht nur internetdaten später nutzen.“ trainingsmodelle es wird ein gewisses maß an „modellkollaps“ geben, und es wird auch negative auswirkungen auf die gesellschaft haben, wie z. b. die erzeugten fehlerhaften informationen, die einige menschen irreführen. daher sind ki-generierte inhalte nicht nur ein technisches problem, sondern auch ein gesellschaftliches problem, das mit ki-technologie aus zwei perspektiven sicher bewältigt werden muss.“
(quelle: science and technology daily)