studio: l'uso ripetuto di contenuti generati dall'intelligenza artificiale per addestrare l'intelligenza artificiale può causare il "collasso del modello"

studio: l’uso ripetuto di contenuti generati dall’intelligenza artificiale per addestrare l’intelligenza artificiale può causare il “collasso del modello”

2024-09-05

it house news il 5 settembre. il 4 settembre, ora locale, secondo forbes, il dottor ilya shumelov dell'università di oxford e il suo team hanno scoperto che quando il software di intelligenza artificiale generativa si basa solo sui contenuti, la qualità delle risposte inizia a deteriorarsi. la ricerca è stata pubblicata sulla rivista nature.

dopo le prime due domande, le risposte si sono gradualmente allontanate dall'accuratezza, alla quinta domanda la qualità è scesa notevolmente e alla nona domanda consecutiva le risposte erano completamente degenerate in parole senza senso. i ricercatori chiamano questo uso eccessivo e ciclico dei contenuti generativi dell’intelligenza artificiale come “collasso del modello”, in cui l’output dell’intelligenza artificiale si discosta gradualmente dalla realtà e alla fine diventa inutile dopo aver contaminato continuamente il proprio set di addestramento.

"è sorprendente quanto velocemente e impercettibilmente si verifica il collasso del modello", ha detto shumelov. "inizialmente, colpisce un piccolo numero di dati, quelli che sono sottorappresentati. quindi, influenza la diversità dell'output, portando a una ridotta variabilità. a volte si osserverà. piccoli miglioramenti sulla maggior parte dei dati, ma questo miglioramento maschera un deterioramento delle prestazioni del modello su una minoranza di dati."

i ricercatori hanno identificato l’esistenza del “collasso del modello” utilizzando una wikipedia pre-addestrata basata sull’intelligenza artificiale e quindi lasciando che il modello di intelligenza artificiale si aggiornasse in base al contenuto generato. l'influenza dei dati contaminati provoca gradualmente l'erosione del set di addestramento originale e le informazioni in uscita diventano difficili da comprendere. ad esempio, dopo il nono ciclo di query, la voce di wikipedia in studio è cambiata comicamente da qualcosa su un campanile di una chiesa inglese del xiv secolo a un articolo su conigli bobtail di vari colori.

secondo i rapporti, secondo un altro studio pubblicato dal team di amazon web services a giugno, circa il 57% del testo online è stato tradotto da algoritmi di intelligenza artificiale. se i dati generati dall’uomo su internet vengono rapidamente sovrascritti da contenuti filtrati dall’intelligenza artificiale, e se i risultati della ricerca di shumeilov sono veri, allora l’intelligenza artificiale potrebbe “autodistruggersi” e distruggere internet allo stesso tempo.

lo studio ha concluso che l’unico modo per raggiungere uno sviluppo sostenibile a lungo termine dell’intelligenza artificiale è garantire che abbia accesso ai contenuti esistenti non generati dall’intelligenza artificiale e continui a introdurre nuovi contenuti generati dall’uomo.

notizia

studio: l’uso ripetuto di contenuti generati dall’intelligenza artificiale per addestrare l’intelligenza artificiale può causare il “collasso del modello”

introduzione

le mie informazioni di contatto