dobbiamo stare attenti al rischio del “collasso del modello” dell’ia
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
fonte immagine: "theweek" negli stati uniti
【il punto di vista di oggi】
◎il nostro giornalista zhang jiaxin
dal servizio clienti alla creazione di contenuti, l'intelligenza artificiale (ai) ha influenzato i progressi in numerose aree. ma un problema crescente noto come “collasso del modello” potrebbe annullare tutti i risultati ottenuti dall’intelligenza artificiale.
il “collasso del modello” è un problema sottolineato in un articolo di ricerca pubblicato sulla rivista britannica nature nel luglio di quest’anno. si riferisce all’utilizzo di set di dati generati dall’intelligenza artificiale per addestrare le future generazioni di modelli di apprendimento automatico, potenzialmente “contaminando” seriamente il loro output.
diversi media stranieri hanno riferito che questo non è solo un problema tecnico di cui i data scientist devono preoccuparsi, se lasciato incontrollato, il “collasso del modello” potrebbe avere un profondo impatto sulle imprese, sulla tecnologia e sull’intero ecosistema digitale. il professor xiong deyi, capo del laboratorio di elaborazione del linguaggio naturale dell'università di tianjin, ha spiegato il "crollo del modello" da un punto di vista professionale in un'intervista con un giornalista di science and technology daily.
cosa sta succedendo con il “collasso del modello”?
la maggior parte dei modelli di intelligenza artificiale, come gpt-4, vengono addestrati su grandi quantità di dati, la maggior parte dei quali proviene da internet. inizialmente, questi dati sono generati da esseri umani e riflettono la diversità e la complessità del linguaggio, del comportamento e della cultura umana. l’intelligenza artificiale impara da questi dati e li utilizza per generare nuovi contenuti.
tuttavia, mentre l’intelligenza artificiale cerca sul web nuovi dati per addestrare la prossima generazione di modelli, è probabile che assorba parte del contenuto che genera, creando un ciclo di feedback in cui l’output di un’intelligenza artificiale diventa l’input. di un altro. quando l’intelligenza artificiale generativa viene addestrata con i propri contenuti, i suoi risultati possono anche discostarsi dalla realtà. è come fare più copie di un documento, in cui ogni versione perde alcuni dei dettagli originali e finisce con un risultato sfocato e meno accurato.
il new york times ha riferito che quando l’intelligenza artificiale viene separata dal contenuto dell’input umano, la qualità e la diversità del suo output diminuiranno.
xiong deyi ha spiegato: "la distribuzione dei dati reali sul linguaggio umano di solito è conforme alla legge di zipf, cioè la frequenza delle parole è inversamente proporzionale all'ordine delle parole. la legge di zipf rivela che esiste un fenomeno a coda lunga nei dati sul linguaggio umano, cioè , ci sono un gran numero di contenuti a bassa frequenza e diversificati."
xiong deyi ha inoltre spiegato che a causa di errori come il campionamento approssimativo, il fenomeno della coda lunga della distribuzione reale scompare gradualmente nei dati generati dal modello. la distribuzione dei dati generati dal modello converge gradualmente verso una distribuzione incoerente con distribuzione reale e la diversità viene ridotta, con conseguente "collasso del modello".
l’intelligenza artificiale “cannibalizzare” se stessa è una cosa negativa?
a proposito del "collasso del modello", la rivista americana "theweek" ha recentemente pubblicato un articolo in cui osserva che ciò significa che l'intelligenza artificiale si sta "cannibalizzando".
xiong deyi ritiene che con l'emergere di questo fenomeno, maggiore è la percentuale di dati generati dal modello nel successivo addestramento iterativo del modello, maggiore sarà la perdita di informazioni sui dati reali da parte del modello successivo, rendendo più difficile l'addestramento del modello.
a prima vista, il “collasso del modello” sembra essere un problema di nicchia di cui attualmente solo i ricercatori di intelligenza artificiale devono preoccuparsi in laboratorio, ma il suo impatto sarà di vasta portata e duraturo.
un articolo dell'americano "atlantic monthly" ha sottolineato che per sviluppare prodotti di intelligenza artificiale più avanzati, i giganti della tecnologia potrebbero dover fornire ai programmi dati sintetici, cioè dati simulati generati dai sistemi di intelligenza artificiale. tuttavia, poiché i risultati di alcune ia generative sono pieni di pregiudizi, disinformazione e contenuti assurdi, questi verranno trasmessi alla versione successiva del modello di ia.
la rivista americana "forbes" ha riferito che il "collasso del modello" potrebbe anche esacerbare i problemi di parzialità e disuguaglianza nell'intelligenza artificiale.
ciò non significa però che tutti i dati sintetici siano negativi. il new york times ha affermato che in alcuni casi i dati sintetici possono aiutare l’intelligenza artificiale ad apprendere. ad esempio, quando l'output di un modello ai di grandi dimensioni viene utilizzato per addestrare un modello più piccolo o quando è possibile verificare la risposta corretta, come la soluzione a un problema di matematica o la migliore strategia per giochi come scacchi, go, ecc.
l’intelligenza artificiale sta conquistando internet?
il problema dell’addestramento di nuovi modelli di intelligenza artificiale potrebbe evidenziare una sfida più ampia. la rivista "scientific american" ha affermato che i contenuti dell'intelligenza artificiale stanno prendendo il sopravvento su internet e che i testi generati da grandi modelli linguistici stanno inondando centinaia di siti web. rispetto ai contenuti creati dall’uomo, i contenuti ai possono essere creati più velocemente e in quantità maggiori.
il ceo di openai, sam altman, ha dichiarato nel febbraio di quest'anno che l'azienda genera circa 100 miliardi di parole ogni giorno, equivalenti al testo di 1 milione di romanzi, gran parte delle quali confluiscono in internet.
l’abbondanza di contenuti basati sull’intelligenza artificiale su internet, inclusi bot-tweet, immagini ridicole e commenti falsi, ha alimentato una percezione più negativa. la rivista "forbes" ha affermato che la "teoria di internet morto" ritiene che la maggior parte del traffico, dei post e degli utenti su internet siano stati sostituiti da robot e contenuti generati dall'intelligenza artificiale e che gli esseri umani non possano più determinare la direzione di internet. inizialmente l’idea circolava solo nei forum online, ma recentemente ha guadagnato più terreno.
fortunatamente, gli esperti affermano che la “teoria di internet morto” deve ancora diventare realtà. la rivista "forbes" ha sottolineato che la stragrande maggioranza dei post ampiamente diffusi, comprese alcune opinioni profonde, un linguaggio tagliente, osservazioni acute e definizioni di cose nuove in nuovi contesti, non sono generati dall'intelligenza artificiale.
tuttavia, xiong deyi sottolinea ancora: “con l’applicazione diffusa di modelli di grandi dimensioni, la percentuale di dati sintetici dell’intelligenza artificiale nei dati internet potrebbe diventare sempre più elevata. una grande quantità di dati sintetici dell’intelligenza artificiale di bassa qualità non solo farà un uso successivo dei dati internet modelli di formazione ci sarà un certo grado di "collasso del modello" e avrà anche un impatto negativo sulla società, come la generazione di informazioni errate che ingannano alcune persone. pertanto, i contenuti generati dall'intelligenza artificiale non sono solo una questione tecnica, ma è anche una questione sociale che deve essere gestita in modo sicuro. risposta efficace da una duplice prospettiva con la tecnologia dell’intelligenza artificiale”.
(fonte: science and technology daily)