“Tutti i dati testuali di alta qualità presenti su Internet verranno utilizzati entro il 2028”

2024-08-01

La società di ricerca Epoch AI prevede che tutti i dati testuali di alta qualità presenti su Internet verranno utilizzati entro il 2028 e che i set di dati di apprendimento automatico potrebbero esaurire tutti i “dati linguistici di alta qualità” entro il 2026.

I ricercatori sottolineano che l’addestramento delle future generazioni di modelli di apprendimento automatico su set di dati generati dall’intelligenza artificiale (AI) potrebbe portare al “collasso del modello”. La questione se vi sia una carenza di dati di addestramento per i grandi modelli di intelligenza artificiale è diventata di recente ancora una volta un tema caldo nei media.

Recentemente, la rivista The Economist ha pubblicato un articolo intitolato "Le aziende di intelligenza artificiale esauriranno presto la maggior parte dei dati di Internet", sottolineando che man mano che i dati di alta qualità di Internet si esauriscono, le aziende di intelligenza artificiale esauriranno presto la maggior parte dei dati di Internet “muro di dati”. Per le grandi aziende modello AI, la sfida ora è trovare nuove fonti di dati o alternative sostenibili.

L'articolo citava la previsione della società di ricerca Epoch AI secondo cui tutti i dati di testo di alta qualità su Internet saranno utilizzati entro il 2028 e i set di dati di apprendimento automatico potrebbero esaurire tutti i "dati linguistici di alta qualità" entro il 2026. Questo fenomeno è noto nel settore come "data wall". Come gestire il "data wall" è uno dei maggiori problemi che le aziende di intelligenza artificiale devono affrontare oggi e potrebbe anche essere il problema che più probabilmente ne rallenterà i progressi nella formazione. L'articolo sottolinea che man mano che i dati pre-formazione su Internet si esauriscono, la post-formazione diventa più importante. Le aziende di etichettatura come Scale AI e Surge AI guadagnano centinaia di milioni di dollari ogni anno raccogliendo dati post-formazione.

La rivista The Economist cita il diagramma Epoch AI

In effetti, da tempo nel settore si vocifera di “esaurimento dei dati”. Il Paper ha notato che all'inizio di luglio 2023, Stuart Russell, professore di informatica all'Università della California, Berkeley e autore di "Artificial Intelligence - Modern Approaches", ha avvertito che i robot guidati dall'intelligenza artificiale come ChatGPT potrebbero presto "Esaurire il text in the Universe", la tecnologia per addestrare i robot raccogliendo grandi quantità di testo "sta iniziando a incontrare difficoltà".

Ma ci sono anche voci diverse nel settore. In un'intervista con la giornalista tecnologica di Bloomberg Emily Chang nel maggio 2024, Li Feifei, una famosa scienziata informatica, co-direttrice del Laboratorio di Intelligenza Artificiale dell'Università di Stanford e professoressa dell'Università di Stanford, ha chiarito che non era d'accordo con "il nostro “I modelli di intelligenza artificiale stanno esaurendo i dati per l’addestramento” è una visione più pessimistica. Li Feifei ritiene che questa visione sia troppo ristretta. Solo dal punto di vista dei modelli linguistici, c’è ancora una grande quantità di dati differenziati in attesa di essere estratti per costruire modelli più personalizzati.

Oggi, una delle soluzioni al problema dei dati di addestramento limitati è utilizzare dati sintetici, che sono creati dalla macchina e quindi illimitati. Ma i dati sintetici comportano anche il rischio di dati sintetici. Un articolo di informatica pubblicato sulla rivista accademica internazionale Nature il 24 luglio ha sottolineato che l’addestramento delle future generazioni di modelli di apprendimento automatico con set di dati generati dall’intelligenza artificiale (AI) potrebbe contaminare i loro dati. In uscita, questo concetto è chiamato "collasso del modello". Poiché i modelli vengono addestrati su dati contaminati, finiscono per interpretare erroneamente la realtà.

Il gruppo di ricerca ha dimostrato nello studio che nel compito di apprendimento di modelli linguistici di grandi dimensioni, la coda della distribuzione sottostante è importante. L'uso su larga scala di modelli linguistici di grandi dimensioni per pubblicare contenuti su Internet contaminerà gli sforzi di raccolta dati per formare i loro successori. In futuro, gli esseri umani saranno sempre più preziosi. I dati reali sulle interazioni dei modelli linguistici di grandi dimensioni saranno sempre più preziosi. Tuttavia, il gruppo di ricerca ha anche affermato che i dati generati dall’intelligenza artificiale non sono del tutto indesiderabili, ma devono essere rigorosamente filtrati. Ad esempio, nei dati di addestramento di ciascun modello di generazione, mantieni il 10% o il 20% dei dati originali, puoi anche utilizzare dati diversi, come quelli generati da esseri umani, o studiare algoritmi di addestramento più robusti.

notizia

“Tutti i dati testuali di alta qualità presenti su Internet verranno utilizzati entro il 2028”

introduzione

le mie informazioni di contatto