notizia

Coinvolti 170.000 video!NVIDIA e altri giganti sono stati denunciati per aver utilizzato illegalmente i dati di YouTube per addestrare i modelli

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

È stato scoperto che i giganti della tecnologia utilizzano contenuti YouTube non autorizzati per addestrare modelli di intelligenza artificiale (intelligenza artificiale).

Il 16 luglio, ora locale, i media stranieri hanno riferito che alcune grandi aziende tecnologiche, tra cui Apple, Nvidia, Salesforce e Anthrophic, sono state esposte all’utilizzo di dati non autorizzati da YouTube, un sito Web di video di proprietà di Google, durante l’addestramento dei modelli di intelligenza artificiale. Le società hanno utilizzato un set di dati fornito da terze parti che conteneva grandi quantità di testo di sottotitoli video prelevati da YouTube, violando le regole di YouTube contro lo scraping di contenuti dalla piattaforma senza autorizzazione.

Il rapporto ha sottolineato che queste società tecnologiche hanno utilizzato un set di dati chiamato "Sottotitoli di YouTube" durante l'addestramento dei modelli di intelligenza artificiale. Ha una dimensione di 5,7 GB e contiene 489 milioni di parole da oltre 48.000 canali su Youtube. Questo set di dati è costituito dal testo semplice dei sottotitoli dei video, inclusa la parte caricata dai vlogger e dal testo trascritto automaticamente da Youtube, di solito include anche traduzioni in lingue come giapponese, tedesco e Arabo.

L'organizzazione no-profit EleutherAI è la creatrice del controverso set di dati e la società non ha ancora risposto a questa storia. Secondo il sito web ufficiale, l’obiettivo di EleutherAI è “abbassare la soglia per lo sviluppo dell’intelligenza artificiale e fornire a tutti l’accesso a una tecnologia AI all’avanguardia attraverso la formazione e il rilascio di modelli”. In precedenza, EleutherAI ha pubblicato una raccolta di dati chiamata "Pile", la maggior parte della quale è aperta al pubblico, inclusi i sottotitoli di YouTube.

I dati mostrano che poche settimane prima che Apple rilasciasse il modello OpenELM di piccole dimensioni end-side nell'aprile di quest'anno, la società ha utilizzato Pile per la formazione. Tuttavia, vale la pena notare che Apple stessa non scarica questi dati. Quindi, tecnicamente, è stato EleutherAI a violare i termini di utilizzo di YouTube.

Un portavoce della startup AI Anthropic ha confermato che il set di dati di Pile è stato utilizzato per formare l'assistente AI generativo dell'azienda, Claude, e che i termini di YouTube coprivano solo "l'uso diretto della sua piattaforma" e raccomandavano di discutere eventuali violazioni con l'autore originale dei Termini di servizio di YouTube di Pile Condotta. Apple, Nvidia, Salesforce e altre società non hanno ancora risposto alla questione.

Tra i creatori interessati da questo incidente figurano noti blogger come Marques Brownlee, MrBeast e PewDiePie, nonché grandi editori di notizie come il New York Times, la British Broadcasting Corporation (BBC) e ABC News negli Stati Uniti. Inoltre, parte del materiale contenuto nel set di dati promuove teorie del complotto come "Flat Earth" e contiene persino contenuti di video che sono stati cancellati. Ora Pile è stato rimosso dal sito di download ufficiale, ma è ancora accessibile tramite i servizi di condivisione file.

A questo proposito, il noto blogger tecnologico Marques Brownlee ha detto nel video Incluso. Tecnicamente Apple non ha "commesso un errore", non ha recuperato i dati in modo proattivo, ma questo sarà un problema di vecchia data.


Tweet di Marchese Brownlee.Fonte: piattaforma X

Sebbene Apple e altre società abbiano utilizzato set di dati pubblici e non si siano verificate violazioni, questo incidente ha attirato ancora una volta l’attenzione sui problemi relativi ai dati alla base della formazione sull’intelligenza artificiale. All’inizio di quest’anno, la società madre di YouTube, Google, è stata esposta all’utilizzo dei video della piattaforma per addestrare i suoi modelli. Google ha risposto all’epoca che questo comportamento non violava l’accordo della piattaforma con i creatori.

Nel marzo di quest'anno, Mira Murati, Chief Technology Officer di OpenAI, è stata vaga riguardo alla fonte dei dati di addestramento per il modello video Vincent Sora in un'intervista. Ad aprile, il CEO di YouTube Neal Mohan ha dichiarato in un'intervista di non avere prove dirette per dimostrare che OpenAI abbia utilizzato i video di YouTube per migliorare il suo strumento di intelligenza artificiale video Vincent Sora. Se fosse stato realmente utilizzato, sarebbe stata una "chiara violazione" della normativa Termini di utilizzo della piattaforma YouTube.