notizia

È stato scoperto che la versione NVIDIA di Sora ha acquisito illegalmente una grande quantità di dati e il funzionario ha espresso insoddisfazione

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Svelata la versione NVIDIA di Sora——

Nome in codice Cosmos, il vicepresidente della ricerca Liu Mingyu è il responsabile.

Tuttavia, con la fuga di numerosi documenti interni, sono stati anche esposti a sequestri illegali di dati.



(In effetti, questo non è solo una o due volte...)

Ai dipendenti è tacitamente consentito eseguire ogni giorno la scansione di dati non autorizzati e non consensuali su Internet, come YouTube, Netflix e altre piattaforme.

Nel loro insieme, i dati visivi catturati ogni giorno equivalgono quasi a quelli che una persona può percepire in 80 anni.

Di conseguenza, Nvidia ha risposto: Cosa facciamo,Totalmente legale!



Svelata la versione Nvidia di Sora: nome in codice Cosmos

Secondo i documenti trapelati ottenuti da 404Media, NVIDIA cattura ogni giorno dati illegali per addestrare nuovi modelli.

L'obiettivo di Cosmos è costruire un modello base video all'avanguardia. Secondo le e-mail trapelate, il modello integra simulazioni di trasmissione della luce, fisica e intelligenza per sbloccare varie applicazioni a valle.

Ad esempio, viene utilizzato nel generatore di mondi 3D Omniverse, nel sistema di auto a guida autonoma e nei prodotti umani digitali.

Ming-Yu Liu, vicepresidente della ricerca presso NVIDIA, è il leader del progetto Cosmos.



È anche membro dell'IEEE. Ha guidato il team di ricerca NVIDIA Deep Imagination e ha lanciato prodotti come NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] e NVIDIA Maxine [LivePortrait].

Una precedente email di maggio affermava:

Stiamo finalizzando la pipeline di dati v1 e assicurando le risorse informatiche necessarie per costruire una fabbrica di dati video in grado di generare l'equivalente quotidiano di una vita di esperienza visiva umana di dati di addestramento.

Questa immagine mostra il capo scienziato di NVIDIA, Francesco Ferroni, che fornisce un collegamento a una tabella che riunisce vari set di dati video, tra cui MovieNet (un database di 60.000 trailer di film), WebVid, InternVid-10M e diversi set di dati di filmati di gioco video acquisiti internamente.

Ora, secondo un ex dipendente, ai dipendenti verrà chiesto di raccogliere dati da fonti come YouTube e Netflix.

Utilizzeranno un downloader di video YouTube open source chiamato yt-dlp, che utilizza una macchina virtuale per aggiornare gli indirizzi IP per evitare di essere bloccati da YouTube.

A tal proposito Nvidia ha risposto a 404 Media:

Rispettiamo i diritti di tutti i creatori di contenuti e crediamo che i nostri modelli e il lavoro di ricerca siano pienamente conformi alla lettera e allo spirito della legge sul copyright.
La legge sul diritto d'autore protegge determinate espressioni ma non fatti, idee, dati o informazioni. Chiunque è libero di ricavare fatti, idee, dati o informazioni da altre fonti e di utilizzarli per esprimere le proprie opinioni. Il fair use protegge anche la capacità di utilizzare l’opera per scopi trasformativi, come la formazione di modelli. "

Google ha lanciato un collegamento a 404 Media Nell'aprile di quest'anno, il CEO di YouTube ha affermato che se OpenAI utilizza i video di YouTube per addestrare Sora, allorachiara violazioneTermini di utilizzo di YouTube.

Netflix ha affermato di non avere un accordo di estrazione di contenuti con Nvidia e che i termini di servizio della piattaforma non consentivano lo scraping di contenuti.

È interessante notare che, lo stesso giorno, i blogger di YouTube stanno intentando un'azione legale collettiva contro OpenAI, accusando la società di utilizzare milioni di registrazioni video di YouTube per addestrare i suoi modelli di intelligenza artificiale generativa senza avvisare o compensare i proprietari dei video.

Non è raro che queste grandi aziende siano esposte prima all'acquisizione illegale di dati.

Ma c'è da dire che questo tipo di dati grezzi sono davvero utili...

In precedenza, NVIDIA utilizzava anche video di giochi per migliorare la qualità dei dati di allenamento.

Lo studio recentemente apparso sulla copertina di Nature mostra che questo grande modello addestrato con dati Internet originali ha il vantaggio di essere il primo a muoversi, ha la migliore qualità dei dati e anche le prestazioni del modello corrispondente sono le migliori.

Successivamente, man mano che i dati dell’intelligenza artificiale diventavano sempre più abbondanti, era facile che i modelli di grandi dimensioni crollassero.

Spazzatura in entrata, spazzatura in uscita

Cosa ne pensi di questa faccenda?

Link di riferimento:
[1]https://techcrunch.com/2024/08/05/youtuber-presenta-una-class-action-suit-over-openais-scrape-of-creators-transcripts/
[2]https://www.gamedeveloper.com/business/report-nvidia-used-scraped-video-game-footage-to-train-ai-products

[3]https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-caught-ingesting-as-much-of-youtube-as-possible/