notizia

Il misterioso modello base video di Nvidia "Cosmos" viene smascherato e i dati vengono tutti rubati

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Per questo modello video, NVIDIA esegue ogni giorno la scansione frenetica dell'equivalente di 80 anni di dati video.

Oggi su Reddit è esplosa la notizia della decisione di Nvidia di smettere di realizzare modelli video.

La fonte della notizia proviene dal media straniero 404 Media. Secondo la chat di Slack (la piattaforma di chat interna di Nvidia), le e-mail e i documenti ottenuti, Nvidia sta prelevando video da Youtube e da diverse altre fonti per raccogliere dati di formazione per i suoi prodotti di intelligenza artificiale.



Conversazioni interne a Nvidia esaminate da 404 Media mostrano che quando i dipendenti coinvolti nel progetto hanno sollevato preoccupazioni su possibili problemi legali derivanti dall'uso di "set di dati di ricerca vietati a livello commerciale" e "video di YouTube", i manager hanno detto loro che avevano l'approvazione dei più alti livelli di l'azienda, che può essere utilizzata.

Un ex dipendente anonimo di Nvidia ha affermato che ai dipendenti è stato chiesto di estrarre video da Netflix, YouTube e altre fonti per addestrare modelli di intelligenza artificiale per il generatore di mondi 3D Omniverse, sistemi di auto a guida autonoma e prodotti "umani digitali".

Il progetto, denominato internamente Cosmos (ma distinto dal prodotto di deep learning Cosmos esistente dell'azienda), non è stato ancora rilasciato al pubblico. Secondo un'e-mail inviata ai dipendenti dalla direzione del progetto, l'obiettivo di Cosmos è quello di costruire un modello di infrastruttura video all'avanguardia che "incapsula il trasporto leggero, la fisica e la simulazione intelligente in un unico posto per sbloccare i vari aspetti a valle critici per Applicazione Nvidia."

Per raccogliere video di formazione, i dipendenti NVIDIA hanno utilizzato un downloader di video YouTube open source chiamato "yt-dlp". Tentano di scaricare video completi da varie fonti come Netflix, ma si concentrano principalmente sui video di YouTube. Le e-mail esaminate da 404 Media mostrano che il project manager ha scelto di utilizzare da 20 a 30 macchine virtuali in Amazon Web Services per scaricare ogni giorno 80 anni di video.

"Stiamo completando la pipeline di dati v1 e garantendo le risorse informatiche necessarie per costruire una fabbrica di dati video in grado di generare dati di formazione giornalieri equivalenti a una vita di esperienza visiva umana."

Alla domanda sull'utilizzo da parte di Nvidia dei video di YouTube come dati di addestramento per i suoi modelli, un portavoce di Google ha detto a 404 Media che la "posizione precedente dell'azienda rimane valida". In precedenza, il CEO di YouTube Neal Mohan aveva affermato che se OpenAI avesse utilizzato i video di YouTube per migliorare il suo generatore di video AI Sora, sarebbe una "chiara violazione" dei termini di utilizzo di YouTube.

Allo stesso modo, un portavoce di Netflix ha detto a 404 Media che la società non ha un accordo con Nvidia per l'acquisizione di contenuti e che i termini di servizio della piattaforma non consentono lo scraping di contenuti.

Tuttavia, Nvidia non sembra preoccuparsene. Le preoccupazioni legali sollevate dai dipendenti coinvolti nel progetto sono state spesso respinte dai project manager che hanno affermato che la decisione di rimuovere il video senza permesso era una "decisione esecutiva" di cui non dovevano preoccuparsi e che costituiva un uso giusto ed etico dei contenuti protetti da copyright. il contenuto e la questione dell'uso accademico e non commerciale del set di dati sono considerati "questioni legali in sospeso" che verranno risolte in futuro.

L'inizio e la fine del progetto del modello video NVIDIA

Similmente ad altri giganti della tecnologia, Nvidia assume talenti della ricerca accademica per pubblicare risultati accademici, ma dalle e-mail interne ottenute da 404 Media si può vedere che Cosmos sarà ovviamente utilizzato per scopi commerciali.

Nel marzo di quest'anno, un ricercatore NVIDIA ha pubblicato un post su Slack e ha suggerito che l'utilizzo di film di Hollywood come "Avatar" o "Il Signore degli Anelli" per addestrare OpenAI Sora potrebbe essere più efficace.

Successivamente la sua proposta è stata riconosciuta all’interno dell’azienda, ma ha anche aggiunto che Hollywood è particolarmente sensibile alla possibilità che l’IA violi i diritti d’autore. Nel luglio 2023, SAG-AFTRA, uno dei tre principali sindacati di Hollywood con 160.000 membri, ha annunciato uno sciopero, prendendo di mira prodotti di intelligenza artificiale generativa come ChatGPT e Stable Diffusion. Prima di questo, la Writers Guild of America aveva scioperato più di 70 giorni. C'è una situazione in Stable Diffusion Anche se non inserisci la parola di richiesta corrispondente e inserisci una descrizione vaga come "Idraulico in stile animazione", Stable Diffusion genererà direttamente l'immagine classica di Mario.

Sotto questo post, un dipendente di nome "Liu" (vale a dire Ming-Yu Liu (Liu Mingyu), vicepresidente della ricerca presso NVIDIA) ha risposto: "Se il documento non viene pubblicato pubblicamente, non causerà i problemi negativi di cui sopra. Dovremmo utilizza prima i video scaricabili per la sperimentazione."



Successivamente, un altro ricercatore NVIDIA ha pubblicato un post sull'intranet. Ha trovato un elenco di file che dovrebbero essere scaricati prima per l'addestramento dei modelli video. Tuttavia, il set di dati HD-VILA-100M utilizzato da NVIDIA mancava di circa 2,3 milioni di file video originali. Questo elenco in continua espansione include anche video originali di alcuni YouTuber famosi, come Marques Brownlee (MKBHD), un blogger di recensioni digitali con una reputazione in Nord America come "Ciao a tutti, sono compagno di classe He".

A causa della protezione del copyright, i set di dati video generali spesso includono collegamenti URL o ID YouTube. Una volta che l'autore elimina il video originale, questi contenuti non verranno più inclusi nel set di dati a meno che l'autore del video non accetti esplicitamente la conservazione e l'utilizzo del contenuto. .

Anche se Microsoft vieta esplicitamente qualsiasi utilizzo commerciale nella sua dichiarazione sull'utilizzo del set di dati HD-VILA-100M, il dipendente Nvidia che ha pubblicato il messaggio non sembra preoccuparsene. Ha subito pubblicato il collegamento YouTube corrispondente all'elenco e lo ha condiviso con i suoi colleghi Abbiamo discusso una soluzione per utilizzare le macchine virtuali AWS per modificare gli IP per aggirare il meccanismo anti-crawler di YouTube.

Inoltre, i dipendenti NVIDIA si sono rivolti anche a YouTube-8M, un set di dati su larga scala sulla comprensione dei video rilasciato da Google. Invece di integrare da sola il set di dati di Microsoft, hanno raggiunto un "accordo" con YouTube e Google, l'attuale società madre di YouTube, Nvidia ha acquistato 800 video al prezzo di 0,00625 dollari (circa 4 centesimi) per video e verranno scaricati tramite Google Cloud. Indipendentemente dalla questione della vendita dei diritti d'autore, Google potrebbe pensare di aver recuperato le commissioni pubblicitarie di questi video, ma Nvidia ha già alcune limitazioni nella larghezza di banda del cloud. Il download su Google Cloud può ottenere una connessione più stabile e prevedibile. Pertanto, non importa come lo guardi, questo "accordo" sembra essere vantaggioso per Nvidia.

Ciò che è ancora più sorprendente è quando un dipendente di Nvidia ha chiesto sull'intranet: "È ragionevole per noi scaricare video di YouTube come questo?"

"Questa è una decisione di alto livello. Abbiamo la piena approvazione per l'utilizzo di tutti i dati." Questa è stata la risposta che ha ottenuto.

I dati ammessi a questa decisione includono anche le produzioni video su Netflix. I dati di Netflix contengono molti dati visivi di alta qualità. Dopo l’approvazione, qualcuno ha chiesto aiuto ai colleghi dell’intranet aziendale che avevano esperienza nella “costruzione di grandi set di dati” in altre grandi aziende.

Allo stesso tempo, il team di Cosmos ha considerato anche la questione di come aggiungere in modo efficace le riprese di gioco ai dati di allenamento. Anche Jim Fan, ricercatore senior di NVIDIA, ha riscontrato ostacoli "normativi" durante l'acquisizione di filmati di gioco in tempo reale.

Jim Fan ha pubblicato:

Aggiornamento: ho incontrato i ragazzi di GeForce Now (GFN) e ho lavorato sui piani con loro. Lavoreremo a stretto contatto con GFN e i relativi team di ingegneri per sviluppare metodi per acquisire dati di gioco in tempo reale, espandere la scala della pipeline ed elaborare i dati per la formazione. Video di gameplay di alta qualità saranno un'aggiunta molto utile al "nostro Sora"... Poiché l'attrezzatura per catturare video e azioni di gameplay dal vivo non è ancora disponibile, le statistiche non sono state ancora effettuate, ma ripuliremo e Il GFN elaborato i dati vengono aggiunti a team-vfm.

Nel marzo di quest'anno, la raccolta dei dati video di Project Cosmo ha raggiunto un traguardo: Nvidia ha completato 100.000 download di video in due settimane.

"Il progresso è sorprendente. La domanda ora è come possiamo ottenere un gran numero di URL di alta qualità", ha risposto Liu in questo post.

Alla fine di maggio, i membri del team di progetto hanno ricevuto un’e-mail riguardante la strategia sui dati video, in cui si annunciava di aver compilato 38,5 milioni di URL video. "Secondo il piano, il focus della raccolta video della prossima settimana sarà ancora costituito da film, filmati con droni, riprese in prospettiva in prima persona e scenari naturali", si legge nell'e-mail che includeva anche un grafico che mostrava i tipi di contenuti scaricati. percentuale.

L'e-mail ha rivelato alcune informazioni tecniche chiave, inclusi quattro set di dati dai dati di addestramento del modello:

  • Ego-Exo4D: un set di dati video e benchmark diversificato, su larga scala, multimodale e multi-vista raccolto da 740 portatori di fotocamera in 13 città di tutto il mondo, catturando 1286,3 ore di video di attività umane qualificate.
  • Ego4D: Si tratta di un set di dati egocentrico e su larga scala e di una suite di benchmark che raccoglie oltre 3.670 ore di video di attività di vita quotidiana in 74 località in 9 paesi in tutto il mondo.
  • HOI4D : Set di dati egocentrici 4D su larga scala con ricche annotazioni per facilitare la ricerca sull'interazione uomo-oggetto a livello di categoria. HOI4D è stato creato da ricercatori dell'Università di Tsinghua, dell'Università di Pechino e dell'Istituto di ricerca Qizhi di Shanghai. È concesso in licenza con CC BY-NC 4.0 e l'uso commerciale è vietato.
  • GeForce ora: Dati di gioco.

In un'altra email, i membri del progetto Cosmos hanno detto: "Il gruppo di ricerca sta ora addestrando un modello da 1 miliardo di parametri con configurazioni multiple, ciascuna con 16 nodi. Questo è un importante passo di debug prima di un ulteriore ridimensionamento. Prevediamo di trarre conclusioni entro un poche settimane e poi scalare fino a un modello da 10 miliardi di parametri."

"Questo aggiornamento è fantastico!" Il CEO di Nvidia Jen-Hsun Huang ha risposto all'e-mail e ha affermato: "Molte aziende si sono prefissate l'obiettivo di costruire un modello video di base e possiamo sicuramente costruire una pipeline accelerata".

A giugno, i membri del team di progetto hanno discusso quali tipi di contenuti nel modello sarebbero più utili per i prodotti Nvidia nel contesto del mantenimento della competitività nel settore dell’intelligenza artificiale.

"NVIDIA dispone di robotica, guida autonoma, Omniverse e Avatar che la maggior parte delle società di contenuti non possiede. Per massimizzare la crescita dell'azienda, i dati che organizziamo devono essere ben applicabili a queste applicazioni 'killer'", ha affermato un membro del Cosmos Project.

Non c'è dubbio che il modello che il team Cosmos sta sviluppando sia destinato all'uso commerciale per i suoi numerosi prodotti.

Fino a quando non verrà emanata una legislazione che imponga a queste aziende di divulgare completamente i propri dati di formazione, continueranno a sfruttare le aree grigie legali per recuperare dati protetti da copyright. Senza fughe di e-mail interne o conversazioni intranet, nessuno saprebbe cosa sta succedendo dietro le quinte e un modello del genere potrebbe fruttare miliardi di dollari a giganti della tecnologia come Nvidia, Runway o OpenAI.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/