notizia

Nvidia è stata esposta al furto di dati, scansionando più di 80 anni di dati video ogni giorno, e anche il set di dati accademici dell'Università di Pechino è stato colpito

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

NVIDIA sembra essere entrata recentemente in un periodo travagliato.
Dopo che è stato rivelato che la produzione di massa del suo chip AI più potente è stata ritardata e il suo valore di mercato è evaporato di oltre 300 miliardi di dollari, Nvidia è stata denunciata da 404 Media per aver acquisito contenuti video da piattaforme come YouTube e Netflix senza autorizzazione per addestrarla. . Modello video AI che non è stato ancora rilasciato al pubblico.
Le e-mail interne e le chat di Slack mostrano che, sebbene i dipendenti di Nvidia abbiano sollevato dubbi sulla legalità e l'etica dell'utilizzo di questi set di dati, il management dell'azienda ha affermato che queste azioni erano state approvate dal senior management e hanno sostenuto che le loro azioni erano conformi alla legge sul copyright.
Vale la pena ricordare che nelle discussioni interne alla fine di febbraio, NVIDIA ha menzionato diversi set di dati che stava utilizzando, incluso HD-VG-130M.
Quest'ultimo è un set di dati di 130 milioni di video YouTube realizzato da ricercatori dell'Università di Pechino e la sua licenza d'uso dichiara esplicitamente che è limitato alla ricerca accademica.
L’approccio di Nvidia è più simile a un microcosmo della maggior parte delle aziende di intelligenza artificiale di oggi.
Quando gli utenti sono stati considerati come "macchine per la raccolta dati", a meno che gli addetti ai lavori non lo espongano, è davvero difficile per il mondo esterno sapere se i tuoi e i miei lavori sono diventati nutrimento per la formazione sull'intelligenza artificiale.
Insomma, gli esseri umani sono ancora consumatori al vertice della catena alimentare, ma diventeremo inevitabilmente un membro della filiera dello sviluppo dell’IA.
Quello che segue è il testo originale della notizia proveniente dai media stranieri 404 Media, scritta da GPT-4o Traduzione, divertiti~
Alimenta il modello con video di YouTube e scarica ogni giorno l'equivalente di 80 anni di video
Lo dimostrano le chat interne, le e-mail e i documenti ottenuti da 404 Media Nvidia estrae video da YouTube e da molte altre fonti per compilare dati di addestramento per i suoi prodotti AI. Alla domanda sulle questioni legali ed etiche legate all'utilizzo di contenuti protetti da copyright per addestrare modelli di intelligenza artificiale, Nvidia ha affermato che il suo approccio "è pienamente conforme alla lettera e allo spirito della legge sul copyright".
Conversazioni interne a Nvidia esaminate da 404 Media mostrano che quando i dipendenti hanno sollevato domande sulle possibili implicazioni legali dell'utilizzo di set di dati e video di YouTube compilati da accademici per scopi di ricerca, i manager hanno detto loro che i vertici dell'azienda ne avevano approvato l'uso.
Un ex dipendente di Nvidia (a cui è stato concesso l'anonimato da 404 Media per discutere i processi interni di Nvidia) ha detto che ai dipendenti è stato chiesto di estrarre video da Netflix, YouTube e altre fonti per addestrare il generatore di mondi Omniverse 3D di Nvidia,AutopilotaSistemi automobilistici e "uomo digitale"Modello AI del prodotto.
Il progetto, noto internamente come Cosmos (ma distinto dal prodotto di deep learning Cosmos esistente dell'azienda), non è stato ancora rilasciato pubblicamente.
Un'e-mail dal leader del progetto ha rivelato che Cosmos mira a costruire un modello di infrastruttura video all'avanguardia che "riunisca simulazioni di trasporto leggero, fisica e intelligenza in un unico posto per sviluppare una varietà di applicazioni downstream fondamentali per Nvidia".
Un'e-mail ottenuta da 404 Media mostra un diagramma che mostra come il modello Cosmos si applica a diversi prodotti Nvidia.
Messaggi Slack nel canale creato dall'azienda per il progetto mostrano che i dipendenti utilizzano un downloader di video YouTube open source chiamato yt-dlp, combinato con una macchina virtuale per aggiornare l'indirizzo IP ed evitare di essere bloccati da YouTube.
Secondo la fonte, hanno provato a scaricare video completi da più fonti, incluso Netflix, ma si sono concentrati principalmente sui video di YouTube.
Le e-mail esaminate da 404 Media mostrano che i project manager discutono sull'utilizzo di 20-30 macchine virtuali di Amazon Web Services per scaricare 80 anni di video al giorno.
"Stiamo finalizzando la pipeline di dati v1 e garantendo risorse informatiche sufficienti per costruire una fabbrica di dati video in grado di generare l'equivalente del 100% dei dati video ogni giorno", ha affermato Mingyu Liu, vicepresidente della ricerca di Nvidia e leader del progetto Cosmos. in un’e-mail di maggio. La quantità di dati nell’esperienza visiva della vita di un essere umano.
Le conversazioni e le istruzioni all'interno di Nvidia mostrano i dipendenti che discutono le considerazioni legali ed etiche dell'azienda nella progettazione dei chip e delle API che hanno alimentato l'ascesa dell'intelligenza artificiale generativa e l'hanno resa una delle aziende pubbliche di maggior valore al mondo.
Evidenzia anche le più grandi aziende del settore, come Runway e IA aperta, esiste una domanda insoddisfatta di contenuti come dati per l'addestramento dei modelli di intelligenza artificiale.
Un portavoce di Nvidia ha dichiarato in un'e-mail a 404 Media:
Rispettiamo i diritti di tutti i creatori di contenuti e crediamo fermamente che i nostri modelli e il lavoro di ricerca siano pienamente conformi alla lettera e allo spirito della legge sul copyright. La legge sul diritto d'autore protegge determinate espressioni ma non fatti, opinioni, dati o informazioni. Chiunque può apprendere fatti, idee, dati o informazioni da altre fonti e utilizzarli per creare la propria espressione. Il fair use protegge anche il diritto di utilizzare l’opera per scopi trasformativi, come la formazione di modelli.
Alla domanda sull'utilizzo da parte di Nvidia dei video di YouTube come dati di addestramento per i suoi modelli, un portavoce di Google ha detto a 404 Media che i "commenti precedenti dell'azienda sono ancora validi".
Tra questi, il CEO di YouTube Neal Mohan ha affermato che se OpenAI utilizza i video di YouTube per ottimizzare il suo generatore di video AI Sora, ciò violerà chiaramente i termini di utilizzo di YouTube.
Un portavoce di Netflix ha detto a 404 Media che Netflix non ha un accordo con Nvidia per l'acquisizione di contenuti e che i termini di servizio della piattaforma non consentono lo scraping dei dati.
Le domande sulle questioni legali sollevate dai dipendenti coinvolti nel progetto sono state generalmente respinte dai project manager, i quali hanno affermato che la decisione di rimuovere il video senza permesso era una "decisione di alto livello" e che i dipendenti non avevano nulla di cui preoccuparsi su ciò che costituiva una violazione delle norme. i contenuti protetti da copyright e il tema dell'uso corretto ed etico dei set di dati per uso accademico e non commerciale è considerato una "questione legale irrisolta" che verrà risolta in futuro.
La nostra indagine evidenzia l’atteggiamento del “non chiedere” di queste aziende tecnologiche nell’inserire grandi quantità di contenuti protetti da copyright in set di dati utilizzati per addestrare alcuni dei modelli di intelligenza artificiale più preziosi al mondo.
I dirigenti di Nvidia hanno suggerito che anche il set di dati accademici dell’Università di Pechino sia stato abusato
Nel febbraio 2024, Francesco Ferroni, capo scienziato di Nvidia, scrisse nel canale Nvidia Slack chiamato #cosmos-dataset-creation:
"Ciao a tutti, @Sanja Fidler mi ha menzionato un'iniziativa per aggregare un gran numero di set di dati video selezionati per la modellazione generativa. Abbiamo pensato che iniziare con l'aggregazione di tutti i set di dati video disponibili internamente (pubblicamente o scaricati internamente) per evitare la duplicazione del lavoro fosse molto significativo. "
(Nota: Sanja Fidler è il vicepresidente della ricerca sull'intelligenza artificiale di Nvidia.)
Ferroni si è quindi collegato a un foglio di calcolo con collegamenti a set di dati tra cui MovieNet, un database di 60.000 trailer di film, e WebVid, un set di dati video compilato da immagini stock su Github che è stato successivamente interrotto da Shutterstock cancellato dal suo creatore dopo aver ricevuto un avviso), InternVid -10M (un set di dati di 10 milioni di ID video di YouTube su Github) e diversi set di dati di filmati di videogiochi acquisiti internamente. 404 Media ha rimosso i nomi dei dipendenti junior dagli screenshot delle conversazioni di Slack.
Abbiamo incluso i nomi di numerosi ingegneri e dirigenti senior coinvolti nel progetto a causa della loro visibilità pubblica come leader nel settore dell’intelligenza artificiale.
Il foglio di calcolo collegato da Ferroni mostra i set di dati utilizzati nel progetto
In una discussione successiva a febbraio, gli ingegneri hanno parlato dei set di dati acquisiti, incluso l'HD-VG-130M, un set di 130 milioni di video di YouTube. Il set di dati è stato creato da ricercatori dell'Università di Pechino in Cina e la sua licenza d'uso afferma che può essere utilizzato solo per scopi accademici.
"Scaricando o utilizzando i dati, comprendi, riconosci e accetti tutti i termini del seguente accordo", si legge nella pagina Github per il set di dati.
La pagina sottolinea "Solo per uso accademico. Qualsiasi contenuto nel set di dati HD-VG-130M è solo per uso di ricerca accademica. L'utente accetta di non copiare, scambiare o utilizzare per scopi commerciali. La distribuzione è vietata. Rispettare la privacy dei informazioni personali della fonte originale." . Qualsiasi trasmissione, modifica o qualsiasi altro comportamento simile del contenuto del set di dati non è consentito senza il permesso del proprietario del copyright.
Nel corso del progetto, i set di dati compilati e resi pubblici da ricercatori e accademici sono stati considerati liberamente disponibili per l'uso nei modelli NVIDIA. I ricercatori nel campo dell’intelligenza artificiale sono sempre più preoccupati per l’uso appropriato dei set di dati che rendono pubblici, compresi gli usi etici e legali.
Robert Mahari della MIT Data Provenance Initiative ha dichiarato a 404 Media di aver notato un aumento significativo nell’uso di licenze d’uso non commerciali per set di dati di ricerca nell’ultimo anno, suggerendo che gli accademici stanno cercando di limitare l’uso commerciale del loro lavoro. I set di dati compilati per uso di ricerca differiscono significativamente nello scopo dai set di dati compilati per uso commerciale.
"Quando gli accademici rilasciano set di dati pubblici, in particolare set di dati specifici per attività, potremmo non esaminare specificamente i dati per questioni come alcuni tipi di pregiudizi o centrismo occidentale. Se questi non sono al centro della ricerca, non ci saranno ispezioni". Mahari ha detto. "Quindi, se uno studioso afferma nella licenza 'Solo per uso accademico' o 'Si prega di non utilizzare questi dati in modi non previsti', c'è una buona ragione per rispettare queste normative. Poiché i dati potrebbero non essere di qualità commerciale, potrebbero si comportano male anche in altri tipi di ambienti."
Come molti altri giganti della tecnologia, Nvidia impiega persone che conducono e pubblicano ricerche accademiche. Tuttavia, le conversazioni interne a Nvidia esaminate da 404 Media indicano che Cosmos mira a supportare gli sforzi dell'azienda per rafforzare le sue offerte commerciali nel settore altamente competitivo dell'intelligenza artificiale.
I set di dati di ricerca rilasciati pubblicamente vengono spesso distribuiti come URL o ID YouTube per due motivi: in primo luogo, per motivi pratici: condividere milioni di file video o immagini completi è troppo complicato, in secondo luogo, per motivi legali ed etici; Ad esempio, se qualcuno elimina il proprio video o tweet di YouTube, una copia non continuerà a esistere nel set di dati senza la conoscenza o l'autorizzazione del proprietario.
“È un po’ come aggirare i vincoli legali non distribuendo il set di dati a estranei”, ha detto a 404 Media Emily Bender, professoressa e direttrice del Computational Linguistics Laboratory dell’Università di Washington. "Altri possono creare il set di dati e utilizzarlo per i propri scopi."
Dettagli della discussione esposti: in che modo NVIDIA ruba i dati ai margini della legge?
A marzo, un ricercatore ha avviato una discussione su Slack sulla possibilità che il generatore video Sora di OpenAI utilizzi film di Hollywood come "Avatar" e "Il Signore degli Anelli" come dati di addestramento.
"I film sono in realtà una buona fonte di dati per la continuità 3D simile a un gioco e contenuti di fantasia, ma di qualità superiore. I personaggi sono completamente CGI, e molte delle scene live-action sono ora anche CGI", hanno detto. Qualcuno ha risposto che la squadra avrebbe dovuto allenarsi sul set di dati del film di Discovery Channel.
Liu Mingyu ha detto: "Abbiamo bisogno di un volontario per scaricare tutti i film".
Il ricercatore che originariamente aveva proposto il film ha aggiunto: "Anche se è molto chiaro quello che stanno facendo, dobbiamo stare molto attenti al fatto che Hollywood diventi ipersensibile all'intelligenza artificiale, come è successo alla comunità degli artisti dopo l'uscita di SD [Stable Diffusion ] e ora sta accadendo a Hollywood."
Hanno poi pubblicato due link nella chat: un articolo di Hollywood Reporter su Tyler Perry che ha sospeso l'espansione dello studio da 800 milioni di dollari dopo aver visto Sora di OpenAI, e un articolo di Vanity Fair sullo sciopero SAG-AFTRA del 2023 porta ad articoli che includono il linguaggio dell'IA nei contratti degli studi.
Liu Mingyu ha sottolineato: "Quello che stiamo facendo qui non pubblicherà alcun risultato della ricerca. Utilizzeremo tutti i dati scaricabili per condurre esperimenti. Poiché non pubblicheremo nulla, non ci saranno emozioni negative. Chi ha parlato con 404 Media Ex dipendenti ha spiegato che "pubblicare" si riferisce a pubblicazioni di ricerca.
La persona che ha sollevato "alta sensibilità" ha risposto: "Se realizziamo un progetto del genere all'interno dell'azienda, dovrebbe essere comunicato ampiamente, perché mostrare esempi simili potrebbe causare reazioni negative. Liu Mingyu ha risposto: "Sì".
A marzo, Ferroni ha scritto in un altro canale Slack relativo al progetto: "Sono stati trovati alcuni file ad alta priorità che dovevano essere scaricati. Si è scoperto che mancavano 2,3 milioni di video grezzi dal set di dati HDVILA [High-Resolution Video Language] che avevamo. . !" Si riferivano all'HD-VILA-100M di Microsoft, un set di dati in linguaggi video diversificato e su larga scala. Hanno inviato un collegamento a un documento di Google Drive e hanno detto: "Ecco il collegamento YouTube mancante", quindi hanno detto: "Inseriamolo nel processo di download!"
La dichiarazione di licenza per HD-VILA-100M recita:
"Accetti di utilizzare i dati solo per scopi computazionali per ricerche non commerciali. Questa limitazione significa che puoi impegnarti in attività di ricerca non commerciale (inclusa la ricerca non commerciale condotta o finanziata da un ente commerciale), ma non puoi utilizzarli i dati o eventuali risultati per qualsiasi prodotto commerciale, anche come parte di un prodotto o servizio che utilizzi o fornisci ad altri (o per migliorare qualsiasi prodotto o servizio).
"Creiamo un database di URL scaricati", ha risposto un altro ingegnere. "I video di YouTube hanno ID univoci. Possiamo usare questi ID come riferimenti (gli ID dopo "?v=")? Confronteremo e uniremo gli URL molte volte in futuro. Ferroni ha risposto: "Sì, lo stiamo usando ora Hive setup dell'infrastruttura", il che significa che la stanno aggiungendo allo strumento di gestione dei progetti Hive.
Il membro del team Omniverse che hanno taggato ha risposto: "Siamo su AWS e il riavvio di un'istanza [di una macchina virtuale] ci fornisce un nuovo IP pubblico, quindi al momento non è un problema."
In una discussione su Slack nel canale #cosmos-dataset-creation su come trovare i video migliori, i dipendenti hanno occasionalmente menzionato le questioni legali ed etiche del loro lavoro. A febbraio, dopo che qualcuno aveva menzionato l'utilizzo di YouTube-8M, un set di dati di ricerca di ID YouTube compilato da Google, Ferroni ha chiesto: "Forse non possiamo utilizzare [YT8M] per scopi non di ricerca?"
Il documento e la pagina del progetto di YouTube-8M non menzionano problemi di copyright, ma il documento afferma che il set di dati è stato creato per far avanzare la ricerca sull’apprendimento automatico: “Ci aspettiamo che questo set di dati fornisca condizioni di parità per i ricercatori nel mondo accademico Set di dati video annotati su larga scala e accelerando in modo significativo la ricerca sulla comprensione dei video. Ci auguriamo che questo set di dati serva da banco di prova per lo sviluppo di nuovi algoritmi di apprendimento della rappresentazione video, in particolare metodi che gestiscono efficacemente etichette rumorose o incomplete.
In risposta alla domanda di Ferroni sull'utilizzo per il progetto Cosmos, un dipendente NVIDIA che in precedenza ha co-creato l'ACAV100M ha risposto:
"Sì, scaricare dati da Google è molto costoso. Tuttavia, programmare 10.000 core da NVIDIA è stata una sfida.
Inoltre, le limitazioni della larghezza di banda di NVIDIA nel cloud aggiungono una notevole variabilità che può causare problemi. Scaricare su Google Cloud significa che ogni attività riceve una connessione stabile e a larghezza di banda elevata a YouTube. "
"Ancora più importante, il download di video di YouTube è vietato dai termini di servizio di YouTube. Pertanto, durante il download di YouTube 8m, abbiamo comunicato in anticipo con Google e YouTube e abbiamo utilizzato Google Cloud per il download come incentivo.Dopotutto, in genere per 8 milioni di video, ricevono molte impressioni degli annunci che vengono scaricate quando vengono utilizzate per la formazione e comportano una perdita di entrate, quindi dovrebbero ricavarne delle entrate. Pagare $ 0,00625 per il download di video è ancora un buon affare. "
"Va bene, quindi questi dati dovrebbero essere utilizzati solo per scopi di ricerca? Per quanto ne so, l'API YouTube di Google può interrogare i termini di licenza di ciascun video", ha risposto Ferroni. "Puoi commentare anche i termini di licenza di ACAV100M e YouTube8M?"
"Per quanto ne so, i termini di servizio di YouTube vietano il download indipendentemente dalla licenza; la restrizione riguarda le entrate pubblicitarie perse, non la licenza", ha risposto un altro dipendente. Hanno continuato:
"Non so quali termini di licenza siano stati filtrati da Google durante la creazione del set di dati; abbiamo semplicemente scaricato ciò che hanno elencato come incluso nel set di dati (hanno pubblicato le funzionalità, insieme ai collegamenti ai video originali). Ho scaricato i dati di YouTube 8m The set viene fornito con metadati completi, quindi puoi controllare ogni video lì. Devo ancora controllare il set di dati ACAV100M. In generale, CC o dominio pubblico sarebbe meglio, tuttavia, se è disponibile materiale protetto da copyright. L'uso per la formazione è attualmente aperto problema legale; la maggior parte delle aziende sembra considerarlo un fair use. Credo che il nostro team legale abbia approvato questa pratica per la formazione di modelli linguistici di grandi dimensioni e probabilmente approverà anche la formazione video.
“Penso che ci sia un enorme divario tra la commercializzazione di qualcosa senza il consenso di qualcuno e la ricerca sulle capacità dell’intelligenza artificiale generativa basata su contenuti rilasciati pubblicamente”, ha detto a 404 Media Shayne Longpre, uno studente di dottorato presso il MIT Media Lab. Le domande sui termini di servizio di YouTube nel canale Cosmos Slack non sono state l'ultima volta che sono emersi problemi legali.
Più tardi, un altro dipendente ha detto: "Ehi squadra. Stiamo utilizzando https://research.google.com/youtube8m/download.html per scaricare video? Se sì, abbiamo l'approvazione legale? In un progetto, l'ufficio legale ha negato la sua utilizzare perché la licenza per i singoli video è migliore della licenza condivisa su yt8m. "Questa è una decisione amministrativa. Abbiamo una licenza principale che copre tutti i dati", ha risposto Liu Mingyu. "Va bene, grazie!" ha risposto la persona che ha posto la domanda.
Bender ha dichiarato a 404 Media che la società sta approfittando dell'attuale zona grigia legale che circonda i contenuti protetti da copyright utilizzati per i dati di addestramento. "Mi sembra che esista sicuramente una cultura del tipo 'se possiamo ottenerlo, possiamo usarlo'", ha detto. "Si basa in gran parte sul desiderio delle persone che ciò accada, piuttosto che su uno studio attento della sua legalità o su una riflessione profonda sul suo impatto sulle persone."
L’utilizzo di contenuti protetti da copyright per la formazione sull’intelligenza artificiale “non è sicuramente una legge consolidata”, ha affermato Mahari. Il sistema legale deve ancora determinare se ottenere dati di addestramento per sviluppare modelli di intelligenza artificiale sia sufficientemente trasformativo, soprattutto perché è stato dimostrato che i modelli sono in grado di ricordare o richiamare i dati di addestramento come output. “Il mio punto (parzialmente riassunto in questo articolo di Science) è che l’addestramento di un modello di intelligenza artificiale può effettivamente costituire un fair use, ma ciò non significa che generare output simili a elementi specifici nei dati di addestramento non costituisca violazione.
In questo caso, non è chiaro se il fornitore del modello sottostante o l’utente specifico che genera l’output costituirebbero una violazione (ciò potrebbe dipendere dal contesto). "
A maggio, un ricercatore ha inserito collegamenti ad alcuni canali YouTube nel canale Cosmos Slack e ha detto: "Se siete ancora aperti ai suggerimenti per i canali YouTube che potete scaricare, eccone alcuni che potrebbero valere la pena di essere presi in considerazione". Include i canali ufficiali di Expedia e Architectural Digest, nonché singoli creatori di contenuti come The Critical Drinker e Marques Brownlee (MKBHD). Un project manager li ha ringraziati per i loro suggerimenti e ha detto che li avrebbero trasmessi al team, al che Fidler ha risposto: "Hai incluso anche un video tutorial? Astronomia? Medicina?"
La "problema legale in sospeso" relativa all'utilizzo di opere protette da copyright per la formazione su modelli di base commerciali potrebbe non rimanere irrisolta a lungo.
Si stanno accumulando cause legali per violazione del copyright intentate dai detentori di copyright contro le società di intelligenza artificiale generativa, inclusa la causa di Getty Images contro il creatore di Stable Diffusion Stability AI, la causa del New York Times contro OpenAI e artisti e creatori contro Stability,A metà viaggio , DeviantArt e Runway hanno intentato un'azione legale collettiva. Il team dei dati di formazione di Cosmos ha anche discusso dell'utilizzo di Netflix per addestrare il generatore.
"Nell'incontro di oggi, abbiamo ottenuto il permesso di scaricare tutti i tipi di dati. Dovremmo scaricare l'intero Netflix? Come possiamo renderlo operativo?", ha detto Liu nel canale Slack. "Dovremmo scaricare l'intero Discovery Channel!"
qualcuno ha risposto. "Abbiamo bisogno di un coordinatore delle informazioni sul progetto. Chi vuole catturare lo schermo mentre guarda tutti i film?", ha detto Liu. "Dovremmo ottenere molti video di volti di alta qualità", ha continuato Liu. Qualcuno del team dell'infrastruttura Omniverse è stato taggato nel thread e ha notato che era disposto ad aiutare a "renderlo operativo" perché aveva "esperienza con altre grandi aziende nella creazione di grandi set di dati".
Il team ha inoltre considerato il modo migliore per aggiungere filmati di videogiochi ai dati di allenamento. Jim Fan, ricercatore senior presso Nvidia, ha affermato che esistono ostacoli "ingegneristici e normativi" nell'acquisizione di video di gioco dal vivo.
"Aggiornamento: ho incontrato i ragazzi di GeForce Now (GFN) e lavorerò con loro su un piano dati. Lavoreremo a stretto contatto con GFN e i team di ingegneri associati per creare l'acquisizione di dati di gioco in tempo reale, scalare la pipeline e elaborare questi dati per l'allenamento. I video di gameplay di alta qualità saranno un'aggiunta molto utile al nostro progetto Sora," ha scritto Fan. “Non disponiamo ancora di statistiche o file video perché l'infrastruttura non è stata impostata per acquisire grandi quantità di video e azioni di giochi dal vivo. Tuttavia, una volta puliti ed elaborati i dati GFN, dobbiamo superare gli ostacoli tecnici e normativi arriva, verrà aggiunto al team-vfm il prima possibile."
A marzo il progetto ha raggiunto un traguardo: in due settimane sono stati scaricati 100.000 video. Un dipendente ha menzionato in un thread in cui si discuteva dell'importante traguardo che Ferroni ha un downloader che sta utilizzando e Ferroni ha confermato che stavano scaricando audio e video. "Progressi straordinari. La domanda ora è come possiamo ottenere un gran numero di URL di alta qualità", ha risposto Liu.
Alla fine di maggio, ai membri del team di progetto è stata inviata un’e-mail di strategia sui dati per i dati video, in cui si annunciava di aver compilato 38,5 milioni di URL video. "In base alla nostra distribuzione target, l'attenzione per la prossima settimana rimane focalizzata su film, riprese con droni, video in prima persona e alcuni video di viaggi e natura", si legge nell'e-mail. L'e-mail includeva anche un grafico che mostrava la percentuale dei tipi di contenuto scaricati.
In quell'e-mail, un product manager ha suggerito di aggiungere quattro set di dati aggiuntivi ai dati di addestramento del modello. Scrissero:

1. Ego-Exo4D: un set di dati video e benchmark diversificato, multimodale e multi-vista su larga scala, raccolto da 740 portatori di fotocamera in 13 città di tutto il mondo, catturando 1286,3 ore di video di attività umane qualificate.

2. Ego4D: un set di dati con prospettiva in prima persona su larga scala e una suite di benchmark con oltre 3670 ore di video di attività di vita quotidiana raccolti in 74 località e 9 paesi in tutto il mondo.

3. HOI4D: un set di dati di prima visualizzazione quadridimensionale su larga scala con ricche annotazioni per facilitare lo studio delle interazioni uomo-oggetto a livello di categoria.

4. GeForce Now: dati di gioco.
HOI4D è stato creato da ricercatori dell'Università di Tsinghua, dell'Università di Pechino e dell'Istituto di ricerca Qizhi di Shanghai. È concesso in licenza con CC BY-NC 4.0 e non è consentito alcun uso commerciale.
"Secondo me, se un'azienda prende un set di dati che è solo per scopi di ricerca e lo utilizza per la ricerca, rispetta comunque la licenza per quel set di dati", ha affermato Bender.
"Ma per garantire ciò, devono stare molto attenti a costruire barriere tra la ricerca che fanno e il lavoro che svolgono nello sviluppo del prodotto."
In un'altra email di aggiornamento di maggio, Liu ha detto: "Il gruppo di ricerca sta ora addestrando un modello con 1 miliardo di parametri utilizzando molte configurazioni diverse, ciascuna con 16 nodi. Si tratta di un debug importante prima di ulteriori passaggi di espansione. Abbiamo in programma di trarre conclusioni entro un poche settimane e poi scalare fino a un modello da 10 miliardi di parametri”.
Il CEO di Nvidia Jensen Huang ha risposto in quell'e-mail: "Ottimo aggiornamento. Molte aziende devono creare modelli basati su video. Possiamo fornire una pipeline completamente accelerata".
A giugno, i dipendenti hanno discusso su quali tipi di contenuti nei modelli sarebbero più utili affinché i prodotti Nvidia rimangano competitivi nel settore dell'intelligenza artificiale.
"NVIDIA dispone di robot, auto a guida autonoma, Omniverse e Avatar che la maggior parte delle società di contenuti non possiede. Per avere il massimo impatto sull'azienda, i dati che curiamo devono essere ben applicabili a queste applicazioni killer", ha affermato Liu.
"Capisco i dati che influiscono sui robot e sulle auto a guida autonoma. Qualcuno può condividere i dettagli dei dati che influiscono sui casi d'uso di Omniverse e Avatar?", ha risposto un product manager. "Sarà un video su come gli esseri umani interagiscono con gli oggetti. Come installare mobili, tagliare frutta, piegare la biancheria", ha risposto Liu.
Il progresso dei modelli IA è basato sulle tue e mie creazioni?
Sebbene Nvidia contribuisca alla ricerca accademica, le conversazioni e le e-mail ottenute da 404 Media mostrano che il modello su cui sta lavorando il team Cosmos è destinato all'uso commerciale su molteplici dei suoi prodotti.
Fino a quando non verrà stabilito un precedente legale su come vengono compilati i dati di formazione, o fino a quando le aziende non saranno tenute a essere trasparenti su questi dati, le aziende continueranno a sfruttare l’area grigia legale dell’eliminazione dei dati di formazione protetti da copyright. Le fughe di conversazioni interne come questa sono l'unico modo in cui le persone possono sapere se il loro lavoro viene utilizzato per addestrare modelli che fanno fruttare miliardi di dollari ad aziende come Nvidia o Runway o OpenAI.
Da anni il settore dell’intelligenza artificiale spinge per una maggiore trasparenza, sia attraverso la regolamentazione governativa che attraverso gli standard di settore.
All’inizio di quest’anno, Jack Hardinges, Elena Simperl e Nigel Shadbolt del MIT hanno scritto: “È fondamentale capire cosa c’è nei set di dati utilizzati per addestrare i modelli e come sono stati compilati. Senza queste informazioni, gli sviluppatori, i ricercatori e gli esperti di etica dovrebbero affrontare gli sforzi distorcere o rimuovere contenuti dannosi dai dati sarà ostacolato.
Le informazioni sui dati di formazione saranno cruciali anche per i legislatori per valutare se i modelli sottostanti hanno inserito dati personali o materiale protetto da copyright. A valle, i futuri operatori dei sistemi di intelligenza artificiale e coloro che sono interessati dal loro utilizzo hanno maggiori probabilità di fidarsi di questi sistemi se comprendono come sono stati sviluppati. "
Lo scorso anno i legislatori hanno presentato diversi progetti di legge per affrontare la questione, tra cui l’AI Underlying Model Transparency Act di dicembre, che richiederebbe alle aziende che creano modelli di intelligenza artificiale di collaborare con agenzie federali come la FTC e il Copyright Office per sviluppare standard di trasparenza, inclusa la richiesta di loro di divulgare determinate informazioni ai consumatori.
Il Generative AI Copyright Disclosure Act, proposto nell’aprile di quest’anno, richiederebbe ai produttori di set di dati di presentare “un riepilogo sufficientemente dettagliato di qualsiasi lavoro protetto da copyright” al registrar, pena sanzioni.
"Tecnicamente, è davvero difficile determinare se il tuo lavoro è stato utilizzato per la formazione", ha detto Mahari. "Internamente, la politica migliore è non dire alla gente quale formazione usi perché è molto difficile per terze parti verificarlo e scoprirlo. Quindi, finché non lo dici a nessuno, è molto difficile da dimostrare."
In allegato l'indirizzo originale del rapporto:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/