Nvidian salaperäinen videopohjamalli "Cosmos" paljastetaan, ja kaikki tiedot varastetaan

2024-08-06

Koneen sydänraportti

Machine Heart -toimitusosasto

Tätä videomallia varten NVIDIA indeksoi kiihkeästi 80 vuoden videodataa vastaavan määrän joka päivä.

Tänään Redditissä räjähti uutinen Nvidian päätöksestä lopettaa videomallien valmistus.

Uutisten lähde on peräisin ulkomaisesta mediasta 404 Media. Slack-chatin (Nvidian sisäinen chat-alusta) mukaan Nvidia nappaa videoita Youtubesta ja useista muista lähteistä kerätäkseen harjoitustietoja tekoälytuotteistaan.

404 Median tarkistamat Nvidian sisäiset keskustelut osoittavat, että kun projektiin osallistuneet työntekijät ilmaisivat huolensa mahdollisista oikeudellisista ongelmista, jotka johtuvat "kaupallisesti kiellettyjen tutkimusaineistojen" ja "YouTube-videoiden" käytöstä, johtajat kertoivat heille, että he ovat saaneet hyväksynnän korkeimmilta tasoilta. yritys, jota voidaan käyttää.

Anonyymi entinen Nvidian työntekijä sanoi, että työntekijöitä pyydettiin kaappaamaan videoita Netflixistä, YouTubesta ja muista lähteistä, jotta ne voisivat kouluttaa tekoälymalleja Omniverse 3D -maailman generaattorille, itseohjautuville autojärjestelmille ja "digitaalisille ihmisille".

Projektia, jonka sisäinen nimi on Cosmos (mutta erillään yrityksen nykyisestä Cosmos-syväoppimistuotteesta), ei ole vielä julkaistu julkisuuteen. Projektin johdon työntekijöille lähettämän sähköpostin mukaan Cosmosin tavoitteena on rakentaa huippuluokan videoinfrastruktuurimalli, joka "kapseloi kevyen kuljetuksen, fysiikan ja älykkään simulaation yhteen paikkaan, jotta voidaan avata erilaisten loppupään näkökohtia, jotka ovat kriittisiä Nvidia."

NVIDIAn työntekijät käyttivät koulutusvideoiden keräämiseen avoimen lähdekoodin YouTube-videoiden latausohjelmaa nimeltä "yt-dlp". He yrittävät ladata kokonaisia videoita eri lähteistä, kuten Netflixistä, mutta keskittyvät pääasiassa YouTube-videoihin. 404 Median tarkistamat sähköpostit osoittavat, että projektipäällikkö päätti käyttää 20-30 virtuaalikonetta Amazon Web Servicesissä ladatakseen 80 vuoden videota joka päivä.

"Viimeistelemme v1-dataputkea ja varmistamme tarvittavat laskentaresurssit rakentaaksemme videodatatehtaan, joka voi tuottaa päivittäistä koulutusdataa, joka vastaa ihmisen elinikäistä visuaalista kokemusta."

Kysyttäessä Nvidian YouTube-videoiden käyttämisestä mallien harjoitustietoina, Googlen tiedottaja kertoi 404 Medialle, että yrityksen "aiempi kanta on edelleen voimassa". Aiemmin YouTuben toimitusjohtaja Neal Mohan sanoi, että jos OpenAI käyttäisi YouTube-videoita parantaakseen tekoälyvideogeneraattoriaan Soraa, se olisi "selvä rikkomus" YouTuben käyttöehtoihin.

Samoin Netflixin tiedottaja kertoi 404 Medialle, että yrityksellä ei ole sopimusta Nvidian kanssa sisällön hankinnasta ja että alustan käyttöehdot eivät salli sisällön kaapimista.

Nvidia ei kuitenkaan näytä välittävän. Projektipäälliköt hylkäsivät usein projektiin osallistuneiden työntekijöiden oikeudelliset huolenaiheet ja sanoivat, että päätös kaapata video ilman lupaa oli "toimeenpanopäätös", josta heidän ei tarvinnut huolehtia, ja mikä merkitsi tekijänoikeudella suojatun materiaalin oikeudenmukaista ja eettistä käyttöä. sisältöä ja kysymystä tietojoukon akateemisesta, ei-kaupallisesta käytöstä pidetään "avoimina oikeudellisina kysymyksinä", jotka ne ratkaisevat tulevaisuudessa.

NVIDIA-videomalliprojektin alku ja loppu

Muiden teknologiajättien tapaan Nvidia palkkaa akateemisia tutkimuskykyjä julkaisemaan akateemisia tuloksia, mutta 404 Median saamista sisäisistä sähköpostiviesteistä voidaan nähdä, että Cosmosta käytetään ilmeisesti kaupallisiin tarkoituksiin.

Tämän vuoden maaliskuussa NVIDIA-tutkija julkaisi Slackin ja ehdotti, että Hollywood-elokuvien, kuten "Avatar" tai "sormusten herrasta", käyttö OpenAI Soran kouluttamiseen voisi olla tehokkaampaa.

Myöhemmin hänen ehdotuksensa tunnustettiin yrityksessä, mutta hän lisäsi myös, että Hollywood on erityisen herkkä mahdolliselle tekoälyn loukkaajalle. Heinäkuussa 2023 SAG-AFTRA, yksi Hollywoodin kolmesta suuresta ammattiliitosta, jossa on 160 000 jäsentä, ilmoitti lakosta, joka kohdistui luoviin tekoälytuotteisiin, kuten ChatGPT ja Stable Diffusion. Tätä ennen Writers Guild of America oli ollut lakossa yli 70 päivää. Stable Diffusion -tilassa on tilanne, vaikka et kirjoita vastaavaa kehotussanaa ja anna epämääräisen kuvauksen, kuten "Animaatiotyylinen putkimies", Stable Diffusion luo suoraan Marion klassisen kuvan.

Tämän viestin alla työntekijä nimeltä "Liu" (eli Ming-Yu Liu (Liu Mingyu), NVIDIA:n tutkimusjohtaja) vastasi: "Jos paperia ei julkaista julkisesti, se ei aiheuta yllä olevia negatiivisia ongelmia. Meidän pitäisi käytä ensin ladattavia videoita kokeiluun."

Myöhemmin toinen NVIDIA-tutkija julkaisi intranetissä luettelon tiedostoista, jotka tulisi ladata ensin NVIDIA:n käyttämästä HD-VILA-100M-tietojoukosta. Tämä jatkuvasti laajeneva luettelo sisältää myös alkuperäisiä videoita tunnetuilta YouTube-käyttäjiltä, kuten Marques Brownleelta (MKBHD), digitaalisen arvostelun bloggaajalta, jolla on maine Pohjois-Amerikassa, kuten "Hei kaikille, olen luokkatoveri Hän".

Tekijänoikeussuojan vuoksi yleiset videotietojoukot sisältävät usein URL-linkkejä tai YouTube-tunnuksia. Kun tekijä on poistanut alkuperäisen videon, tämä sisältö ei enää sisälly tietojoukkoon, ellei videon tekijä nimenomaisesti suostu sisällön säilyttämiseen ja käyttöön. .

Vaikka Microsoft nimenomaisesti kieltää HD-VILA-100M-tietojoukon kaupallisen käytön, viestin lähettänyt Nvidian työntekijä ei näyttänyt välittävän hänestä nopeasti luetteloa vastaavan YouTube-linkin ja jakoi sen kollegoilleen Keskustelimme ratkaisusta käyttää AWS-virtuaalikoneita IP-osoitteiden vaihtamiseen YouTuben indeksoinnin estomekanismin kiertämiseksi.

Lisäksi NVIDIA:n työntekijät ottivat yhteyttä YouTube-8M:ään, joka on Googlen julkaisema laajamittainen videoiden ymmärtämistä käsittelevä tietojoukko. Sen sijaan, että he olisivat täydentäneet Microsoftin tietojoukkoa, he tekivät "kaupan" YouTuben ja Googlen kanssa, vaan YouTuben nykyinen emoyhtiö osti 800 videota hintaan 0,00625 dollaria (noin 4 senttiä) videota kohti, ja ne ladataan Google Cloudin kautta. Tekijänoikeuksien myyntiongelmasta huolimatta Google saattaa luulla, että se on ansainnut näiden videoiden mainosmaksut, mutta Nvidialla on jo joitain rajoituksia pilven kaistanleveydelle. Tästä syystä, katsotpa sitä miten tahansa, tämä "sopimus" näyttää hyödyttävän Nvidiaa.

Vielä yllättävämpää on, kun Nvidian työntekijä kysyi intranetissä: "Onko meidän järkevää ladata tällaisia YouTube-videoita?"

"Tämä on korkean tason päätös. Meillä on täysi lupa käyttää kaikkia tietoja."

Tämän päätöksen sallitut tiedot sisältävät myös Netflixin videotuotannon. Netflixin tiedot sisältävät paljon korkealaatuista kasvodataa Sen hyväksymisen jälkeen joku pyysi auttamaan yrityksen intranetissä olevia kollegoita, joilla oli kokemusta "suurten tietojoukkojen rakentamisesta" muissa suurissa yrityksissä.

Samaan aikaan Cosmos-tiimi pohti myös sitä, kuinka pelimateriaalia voidaan lisätä tehokkaasti harjoitustietoihin. NVIDIAn vanhempi tutkija Jim Fan kohtasi myös "sääntelyn" esteitä tallentaessaan reaaliaikaista pelimateriaalia.

Jim Fan lähetti viestin:

Päivitys: Olen tavannut GeForce Nowin (GFN) ihmisiä ja työskennellyt heidän kanssaan. Teemme tiivistä yhteistyötä GFN:n ja siihen liittyvien insinööritiimien kanssa kehittääksemme menetelmiä reaaliaikaisten pelitietojen keräämiseksi, putkilinjan laajuuden laajentamiseksi ja tietojen käsittelemiseksi koulutusta varten. Laadukkaat pelivideot ovat erittäin hyödyllinen lisä "Meidän Soraan"... Koska laitteita live-pelivideoiden ja -toimintojen tallentamiseen ei ole vielä saatavilla, tilastoja ei ole vielä tehty, mutta siivoamme ja käsittelemme GFN:n tiedot lisätään team-vfm:ään.

Tämän vuoden maaliskuussa Project Cosmon videotietojen kerääminen saavutti virstanpylvään: Nvidia latasi 100 000 videota kahdessa viikossa.

"Edistyminen on hämmästyttävää. Nyt on kysymys siitä, kuinka voimme saada suuren määrän korkealaatuisia URL-osoitteita." Liu vastasi tässä viestissä.

Toukokuun lopulla projektiryhmän jäsenet saivat videodatastrategiaa koskevan sähköpostin, jossa ilmoitettiin koonneensa 38,5 miljoonaa video-URL-osoitetta. "Suunnitelman mukaan ensi viikon videokokoelman painopiste on edelleen elokuvat, drone-materiaalit, ensimmäisen persoonan perspektiivimateriaalit ja luonnonmaisemat", sähköpostissa kerrottiin myös kaavio, joka näyttää heidän lataamansa sisällön tyypit. prosentteina.

Sähköposti paljasti joitakin keskeisiä teknisiä tietoja, mukaan lukien neljä tietojoukkoa mallin koulutustiedoista:

Ego-Exo4D: Monipuolinen, laajamittainen, multimodaalinen, usean näkymän videotietojoukko ja vertailuarvo, jonka on kerännyt 740 kameran käyttäjää 13 kaupungissa eri puolilla maailmaa ja joka tallentaa 1286,3 tuntia videota ammattitaitoisesta ihmisen toiminnasta.
Ego4D: Tämä on laajamittainen, itsekeskeinen tietojoukko ja vertailuarvopaketti, joka kerää yli 3 670 tuntia päivittäistä elämää koskevaa videota 74 paikassa 9 maassa ympäri maailmaa.
HOI4D : Laaja mittakaava itsekeskeinen 4D-tietojoukko, jossa on runsaasti merkintöjä, jotka helpottavat luokkatason ihmisen ja objektin vuorovaikutustutkimusta. HOI4D:n loivat tutkijat Tsinghuan yliopistosta, Pekingin yliopistosta ja Shanghai Qizhi Research Institutesta. Se on lisensoitu CC BY-NC 4.0:lla ja kaupallinen käyttö on kielletty.
GeForce nyt: Pelitiedot.

Toisessa sähköpostissa Cosmos-projektin jäsenet sanoivat: "Tutkijaryhmä kouluttaa nyt miljardin parametrin mallia, jossa on useita konfiguraatioita, joista jokaisessa on 16 solmua. Tämä on tärkeä virheenkorjausvaihe ennen lisäskaalausta. Aiomme tehdä johtopäätöksiä muutaman viikon ja skaalata sitten 10 miljardin parametrin malliin."

"Tämä päivitys on hieno!" Nvidian toimitusjohtaja Jen-Hsun Huang vastasi sähköpostiin: "Monet yritykset ovat asettaneet tavoitteeksi perusvideomallin rakentamisen, ja voimme varmasti rakentaa nopeutetun putkilinjan."

Kesäkuussa projektitiimin jäsenet keskustelivat siitä, minkä tyyppisistä sisällöistä mallissa olisi eniten hyötyä Nvidian tuotteille tekoälyteollisuuden kilpailukyvyn ylläpitämisen yhteydessä.

"NVIDIA:ssa on robotiikkaa, autonomista ajoa, Omniversea ja Avataria, joita useimmilla sisältöyrityksillä ei ole. Yrityksen kasvun maksimoimiseksi järjestämiemme tietojen on sovelluttava hyvin näihin "tappaja"-sovelluksiin", Cosmos Projectin jäsen sanoi.

Ei ole epäilystäkään siitä, että Cosmos-tiimin kehittämä malli on tarkoitettu kaupalliseen käyttöön sen monissa tuotteissa.

Kunnes lainsäädäntöä, joka velvoittaisi näitä yrityksiä paljastamaan koulutustietonsa, ne jatkavat lakisääteisten harmaiden alueiden hyödyntämistä tekijänoikeudella suojatun tiedon keräämiseen. Ilman sisäisten sähköpostien tai intranet-keskustelujen vuotamista kukaan ei tietäisi, mitä kulissien takana tapahtuu, ja tällainen malli voisi tehdä Nvidian, Runwayn tai OpenAI:n kaltaisista teknologiajätteistä miljardeja dollareita.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

uutiset

Nvidian salaperäinen videopohjamalli "Cosmos" paljastetaan, ja kaikki tiedot varastetaan

Johdanto

yhteystietoni