Nvidia altistui datavarkauksille, indeksoi yli 80 vuoden videodataa joka päivä, ja myös Pekingin yliopiston akateeminen tietojoukko kärsi

Nvidia altistui datavarkauksille, indeksoi yli 80 vuoden videodataa joka päivä, ja myös Pekingin yliopiston akateeminen tietojoukko kärsi.

2024-08-06

NVIDIA näyttää olleen viime aikoina levoton ajanjakso.

Sen jälkeen kun paljastettiin, että sen tehokkaimman tekoälysirun massatuotanto viivästyi ja sen markkina-arvo haihtui yli 300 miljardilla dollarilla, 404 Media paljasti Nvidian, koska se nappasi videosisältöä YouTuben ja Netflixin kaltaisista alustoista ilman lupaa kouluttaa sitä. AI-videomalli, jota ei ole vielä julkaistu yleisölle.

Sisäiset sähköpostit ja Slack-chatit osoittavat, että vaikka Nvidian työntekijät ovat esittäneet kysymyksiä näiden tietojoukkojen käytön laillisuudesta ja eettisyydestä, yrityksen johto sanoi, että ylin johto oli hyväksynyt nämä toimet ja väitti, että heidän toimintansa olivat tekijänoikeuslain mukaisia.

On syytä mainita, että helmikuun lopun sisäisissä keskusteluissa NVIDIA mainitsi useita käyttämiään tietojoukkoja, mukaan lukien HD-VG-130M.

Jälkimmäinen on Pekingin yliopiston tutkijoiden rakentama 130 miljoonan YouTube-videon tietojoukko, ja sen käyttölisenssissä mainitaan nimenomaisesti, että se rajoittuu akateemiseen tutkimukseen.

Nvidian lähestymistapa on enemmän kuin useimpien AI-yritysten mikrokosmos nykyään.

Kun käyttäjiä on pidetty "datakassakoneina", elleivät sisäpiiriläiset paljasta sitä, ulkomaailman on todella vaikea tietää, onko sinun ja minun teoksistani tullut tekoälykoulutuksen ravintoa.

Lyhyesti sanottuna ihmiset ovat edelleen kuluttajia elintarvikeketjun huipulla, mutta meistä tulee väistämättä osa tekoälyn kehittämisen toimitusketjua.

Seuraava on ulkomaisen median uutisten alkuperäinen teksti 404 Media, kirjoittaja GPT-4o Käännös, nauti siitä~

Syötä mallia YouTube-videoilla ja lataa päivittäin 80 vuoden videoita vastaava määrä

404 Median hankkimat sisäiset Slackin keskustelut, sähköpostit ja asiakirjat osoittavat sen Nvidia kerää videoita YouTubesta ja useista muista lähteistä kootaakseen harjoitustietoja tekoälytuotteilleen. Kun kysyttiin tekijänoikeudella suojatun sisällön käytön oikeudellisista ja eettisistä ongelmista tekoälymallien kouluttamiseen, Nvidia väitti, että sen lähestymistapa "on täysin tekijänoikeuslain kirjaimen ja hengen mukainen".

404 Median tarkistamat Nvidian sisäiset keskustelut osoittavat, että kun työntekijät esittivät kysymyksiä tutkijoiden tutkimustarkoituksiin keräämien tietojoukkojen ja YouTube-videoiden käytön mahdollisista oikeudellisista vaikutuksista, johtajat kertoivat heille, että yrityksen ylemmän tason edustajat olivat hyväksyneet niiden käytön.

Entinen Nvidian työntekijä (jolle 404 Media myönsi nimettömyyden keskustellakseen Nvidian sisäisistä prosesseista) sanoi, että työntekijöitä pyydettiin kaappaamaan videoita Netflixistä, YouTubesta ja muista lähteistä Nvidian Omniverse 3D -maailmangeneraattorin kouluttamiseksi.AutopilottiAutojen järjestelmät ja "digitaalinen mies"Tuotteen AI-malli.

Projektia, joka tunnetaan sisäisesti nimellä Cosmos (mutta erillään yrityksen nykyisestä Cosmos-syväoppimistuotteesta), ei ole vielä julkaistu julkisesti.

Projektin johtajan lähettämä sähköposti paljasti, että Cosmos pyrkii rakentamaan huippuluokan videoinfrastruktuurimallin, joka "kokoaa kevyen liikenteen, fysiikan ja älykkyyden simulaatiot yhteen paikkaan kehittääkseen erilaisia Nvidian kannalta kriittisiä sovelluksia".

404 Median saamassa sähköpostissa on kaavio, joka näyttää, kuinka Cosmos-malli soveltuu erilaisiin Nvidian tuotteisiin.

Yrityksen hanketta varten perustaman kanavan löysät viestit osoittavat, että työntekijät käyttävät avoimen lähdekoodin YouTube-videoiden latausohjelmaa nimeltä yt-dlp yhdistettynä virtuaalikoneen IP-osoitteen päivittämiseen YouTuben estämiseksi.

Lähteen mukaan he yrittivät ladata kokonaisia videoita useista lähteistä, mukaan lukien Netflixistä, mutta keskittyivät pääasiassa YouTube-videoihin.

404 Median tarkistamissa sähköpostiviesteissä projektipäälliköt keskustelevat 20–30 Amazon Web Services -virtuaalikoneen käyttämisestä 80 vuoden videon lataamiseen päivässä.

"Viimeistelemme v1-dataputkea ja varmistamme riittävät laskentaresurssit rakentaaksemme videodatatehtaan, joka pystyy tuottamaan 100 % videodataa päivittäin", sanoi Mingyu Liu, Nvidian tutkimusjohtaja ja Cosmos-projektin johtaja. toukokuussa sähköpostissa datan määrä ihmisen elinikäisessä visuaalisessa kokemuksessa.

Keskustelut ja ohjeet Nvidian sisällä osoittavat, että työntekijät keskustelevat yrityksen juridisista ja eettisistä näkökohdista suunniteltaessa siruja ja API-liittymiä, jotka ovat vauhdittaneet generatiivisen tekoälyn nousua ja tehneet siitä yhden maailman arvokkaimmista julkisista yhtiöistä.

Se korostaa myös alan suurimpia yrityksiä, kuten Runway ja OpenAI, on olemassa tyydyttämätön kysyntä sisällölle datana tekoälymallien harjoittelua varten.

Nvidian tiedottaja sanoi sähköpostissa 404 Medialle:

Kunnioitamme kaikkien sisällöntuottajien oikeuksia ja uskomme vakaasti, että mallimme ja tutkimustyömme ovat täysin tekijänoikeuslain kirjaimen ja hengen mukaisia. Tekijänoikeuslaki suojaa tiettyjä ilmaisuja, mutta ei tosiasioita, mielipiteitä, tietoja tai tietoja. Kuka tahansa voi oppia faktoja, ideoita, dataa tai tietoa muista lähteistä ja käyttää niitä oman ilmaisun luomiseen. Reilu käyttö suojaa myös oikeutta käyttää teosta muuntaviin tarkoituksiin, kuten mallikoulutukseen.

Kysyttäessä Nvidian YouTube-videoiden käyttämisestä malliensa harjoitustietoina, Googlen tiedottaja kertoi 404 Medialle, että yrityksen "aiemmat kommentit ovat edelleen voimassa".

Heistä YouTuben toimitusjohtaja Neal Mohan sanoi, että jos OpenAI käyttää YouTube-videoita optimoidakseen tekoälyvideogeneraattorinsa Sora, tämä rikkoo selvästi YouTuben käyttöehtoja.

Netflixin tiedottaja kertoi 404 Medialle, että Netflixillä ei ole sopimusta Nvidian kanssa sisällön hankinnasta ja että alustan käyttöehdot eivät salli tietojen kaapimista.

Projektipäälliköt hylkäsivät yleensä kysymykset hankkeeseen osallistuneiden työntekijöiden oikeudellisista ongelmista ja sanoivat, että päätös kaapata video ilman lupaa oli "korkean tason päätös" ja että työntekijöillä ei ollut mitään hätää siitä, mikä oli sääntöjen rikkomista. tekijänoikeudella suojattua sisältöä ja aihetta tietojen reilusta ja eettisestä käytöstä akateemiseen, ei-kaupalliseen käyttöön pidetään "ratkaisemattomana oikeudellisena ongelmana", jonka ne ratkaisevat tulevaisuudessa.

Tutkimuksemme korostaa näiden teknologiayritysten "älkää kysykö" -asennetta, kun ne kaappaavat valtavia määriä tekijänoikeudella suojattua sisältöä tietokokonaisuuksiin, joita käytetään joidenkin maailman arvokkaimpien tekoälymallien kouluttamiseen.

Nvidian johtajat ehdottivat, että myös Pekingin yliopiston akateemista datajoukkoa käytettiin väärin

Helmikuussa 2024 Francesco Ferroni, Nvidian johtava tutkija, kirjoitti Nvidia Slack -kanavalle nimeltä #cosmos-dataset-creation:

"Hei kaikille, @Sanja Fidler mainitsi minulle aloitteen koota yhteen suuri määrä kuratoituja videotietojoukkoja generatiivista mallintamista varten. Ajattelimme, että kaikkien sisäisesti saatavilla olevien (julkisesti tai sisäisesti ladattujen) videotietosarjojen yhdistäminen on erittäin mielekästä. ”

(Huomaa: Sanja Fidler on Nvidian tekoälytutkimuksen varapresidentti.)

Ferroni linkitettiin sitten laskentataulukkoon, jossa oli linkkejä tietosarjoihin, mukaan lukien MovieNet, 60 000 elokuvatrailerin tietokanta ja WebVid, Githubissa olevista kuvista koottu videotietojoukko, jonka Shutterstock poisti myöhemmin ilmoituksen saatuaan), InternVid -10 miljoonaa (10 miljoonan YouTube-videotunnuksen tietojoukko Githubissa) ja useita tietojoukkoja sisäisesti kaapattua videopelimateriaalia. 404 Media on poistanut nuorempien työntekijöiden nimet Slackin keskustelujen kuvakaappauksista.

Otimme mukaan useiden projektiin osallistuneiden vanhempien insinöörien ja johtajien nimet, koska he ovat julkisesti nähtävissä tekoälyteollisuuden johtajina.

Ferronin linkittämä taulukko näyttää projektissa käytetyt aineistot

Helmikuussa pidetyssä seurantakeskustelussa insinöörit puhuivat hankkimistaan datasarjoista, mukaan lukien HD-VG-130M, 130 miljoonan YouTube-videon sarja. Aineiston ovat luoneet Kiinan Pekingin yliopiston tutkijat, ja sen käyttöluvan mukaan sitä saa käyttää vain akateemisiin tarkoituksiin.

"Lataamalla tai käyttämällä tietoja ymmärrät, hyväksyt ja hyväksyt kaikki seuraavan sopimuksen ehdot", datajoukon Github-sivulla lukee.

Sivulla painotetaan "Vain akateemiseen käyttöön. Kaikki HD-VG-130M-tietojoukon sisältö on tarkoitettu vain akateemiseen tutkimuskäyttöön. Sitoudut olemaan kopioimatta, myymättä tai käyttämättä kaupallisiin tarkoituksiin. Jakelu on kielletty. Kunnioita käyttäjän yksityisyyttä alkuperäisen lähteen henkilötiedot." . Tietojoukon sisällön lähettäminen, muokkaaminen tai muu vastaava käyttäytyminen ei ole sallittua ilman tekijänoikeuden omistajan lupaa.

Koko projektin ajan tutkijoiden ja tutkijoiden kokoamia ja julkisesti saataville asettamia tietojoukkoja pidettiin vapaasti saatavilla NVIDIA-malleissa. Tekoälytutkijat ovat yhä enemmän huolissaan julkaisemiensa tietokokonaisuuksien asianmukaisesta käytöstä, mukaan lukien eettinen ja laillinen käyttö.

Robert Mahari MIT Data Provenance Initiativesta kertoi 404 Medialle, että he ovat havainneet tutkimusaineistojen ei-kaupallisen käytön lisenssien käytön lisääntyneen merkittävästi viimeisen vuoden aikana, mikä viittaa siihen, että tutkijat yrittävät rajoittaa työnsä kaupallista käyttöä. Tutkimuskäyttöön kootut aineistot eroavat tarkoitukseltaan merkittävästi kaupalliseen käyttöön kootuista aineistoista.

"Kun tutkijat julkaisevat julkisia tietojoukkoja, erityisesti tehtäväkohtaisia tietojoukkoja, emme välttämättä tarkastele tietoja erityisesti tietyntyyppisten harhojen tai länsikeskeisyyden varalta. Jos ne eivät ole tutkimuksen kohteena, tarkastuksia ei tehdä." Mahari sanoi. "Jos tutkija sanoo lisenssissä "Vain akateemiseen käyttöön" tai "Älä käytä näitä tietoja tahattomilla tavoilla", on hyvä syy noudattaa näitä säännöksiä. Koska tiedot eivät välttämättä ole kaupallista laatua. toimivat huonosti myös muissa ympäristöissä."

Kuten monet muutkin teknologiajätit, Nvidia työllistää ihmisiä, jotka tekevät ja julkaisevat akateemista tutkimusta. 404 Median tarkastamat sisäiset keskustelut Nvidialla osoittavat kuitenkin, että Cosmos pyrkii tukemaan yrityksen pyrkimyksiä vahvistaa kaupallista tarjontaansa erittäin kilpailukykyisellä tekoälyteollisuudella.

Julkisesti julkaistut tutkimustietojoukot jaetaan usein URL-osoitteina tai YouTube-tunnuksina kahdesta syystä: ensinnäkin käytännön syistä – miljoonien kokonaisten video- tai kuvatiedostojen jakaminen on liian hankalaa oikeudellisista ja eettisistä syistä. Jos joku esimerkiksi poistaa YouTube-videonsa tai twiittinsä, kopio ei säily tietojoukossa ilman omistajan tietämystä tai lupaa.

"Se on kuin oikeudellisten rajoitusten kiertämistä jättämällä jakamatta tietojoukkoa ulkopuolisille", Washingtonin yliopiston laskennallisen lingvistiikkalaboratorion professori ja johtaja Emily Bender kertoi 404 Medialle. "Toiset voivat rakentaa tietojoukon ja käyttää sitä omiin tarkoituksiinsa."

Keskustelun yksityiskohdat paljastuvat, kuinka NVIDIA varastaa tietoja lain reunalla?

Maaliskuussa eräs tutkija aloitti Slackin keskustelun OpenAI:n Sora-videogeneraattorin mahdollisuudesta käyttää harjoitustietoina Hollywood-elokuvia, kuten "Avatar" ja "Lord of the Rings".

"Elokuvat ovat itse asiassa hyvä tietolähde pelimaiseen 3D-jatkuvuuteen ja fiktiiviseen sisältöön, mutta korkeammalla laadulla. Hahmot ovat täysin CGI-muotoisia, ja monet live-action-kohtaukset ovat nyt myös CGI-muotoisia", he sanoivat. Joku vastasi, että tiimin pitäisi harjoitella Discovery Channel -elokuvatietojoukosta.

Liu Mingyu sanoi: "Tarvitsemme vapaaehtoisen lataamaan kaikki elokuvat."

Elokuvaa alun perin ehdottanut tutkija lisäsi: "Vaikka on hyvin selvää, mitä he tekevät, meidän on oltava erittäin varovaisia Hollywoodin yliherkkyydestä tekoälylle, kuten tapahtui taiteilijayhteisölle SD:n [Stable Diffusion -julkaisun jälkeen. ] ja nyt tapahtuu Hollywoodissa."

Sitten he julkaisivat kaksi linkkiä chattiin: Hollywood Reporter -artikkelin Tyler Perrystä keskeyttämään 800 miljoonan dollarin studiolaajennuksen nähtyään OpenAI:n Soran, ja Vanity Fairin artikkelin vuoden 2023 SAG-AFTRA-lakosta, joka johtaa artikkeleihin, jotka sisältävät tekoälyn kieltä studiosopimuksissa.

Liu Mingyu korosti: "Se, mitä teemme täällä, ei julkaise tutkimustuloksia. Käytämme kaikkia ladattavia tietoja kokeiden suorittamiseen. Koska emme julkaise mitään, ei tule olemaan negatiivisia tunteita, jotka puhuivat 404 Median entiselle työntekijälle." sana "julkaise" viittaa tutkimusjulkaisuihin.

"Korkean herkkyyden" nostanut henkilö vastasi: "Jos toteutamme tällaisen projektin yrityksen sisällä, siitä pitäisi tiedottaa laajasti, koska samankaltaisten esimerkkien näyttäminen voi aiheuttaa vastareaktiota", vastasi Liu Mingyu.

Ferroni kirjoitti maaliskuussa toisessa projektiin liittyvässä Slack-kanavassa: "Löydettiin joitakin korkean prioriteetin tiedostoja, jotka oli ladattava. Kävi ilmi, että 2,3 miljoonaa raakavideota puuttui meidän HDVILA [High-Resolution Video Language] -tietojoukosta. ." He viittasivat Microsoftin HD-VILA-100M:ään, laajaan, korkearesoluutioiseen ja monipuoliseen videokielitietosarjaan. He lähettivät linkin Google Drive -asiakirjaan ja sanoivat "Tässä on puuttuva YouTube-linkki" ja sanoivat sitten: "Lisätään tämä latausprosessiin!"

HD-VILA-100M:n lisenssilausunnossa lukee:

"Sitoudut käyttämään tietoja vain laskennallisiin tarkoituksiin ei-kaupalliseen tutkimukseen. Tämä rajoitus tarkoittaa, että voit harjoittaa ei-kaupallista tutkimustoimintaa (mukaan lukien kaupallisen yhteisön suorittama tai rahoittama ei-kaupallinen tutkimus), mutta et saa käyttää tiedot tai tulokset minkä tahansa kaupallisen tuotteen osalta, myös osana tuotetta tai palvelua, jota käytät tai tarjoat muille (tai minkä tahansa tuotteen tai palvelun parantamiseksi).

"Luodetaan tietokanta ladatuista URL-osoitteista", toinen insinööri vastasi. "YouTube-videoilla on yksilölliset tunnukset. Voimmeko käyttää näitä tunnuksia viitteinä (tunnukset "?v=":n jälkeen)? Vertailemme ja yhdistämme URL-osoitteita monta kertaa tulevaisuudessa. Ferroni vastasi: "Kyllä, käytämme sitä nyt." asennusinfrastruktuuri", mikä tarkoittaa, että he lisäävät sen projektinhallintatyökaluun Hive.

Heidän merkitsemänsä Omniverse-tiimin jäsen vastasi: "Olemme AWS:ssä ja [virtuaalikoneen] ilmentymän uudelleenkäynnistäminen antaa meille uuden julkisen IP-osoitteen, joten se ei ole ongelma tällä hetkellä."

#cosmos-dataset-creation-kanavalla käydyssä Slack-keskustelussa parhaiden videoiden löytämisestä työntekijät mainitsivat toisinaan työnsä juridiset ja eettiset kysymykset. Helmikuussa, kun joku mainitsi Googlen kokoaman YouTube-tunnusten tutkimustietojoukon YouTube-8M:n käyttämisen, Ferroni kysyi: "Ehkä emme voi käyttää [YT8M:ää] muihin kuin tutkimustarkoituksiin?"

YouTube-8M:n paperilla ja projektisivulla ei mainita tekijänoikeusongelmia, mutta asiakirjassa todetaan, että tietojoukko luotiin koneoppimistutkimuksen edistämiseksi: "Odotamme tämän tietojoukon tarjoavan tutkijoille tasapuoliset toimintaedellytykset - mittakaavassa kommentoituja videoaineistoja ja nopeuttavan merkittävästi videon ymmärtämisen tutkimusta. Toivomme, että tämä tietojoukko toimii testausalustana uusien videoesitysten oppimisalgoritmien kehittämisessä, erityisesti menetelmiä, jotka käsittelevät tehokkaasti meluisia tai epätäydellisiä merkintöjä.

Vastauksena Ferronin kysymykseen sen käytöstä Cosmos-projektissa, NVIDIAn työntekijä, joka oli aiemmin mukana luomassa ACAV100M:n, vastasi:

"Kyllä, datan lataaminen Googlesta on erittäin kallista. 10 000 ytimen ajoittaminen NVIDIAsta on kuitenkin ollut haaste.

Lisäksi NVIDIAn kaistanleveyden rajoitukset pilvessä lisäävät huomattavaa vaihtelua, joka voi aiheuttaa ongelmia. Lataaminen Google Cloudista tarkoittaa, että jokainen tehtävä saa vakaan, laajakaistayhteyden YouTubeen. "

"Tärkeämpää on, että YouTube-videoiden lataaminen on kielletty YouTuben käyttöehdoissa. Joten kun lataamme YouTube 8m:n, kommunikoimme Googlen ja YouTuben kanssa etukäteen ja käytimme Google Cloudia lataamiseen kannustimena.Loppujen lopuksi tyypillisesti 8 miljoonalle videolle, he saavat paljon mainosten näyttökertoja, jotka ladataan, kun niitä käytetään koulutukseen ja jotka johtavat tulojen menetyksiin, joten heidän pitäisi saada tuloja siitä. Maksaminen 0,00625 dollaria per videon lataus on edelleen hyvä tarjous. "

"Okei, joten näitä tietoja odotetaan käytettävän vain tutkimustarkoituksiin? Sikäli kuin tiedän, Googlen YouTube-sovellusliittymä voi tiedustella kunkin videon lisenssiehdot", Ferroni vastasi. "Voitko myös kommentoida ACAV100M:n ja YouTube8M:n lisenssiehtoja?"

"Sikäli kuin tiedän, YouTuben käyttöehdot kieltävät lataamisen lisenssistä riippumatta; rajoitus koskee heidän menetettyjä mainostulojaan, ei lisenssiä", toinen työntekijä vastasi. He jatkoivat:

"En tiedä, mitä lisenssiehtoja Google suodatti luodessaan tietojoukkoa; latasimme vain sen, mitä he listasivat tietojoukkoon (he julkaisivat ominaisuudet sekä linkit alkuperäisiin videoihin). Latasin YouTuben 8 miljoonan datan. Se sisältää täydelliset metatiedot, joten voit tarkistaa ACAV100M-tietojoukon Yleisesti ottaen, jos tekijänoikeudella suojattua materiaalia on saatavilla Useimmat yritykset näyttävät pitävän tätä oikeudenmukaisena käyttönä. Uskon, että lakitiimimme on hyväksynyt tämän käytännön suurten kielimallien kouluttamiseen, ja se todennäköisesti hyväksyy myös videokoulutuksen.

"Mielestäni on valtava kuilu kaupallistamisen ilman jonkun suostumusta ja generatiivisen tekoälyn kykyjen tutkimisen välillä julkisesti julkaistun sisällön perusteella", MIT Media Labin tohtoriopiskelija Shayne Longpre kertoi 404 Medialle. YouTuben käyttöehtoja koskevat kysymykset Cosmos Slack -kanavalla eivät olleet viimeinen kerta, kun oikeudellisia ongelmia esitettiin.

Myöhemmin toinen työntekijä sanoi: "Hei tiimi. Käytämmekö videoiden lataamiseen https://research.google.com/youtube8m/download.html? Jos on, onko meillä laillinen hyväksyntä? Yhdessä projektissa lakiosasto kielsi sen käyttää, koska yksittäisten videoiden lisenssi on parempi kuin yt8m:ssä jaettu lisenssi. "Tämä on hallinnollinen päätös. Meillä on päälisenssi, joka kattaa kaikki tiedot", Liu Mingyu vastasi. "Okei, kiitos kysymyksen esittäjä vastasi.

Bender kertoi 404 Medialle, että yritys hyödyntää nykyistä laillista harmaata aluetta, joka ympäröi koulutusdatassa käytettävää tekijänoikeudella suojattua sisältöä. "Minusta vaikuttaa siltä, että on ehdottomasti olemassa kulttuuria "jos saamme sen, voimme käyttää sitä", hän sanoi. "Se perustuu pitkälti siihen, että ihmiset haluavat sen tapahtuvan, eikä sen laillisuuden huolelliseen tutkimiseen tai syvälliseen ajatteluun sen vaikutuksista ihmisiin."

Tekijänoikeudella suojatun sisällön käyttäminen tekoälykoulutuksessa "ei todellakaan ole vakiintunut laki", Mahari sanoi. Oikeusjärjestelmän ei ole vielä päätettävä, onko harjoitustietojen hankkiminen tekoälymallien kehittämiseksi tarpeeksi transformatiivista, varsinkin kun mallien on osoitettu pystyvän muistamaan tai palauttamaan harjoitustiedot tulosteena. "Muistani (jota on osittain tiivistetty tässä Science-artikkelissa) on, että tekoälymallin kouluttaminen voi todellakin olla reilua käyttöä, mutta se ei tarkoita, etteikö koulutustiedon tiettyjä kohteita vastaavien tulosteiden luominen loukkaa oikeuksia.

Tässä tapauksessa on epäselvää, loukkaako taustalla olevan mallin tarjoaja vai tietty tulosteen luova käyttäjä (tämä voi riippua kontekstista). "

Toukokuussa tutkija pudotti linkkejä joihinkin YouTube-kanaviin Cosmos Slack -kanavalla ja sanoi: "Jos olette edelleen avoimia ladattavien YouTube-kanavien ehdotuksille, tässä on muutamia, joita kannattaa harkita." Sisältää Expedian ja Architectural Digestin viralliset kanavat sekä yksittäiset sisällöntuottajat, kuten The Critical Drinker ja Marques Brownlee (MKBHD). Projektipäällikkö kiitti heitä heidän ehdotuksistaan ja sanoi, että he välittäisivät ne tiimille, johon Fidler vastasi: "Liititkö mukaan myös opetusvideon? Tähtitiede? Lääketiede?"

Tekijänoikeudella suojattujen teosten käyttäminen kaupalliseen perusmallikoulutukseen liittyvä "avoin oikeudellinen ongelma" ei välttämättä jää ratkaisematta pitkään.

Tekijänoikeuksien haltijoiden nostamat tekijänoikeusrikkomuskanteet generatiivisia tekoälyyrityksiä vastaan kasaantuvat, mukaan lukien Getty Imagesin oikeusjuttu Stable Diffusionin luojaa Stability AI:tä vastaan, The New York Timesin oikeusjuttu OpenAI:ta vastaan sekä taiteilijoiden ja luojien kanne Stabilityä vastaan.Keskimatka , DeviantArt ja Runway nostivat ryhmäkanteen. Cosmos-koulutusdatatiimi keskusteli myös Netflixin käyttämisestä generaattorin kouluttamiseen.

"Tämänpäiväisessä kokouksessa saimme luvan ladata kaikenlaista dataa. Pitäisikö meidän ladata koko Netflix? Kuinka voimme toteuttaa tämän?" Liu sanoi Slack-kanavalla. "Meidän pitäisi ladata koko Discovery Channel!"

joku vastasi. "Tarvitsemme projektitietojen koordinaattorin. Kuka haluaa tehdä kuvakaappauksia katsoessaan kaikkia elokuvia?" "Meidän pitäisi saada siitä paljon korkealaatuisia kasvovideoita", Liu jatkoi. Joku Omniverse-infrastruktuuritiimistä merkittiin ketjuun ja totesi olevansa halukas auttamaan "tämän toiminnassa", koska heillä oli "kokemusta muiden suurten yritysten rakentamisesta suuria tietojoukkoja".

Tiimi pohti myös, kuinka videopelimateriaalia voitaisiin parhaiten lisätä harjoitustietoihin. Nvidian vanhempi tutkija Jim Fan mainitsi, että live-pelivideon kaappaamiseen liittyy "teknisiä ja sääntelyllisiä" esteitä.

"Päivitys: Olen tavannut GeForce Nowin (GFN) väkeä ja työskentelen heidän kanssaan datasuunnitelman parissa. Teemme tiivistä yhteistyötä GFN:n ja siihen liittyvien suunnittelutiimien kanssa luodaksemme reaaliaikaisen pelidatan kaappauksen, skaalataksemme putkia ja käsitellä näitä tietoja harjoittelua varten Laadukkaat pelivideot ovat erittäin hyödyllinen lisä Sora-projektiimme", Fan kirjoitti. "Meillä ei ole vielä tilastoja tai videotiedostoja, koska infrastruktuuria ei ole perustettu tallentamaan suuria määriä live-pelivideoita ja -toimintoja. Meidän on kuitenkin voitettava tekniset ja säädökset, kun GFN-tiedot on puhdistettu ja käsitelty saapuu, me Se lisätään team-vfm:ään mahdollisimman pian."

Maaliskuussa projekti saavutti virstanpylvään: 100 000 videota ladattiin kahdessa viikossa. Työntekijä mainitsi virstanpylvästä keskustelevassa ketjussa, että Ferronilla on käyttämä latausohjelma, ja Ferroni vahvisti ladanneensa ääntä ja videota. "Hämmästyttävää edistystä. Kysymys on nyt siitä, kuinka saamme suuren määrän korkealaatuisia URL-osoitteita", Liu vastasi.

Toukokuun lopulla projektitiimin jäsenille lähetettiin videodataa koskeva datastrategiasähköposti, jossa ilmoitettiin, että he olivat koonneet 38,5 miljoonaa video-URL-osoitetta. "Kohdejakelumme perusteella tulevan viikon painopiste keskittyy edelleen elokuviin, drone-materiaaliin, ensimmäisen persoonan videoihin sekä joihinkin matka- ja luontovideoihin", sähköpostissa lukee. Sähköpostiin sisältyi myös kaavio, joka näyttää heidän lataamiensa sisältötyyppien prosenttiosuuden.

Tuossa sähköpostissa tuotepäällikkö ehdotti neljän lisätietojoukon lisäämistä mallin harjoitustietoihin. He kirjoittivat:

1. Ego-Exo4D: Monipuolinen laajamittainen multimodaalinen, usean näkymän videotietojoukko ja vertailuarvo, jonka on kerännyt 740 kameran käyttäjää 13 kaupungissa eri puolilla maailmaa ja joka tallentaa 1286,3 tuntia videota ammattitaitoisesta ihmisen toiminnasta.

2. Ego4D: Laajamittainen ensimmäisen persoonan perspektiivitietojoukko ja vertailuanalyysipaketti, joka sisältää yli 3670 tuntia päivittäistä toimintaa kuvaavia videoita, jotka on kerätty 74 paikkakunnalla ja 9 maassa ympäri maailmaa.

3. HOI4D: Laajan mittakaavan neliulotteinen ensimmäisen näkymän tietojoukko, jossa on runsaasti merkintöjä, jotka helpottavat luokkatason ihmisen ja objektin vuorovaikutusten tutkimista.

4. GeForce Now: Pelitiedot.

HOI4D:n loivat tutkijat Tsinghuan yliopistosta, Pekingin yliopistosta ja Shanghai Qizhi Research Institutesta. Se on lisensoitu CC BY-NC 4.0:lla, eikä kaupallinen käyttö ole sallittua.

"Mielestäni yritys ottaa aineiston, joka on tarkoitettu vain tutkimustarkoituksiin ja käyttää sitä tutkimukseen, se noudattaa edelleen kyseisen aineiston lisenssiä", Bender sanoi.

"Mutta varmistaakseen sen, heidän on oltava erittäin varovaisia rakentaessaan palomuurit tekemänsä tutkimuksen ja tuotekehitystyön välille."

Toisessa päivityssähköpostissa toukokuussa Liu sanoi: "Tutkijaryhmä kouluttaa nyt mallia, jossa on 1 miljardi parametria useilla eri kokoonpanoilla, joissa kussakin on 16 solmua. Tämä on tärkeä virheenkorjaus ennen lisälaajennusta. vaiheita. Aiomme tehdä johtopäätökset muutaman viikon ja skaalata sitten 10 miljardin parametrin malliin."

Nvidian toimitusjohtaja Jensen Huang vastasi tuossa sähköpostissa: "Upea päivitys. Monien yritysten on rakennettava videopohjaisia malleja. Voimme tarjota täysin nopeutetun putkilinjan."

Kesäkuussa työntekijät keskustelivat siitä, minkä tyyppinen sisältö malleissa olisi hyödyllisin Nvidian tuotteille pysyäkseen kilpailukykyisinä tekoälyteollisuudessa.

"NVIDIAlla on robotteja, itseohjautuvia autoja, Omniversea ja Avataria, joita useimmilla sisältöyrityksillä ei ole. Jotta keräämämme tiedot olisivat suurimmat yritykseen, niiden on sovelluttava hyvin näihin tappaviin sovelluksiin", Liu sanoi.

"Ymmärrän tiedot, jotka vaikuttavat robotteihin ja itseohjautuviin autoihin. Voiko joku kertoa Omniversen ja Avatarin käyttötapauksiin vaikuttavista tiedoista?" "Se on video siitä, kuinka ihmiset ovat vuorovaikutuksessa esineiden kanssa. Kuten huonekalujen asentaminen, hedelmien leikkaaminen, pyykin taittaminen", Liu vastasi.

Perustuuko tekoälymallien edistyminen sinun ja minun luomuksiini?

Vaikka Nvidia osallistuu akateemiseen tutkimukseen, 404 Median saamat keskustelut ja sähköpostit osoittavat, että Cosmos-tiimin työstämä malli on tarkoitettu kaupalliseen käyttöön useissa sen tuotteissa.

Kunnes koulutusdatan kokoamisesta on luotu oikeudellinen ennakkotapaus tai kunnes yritysten on oltava avoimia näistä tiedoista, yritykset jatkavat tekijänoikeudella suojatun koulutusdatan kaappaamisen laillisen harmaan alueen hyödyntämistä. Tällaisten sisäisten keskustelujen vuotaminen on ainoa tapa, jolla ihmiset voivat tietää, käytetäänkö heidän työtään sellaisten mallien kouluttamiseen, jotka tekevät Nvidian, Runwayn tai OpenAI:n kaltaisista yrityksistä miljardeja dollareita.

Tekoälyteollisuus on pyrkinyt lisäämään läpinäkyvyyttä vuosia, joko valtion säädösten tai alan standardien avulla.

Aiemmin tänä vuonna MIT:n Jack Hardinges, Elena Simperl ja Nigel Shadbolt kirjoittivat: "On tärkeää ymmärtää, mitä mallien kouluttamiseen käytetyissä tietojoukoissa on ja miten ne on koottu Ilman näitä tietoja kehittäjät, tutkijat ja eettiset asiantuntijat harhaa tai haitallisen sisällön poistamista tiedoista estetään.

Koulutusdataa koskevat tiedot ovat myös tärkeitä lainsäätäjille arvioidessaan, ovatko taustalla olevat mallit nauttineet henkilötietoja tai tekijänoikeudella suojattua materiaalia. Tekoälyjärjestelmien aiotut operaattorit ja ne, joihin niiden käyttö vaikuttaa, luottavat todennäköisemmin näihin järjestelmiin, jos he ymmärtävät, miten ne on kehitetty. "

Lainsäätäjät esittelivät viime vuonna useita lakiehdotuksia ongelman ratkaisemiseksi, mukaan lukien tekoälyn taustalla oleva avoimuuslaki joulukuussa, joka vaatisi taustalla olevia tekoälymalleja luovia yrityksiä työskentelemään liittovaltion virastojen, kuten FTC:n ja tekijänoikeusviraston kanssa, kehittämään läpinäkyvyysstandardeja, mukaan lukien vaatimuksen. niitä paljastaa tiettyjä tietoja kuluttajille.

Tämän vuoden huhtikuussa ehdotettu Generative AI Copyright Disclosure Act vaatisi tietojoukkojen tuottajia toimittamaan "riittävän yksityiskohtaisen yhteenvedon kaikista tekijänoikeuksilla suojatuista teoksista" rekisterinpitäjälle, tai uhkaa sakkoja.

"Teknisesti on todella vaikea määrittää, käytettiinkö työtäsi koulutukseen", Mahari sanoi. "Sisäisesti paras käytäntö on olla kertomatta ihmisille, mitä koulutusta käytät, koska minkä tahansa kolmannen osapuolen on erittäin vaikea tosiasiallisesti tarkastaa ja selvittää. Joten niin kauan kuin et kerro kenellekään, se on erittäin vaikea todistaa."

Liitteenä raportin alkuperäinen osoite:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

uutiset

Nvidia altistui datavarkauksille, indeksoi yli 80 vuoden videodataa joka päivä, ja myös Pekingin yliopiston akateeminen tietojoukko kärsi.

Johdanto

yhteystietoni