uutiset

Soran NVIDIA-versio alttiin kaapata laittomasti suuria määriä dataa, ja virkamies ilmaisi tyytymättömyytensä

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Soran NVIDIA-versio paljastettu——

Vastuuhenkilönä toimii koodinimeltään Cosmos, tutkimusjohtaja Liu Mingyu.

Useiden sisäisten asiakirjojen vuotamisen myötä he joutuivat kuitenkin myös alttiiksi laittomille tietojen sieppaamiselle.



(Tämä ei todellakaan ole vain kerran tai kaksi...)

Työntekijät saavat hiljaisesti indeksoida kaikki luvattomat ja luvattomat tiedot Internetissä joka päivä, kuten YouTubessa, Netflixissä ja muilla alustoilla.

Kaiken kaikkiaan päivittäin kaapattua visuaalista dataa on lähes yhtä paljon kuin ihminen pystyy havaitsemaan 80 vuoden aikana.

Tämän seurauksena Nvidia vastasi: Mitä teemme,Täysin laillista!



Soran Nvidia-versio esillä: koodinimi Cosmos

404Median saamien vuotaneiden asiakirjojen mukaan NVIDIA kerää laitonta dataa päivittäin kouluttaakseen uusia malleja.

Cosmosin tavoitteena on rakentaa huippuluokan videopohjamalli. Vuotaneiden sähköpostien mukaan malli integroi valonläpäisy-, fysiikan ja älykkyyden simulaatioita erilaisten myöhempien sovellusten lukituksen avaamiseksi.

Sitä käytetään esimerkiksi Omniverse 3D -maailmangeneraattorissa, itseohjautuvassa autojärjestelmässä ja digitaalisissa ihmistuotteissa.

Ming-Yu Liu, NVIDIA:n tutkimusjohtaja, toimii Cosmosin projektijohtajana.



Hän on myös IEEE Fellow. Hän johti NVIDIA Deep Imagination -tutkimusryhmää ja julkaisi tuotteita, kuten NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] ja NVIDIA Maxine [LivePortrait].

Edellisessä toukokuun sähköpostissa sanottiin:

Viimeistelemme v1-dataputkea ja varmistamme tarvittavat laskentaresurssit rakentaaksemme videodatatehtaan, joka voi tuottaa päivittäisen vastineen elinikäiselle koulutusdatan visuaaliselle kokemukselle.

Tässä kuvassa NVIDIA:n päätutkija Francesco Ferroni antaa linkin taulukkoon, joka kokoaa yhteen erilaisia ​​videotietojoukkoja, mukaan lukien MovieNet (60 000 elokuvatrailerin tietokanta), WebVid, InternVid-10M ja useat sisäisesti kaapatut videot pelimateriaalitietojoukosta.

Nyt entisen työntekijän mukaan työntekijöitä pyydetään raapumaan tietoja sellaisista lähteistä kuin YouTube ja Netflix.

He käyttävät avoimen lähdekoodin YouTube-videoiden latausohjelmaa nimeltä yt-dlp, joka päivittää IP-osoitteet virtuaalikoneen avulla, jotta YouTube ei estä niitä.

Tätä varten Nvidia vastasi 404 Medialle:

Kunnioitamme kaikkien sisällöntuottajien oikeuksia ja uskomme, että mallimme ja tutkimustyömme ovat täysin tekijänoikeuslain kirjaimen ja hengen mukaisia.
Tekijänoikeuslaki suojaa tiettyjä ilmaisuja, mutta ei tosiasioita, ajatuksia, tietoja tai tietoja. Jokainen voi vapaasti hankkia faktoja, ideoita, dataa tai tietoa muista lähteistä ja käyttää niitä omien mielipiteidensä ilmaisemiseen. Reilu käyttö suojaa myös kykyä käyttää teosta muuntaviin tarkoituksiin, kuten mallikoulutukseen. "

Google heitti linkin 404 Mediaan Tämän vuoden huhtikuussa YouTuben toimitusjohtaja sanoi, että jos OpenAI käyttää YouTube-videoita Soran kouluttamiseenselvä rikkomusYouTuben käyttöehdot.

Netflix sanoi, ettei sillä ollut sisällön purkamissopimusta Nvidian kanssa ja että alustan käyttöehdot eivät salli sisällön kaapimista.

Mielenkiintoista on, että samana päivänä YouTube-bloggaajat hakevat ryhmäkannea OpenAI:ta vastaan, syyttäen yritystä miljoonien YouTube-videotallenteiden käyttämisestä generatiivisten tekoälymalliensa kouluttamiseen ilmoittamatta tai maksamatta videoiden omistajille korvauksia.

Ei ole harvinaista, että nämä suuret yritykset joutuvat aiemmin altistumaan laittomille tietojen nappaamiselle.

Mutta täytyy sanoa, että tällainen raakadata on todella hyödyllistä...

Aiemmin NVIDIA käytti myös pelivideoita parantaakseen harjoitustietojen laatua.

Äskettäin Nature-lehden kanteen ilmestynyt tutkimus osoittaa, että tällä suurella alkuperäisellä Internet-datalla opetetulla mallilla on ensisijainen etu, sen tiedon laatu on paras ja vastaavan mallin suorituskyky on myös paras.

Myöhemmin, kun tekoälydataa tuli yhä runsaammaksi, suurten mallien oli helppo romahtaa.

Roskat sisään roskat ulos

Mitä mieltä olet tästä asiasta?

Viitelinkit:
[1]https://techcrunch.com/2024/08/05/youtuber-files-class-action-suit-over-openais-scrape-of-creators-transcripts/
[2]https://www.gamedeveloper.com/business/report-nvidia-used-scraped-video-game-footage-to-train-ai-products

[3]https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-caught-ingesting-as-much-of-youtube-as-possible/