Sisältää 170 000 videota! NVIDIA ja muut jättiläiset paljastettiin YouTube-tietojen laittomasta käyttämisestä models

Sisältää 170 000 videota!NVIDIA ja muut jättiläiset paljastettiin YouTube-tietojen laittomasta käytöstä mallien kouluttamiseen

2024-07-17

Tekniikan jättiläiset paljastettiin käyttäneen luvatonta YouTube-sisältöä tekoälyn (AI) mallien kouluttamiseen.

Heinäkuun 16. päivänä paikallista aikaa ulkomaiset tiedotusvälineet raportoivat, että jotkut suuret teknologiayritykset, kuten Apple, Nvidia, Salesforce ja Anthrophic, joutuivat käyttämään Googlen omistaman videosivuston YouTube-videosivuston luvatonta dataa AI-malleja harjoittaessaan. Yritykset käyttivät kolmannen osapuolen toimittamaa datajoukkoa, joka sisälsi suuria määriä YouTubesta kaavittua videon tekstitystekstiä, mikä rikkoi YouTuben sääntöjä, jotka kieltävät sisällön kaappaamisen alustalta ilman lupaa.

Raportti huomautti, että nämä teknologiayritykset käyttivät AI-malleja harjoittaessaan tietojoukkoa, jonka nimi on "YouTube Subtitles". Tämä tietojoukko koostuu videotekstitysten pelkkää tekstistä, mukaan lukien vloggaajien lataamasta osasta ja Youtuben automaattisesti litteroimasta tekstistä. Englannin lisäksi se sisältää yleensä myös käännöksiä kielille, kuten japaniksi, saksaksi ja Arabialainen.

Voittoa tavoittelematon järjestö EleutherAI on kiistanalaisen tietojoukon luoja, eikä yritys ole vielä vastannut tähän tarinaan. Virallisen verkkosivuston mukaan EleutherAI:n tavoitteena on "alentaa tekoälyn kehittämisen kynnystä ja tarjota kaikille pääsy huippuluokan tekoälyteknologiaan koulutuksen ja mallien julkaisemisen kautta." Aiemmin EleutherAI julkaisi tietokokoelman nimeltä "Pile", josta suurin osa on avoimia yleisölle, mukaan lukien YouTuben tekstitykset.

Tiedot osoittavat, että muutama viikko ennen kuin Apple julkaisi tämän vuoden huhtikuussa loppupuolen pienen mallin OpenELM-mallin, yhtiö käytti Pileä koulutukseen. On kuitenkin syytä huomata, että Apple ei itse lataa näitä tietoja. Eli teknisesti EleutherAI rikkoi YouTuben käyttöehtoja.

Tekoälystartup Anthropicin tiedottaja vahvisti, että Pile-tietojoukkoa oli käytetty yrityksen luovan tekoälyavustajan Clauden kouluttamiseen ja että YouTuben ehdot kattoivat vain "sen alustan suoran käytön" ja suosittelivat keskustelemaan kaikista rikkomuksista Pilen alkuperäisen YouTuben käyttöehdoista käyttäytyminen. Apple, Nvidia, Salesforce ja muut yritykset eivät ole vielä vastanneet asiaan.

Tämä tapaus koskee sisällöntuottajia, kuten tunnettuja bloggaajia, kuten Marques Brownlee, MrBeast ja PewDiePie, sekä suuret uutisjulkaisijat, kuten The New York Times, British Broadcasting Corporation (BBC) ja ABC News Yhdysvalloissa. Lisäksi osa tietojoukon materiaalista edistää salaliittoteorioita, kuten "Flat Earth", ja sisältää jopa sisältöä videoista, jotka on poistettu. Nyt Pile on poistettu viralliselta lataussivustolta, mutta se on edelleen käytettävissä tiedostonjakopalvelujen kautta.

Tältä osin tunnettu teknologiabloggaaja Marques Brownlee sanoi videoni mukaan lukien, että Apple ei teknisesti tehnyt virhettä, he eivät raapineet tietoja ennakoivasti, mutta tämä tulee olemaan pitkäaikainen ongelma.

Twiitti Marques Brownleelta.Lähde: X-alusta

Vaikka Apple ja muut yritykset ovat saattaneet käyttää julkisia tietojoukkoja eikä rikkomuksia ollut, tämä tapaus on jälleen kerran kiinnittänyt huomion tekoälykoulutuksen taustalla oleviin tietoongelmiin. Tämän vuoden alussa YouTuben emoyhtiö Google joutui käyttämään alustan videoita malliensa kouluttamiseen. Google vastasi tuolloin, että tämä toiminta ei rikkonut alustan ja sisällöntuottajien välistä sopimusta.

Tämän vuoden maaliskuussa OpenAI:n teknologiajohtaja Mira Murati oli haastattelussa epämääräinen Vincent-videomallin Soran harjoitustietojen lähteestä. Huhtikuussa YouTuben toimitusjohtaja Neal Mohan sanoi haastattelussa, ettei hänellä ollut suoria todisteita siitä, että OpenAI olisi käyttänyt YouTube-videoita Vincent-video-AI-työkalunsa Soran parantamiseen YouTube-alustan käyttöehdot.

uutiset

Sisältää 170 000 videota!NVIDIA ja muut jättiläiset paljastettiin YouTube-tietojen laittomasta käytöstä mallien kouluttamiseen

Johdanto

yhteystietoni