AI-data puhkeaa "öljykriisiin", sisältöyritykset voivat vain rentoutua ja ansaita rahaa

2024-07-23

“

Jos suurta tekoälymallia verrataan autoon, raakadata on raakaöljy.

”

Kirjailija |. Jiang Jiang

Toimittaja Manmanzhou

ChatGPT:n syntyminen ja Keskimatka Tekoälyn räjähdysmäinen käyttöönotto on mahdollistanut tekoälyn ensimmäisen laajamittaisen sovelluksensa eli suurten mallien popularisoinnin.

Ns. suurella mallilla tarkoitetaan koneoppimismallia, jossa on suuri määrä parametreja ja monimutkainen rakenne, joka pystyy käsittelemään massiivisia tietoja ja suorittamaan erilaisia monimutkaisia tehtäviä.

AI-datan tekijänoikeuskiistat

Jos nykyisiä suuria tekoälymalleja verrataan autoihin, raakadata on raakaöljy. Joka tapauksessa ensinnäkin AI-malli tarvitsee tarpeeksi "raakaöljyä".

Tekoälyyritysten tärkeimmät "raakaöljyn" lähteet sisältävät seuraavat luokat:

●Avoimet ja ilmaiset tietolähteet Internetissä, kuten Wikipedia, blogit, foorumit, uutiset jne.;

●Vanhat uutismediat ja kustantamot;

●Yliopistot ja muut tutkimuslaitokset;

● Mallia käyttävät C-puolen käyttäjät.

Öljyn omistusoikeuksilla reaalimaailmassa on jo kypsät oikeudelliset säännökset. Tekoälyn edelleen kaoottisessa kentässä oikeudet hyödyntää "raakaöljyä" eivät kuitenkaan ole vielä selviä, ja siitä aiheutuvat kiistat ovat lukuisia.

Äskettäin useat suuret levy-yhtiöt haastoivat tekoälyn musiikkituotantoyhtiöitä oikeuteenSunojaUdio , syyttäen sitä tekijänoikeusloukkauksesta.Oikeusjuttu seuraa The New York Timesin joulukuussa nostettua oikeusjuttuaOpenAIoikeudenkäynti on samanlainen.

Lähde: Billboard

Heinäkuussa 2023 jotkut kirjoittajat nostivat kanteen yritystä vastaan väittäenChatGPTYhteenveto tekijän teoksista luodaan tekijänoikeudella suojatusta sisällöstä.

Saman vuoden joulukuussa uutisoi myös New York TimesMicrosoftjaOpenAISamanlainen tekijänoikeusloukkausjuttu nostettiin, jossa syytettiin kahta yritystä sanomalehden sisällön käyttämisestä tekoälyn chatbottien kouluttamiseen.

Lisäksi Kaliforniassa nostettiin ryhmäkanne, jossa syytettiin OpenAI:ta käyttäjien yksityisten tietojen hankkimisesta Internetistä ChatGPT:n kouluttamiseksi ilman käyttäjän suostumusta.

OpenAI ei lopulta maksanut syytöstä He ilmoittivat, että he eivät ole samaa mieltä New York Timesin syytöksestä eivätkä voineet toistaa New York Timesin mainitsemia ongelmia, mikä vielä tärkeämpää, ns York Times oli OpenAI:lle ei ole väliä.

Lähde: https://openai.com/index/openai-and-journalism/

OpenAI:lle ehkä suurin opetus tästä tapauksesta on käsitellä oikein suhteita tiedon toimittajiin ja selventää molempien osapuolten oikeuksia ja velvollisuuksia. Tämän seurauksena olemme nähneet OpenAI:n saavuttaneen kumppanuuksia useiden tiedontuottajien kanssa kuluneen vuoden aikana, mukaan lukien muun muassa The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project ja enemmän.

Jatkossa OpenAI käyttää laillisesti näiden medioiden dataa, ja nämä mediat integroivat myös OpenAI:n teknologian tuotteisiinsa.

Tekoäly ohjaa sisältöalustojen kaupallistamista

Perimmäisin syy OpenAI:n solmimiseen tiedontuottajien kanssa ei kuitenkaan ole oikeuteen joutumisen pelko, vaan koneoppimisen uhkaava tietojen ehtyminen. Tutkijat, kuten MIT, suorittivat tutkimuksen, jossa arvioitiin, että koneoppimistietojoukot voivat tyhjentää kaiken "korkealaatuisen kielidatan" vuoteen 2026 mennessä.

"Korkealaatuisesta datasta" on siksi tullut kuuma hyödyke mallintekijöille, kuten OpenAI ja Google. Sisältöyritykset ja tekoälymallien valmistajat ovat toistuvasti päässeet yhteistyöhön tasaisen voittomallin käynnistämiseksi.

Perinteinen media-alusta Shutterstock on tehnyt peräkkäin yhteistyötä tekoälyyritysten, kuten Meta, Alphabet, Amazon, Apple, OpenAI, Reka jne., kanssa ja kasvattaa vuotuista liikevaihtoaan 104 miljoonaan dollariin lisensoimalla sisältöä tekoälymalleihin vuonna 2023. odotetaan tuottavan 250 miljoonaa dollaria tuloja vuonna 2027. Googlelle lisensoidun sisällön tuotto on jopa 60 miljoonaa dollaria vuodessa. vuosi. Sisältöyhtiöiden tekoälyyrityksiltä saamat rojaltit kasvavat 450 prosentin vuotuisella kasvuvauhdilla.

Kuvan lähde: CX Scoop

Muutaman viime vuoden aikana muun sisällön kuin suoratoistomedian kaupallistaminen on ollut vaikeaa, mikä on ollut sisältöteollisuuden suuri kipukohta. Verrattuna Internet-yrittäjyyden aikakauteen tekoälyn ilmaantuminen on tuonut lisää mielikuvitusta ja vahvemmat tuloodotukset sisältöteollisuudelle.

Laadukasta dataa on edelleen vähän

Kaikki sisältö ei tietenkään täytä tekoälyn tarpeita.

Mitä tulee yllä mainittuun OpenAI:n ja New York Timesin väliseen keskusteluun, toinen valopilkku on tiedon laatu. Öljyn jalostamiseksi raakaöljystä ensinnäkin itse öljyn on oltava hyvälaatuista ja toiseksi puhdistustekniikan on oltava hyvä.

OpenAI korostaa erityisesti, että New York Timesin sisältö ei ole merkittävästi edistänyt OpenAI:n mallikoulutusta. Verrattuna Shutterstockiin, jonka ansiosta OpenAI voi käyttää kymmeniä miljoonia dollareita vuodessa, tekstimedia, kuten New York Times, luottaa siihen. ajankohtaisuus ei ole AI-aikakauden kulta. AI vaatii syvällistä ja ainutlaatuista dataa.

Laadukasta dataa on kuitenkin liian vähän, ja tekoälyyritykset ovat myös alkaneet työskennellä lujasti "puhdistusteknologian" ja "yhden luukun sovelluksen" parissa.

OpenAI osti 25. kesäkuuta reaaliaikaisen analytiikan tietokantayhtiön Rocksetin. Tämä yritys tarjoaa pääasiassa reaaliaikaisia tietojen indeksointi- ja kyselytoimintoja. OpenAI integroi Rocksetin teknologian tuotteisiinsa parantaakseen tietojen reaaliaikaista käyttöarvoa.

Kuvan lähde: DePIN Scan

Ostamalla Rocksetin OpenAI aikoo mahdollistaa tekoälyn paremman hyödyntämisen ja pääsyn reaaliaikaiseen dataan. Tämän ansiosta OpenAI:n tuotteet tukevat monimutkaisempia sovelluksia, kuten reaaliaikaisia suositusjärjestelmiä, dynaamisia dataohjattuja chat-robotteja, reaaliaikaisia valvonta- ja hälytysjärjestelmiä jne.

Rocket on OpenAI:n sisäänrakennettu "petrokemian osasto", joka muuntaa tavalliset tiedot suoraan sovellusten vaatimaan korkealaatuiseen dataan.

Onko sisällöntuottajien tietooikeuksien vahvistaminen mielikuvitusta?

Internet-mediaalustoista (Facebook, Reddit jne.) tulevat tiedot suurelta osinUGC , eli käyttäjien lisäämää sisältöä. Vaikka monet alustat veloittavat korkeat datamaksut tekoälyyrityksiltä, ne lisäävät hiljaa käyttäjäehtoihin lausekkeen, jonka mukaan "alustalla on oikeus käyttää käyttäjätietoja tekoälymallien kouluttamiseen".

Vaikka käyttöehdot osoittavat selvästi oikeudet kouluttaa tekoälymalleja, monet kirjoittajat eivät tiedä, mitkä mallit käyttävät heidän tuottamaansa sisältöä, eivätkä he tiedä maksavatko he siitä, eivätkä he voi saada asiaankuuluvia oikeuksia ja etuja, joiden pitäisi kuulua. heille.

Metan neljännesvuosittaisessa tulospuhelussa helmikuussa Zuckerberg teki selväksi, että hän aikoo käyttää Facebookin ja Instagramin kuvia kouluttaakseen tekoälyä tuottavia työkalujaan.

Raporttien mukaan Tumblr on mystisesti päässyt myös sisällön lisenssisopimuksiin OpenAin ja Midjourneyn kanssa, mutta yksittäisten sopimusten konkreettista sisältöä ei ole paljastettu.

Kuvagalleriaalustan EyeEm luojat saivat äskettäin myös ilmoituksen, että heidän julkaisemiaan kuvia käytettäisiin tekoälymallikoulutukseen. Ilmoituksessa mainittiin, että käyttäjät voivat halutessaan olla käyttämättä tuotetta, mutta siinä ei mainittu mitään korvauskäytäntöä. EyeEmin emoyhtiö Freepik kertoi Reutersille allekirjoittaneensa sopimukset kahden suuren teknologiayrityksen kanssa lisensoidakseen suurimman osan 200 miljoonasta kuvastaan noin 3 sentillä per kuva. Toimitusjohtaja Joaquin Cuenca Abela sanoi, että viisi muuta vastaavaa sopimusta oli työn alla, mutta kieltäytyi paljastamasta ostajan henkilöllisyyttä.

UGC-johtamat sisältöalustat, kuten Getty Images, Adobe, Photobucket, Flickr ja Reddit, kohtaavat kaikki samanlaisia ongelmia Datan kaupallistamisen valtavan kiusauksen vuoksi alustat päättävät jättää huomiotta käyttäjien sisällön omistajuuden ja pakata tiedot ja myydä ne tekoälymallille. yritykset.

Koko prosessi suoritettiin pimeässä, eikä tekijöillä ollut mahdollisuutta vastustaa. Monenkin tekijän saattaa joutua kouluttamaan omien teoksiensa kaltaista sisältöä jossain mallissa jonain päivänä, ennen kuin heillä on mahdollisuus epäillä, että heidän aikaisemmat teoksensa on myyty tietyltä alustalta tekoälyyritykselle mallikoulutukseen.

Web3 voi olla hyvä valinta ratkaisemaan tekijöiden tietooikeuksien ja tulojen suojaamisen vaikeusongelma. Kun tekoälyyritykset saavuttivat uusia huippuja Yhdysvaltain osakemarkkinoilla, myös web3:n tekoälykonseptivaluutta nousi samaan aikaan. Lohkoketjulla on hajautettuja ja ei-käsiteltyjä ominaisuuksia, ja se nauttii ainutlaatuisista eduista tekijöiden oikeuksien suojelemisessa.

Mediasisällöt, kuten kuvat ja videot, ovat saaneet laajan käyttöönoton ketjussa vuoden 2021 härkämarkkinoilla, ja myös UGC-sisältöä sosiaalisilla alustoilla tapahtuu hiljaa ketjussa. Samaan aikaan monet web3 AI -mallialustat kannustavat jo tavallisia käyttäjiä, jotka osallistuvat mallikoulutukseen, olivatpa he tiedon omistajia tai kouluttajia.

Tekoälymallien eksponentiaalinen kehitys on asettanut entistä suurempia vaatimuksia tietojen todentamiselle. Tekijöiden tulisi miettiä: Miksi työni myytiin tekoälymalliyritykselle 5 sentillä kappaleelta ilman lupaani? Miksi en ollut tietoinen koko prosessista enkä pystynyt saamaan mitään hyötyä?

Media-alustan pyrkimykset isojen kalan saalistamiseen eivät voi lievittää tekoälymalliyritysten datapelkoa. Korkealaatuisen datan ja korkean tuoton saavuttamisen edellytyksenä on tietooikeuksien vahvistaminen, mikä on kohtuullinen intressien jakautuminen tekijöiden, alustojen ja tekoälyn kesken. malliyritykset.

Viitelähteet:

Shutterstock teki viime vuonna 104 miljoonan dollarin lisenssiomaisuuden tekoälykehittäjille (PetaPixel)
Kaikki valokuvayritykset, jotka ovat tehneet lisensoinnin, tekevät sopimuksia tekoälyyritysten (PetaPixel) kanssa
Redditillä on uusi AI-koulutussopimus myydäkseen käyttäjäsisältöä (TheEverge)
GPT-4 kuluttaa kaiken datan universumissa! OpenAI on ollut mukana oikeudenkäynneissä peräkkäin tietojen puutteen vuoksi, ja UC Berkeleyn professori antoi varoituksen (Xinzhiyuan)
OpenAI ostaa Rocksetin (OpenAI)

uutiset

AI-data puhkeaa "öljykriisiin", sisältöyritykset voivat vain rentoutua ja ansaita rahaa

Johdanto

yhteystietoni