Tekijänoikeusansa: Tekstiversio "Kissa ja hiiri -pelistä" AI Era

Copyright Trap: Kirjaimellinen versio "kissa-hiiri-pelistä" AI-aikakaudella

2024-07-27

siitä asti kungeneratiivinen tekoäly Maailman levinneen epidemian jälkeen monet sisällöntuottajat ovat väittäneet, että heidän töitään käytetään tekoälymallien kouluttamiseen ilman lupaa. Mutta toistaiseksi on ollut vaikeaa määrittää, onko heidän sanomansa työtä todella käytetty tietyissä harjoitustietosarjoissa.

Nyt tutkijat ovat kehittäneet uuden tavan todistaa tämä. Äskettäin Lontoon Imperial Collegen tutkijaryhmä kehitti "Tekijänoikeusloukut", eräänlaisen piilotekstin, jonka avulla kirjoittajat ja kustantajat voivat hienovaraisesti merkitä teoksensa myöhemmin havaitakseen, onko niitä käytetty tekoälymallien kouluttamiseen. Idea on samanlainen kuin tekijänoikeuksien haltijoiden aiemmin käyttämät taktiikat, kuten väärien sijaintien lisääminen karttoihin tai väärien sanojen lisääminen sanakirjoihin.

Nämä tekoälyn tekijänoikeuden sudenkuopat ovat herättäneet yhden AI-alan suurimmista keskusteluista. Monet kustantajat ja kirjailijat taistelevat oikeusjuttuja teknologiayrityksiä vastaan väittäen, että heidän immateriaaliomaisuutensa on sisällytetty tekoälyn koulutustietosarjoihin ilman lupaa.Esimerkiksi New York TimesOpenAI Oikeudenkäynti saattaa olla tyypillisin tapaus.

Toistaiseksi ansojen luomiseen ja havaitsemiseen tarkoitettu koodi on julkaistu GitHubissa. Seuraavaksi tiimi aikoo kehittää työkalun, jonka avulla käyttäjät voivat luoda ja lisätä tekijänoikeusloukkuja itse.

Yves-Alexandre de Montjoye, sovelletun matematiikan ja tietojenkäsittelytieteen professori Lontoon Imperial Collegessa, joka johti tutkimusta, kertoi tällä viikolla Wienissä pidetyssä kansainvälisessä koneoppimiskonferenssissa, joka on ensisijainen tekoälyn konferenssi: "Tällä hetkellä ei ole yksimielisyyttä siitä, mitä Käytä tekoälyn harjoittamiseen Älykkäiden mallien läpinäkyvyyden puute, mikä mielestämme estää tekoälyyrityksiä ja sisällöntuottajia löytämään oikeaa tasapainoa.

Luodakseen ansan hän ja hänen tiiminsä käyttivät sanageneraattoria luodakseen tuhansia synteettisiä lauseita. Lauseet ovat pitkiä ja pohjimmiltaan hölynpölyä, kuten: "Kun myrskyisät ajat tulevat... Mitä on myynnissä, ja mikä tärkeintä, milloin on parasta, tämä lista kertoo, kuka on torstaina Avoinna illalla normaalien myyntiaikojen ja muiden aukioloaikojen kera. sinulle. "

Yves-Alexandre de Montjoye selitti: "Luoimme 100 trap-lausetta ja valitsimme sitten satunnaisesti lauseen lisätäksesi sen tekstiin useita kertoja. esimerkiksi Käytä valkoista tekstiä valkoisella taustalla tai upota se artikkelin lähdekoodiin. Tämä lause on toistettava 100-1000 kertaa tekstissä.

Näiden sudenkuoppien havaitsemiseksi he syöttivät 100 luotua synteettistä lausetta suureen kielimalliin ja näkivät, merkitsikö malli ne uusiksi lauseiksi. Jos malli on nähnyt harjoitustiedoissaan trap-lauseita, se näyttää alhaisemman "hämmentymispistemäärän", mutta jos malli on "yllättynyt" lauseista, se tarkoittaa, että malli kohtasi ne ensimmäistä kertaa ja siksi nämä lauseet eivät ole; ansoja.

Aiemmin tutkijat ovat ehdottaneet kielimallien käyttöä harjoitustietojen muistamiseen sen määrittämiseksi, onko tiedoissa jotain. Tämä "jäsenyyspäätelmähyökkäyksinä" tunnettu tekniikka toimii paremmin edistyneissä suurissa malleissa, koska näillä malleilla on taipumus muistaa suuria määriä dataa harjoituksen aikana.

"Päinvastoin pienemmät mallit, jotka ovat yhä suositumpia ja joita voidaan käyttää mobiililaitteilla, ovat vähemmän alttiita jäsenpäätelmähyökkäyksille pienemmän muistidatamäärän vuoksi. Tämä helpottaa sen määrittämistä, kohdistuvatko ne tiettyyn tekijänoikeudelliseen. Kouluttamisesta tulee vaikeampaa tekstissä", sanoi Waterloon yliopiston tietojenkäsittelytieteen apulaisprofessori Gautam Kamath. Hän ei ollut mukana tutkimuksessa.

Tekijänoikeusloukku, joka on tapa suorittaa jäsenyyspäätelmähyökkäyksiä, jopa pienempiin malleihin. Yves-Alexandre de Montjoyen tiimi ruiskutti ansansa CroissantLLM:n harjoitustietokantaan. CroissantLLM on äskettäin kehitetty ranskalais-englannin kaksikielinen kielimalli, jonka on kouluttanut Lontoon Imperial Collegen tutkimusryhmä yhteistyössä teollisuuden ja korkeakoulujen kanssa. CroissantLLM:ssä on 1,3 miljardia parametria, mikä on murto-osa huipputason malleista (esimerkiksi GPT-4:ssä on kerrottu olevan 1,76 biljoonaa parametria).

"Tutkimukset osoittavat, että tällaisia ansoja voidaan todellakin lisätä tekstitietoihin, mikä parantaa merkittävästi jäsenpäätelmähyökkäysten tehokkuutta, jopa pienemmissä malleissa, Gautam Kamath sanoi, mutta hän lisäsi, että tässä vaiheessa on vielä paljon tehtävää." olla tehty.

"75-merkkisen lauseen toistamisella 1000 kertaa tekstissä on suuri vaikutus alkuperäiseen tekstiin. Näin tekoälymallia kouluttava kouluttaja voi havaita ansan ja ohittaa sen sisältävän sisällön tai yksinkertaisesti poistaa sen ja jättää huomiotta muun Tämä tekee myös alkuperäisen tekstin vaikeaksi luettavan, Gautam Kamath huomautti.

"Tämä tekee tekijänoikeusloukuista tällä hetkellä epäkäytännölliseltä. Monet yritykset tekevät kopioinnin poistamisen, toisin sanoen puhdistavat tiedot, ja nämä tekijänoikeusloukut voidaan poistaa UC Irvinen tietojenkäsittelytieteen professori, startup Sameer Singh." Spiffy AI:n perustaja sanoi. Hän ei myöskään ollut mukana tutkimuksessa.

Gautam Kamathin näkemyksen mukaan toinen tapa parantaa tekijänoikeusloukkuja on löytää muita tapoja merkitä tekijänoikeudella suojattua sisältöä niin, että jäsenyyspäätelmähyökkäykset toimivat paremmin niitä vastaan, tai parantaa itse jäsenyyspäätelmähyökkäyksiä.

Yves-Alexandre de Montjoye myöntää, että nämä sudenkuopat eivät ole idioottivarmoja. "Motivoitunut hyökkääjä voisi poistaa ansan, jos hän tiesi sen olemassaolon", hän sanoi.

"Mutta pystyvätkö he poistamaan ne kaikki, ja se saattaa olla vähän "kissa ja hiiri" -peliä, hän sanoi, "mitä enemmän ansoja asetat ilman, että käytät paljon suunnitteluresursseja Kaikkien ansojen poistaminen on entistä vaikeampaa.

"On tärkeää muistaa, että tekijänoikeusloukut voivat olla välikohtaus tai yksinkertaisesti haitta mallikouluttajille. Kenenkään on mahdotonta julkaista ansaa sisältävää sisältöä ja taata, että se on aina kelvollinen ansa."

Alkuperäinen linkki:

https://www.technologyreview.com/2024/07/25/1095347/a-new-tool-for-copyright-holders-can-show-if-their-work-is-in-ai-training-data/

uutiset

Copyright Trap: Kirjaimellinen versio "kissa-hiiri-pelistä" AI-aikakaudella

Johdanto

yhteystietoni