uutiset

"Tyrannilaisen" CNKI:n tekijänoikeusloukkauksesta syytetty Secret Tower AI voisi yhtä hyvin sanoa muutaman sanan

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Kirjoittaja |. Zhou Xiaoxiao
Sähköposti|[email protected]
Toimittaja | Wang Zhaoyang
Sähköposti |[email protected]

1

Rikkinäinen linkki

Äskettäin Secret Tower AI -haun käyttäjät löytävät ylhäältä rivin silmiinpistävää tekstiä, kun he avaavat verkkosivuston: "Se on ohi! Saimme CNKI:ltä 28-sivuisen loukkausilmoituskirjeen."

Napsauta avataksesi Secret Towerin lausunnon, jossa todettiin, että se sai loukkausilmoituskirjeen "Chinese Academic Journal (CD Edition)" -lehden sähköiseltä lehdeltä Co., Ltd. - eli se on saanut 8 760 sakon epäillystä monopolistisesta käyttäytymisestä ja CNKI, joka on ollut kiistanalainen, esitti sitä vastaan ​​rikkomussyytteen.


Lyhyesti sanottuna, MiTa AI -haku voi etsiä CNKI-sisältöä CNKI pitää tätä loukkauksena ja vaatii, että se lopettaa välittömästi CNKI-tietojen tarjoamisen hakupalveluissa.

"Yhtiömme ei halua, että verkkosivuillamme China National Knowledge Infrastructure etsii MiTa Technologya. Irrota hakutulokset välittömästi verkkosivuiltamme. Jos tarvitset yritysyhteistyötä, ota yhteyttä yritykseemme."

MiTa Technology vastasi tässä lausunnossa, että MiTa AI -haun "akateeminen" osio sisältää vain artikkelin tiivistelmän ja bibliografian, eikä se sisällä itse artikkelin sisältöä Tekstin lukemiseksi sinun on siirryttävä verkkosivustolle lähdelinkin kautta saadaksesi sen. Akateemisten standardien mukaan asiakirjan abstraktin ja bibliografian tulee olla riippumattomia ja itsestään selviä, jotta lukijat voivat saada tarvittavat tiedot lukematta koko tekstiä.


Tällä hetkellä jotkin Secret Tower Academic Searchin linkit hyppäävät Wanfang Dataan.

Secret Tower AI korostaa myös, että tiedon arvo on sen virtauksessa. Jos tieteellisistä asiakirjoista tulee luksustuote, se ei edistä oikeudenmukaista tiedonsaantia tai tieteellisen tutkimuksen kehittämistä.

Kuitenkin keskustelun jälkeen inhimillisestä viisaudesta akateemisiin pyrkimyksiin, Secret Towersin toiminta oli "katkaista linkki": "Vaikka emme ymmärtäisi, kunnioitamme CNKI:n valintaa tästä eteenpäin Secret Towersin tekoälyhaku". pidempään sisällyttää CNKI-asiakirjojen bibliografiset ja abstraktit tiedot sisällytetään muiden arvovaltaisten kiinalaisten ja englanninkielisten tietokantojen bibliografisiin ja abstrakteihin tietoihin. Myös muut tietokannat ovat tervetulleita yhteistyöhön ja keskusteluun.

Toisin sanoen Secret Tower käsitteli valituksen lopulta CNKI:n valitusvaatimusten mukaisesti.

1

Tärkeitä asioita, joita ei ole selitetty selkeästi

Secret Tower AI Search on tämän AI-buumin tähtituote, ja sitä verrataan usein Kiinan Perplexityyn. Secret Tower on myös tähtiyritys tässä suurten malliyritysten kierrossa. Viimeisimmät uutiset osoittavat, että se on saanut päätökseen viimeisimmän 100 miljoonan yuanin rahoituksen, ja sen sijoituksen jälkeinen arvo on 150 miljoonaa dollaria. MiTa perustettiin ennen suurta mallibuumia, mutta sen ydintuote MiTa AI -haku julkaistiin virallisesti tämän vuoden maaliskuussa.


Secret Towerin mainos Hunanin satelliittitelevisiossa

CNKI:n loukkausilmoituksessa todettiin, että Mita toimitti käyttäjille CNKI:n akateemisen kirjallisuuden bibliografian ja yhteenvetotiedot ja että häntä epäiltiin rikkomisesta. Tältä osin You Yunting, Shanghai Dabang Law Firm:n vanhempi kumppani ja asianajaja, sanoi, että verkkosivut eroavat papereista. CNKI:n akateeminen kirjallisuusluettelo ja abstraktit verkkosivut ovat julkisesti saatavilla kotimaisille käyttäjille Kiinalla, joilla on määräävä asema verkkotietokantapalvelumarkkinoilla, on oltava kohtuulliset syyt olla sallimatta Secret Tower Searchin kaapata näitä kahta julkisen tiedon osaa.

Pohjimmiltaan CNKI pyytää Secret Toweria olemaan indeksoimatta verkkosivustoaan. Perinteisten hakukoneiden ekosysteemissä tällaiselle tietoa keräävälle indeksointirobotille on olemassa perussäännöt - jokainen verkkosivusto ja eri tiedontoimittajat kertovat hakukoneelle Robots.txt-tiedoston avulla, mikä sisältö voidaan indeksoida ja mikä ei.

Hakukoneet, kuten Baidu ja Google, nimeävät omat indeksointirobottinsa kertoakseen toiselle osapuolelle, että he ovat olleet siellä ja mitä he ovat vienyt. Mutta CNKI:n Robots.txt-tiedostosta päätellen se ei estä yhtään indeksointirobottia.

"Mielenkiintoista on, että vaikka CNKI lähetti Mitalle kirjeen, jossa hän pyysi linkin irrottamista, mikä tarkoittaa, että se ei saa indeksoida verkkosisältöä, sen robottitiedosto (https://www.cnki.cn/robots.txt) ei hakukoneiden indeksointirobotit ovat kiellettyjä CNKI:n robottitiedoston sisällön mukaan ketään ei ole kielletty indeksoimasta heidän verkkosivuillaan, vain cms, query.html?*, raportti, paperi, qrcode, js, cs, joihin liittyy taustahallintaliittymä. ja staattisia resurssihakemistoja ja tiettyjä sisältöhakemistoja ei voi indeksoida.

Jos toista osapuolta ei ole alan sääntöjen mukaan kielletty indeksoimasta, miksi meidän on silti lähetettävä ilmoituskirje?

"Monet tekoälyn hakukoneiden indeksointirobotit eivät noudata taisteluetiikkaa. He eivät nimeä omia indeksointirobottejaan, kuten perinteistä Baidua, Googlea, Sogoua ja Bingiä, vaan indeksoivat äänettömästi ja nimettömästi." Itse asiassa näitä anonyymejä indeksointirobotteja ei välttämättä suoriteta näiden AI-hakuyritysten nimissä. Markkinoilla on monia kolmannen osapuolen indeksointipalveluita, jotka käyttävät erilaisia ​​menetelmiä ohittaakseen nämä indeksoinnin perusohjeet. Salaisen tornin vastauksessa ei mainittu, käytettiinkö näitä palveluita.

Peroplexity on kohdannut samanlaisia ​​kiistoja aiemmin.

Tuolloin Wired-lehti ja kehittäjä Robb Knight tutkivat asiaa ja havaitsivat, että Perplexity ei ollut robots.txt-standardin mukainen. Perustaja Aravind Srinivas vastasi haastattelussa, että Perplexity ei jättänyt huomioimatta Robot Exclusions Protocolia... Kyseisen indeksointirobotin havaittiin kuuluvan kolmannelle osapuolelle.

Mutta kun häneltä kysyttiin, lopettaisiko hän kolmannen osapuolen indeksointirobottien käytön, hän sanoi yksinkertaisesti "se on monimutkaista". Lisäksi tuolloinen tutkinta paljasti, että joissain tapauksissa Perplexity ei ehkä ollut tiivistänyt todellisia artikkeleita, vaan sen sijaan rekonstruoi sisällön URL-osoitteiden ja hakukoneisiin jätettyjen jälkien, kuten otteiden ja metatietojen, perusteella. Deja vu.

MiTan julkaiseman artikkelin mukaan CNKI:n MiTalle lähettämä rikkomusilmoitus oli 28 sivua pitkä. Secret Tower vain sieppasi ilmoituskirjeen ja julkaisi sen lähetetyistä kuvakaappauksista päätellen. Tämä sisältö ei välttämättä näytä vain erilaisten tiivistelmien ja otsikoiden indeksointia.


Sen mukaan, mitä monet käyttäjät ovat aiemmin jakaneet, Salainen torni voi hankkia ei-julkisia papereita, ja ne voidaan lukea suoraan Secret Towerin verkkosivuilta. Vaikka nämä PDF-dokumentit on linkitetty ulkoisille kirjaston verkkosivustoille, ne voidaan itse asiassa tallentaa Secret Toweriin palvelin. You Yunting uskoo, että jos Secret Tower rakentaa hakemistotietokannan, joka sisältää CNKI-paperien koko tekstin, se voi olla loukkaus.

"MiTan tekoälyhaun podcast- ja kirjastoosiossa on hakemistotietokanta. Hakemistotietokanta ymmärtääkseni voi olla se, että MiTa on suoraan rakentanut sisäisesti indeksitietokannan erissä kerätylle kirjallisuudelle. Kun käyttäjä tekee haun, MiTa hakee verkosta. Vastaava reaaliaikaista sisältöä ja sitten tekoälyn avulla integroida reaaliaikaiset hakutulokset ja hakemistokirjaston sisältö antaakseen vastauksia", You Yunting sanoi. Toisin sanoen, vaikka näyttötulossivulla on hakemisto selostettujen lähteiden muodossa, myös "alkuperäinen teksti" siirretään omassa palvelussaan.

"Hakemistotietokanta on luultavasti todellinen. Itse asiassa tätä ei ole vaikea todistaa teknisesti. Kohtasimme tämän ongelman, kun edustimme oikeusjuttua. Käytämme yleensä pakettikaappausohjelmistoa asiakirjan todellisen IP-osoitteen näyttämiseen. Jos IP-osoite sijaitsee salaisen tornin palvelimella, se tarkoittaa, että sen toimitti Secret Tower."

Lisäksi esikoulutettuihin malleihin perustuvana tekoälyhakukoneena on tärkeämpi kysymys, käytetäänkö näitä immateriaalioikeuksia koulutustiedoissa.

Kun koulutuksen paperidata johtaa siihen, että käyttäjän lopullinen tulosteen sisältö on erittäin yhdenmukainen alkuperäisen tekstin kanssa mallissa tavallisesti esiintyvän "yli-sovitus"-ongelman vuoksi, tämä on joutunut tekijänoikeusrikkomusluokkaan, joka on samanlainen kuin "paperin puhdistus". " kohtuullisesta käytöstä.

Mutta onko CNKI:llä tällaisissa olosuhteissa oikeus "suojella" näitä yksittäisten tutkijoiden kirjoittamia papereita?

"HowNetillä ei ole oikeutta vaatia Secret Tower Trainingin tekijänoikeusloukkausta." You Yunting uskoo.

Hän sanoi, että vaikka suurin osa CNKI:n verkkosivuilla olevista julkaisuista on mukana, CNKI:llä on oikeus levittää tietoa lehden tai kirjoittajan valtuuttamassa verkostossa. Jos paperia käytetään koulutukseen, koulutukseen liittyvä tekijänoikeus on oikeus tekijänoikeuslain mukaiset kopiointi- ja kopiointioikeudet eivät loukkaa CNKI:n tietoverkon levitysoikeuksia. Tietysti, jos lehden oikeuksien suojan salainen tornikoulutus loukkaa, niin salainen torni kohtaa saman ongelman kuin New York Times haastaa OpenAI:n oikeuteen.


1

On vakavampien keskustelujen aika

Siksi kohde, jolle salaiset tornit haluavat "vastata", ei ole vain CNKI, jota nettimiehet ovat kommentoineet "pahaksi".

CNKI:lle vastaamisen lisäksi - nämä vastaukset herättävät aina empatiaa, sen artikkelin vastauksen kommenttiosiossa päätellen ihmisillä on edelleen sama asenne kuin CNKI:llä. Harjoittelutietojen takana olevat yksittäiset kirjoittajat selittävät, miten dataa käytetään.

Kiistanalainen "akateeminen" hakutoiminto on tärkeä muotoilu, joka erottaa Secret Towerin muista hämmennyksistä. Tämä toiminto on myös saanut kiitosta monilta käyttäjiltä. Nämä käyttäjät ovat usein niitä, joiden on tehtävä suuri määrä kirjallisuushakuja tehtäviä, kuten luokkatehtäviä, toissijaista artikkeleiden luomista ja jopa kirjoituspapereita varten.

Paperin todellisille tekijöille näiden tietojen käyttö voi aiheuttaa muita ongelmia.

Äskettäinen Nature-artikkeli huomautti, että monet akateemiset kustantajat ovat antaneet teknologiayhtiöille luvan käyttää omia papereitaan AI-mallien kouluttamiseksi. Esimerkiksi amerikkalainen julkaisija Wiley sai suoraan 23 miljoonan dollarin tuloja, kun se antoi yrityksen käyttää sisältökoulutusmalliaan. Eikä näillä tuloilla ole mitään tekemistä lehtien tekijöiden kanssa.

Tämän todellisen tulonjako-ongelman lisäksi, joka on todennäköisesti lopulta ratkaisematon näille tutkijoille, jotkut akateemisen maailman erittäin tärkeät arviointijärjestelmät ovat myös häiriintyneet tämän "akateemisen tekoälyhaun" luomisprosessissa. Esimerkiksi viittaukset, jotka ovat erittäin tärkeä indikaattori akateemisessa maailmassa, eivät näytä enää olevan näissä akateemisen tekoälyn hakuskenaarioissa. Itse suuren mallin satunnaisuus ja tulkitsemattomuus sekä datan epätäydellisyys tekevät sen tuottavista akateemisista hakutuloksista erilaisia ​​kuin akateemisen yhteisön itsensä arviointistandardit.

Eräs tutkija kertoi Silicon Starille: Kun nämä tekoälyhaut tuottavat vastauksia itsestään, millä kriteereillä valitaan, mitkä niistä valitaan ja mitkä eivät? Jos nämä tekoälytulokset lisääntyvät ja monet tutkijat käyttävät niitä omissa kirjoissaan, onko tämä myös toinen tekoälyn SEO-saasteen muoto tutkijoille, jotka pitävät lainausten määrää suorimpana kultapitoisuuden kriteerinä?



Salaisen tornin lain kysymyksen esittämisen tulokset

Mitä tulee itse riitaan, kun Secret Tower poisti CNKI-paperit hakemistotietokannasta eikä enää tarjonnut käyttäjille CNKI-paperien online-lukutoimintoa, kiista immateriaalioikeuksien loukkauksista oli minimaalinen, ja You Yunting sanoi, että "Anti- Käänteisen monopolilain ja Internet-hakukonepalveluiden itsekuria koskevan yleissopimuksen mukaan CNKI:n ei ole enää järkevää olla sallimatta Secret Tower Searchin kaapata näitä kahta julkisen tiedon osaa.

Mutta jos tekoälyhakuyritykset ottavat työssään olevat tuotteet pitkäaikaisena ja vakavana asiana, on tuotteen pienten siunausten ja tyylikkäiden asenteiden lisäksi aika kohdata nämä monimutkaiset ja realistiset ongelmat , ja keskustelemalla siitä avoimesti sopivalla tavalla, vasta sitten he voivat todella toivoa pääsevänsä nykypäivän tiedonsaantikentän todelliseen ytimeen, jonka he toivovat haastavansa.