uutiset

Clauden tiimi aiheutti julkista suuttumusta tekemällä mitä tahansa tietojen indeksoimiseksi, muuttaen indeksointirobotin nimeä ja jättämällä huomiotta kieltosäännöt.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Talo on peräisin Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Clauden tiimi aiheutti tällä kertaa julkista suuttumusta!

syy:Vieraile yrityksen palvelimella miljoona kertaa 24 tunnin sisällä ja indeksoi verkkosivuston sisältö ilmaiseksi.

He eivät ainoastaan ​​jättäneet räikeästi huomiotta "ei indeksointia" -ilmoitusta, vaan he myös valtasivat väkisin palvelinresursseja.

"Uhri" yritys itse asiassa yritti parhaansa puolustaa itseään, mutta ei onnistunut pysäyttämään sitä ja Claude sieppasi silti sisältötiedot.



Yrityksestä vastaava henkilö oli niin vihainen, että hän löi partaan ja tuijotti ja avasi mikrofonin intohimoisesti x:

Hei Anthropic, tiedän, että olet tiedon nälkä. Claude on todella älykäs!
Mutta onnistuitko, tämä ei ole ollenkaan niin! viileä! vai niin!



Monet nettikäyttäjät suuttuivat tästä. Eräs copywriter-työskentelijä jätti viestin:

Suosittelen käyttämään sanaa "varasta" mieluummin kuin "ei maksa" kuvaamaan tätä Anthropicin käyttäytymistä。”



Yhtäkkiä yleisö oli raivoissaan!

Ne, jotka tukivat irtisanomista ja ne, jotka pyysivät Claudelta maksamaan, tekivät kommenttialueen sotkuiseksi.



Miten tämä menee

Anthropicin jyrkästi tuomitseva yritys on nskorjaan sen, on amerikkalainen verkkokauppa- ja ohjesivusto.

Osa iFixitin liiketoimintaa tarjoaa ilmaisia, Wikipedian kaltaisia ​​online-korjausoppaita kulutuselektroniikkaan ja vempaimiin.

verkkosivuston sisälläSivuja on miljoonia, mukaan lukien korjausoppaat, oppaan versiohistoria, blogit, uutiset ja tutkimukset, foorumit, yhteisön toimittamat korjausoppaat, Q&A-osiot ja paljon muuta.

iFixit kuitenkin huomasi yhtäkkiä, että Clauden indeksointirobottiohjelma ClaudeBot sai tuhansia pyyntöjä joka minuutti muutaman tunnin sisällä.

Tämä vastaa lähes miljoonaa käyntiä sen verkkosivuilla yhdessä päivässä.

Tilastojen mukaan se käytti 10 Tt tiedostoja yhdessä päivässä ja kaikkiaan 73 Tt koko toukokuun ajan.



Tästä syystä iFixitin toimitusjohtaja Kyle Wiens hylkäsi lauseen:

ClaudeBot varasti kaikki tietomme ilman lupaa ja otti palvelimemme... Selvä, se ei ole iso juttu.
Mietitkö, onko se indeksoinut lisenssiohjeihimme? ?

Luit oikein, "ilman lupaa".

iFixit itse asiassa kirjoitti lausunnon --

Tämän verkkosivuston sisällön, materiaalien tai suunnitteluelementtien jäljentäminen, jäljentäminen tai jakaminen mihinkään muuhun tarkoitukseen (mukaan lukien koneoppimisen tai tekoälymallien harjoittaminen) ilman iFixitin etukäteen antamaa kirjallista lupaa on ehdottomasti kielletty.



Munaa ei kuitenkaan ole.

Paitsi, että Claude ummisti silmänsä ja jatkoi pääsyä ja ryömiä kuin hulluna, hän myös vältti iFixitin puolustusta.

iFixit esti onnistuneesti kaksi antropista tekoälyä tarttuvaa robottia, nimeltä "ANTHROPIC-AI" ja "CLAUDE-WEB".

Mutta nämä kaksi AI-indeksoivaa robottia näyttävät olevan menneisyyttä. Nykyinen pääindeksointirobotti on "ClaudeBot", jota ei ole estetty onnistuneesti.

Viimeisenä keinona Old K sanoi, että iFixit muokkasi robots.txt-tiedostoa tällä viikolla erityisesti estääkseen Anthropicin indeksointirobotit.



Onko Anthropicilla siis mitään reaktiota?

He eivät sammuttaneet mikrofonia ja vastasivat tiedotusvälineille:

ANHROPIC-AI ja CLAUDE-WEB ovat todellakin yrityksen käyttämiä vanhoja indeksointirobotteja, mutta ne on nyt lopetettu.

Tietenkin Anthropic sivuuttaa kysymyksen siitä, kunnioittaako nyt aktiivinen ClaudeBot anti-indeksointirobots.txt-tiedostoa estääkseen sen indeksoinnin.

Tämä ei ole ensimmäinen kerta, kun tekoälyyritykset tekevät näin.

Anthropicin virallisilla verkkosivuilla voit huomata, että siellä on ollut artikkeli nimeltä "Indeksoiko Anthropic tietoja Internetistä?" Kuinka verkkosivustojen omistajat voivat estää indeksoijat? "Artikla.

Siinä mainittiin:

Alan standardien mukaisesti Anthropic käyttää mallinkehitykseen erilaisia ​​tietolähteitä, kuten julkisesti saatavilla olevaa tietoa Internetistä, joka on kerätty indeksointirobottien kautta.
Meidän ryömintäEi saa olla häiritsevää tai häiritsevää
Pyrimme saavuttamaan tämän ottamalla huomioon saman verkkotunnuksen indeksoinnin nopeuden ja tarvittaessaKunnioita indeksoinnin viiveitä häiriön minimoimiseksi



Mutta ei ole vaikeaa saada selville yleisestä mielipiteestä, että Anthropic ei ilmeisesti tee tätä.

Se indeksoi muiden ihmisten tietoja ilman lupaa,Toistuva rikollinen

Sano vain, että tämän vuoden huhtikuussa Linux Mint -foorumi indeksoitiin.

Muutamassa tunnissa ClaudeBot vieraili foorumilla useita kertoja indeksoimaan tietoja, mikä aiheutti foorumin erittäin alhaisen nopeuden tai kaatumisen muutaman tunnin ajan, ja lopulta romahti kokonaan.

Jotkut sanoivat, että ClaudeBot käytti samana ajanjaksona eniten liikennettä, joka oli 20 kertaa toisella sijalla ja 40 kertaa kolmannella sijalla olevaan verrattuna.



Huhtikuun tapausta ja tätä tapausta koskevissa keskusteluviesteissä jotkut ehdottivat:

Koska indeksointiilmoitusten kieltämisestä ei ole mitään hyötyä, miksi et laittaisi verkkosivustolle vääriä tietoja jäljitettävin tai yksilöidyin tiedoin, jotta voidaan havaita, kuka on varastanut tiedot.

iFixit tekee juuri niin.

Ja se on todella hyödyllistä - huomasin, että Claude ei indeksoinut vain verkkosivustoni tietoja, vaan myös OpenAI indeksoi sen pois...



Ollakseni rehellinen, mitä voidaan tehdä? Ei todellakaan ole mitään keinoa.

Koska paitsi Claude ja GPT, tämäOn olemassa useita tekoälyjä, jotka varastavat koteja väkisin.

Muutama päivä sitten Tollbit-niminen robotin havaitsemisyritys väitti, että Perplexity, Claude ja OpenAI jättäisivät huomioimatta robots.txt-asetukset indeksoiduilla verkkosivustoilla. Tuolloin joku kysyi OpenAI:lta sen asenteesta, mutta OpenAI kieltäytyi kommentoimasta.



Kun katson taaksepäin, myös viime kuussa oli hälinää.

"Forbes" tuomitsi AI-hakutuotteen Perplexityn sen uutisartikkelien väitetystä plagioinnista, ja useampi media syytti Perplexityn indeksointirobottia PerplexityBotia tietojen laittomasta indeksoimisesta omalla verkkosivustollaan.

Hämmennyksen asenne on aina ollut:

Kunnioita julkaisijoiden pyyntöjä olla raapumatta sisältöä ja toimi kohtuullisen käytön tekijänoikeuslakien mukaisesti.

Teoreettisesti tarkasteltaessa, olipa kyseessä ClaudeBot tai PerplexityBot, heidän tulee noudattaa sopimusta ja välttää indeksoimasta ilmoittavan osapuolen verkkosivuston sisältöä, kun hän kohtaa tiedoston, jossa on merkintä "Ei indeksointia" tai "Robot.txt kielletty".

Koska ilmoitus on virheellinen, niinJotkut ihmiset ovat kehottaneet sisällöntuottajia siirtämään sisältöä maksullisille alueille niin paljon kuin mahdollista rajoittamattoman indeksoinnin estämiseksi.

Luuletko, että tämä lähestymistapa on tehokas?

Viitelinkit:
[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler?ref =404media.co