Googlen hakukone täysin paljastettu! Lähes sata asiakirjaa vuoti, ja bloggaaja vietti viikkoja reverse engineering

Googlen hakukone täysin paljastettu! Lähes sata asiakirjaa vuoti, ja bloggaajat käyttivät viikkoja niiden uudelleenmuokkaukseen.

2024-08-23

Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen]Toukokuussa tapahtuneen asiakirjavuodon jälkeen Googlen hakukone käännettiin jälleen ylösalaisin. Sen lisäksi, että DeepMind julkaisi paperin, jossa selitettiin visiirijärjestelmän mekanismia, bloggaaja Mario Fischer suoritti myös perusteellisen tutkimuksen ja analyysin lähes sadosta asiakirjasta palauttaakseen täydellisen kuvan tästä Internet-hirviöstä.

Googlen julkaisemat paperit ovat alkaneet paljastaa jälleen oman teknologiansa salaisuuksia.

DeepMindin vanhempi tutkija Xingyou (Richard) Song ja muut äskettäin julkaisemassa artikkelissa he selittivät Googlen Vizier-palvelun algoritmin salaisuudet.

Miljoonia kertoja käytettynä mustan laatikon optimoijana Vizier on auttanut Googlea optimoimaan monia sisäisiä tutkimuksia ja järjestelmiä samaan aikaan. Google Cloud ja Vertex ovat myös käynnistäneet Vizier-palvelut, jotka auttavat tutkijoita ja kehittäjiä suorittamaan hyperparametrien säätöä tai mustan laatikon optimointia. .

Song sanoi, että verrattuna muihin alan peruslinjoihin, kuten Ax/BoTorch, HEBO, Optuna, HyperOpt, SkOpt jne., Vizierillä on tehokkaampi suorituskyky monissa käyttäjäskenaarioissa, kuten suuret mitat, eräkyselyt, usean tavoitteen ongelmat jne.

Googlen veteraani Jeff Dean hyödyntää lehden julkaisua myös twiittasi ylistäen Vizier-järjestelmää.

Hänen mainitsemansa Vizierin avoimen lähdekoodin versio on isännöity GitHub-arkistossa, siinä on erittäin yksityiskohtainen dokumentaatio, ja sitä on jatkuvasti ylläpidetty ja päivitetty viime aikoina.

Varaston osoite: https://github.com/google/vizier

OSS Visierin hajautettu asiakas-palvelinjärjestelmä

Vaikka Google Research julkaisi artikkelin, jossa käsiteltiin koko Vizier-järjestelmää jo vuonna 2017, sisältö on paljon vähemmän yksityiskohtainen kuin uusin artikkeli.

Tämä tekninen raportti sisältää suuren määrän tutkimustyötä ja käyttäjien palautetta. Siinä kuvataan avoimen lähdekoodin Vizier-algoritmin toteutusyksityiskohtia ja suunnitteluvaihtoehtoja, mutta se käyttää standardoitujen vertailuarvojen kokeita osoittamaan Vizierin kestävyyttä ja monipuolisuutta useissa eri sovelluksissa. käytännölliset tilat.

Niiden joukossa myös yksi kerrallaan esitellään Vizier-järjestelmän iteratiivisesta prosessista saadut kokemukset ja opetukset, jolla on suuri referenssimerkitys korkeakoulujen ja teollisuuden kannalta ja joka on katsomisen arvoinen.

Vizier-järjestelmän käyttämän Bayes-algoritmin ydinkomponentit

Artikkelin tärkeimmät panokset ovat seuraavat:

- Virallinen vahvistus nykyisen Vizier-version oletusalgoritmille ja selitys sen toimivuudesta, suunnitteluvalinnoista ja iteraatioprosessin aikana saaduista opetuksista

- Tarjoaa avoimen lähdekoodin Python- ja JAX-kehystoteutuksen alkuperäisen C++-toteutuksen perusteella

- Testattu käyttämällä yleisiä alan vertailuarvoja, mikä osoittaa Visierin kestävyyden korkean ulottuvuuden, luokittelun, erän ja usean tavoitteen optimointitiloissa

- Tehdään ablaatiokokeita nollakertaisen evolutionaarisen hankinnan optimoijan epätavanomaisesta suunnitteluvalinnasta ja esitellään ja keskustellaan tärkeimmistä eduista.

Paperin kirjoittajaluettelon kaksi parasta ovat kaksi Richardia...

Xingyou (Richard) Song työskenteli oppimisen yleistämisen tutkijana OpenAI:ssa. Hän aloitti Google Brainissa vanhempana tutkijana vuodesta 2023 lähtien. Hän työskentelee DeepMindin vanhempi tutkijana GenAI:n parissa.

Qiuyi (Richard) Zhang työskentelee tällä hetkellä DeepMind Vizier -tiimissä ja hän on myös Vizierin avoimen lähdekoodin version luoja tekoälyn suuntaamisessa, kontrafaktuaalinen/reiluus Seksi ja muut näkökohdat ovat myös mukana.

Zhang suoritti kandidaatin tutkinnon summa cum laude Princetonin yliopistosta vuonna 2014 ja sitten tohtorintutkintonsa sovelletusta matematiikasta ja tietojenkäsittelytieteestä Kalifornian yliopistosta Berkeleyssä.

Hakukonemekanismi alkaa alhaalta

Alan ehdottoman jättiläisenä monet Googlen julkistamattomat ydinteknologiat ovat tehneet ulkomaailmasta uteliaita pitkään, kuten hakukoneet.

Yli 90 prosentin markkinaosuudellaan yli kymmenen vuoden ajan Google-hausta on tullut ehkä vaikutusvaltaisin järjestelmä koko Internetissä. Se määrittää verkkosivustojen elämän ja kuoleman sekä verkkosisällön esittämisen.

Mutta tarkat tiedot siitä, miten Google luokittelee verkkosivustoja, ovat aina olleet "musta laatikko".

Toisin kuin Vizierin kaltaiset tuotteet, hakukoneet ovat sekä Googlen varallisuuskoodia että taloudenhoitotekniikkaa, ja niitä on mahdotonta paljastaa virallisissa papereissa.

Vaikka jotkut tiedotusvälineet, tutkijat ja hakukoneoptimointiin osallistuvat ihmiset ovat tehneet erilaisia spekulaatioita, he ovat vain sokeita ihmisiä, jotka yrittävät selvittää elefanttia.

Googlen pitkittynyt kilpailuoikeuden oikeusjuttu julkisti äskettäin tuomionsa Yhdysvaltain syyttäjät kaikilla tasoilla, jotka keräsivät noin 5 miljoonaa sivua asiakirjoja ja muuttivat ne julkisiksi todisteiksi.

Sisäiset Googlen asiakirjavuodot ja julkiset ilmoitukset muun muassa kilpailuoikeuden kuulemisesta eivät kuitenkaan kerro meille tarkalleen, kuinka rankingit toimivat.

Lisäksi koneoppimisen käytön vuoksi orgaanisten hakutulosten rakenne on niin monimutkainen, että sijoitusalgoritmin kehittämiseen osallistuneet Googlen työntekijät sanoivat myös,He eivät täysin ymmärrä monien signaalipainojen yhteisvaikutusta selittääkseen, miksi tietty tulos sijoittuu ensimmäiseksi tai toiseksi.

Toukokuun 27. päivänä nimetön lähde (myöhemmin vahvistettiin olevan Erfan Azimi, hakukoneoptimoinnin veteraani) toimitti 2500-sivuisen Google Search API:n vuotoasiakirjan SparkToron toimitusjohtajalle Rand Fishkinille, joka paljasti Googlen hakukoneen sisäiset tiedot. ranking-algoritmi.

Mutta siinä ei vielä kaikki.

Search Engine Land, hakukoneteollisuuden raportoimiseen erikoistunut uutissivusto, julkaisi äskettäin blogin, joka käänsi tuhansia vuotaneita Googlen oikeuden asiakirjoja paljastaakseen ensimmäistä kertaa Googlen online-hakusijoitusten keskeiset tekniset periaatteet.

Tämä blogikirjoitus syntyi sen jälkeen, kun alkuperäinen kirjoittaja tarkasteli, analysoi, jäsenteli, hylkäsi ja järjesti uudelleen lähes 100 dokumenttia useiden viikkojen aikana. Kattavat ja yksityiskohtaiset tiedot kuin mikään muu hakukone.

Tekijän vuonsäästöversion rakennekaavio on seuraava:

Ei ole epäilystäkään siitä, että Google-hakukone on suuri ja monimutkainen projekti. Indeksointijärjestelmästä, arkisto Alexandriasta, karkeasta luokittelusta Mustangista suodatus- ja hienoluokitusjärjestelmään Superroot ja GWS, jotka vastaavat sivun lopullisesta hahmontamisesta, vaikuttavat verkkosivuston sivun lopulliseen esitykseen ja näkyvyyteen.

Uusi tiedosto: odottaa Googlebotin käyttöä

Kun uusi verkkosivusto julkaistaan, Google ei indeksoi sitä välittömästi. Miten Google kerää ja päivittää verkkosivun tietoja?

Ensimmäinen vaihe on indeksointi ja tietojen kerääminen. Google voi indeksoida sivuston URL-osoitteen.

Lisäksi linkit usein vieraileville sivuille voivat herättää Googlen huomion nopeammin.

Indeksointirobottijärjestelmä indeksoi uutta sisältöä ja kirjaa, kun URL-osoitteisiin käydään uudelleen tarkistaakseen, onko verkkosivuston päivityksiä. Tätä hallitsee aikatauluttaja.

Tallennuspalvelin päättää sitten, lähettääkö URL-osoitteen edelleen vai tallentaako se hiekkalaatikkoon.

Google on aiemmin kiistänyt hiekkalaatikoiden olemassaolon, mutta viimeaikaiset vuodot osoittavat, että hiekkalaatikkoon sijoitetaan myös (epäiltyä) roskapostia ja vähäarvoisia verkkosivustoja, ja Google ilmeisesti lähettää edelleen joitakin roskapostisivustoja, mahdollisesti sisällön analysointia ja koulutusalgoritmia varten.

Kuvalinkki siirretään sitten ImageBotiin myöhempiä hakukutsuja varten, joskus ImageBotissa on lajitteluominaisuus, joka sijoittaa identtiset tai samankaltaiset kuvat kuvasäiliöön.

Indeksointijärjestelmä näyttää käyttävän omaa PageRank-arvoaan tietojen indeksoinnin tiheyden säätämiseen. Jos verkkosivustolla on enemmän liikennettä, tämä indeksointitiheys kasvaa (ClientTrafficFraction).

Alexandria: Googlen indeksointijärjestelmä

Googlen hakemistojärjestelmä, nimeltään Alexandria, määrittää jokaisen verkkosivun sisällölle yksilöllisen DocID-tunnuksen. Jos sisältö on päällekkäistä, uutta tunnusta ei luoda, vaan URL-osoite linkitetään olemassa olevaan DocID:hen.

Google tekee selvän eron URL-osoitteiden ja asiakirjojen välillä: asiakirja voi koostua useista URL-osoitteista, jotka sisältävät samanlaista sisältöä, mukaan lukien eri kieliversiot, joita kaikkia kutsutaan samalla DocID:llä.

Jos kohtaat päällekkäistä sisältöä eri verkkotunnuksista, Google näyttää ensisijaisen version hakusijoituksissa. Tämä selittää myös, miksi muut URL-osoitteet voivat joskus sijoittua samalla tavalla. Lisäksi URL-osoitteen niin kutsuttu "kanoninen" versio ei ole kertaluonteinen sopimus, vaan se muuttuu ajan myötä.

Alexandria-kokoelman asiakirjan URL-osoite

Tekijän asiakirjasta on verkossa vain yksi versio, joten järjestelmä antaa sille oman DocID-tunnuksensa.

DocID:n avulla asiakirjan jokaisesta osasta haetaan avainsanoja ja niistä tehdään yhteenveto hakuhakemistoon. "Osumalista" tiivistää avainsanat, jotka esiintyvät useita kertoja kullakin sivulla ja lähetetään ensin suoraan hakemistoon.

Otetaan esimerkkinä kirjoittajan verkkosivu. Koska sana "lyijykynä" esiintyy siinä monta kertaa, DocID on lueteltu sanahakemiston "kynä"-merkinnän alla.

Algoritmi laskee dokumentissa olevan sanan "lyijykynä" IR (Information Retrieval) -pistemäärän erilaisten tekstiominaisuuksien perusteella ja määrittää sen DocID:lle, jota käytetään myöhemmin lähetysluettelossa.

Esimerkiksi asiakirjassa oleva sana "lyijykynä" on lihavoitu ja sisällytetty ensimmäisen tason otsikkoon (tallennettuna AvrTermWeightiin). Tällaiset signaalit lisäävät IR-pisteitä.

Google siirtää tärkeät asiakirjat HiveMindiin, päämuistijärjestelmään, käyttämällä sekä nopeita SSD-levyjä että perinteisiä kiintolevyjä (kutsutaan TeraGoogle-kiintolevyille) tietojen pitkäaikaiseen tallentamiseen, jota ei tarvitse käyttää nopeasti.

Erityisesti asiantuntijat arvioivat, että ennen viimeaikaista tekoälybuumia Google hallitsi noin puolta maailman verkkopalvelimista.

Valtava yhteenliitettyjen klustereiden verkosto voi mahdollistaa miljoonien päämuistiyksiköiden työskentelyn yhdessä Googlen insinööri huomautti kerran konferenssissa, että teoriassa Googlen päämuisti voisi tallentaa koko verkon.

Mielenkiintoista on, että HiveMindiin tallennettujen tärkeiden asiakirjojen linkeillä sekä käänteislinkeillä näyttää olevan suurempi paino, kun taas HDD:n (TeraGoogle) URL-linkeillä voi olla pienempi paino, eikä niitä välttämättä edes harkita.

Jokaisen DocID:n lisätiedot ja signaalit tallennetaan dynaamisesti PerDocData-tietovarastoon, joka sisältää kunkin asiakirjan 20 viimeisintä versiota (CrawlerChangerateURLHistoryn kautta), joita monet järjestelmät käyttävät, kun he säätävät osuvuutta.

Ja Google pystyy arvioimaan eri versioita ajan myötä. Jos haluat muuttaa dokumentin sisältöä tai teemaa kokonaan, sinun on teoriassa luotava 20 siirtymäversiota korvataksesi vanhan version kokonaan.

Tästä syystä vanhentuneen verkkotunnuksen (joka oli aikoinaan aktiivinen, mutta myöhemmin hylätty tai myyty konkurssin tai muiden syiden vuoksi) palauttaminen ei säilytä alkuperäisen verkkotunnuksen sijoitusetua.

Jos verkkotunnuksen Admin-C ja sen aiheen sisältö muuttuvat samanaikaisesti, koneet tunnistavat tämän helposti.

Tällä hetkellä Google asettaa kaikki signaalit nollaan, eikä vanha verkkotunnus, jolla oli liikennearvoa, enää tarjoa mitään etuja. Se ei eroa äskettäin rekisteröidystä verkkotunnuksen nimestä yli alkuperäisen liikenteen ja sijoitukset.

Vuotojen lisäksi todistusasiakirjat Yhdysvaltain oikeuskäsittelyistä ja Googlea vastaan käydyistä oikeudenkäynneistä ovat hyödyllinen tutkimuslähde, mukaan lukien sisäiset sähköpostit

QBST: Joku etsii "kynä"

Kun joku kirjoittaa hakusanan "lyijykynä" Googleen, QBST (Query Based Salient Terms) alkaa toimia.

QBST on vastuussa käyttäjän syöttämien hakutermien analysoinnista, eri painojen määrittämisestä jokaiselle sen sisältämälle sanalle tärkeyden ja osuvuuden perusteella sekä asiaankuuluvien DocID-kyselyjen suorittamisesta.

Sanaston painotusprosessi on melko monimutkainen ja sisältää järjestelmiä, kuten RankBrain, DeepRank (entinen BERT) ja RankEmbeddedBERT.

QBST on tärkeä hakukoneoptimoijalle, koska se vaikuttaa siihen, miten Google sijoittuu hakutulokset ja siten kuinka paljon liikennettä ja näkyvyyttä verkkosivusto voi saada.

QBST sijoittuu verkkosivustolle korkeammalle, jos se sisältää yleisimmin käytetyt termit, jotka vastaavat käyttäjien kyselyitä.

QBST:n jälkeen liittyvät sanat, kuten "lyijykynä", välitetään Ascorerille jatkokäsittelyä varten.

Ascorer: Luo "vihreä rengas"

Ascorer poimii 1000 parasta DocID:tä "kynä"-merkinnän alla käänteisestä indeksistä (eli sanakirjasta) ja luokittelee ne IR-pisteiden mukaan.

Sisäisten asiakirjojen mukaan tätä luetteloa kutsutaan "vihreäksi renkaaksi". Toimialalla tätä kutsutaan postituslistaksi.

"Kynä"-esimerkissämme vastaava asiakirja on julkaistussa luettelossa sijalla 132. Jos mikään muu järjestelmä ei puutu asiaan, tämä on sen lopullinen asema.

Superroot: "Kymmenen tuhannesta mailista"

Superroot on vastuussa Mustangin juuri tarkastaman 1 000 ehdokkaan verkkosivun uudelleensijoittamisesta, mikä pienentää 1 000 DocID:n "vihreän renkaan" 10 tuloksen "siniseksi renkaaksi".

Tämän tehtävän suorittavat erityisesti Twiddlers ja NavBoost. Myös muut järjestelmät voivat olla mukana, mutta tarkemmat tiedot ovat epätarkkoja.

Mustang tuottaa 1000 mahdollista tulosta, Superroot suodattaa ne 10:een

Twiddlers: suodatuskerrokset

Useat asiakirjat osoittavat, että Google käyttää satoja Twiddler-järjestelmiä, joita voimme ajatella samanlaisina kuin WordPress-laajennusten suodattimet.

Jokaisella Twiddlerillä on omat suodatustavoitteensa, ja se voi säätää IR-pisteitä tai sijoitusta.

Se on suunniteltu tällä tavalla, koska Twiddler on suhteellisen helppo luoda, eikä se vaadi Ascorerin monimutkaisen ranking-algoritmin muokkaamista.

Luokitusalgoritmien muuttaminen on erittäin haastavaa mahdollisten sivuvaikutusten vuoksi ja vaatii laajaa suunnittelua ja ohjelmointia. Sitä vastoin useat Twiddlerit toimivat rinnakkain tai peräkkäin eivätkä ole tietoisia muiden Twiddlereiden toiminnasta.

Twiddlers voidaan periaatteessa jakaa kahteen tyyppiin:

-PreDoc Twiddlers pystyy käsittelemään satojen DocID-kokoelmia, koska ne vaativat vain vähän lisätietoa;

-Päinvastoin, "Lazy"-tyyppinen Twiddler vaatii enemmän tietoa, kuten tietoa PerDocData-tietokannasta, mikä vaatii suhteellisen pidemmän ajan ja monimutkaisemman prosessin.

Siksi PreDocs vastaanottaa ensin julkaisuluettelon ja vähentää Web-sivujen merkintöjä ja käyttää sitten hitaampaa "Lazy"-tyyppistä suodatinta. Näiden kahden yhdistelmä säästää huomattavasti laskentatehoa ja aikaa.

Kahden tyyppinen yli 100 Twiddleriä on vastuussa mahdollisten hakutulosten määrän vähentämisestä ja niiden järjestyksestä

Testauksen jälkeen Twiddlerillä on useita käyttötarkoituksia.

Vuotanut sisäinen Google-dokumentti paljastaa, että vain asiantuntijat voivat käyttää tiettyjä Twiddler-ominaisuuksia yhdessä ydinhakutiimin kanssa.

Jos luulet tietäväsi kuinka Twidder toimii, luota meihin: et tiedä. Emme ole varmoja, ymmärrämmekö

On myös Twiddlers-ohjelmia vain merkintöjen luomiseen ja niiden lisäämiseen DocID:hen.

Miksi maasi terveysosasto on aina COVID-19-hakujen listan kärjessä COIVD:n aikana?

Tämä johtuu siitä, että Twiddler käyttää queriesForWhichOfficialia helpottaakseen virallisten resurssien tarkkaa jakamista kielen ja alueen perusteella.

Vaikka kehittäjät eivät voi hallita Twiddlerin uudelleensijoittamisen tuloksia, sen mekaniikkojen ymmärtäminen voi selittää paremmin sijoituksen vaihtelut ja "selittämättömät sijoitukset".

Laadunarvioija ja RankLab

Tuhannet laadunarvioijat ympäri maailmaa arvioivat Googlen hakutuloksia ja testaavat uusia algoritmeja tai suodattimia ennen niiden julkaisemista.

Google sanoo, että heidän arvionsa ovat vain viitteellisiä eivätkä vaikuta suoraan sijoitukseen.

Tämä on pohjimmiltaan totta, mutta heidän luokituksillaan ja tarjouslipuilla on valtava epäsuora vaikutus sijoitukseen.

Arvioijat suorittavat tyypillisesti arviointeja mobiililaitteella, saamalla URL-osoitteen tai hakulausekkeen järjestelmästä ja vastaamalla ennalta asetettuihin kysymyksiin.

Heiltä kysytään esimerkiksi: Onko tämän sisällön tekijä ja luova käytäntö selvät, onko tekijällä asiantuntemusta?

Nämä vastaukset tallennetaan ja niitä käytetään koneoppimisalgoritmien kouluttamiseen tunnistamaan paremmin laadukkaat, luotettavat sivut ja vähemmän luotettavat sivut.

Toisin sanoen ihmisten arvioijien antamista tuloksista tulee tärkeitä perusteita syväoppimisalgoritmille, eivätkä Googlen hakutiimin luomat sijoituskriteerit ole niin tärkeitä.

Kuvittele, millaisia verkkosivuja ihmisarvioijat pitävät luotettavina?

Sivu näyttää yleensä vakuuttavalta, jos se sisältää tekijän valokuvan, koko nimen ja LinkedIn-linkin. Sitä vastoin verkkosivut, joista puuttuvat nämä ominaisuudet, katsotaan vähemmän luotettaviksi.

Neuraaliverkko tunnistaa tämän ominaisuuden avaintekijäksi, ja vähintään 30 päivän aktiivisten testiajojen jälkeen malli voi alkaa automaattisesti käyttää tätä ominaisuutta sijoituskriteerinä.

Tästä syystä sivut, joissa on tekijän valokuva, koko nimi ja LinkedIn-linkki, voivat saada paremman sijoituksen Twiddler-mekanismin avulla, kun taas sivuilla, joilla ei ole näitä ominaisuuksia, sijoitus laskee.

Lisäksi Googlen vuotamien tietojen mukaan isAuthor-attribuutin ja AuthorVectors-attribuutin (samanlainen kuin "tekijän sormenjälkitunnistus") kautta järjestelmä voi tunnistaa ja erottaa tekijän ainutlaatuiset sanat ja ilmaisut (eli henkilökohtaiset kielen ominaisuudet).

Arvioijien arviot kootaan tietotyytyväisyyspisteiksi (IS). Vaikka monet arvioijat osallistuvat, IS-pisteet koskevat vain pientä määrää URL-osoitteita.

Google huomauttaa, että monet asiakirjat, joita ei napsauta, voivat myös olla tärkeitä. Jos järjestelmä ei pysty tekemään johtopäätöstä, asiakirja lähetetään automaattisesti arvioijalle ja siitä luodaan pistemäärä.

Termi "kulta" mainitaan arvioijaan liittyvissä termeissä, mikä viittaa siihen, että tietyillä asiakirjoilla voi olla "kultastandardi", ja arvioijien odotusten täyttäminen voi auttaa asiakirjaa saavuttamaan "kultatason".

Lisäksi yksi tai useampi Twiddler-järjestelmä voi nostaa "kultastandardin" täyttäviä DocID-tunnisteita kymmenen parhaan joukkoon.

Laaduntarkastajat eivät yleensä ole Googlen kokopäiväisiä työntekijöitä, vaan ovat sidoksissa ulkoistusyrityksiin.

Sitä vastoin Googlen omat asiantuntijat työskentelevät RankLabissa suorittaen kokeita, kehittäen uusia Twiddlereita sekä arvioimalla ja parantamalla niitä nähdäkseen, parantaako Twiddler tulosten laatua vai suodattaako vain roskapostia.

Todistettu ja tehokas Twiddler integroitiin sitten Mustang-järjestelmään monimutkaisten, toisiinsa yhdistettyjen ja laskentaintensiivisten algoritmien avulla.

NavBoost: Mistä käyttäjät pitävät?

Superrootissa toisella ydinjärjestelmällä NavBoostilla on myös tärkeä rooli hakutulosten luokittelussa.

Navboostia käytetään pääasiassa keräämään tietoja käyttäjien vuorovaikutuksesta hakutulosten kanssa, erityisesti heidän klikkauksistaan eri kyselytuloksissa.

Vaikka Google virallisesti kieltää käyttämästä käyttäjien napsautustietoja sijoituksiin, Federal Trade Commissionin (FTC) julkaisemassa sisäisessä sähköpostissa kehotetaan klikkaustietojen käsittelyä pitämään luottamuksellisina.

Google kiistää tämän kahdesta syystä.

Ensinnäkin käyttäjän näkökulmasta Google hakualustana tarkkailee käyttäjien verkkotoimintaa jatkuvasti, mikä aiheuttaa median raivoa tietosuojaongelmista.

Mutta Googlen näkökulmasta napsautustietojen käytön tarkoituksena on saada tilastollisesti merkittäviä datamittareita, ei yksittäisten käyttäjien seurantaa.

FTC:n asiakirja vahvisti, että napsautustiedot vaikuttavat sijoituksiin, ja mainittiin usein NavBoost-järjestelmä (54 kertaa kuulemistilaisuuden aikana 18. huhtikuuta 2023), mikä vahvistettiin myös virallisessa kuulemisessa vuonna 2012.

Elokuusta 2012 lähtien viranomaiset ovat tehneet selväksi, että napsautustiedot vaikuttavat sijoituksiin

Erilaiset käyttäjien käytökset hakutulossivulla, mukaan lukien haut, napsautukset, toistuvat haut ja toistuvat napsautukset sekä liikenne verkkosivustolle tai verkkosivulle, vaikuttavat kaikki sijoitukseen.

Huoli käyttäjien yksityisyydestä on vain yksi syy. Toinen huolenaihe on, että klikkaustietojen ja liikenteen arvioiminen voi rohkaista roskapostittajia ja huijareita käyttämään bottijärjestelmiä väärentämään liikennettä sijoitusten manipuloimiseksi.

Googlella on myös menetelmiä tämän tilanteen torjumiseksi, kuten käyttäjien napsautusten erottaminen huonoista napsautuksista ja hyvistä napsautuksista useiden arvioiden avulla.

Käytettyjä mittareita ovat kohdesivulla vietetty aika, aika, jonka aikana sivua on katseltu, haun aloitussivu, viimeisin "hyvä napsautus" -tietue käyttäjän hakuhistoriassa jne.

Jokaiselle hakutulossivujen sijoitukselle (SERP:t) on lähtökohtana keskimääräinen odotettu napsautussuhde (CTR).

Esimerkiksi Johannes Beusin tämän vuoden CAMPIXX-konferenssissa Berliinissä tekemän analyysin mukaan luonnollisissa hakutuloksissa ensimmäinen sija sai keskimäärin 26,2 % klikkauksista ja toinen sija 15,5 % klikkauksista.

Jos napsautussuhde on huomattavasti odotettua alhaisempi, NavBoost-järjestelmä huomaa eron ja säätää DocID:n sijoitusta sen mukaisesti.

Jos "expected_CRT" poikkeaa merkittävästi todellisesta arvosta, sijoitusta muutetaan vastaavasti

Käyttäjän napsautukset edustavat pohjimmiltaan käyttäjän mielipidettä tulosten, mukaan lukien otsikosta, kuvauksesta ja verkkotunnuksen, merkityksestä.

SEO-asiantuntijoiden ja data-analyytikkojen raporttien mukaan napsautussuhteita kattavasti seuratessaan he huomasivat seuraavat ilmiöt:

Jos asiakirja pääsee hakukyselyn 10 parhaan joukkoon ja napsautussuhde on huomattavasti odotettua alhaisempi, voidaan havaita, että sijoitus laskee muutaman päivän sisällä (riippuen hakumäärästä).

Päinvastoin, jos napsautussuhde on paljon korkeampi suhteessa sijoitukseen, sijoitus yleensä nousee. Jos napsautussuhde on huono, verkkosivuston on säädettävä ja optimoitava otsikko ja sisällön kuvaus lyhyessä ajassa saadakseen lisää napsautuksia.

PageRank-arvon laskeminen ja päivittäminen on aikaa vievää ja intensiivistä laskentaa, minkä vuoksi käytetään PageRank_NS-mittaria. NS on lyhenne sanoista "lähin siemen". Ryhmään liittyviä sivuja jakavat PageRank-arvon, jota käytetään uusille sivuille tilapäisesti tai pysyvästi.

Google näytti hyvää esimerkkiä kuulemistilaisuudessa, jossa käsiteltiin ajantasaisen tiedon tarjoamista. Kun käyttäjä esimerkiksi tekee haun "Stanley Cup", hakutuloksissa näkyy yleensä vesilasi.

Kuitenkin, kun Stanley Cupin jääkiekkoottelu on meneillään, NavBoost säätää tuloksia priorisoidakseen reaaliaikaista tietoa pelistä.

Viimeisimpien havaintojen mukaan asiakirjan napsautusmittarit kattavat 13 kuukauden dataa, ja yhden kuukauden päällekkäisyys mahdollistaa vertailun edelliseen vuoteen.

Yllättäen Google ei itse asiassa tarjoa juurikaan personoituja hakutuloksia. Testitulokset ovat osoittaneet, että käyttäjien käyttäytymisen mallintaminen ja säätäminen voi johtaa parempiin tuloksiin kuin yksittäisten käyttäjien henkilökohtaisten mieltymysten arvioiminen.

Henkilökohtaiset asetukset, kuten haku- ja videosisältöasetukset, sisältyvät kuitenkin edelleen räätälöityihin tuloksiin.

GWS: Haun loppu ja alku

Google Web Server (GWS) vastaa hakutulossivun (SERP) hahmontamisesta, joka sisältää 10 "sinistä linkkiä", sekä mainoksia, kuvia, Google Maps -näkymiä, "Ihmiset myös kysyvät" ja muita elementtejä.

Nämä komponentit, kuten FreshnessNode, InstantGlue (reagoi 24 tunnin sisällä, noin 10 minuutin viiveellä) ja InstantNavBoost, voivat säätää sijoitusta viimeisellä hetkellä ennen sivun näyttämistä.

FreshnessNode voi seurata muutoksia käyttäjien hakukäyttäytymisessä reaaliajassa ja säätää sijoitusta näiden muutosten perusteella varmistaakseen, että hakutulokset vastaavat viimeisimpiä hakuaikeita.

InstantNavBoost ja InstantGlue tekevät viimeisiä muutoksia sijoituksiin ennen hakutulosten lopullista renderöintiä, kuten muokkaavat sijoitusta tuoreiden uutisten ja kuumien aiheiden perusteella.

siksiKorkean sijoituksen saavuttamiseksi erinomainen asiakirjasisältö on yhdistettävä oikeaan SEO-mittaan.

Sijoituksiin voivat vaikuttaa monet tekijät, kuten muutokset hakukäyttäytymisessä, lisäasiakirjojen olemassaolo ja reaaliaikaisten tietojen päivitykset. Siksi on tärkeää ymmärtää, että korkealaatuinen sisältö ja hyvä hakukoneoptimointi ovat vain osa dynaamista sijoitusmaisemaa.

Googlen John Mueller korosti, että sijoitusten lasku ei yleensä tarkoita, että sisältö olisi huonolaatuista ja että muutokset käyttäjien käyttäytymisessä tai muut tekijät voivat muuttaa tulosten suorituskykyä.

Jos käyttäjät esimerkiksi alkavat suosia lyhyempää tekstiä, NavBoost säätää sijoituksia automaattisesti vastaavasti. IR-pisteet Alexandria-järjestelmässä tai Ascorerissa pysyvät kuitenkin ennallaan.

Tämä kertoo meille, että SEO on ymmärrettävä laajemmassa merkityksessä. Pelkästään otsikon tai sisällön optimointi on tehotonta, jos asiakirjan sisältö on ristiriidassa käyttäjän hakutarkoituksen kanssa.

uutiset

Googlen hakukone täysin paljastettu! Lähes sata asiakirjaa vuoti, ja bloggaajat käyttivät viikkoja niiden uudelleenmuokkaukseen.

Johdanto

Yhteystietoni