Mesin pencari Google terungkap sepenuhnya! Hampir seratus dokumen bocor, dan blogger tersebut menghabiskan waktu berminggu-minggu untuk melakukan reverse engineering

Mesin pencari Google terungkap sepenuhnya! Hampir seratus dokumen bocor, dan para blogger menghabiskan waktu berminggu-minggu untuk merekayasa balik dokumen tersebut.

2024-08-23

Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru]Menyusul kebocoran dokumen pada bulan Mei, mesin pencari Google kembali jungkir balik. DeepMind tidak hanya menerbitkan makalah yang menjelaskan mekanisme sistem Wazir, blogger Mario Fischer juga melakukan penelitian dan analisis menyeluruh terhadap hampir seratus dokumen untuk mengembalikan gambaran utuh raksasa Internet ini.

Makalah yang diterbitkan oleh Google mulai mengungkap kembali rahasia teknologinya sendiri.

Dalam makalah terbaru yang diterbitkan oleh ilmuwan riset senior DeepMind Xingyou (Richard) Song dan lainnya, mereka menjelaskan rahasia algoritme di balik layanan Wazir Google.

Sebagai pengoptimal kotak hitam yang telah dijalankan jutaan kali, Vizier telah membantu Google mengoptimalkan banyak studi dan sistem internal di saat yang sama, Google Cloud dan Vertex juga telah meluncurkan layanan Vizier untuk membantu peneliti dan pengembang melakukan penyesuaian hyperparameter atau pengoptimalan kotak hitam; .

Song mengatakan bahwa dibandingkan dengan baseline industri lainnya seperti Ax/BoTorch, HEBO, Optuna, HyperOpt, SkOpt, dll., Vizier memiliki kinerja yang lebih kuat dalam banyak skenario pengguna, seperti dimensi tinggi, kueri batch, masalah multi-tujuan, dll.

Mengambil keuntungan dari rilis makalah ini, veteran Google Jeff Dean juga menulis tweet untuk memuji sistem Wazir.

Versi open source dari Vizier yang dia sebutkan telah dihosting di repositori GitHub, memiliki dokumentasi yang sangat rinci, dan terus dipelihara dan diperbarui baru-baru ini.

Alamat gudang: https://github.com/google/vizier

Sistem server klien terdistribusi OSS Wazir

Meskipun Google Research menerbitkan artikel yang membahas keseluruhan sistem Wazir pada awal tahun 2017, kontennya kurang detail dibandingkan artikel terbaru.

Laporan teknis ini berisi hasil sejumlah besar penelitian dan umpan balik pengguna. Sambil menjelaskan detail implementasi dan pilihan desain algoritma Vizier open source, laporan ini menggunakan eksperimen pada tolok ukur standar untuk menunjukkan ketangguhan dan fleksibilitas Vizier dalam berbagai bidang. mode praktis.

Diantaranya, pengalaman dan pembelajaran dari proses berulang sistem Wazir juga ditampilkan satu per satu, yang memiliki signifikansi referensi yang besar bagi akademisi dan industri dan patut untuk disaksikan.

Komponen inti dari algoritma Bayesian yang digunakan oleh sistem Wazir

Kontribusi utama artikel ini adalah sebagai berikut:

- Konfirmasi formal algoritma default untuk versi Vizier saat ini dan penjelasan fungsinya, pilihan desain, dan pembelajaran selama proses iterasi

- Menyediakan implementasi kerangka kerja Python dan JAX open source berdasarkan implementasi C++ asli

- Diuji menggunakan tolok ukur industri umum, menunjukkan ketangguhan Wazir dalam mode pengoptimalan dimensi tinggi, klasifikasi, batch, dan multi-tujuan

- Eksperimen ablasi pada pilihan desain yang tidak konvensional dari pengoptimal akuisisi evolusioner orde nol dilakukan, dan keunggulan utama didemonstrasikan dan didiskusikan.

Dua teratas dalam daftar penulis makalah ini adalah dua Richards——

Xingyou (Richard) Song bekerja sebagai peneliti generalisasi pembelajaran penguatan di OpenAI. Dia bergabung dengan Google Brain sebagai ilmuwan riset senior pada tahun 2019 dan akan menjabat sebagai ilmuwan riset senior di DeepMind mulai tahun 2023, mengerjakan GenAI.

Qiuyi (Richard) Zhang saat ini bekerja di tim DeepMind Vizier dan juga salah satu pencipta Vizier versi open source. Penelitiannya terutama berfokus pada pengoptimalan hyperparameter, kalibrasi Bayesian, dan arahan pembelajaran mesin teoretis dalam penyelarasan AI, kontrafaktual/keadilan Seks dan aspek lainnya juga terlibat.

Zhang menerima gelar sarjana summa cum laude dari Universitas Princeton pada tahun 2014, dan kemudian menerima gelar PhD di bidang matematika terapan dan ilmu komputer dari Universitas California, Berkeley.

Mekanisme mesin pencari dimulai dari bawah

Sebagai raksasa industri absolut, banyak teknologi inti Google yang dirahasiakan telah lama membuat dunia luar penasaran, seperti mesin pencari.

Dengan pangsa pasar lebih dari 90% selama lebih dari sepuluh tahun, pencarian Google mungkin telah menjadi sistem yang paling berpengaruh di seluruh Internet. Sistem ini menentukan hidup dan matinya situs web dan penyajian konten online.

Namun rincian spesifik tentang bagaimana Google memberi peringkat situs web selalu menjadi “kotak hitam”.

Berbeda dengan produk seperti Vizier, mesin pencari adalah kode kekayaan dan teknologi rumah tangga Google, dan tidak mungkin diungkapkan di surat kabar resmi.

Meskipun beberapa media, peneliti, dan orang-orang yang bergerak di bidang optimasi mesin pencari telah membuat berbagai spekulasi, mereka hanyalah orang buta yang mencoba mencari tahu apa yang dimaksud dengan gajah.

Gugatan antimonopoli Google yang berlarut-larut baru-baru ini mengumumkan putusannya. Jaksa AS di semua tingkatan mengumpulkan sekitar 5 juta halaman dokumen dan mengubahnya menjadi bukti publik.

Namun, kebocoran dokumen internal Google dan pengajuan publik dari dengar pendapat antimonopoli, antara lain, tidak benar-benar memberi tahu kita cara kerja pemeringkatan.

Selain itu, karena penggunaan pembelajaran mesin, struktur hasil penelusuran organik menjadi sangat kompleks sehingga karyawan Google yang terlibat dalam pengembangan algoritme pemeringkatan juga mengatakan,Mereka tidak sepenuhnya memahami interaksi dari banyak bobot sinyal untuk menjelaskan mengapa hasil tertentu menempati urutan pertama atau kedua.

Pada tanggal 27 Mei, sumber anonim (kemudian dikonfirmasi sebagai Erfan Azimi, seorang praktisi veteran di industri pengoptimalan mesin pencari) memberikan dokumen kebocoran Google Search API setebal 2.500 halaman kepada CEO SparkToro Rand Fishkin, mengungkapkan mesin pencari Google Detail internal algoritma peringkat.

Tapi bukan itu saja.

Search Engine Land, situs web berita yang mengkhususkan diri dalam pelaporan industri mesin pencari, baru-baru ini menerbitkan sebuah blog yang merekayasa balik ribuan dokumen pengadilan Google yang bocor untuk mengungkapkan untuk pertama kalinya prinsip-prinsip teknis inti dari peringkat pencarian online Google.

Postingan blog ini lahir setelah penulis asli meninjau, menganalisis, menyusun, membuang, dan mengatur ulang hampir 100 dokumen berkali-kali dalam beberapa minggu kerja. Informasi yang komprehensif dan detail tidak seperti mesin pencari lainnya.

Diagram struktur versi hemat aliran penulis adalah sebagai berikut:

Tidak ada keraguan bahwa mesin pencari Google adalah proyek yang besar dan kompleks. Dari sistem perayap, repositori Alexandria, peringkat kasar Mustang, hingga sistem pemfilteran dan peringkat halus Superroot dan GWS yang bertanggung jawab atas rendering akhir halaman, ini akan memengaruhi presentasi akhir dan eksposur halaman situs web.

File baru: menunggu akses Googlebot

Ketika situs web baru dipublikasikan, situs tersebut tidak akan langsung diindeks oleh Google. Bagaimana cara Google mengumpulkan dan memperbarui informasi halaman web?

Langkah pertama adalah crawling dan pengumpulan data. Google perlu mengetahui keberadaan URL website terlebih dahulu. Memperbarui peta situs atau memasang link URL memungkinkan Google untuk meng-crawl website baru.

Apalagi link ke halaman yang sering dikunjungi bisa lebih cepat menarik perhatian Google.

Sistem perayap merayapi konten baru dan mencatat kapan URL dikunjungi kembali untuk memeriksa pembaruan situs web. Sistem ini dikelola oleh komponen yang disebut penjadwal.

Server penyimpanan kemudian memutuskan apakah akan meneruskan URL atau memasukkannya ke dalam kotak pasir.

Google sebelumnya telah menyangkal keberadaan kotak pasir, namun kebocoran baru-baru ini menunjukkan bahwa (dugaan) spam dan situs web bernilai rendah juga ditempatkan di kotak pasir, dan Google tampaknya akan meneruskan beberapa situs web spam, mungkin untuk analisis konten lebih lanjut dan algoritma pelatihan.

Tautan gambar kemudian ditransfer ke ImageBot untuk panggilan pencarian berikutnya, terkadang dengan penundaan. ImageBot memiliki fitur pengurutan yang menempatkan gambar yang identik atau serupa dalam wadah gambar.

Sistem perayap sepertinya menggunakan PageRank-nya sendiri untuk menyesuaikan frekuensi perayapan informasi. Jika situs web memiliki lalu lintas lebih besar, frekuensi perayapan ini akan meningkat (ClientTrafficFraction).

Alexandria: Sistem Pengindeksan Google

Sistem pengindeksan Google, yang disebut Alexandria, memberikan DocID unik untuk setiap konten halaman web. Jika terjadi duplikat konten, ID baru tidak akan dibuat, tetapi URL akan ditautkan ke DocID yang sudah ada.

Google membuat perbedaan yang jelas antara URL dan dokumen: sebuah dokumen dapat terdiri dari beberapa URL yang berisi konten serupa, termasuk versi bahasa berbeda, yang semuanya disebut dengan DocID yang sama.

Jika Anda menemukan konten duplikat dari nama domain berbeda, Google akan memilih untuk menampilkan versi kanonik di peringkat pencarian. Ini juga menjelaskan mengapa URL lain terkadang memiliki peringkat yang sama. Selain itu, versi URL yang disebut "kanonik" bukanlah kesepakatan satu kali saja, namun akan berubah seiring berjalannya waktu.

URL dokumen koleksi Alexandria

Hanya ada satu versi dokumen penulis yang online, sehingga diberikan DocID sendiri oleh sistem.

Dengan DocID, setiap bagian dokumen akan dicari kata kuncinya dan terangkum dalam indeks pencarian. "Daftar sasaran" merangkum kata kunci yang muncul beberapa kali di setiap halaman dan akan dikirim ke indeks langsung terlebih dahulu.

Ambil halaman web penulis sebagai contoh. Karena kata "pensil" muncul berkali-kali di dalamnya, DocID terdaftar di bawah entri "pensil" dalam indeks kata.

Algoritme menghitung skor IR (Information Retrieval) dari kata "pensil" dalam dokumen berdasarkan berbagai fitur teks dan menetapkannya ke DocID, yang kemudian digunakan dalam Daftar Posting.

Misalnya, kata "pensil" dalam dokumen dicetak tebal dan dimasukkan dalam judul tingkat pertama (disimpan dalam AvrTermWeight). Sinyal tersebut akan meningkatkan skor IR.

Google akan memindahkan dokumen penting ke HiveMind, sistem memori utama, menggunakan SSD cepat dan HDD tradisional (disebut TeraGoogle) untuk penyimpanan informasi jangka panjang yang tidak perlu diakses dengan cepat.

Khususnya, para ahli memperkirakan bahwa sebelum booming AI baru-baru ini, Google menguasai sekitar setengah dari server web dunia.

Jaringan besar yang terdiri dari cluster-cluster yang saling berhubungan dapat memungkinkan jutaan unit memori utama untuk bekerja bersama. Seorang insinyur Google pernah menunjukkan pada sebuah konferensi bahwa secara teori, memori utama Google dapat menyimpan seluruh jaringan.

Menariknya, tautan ke dokumen penting yang disimpan di HiveMind serta tautan balik tampaknya memiliki bobot lebih tinggi, sedangkan tautan URL di HDD (TeraGoogle) mungkin memiliki bobot lebih rendah dan bahkan mungkin tidak dipertimbangkan.

Informasi dan sinyal tambahan untuk setiap DocID disimpan secara dinamis di PerDocData, sebuah repositori yang menyimpan 20 versi terbaru dari setiap dokumen (melalui CrawlerChangerateURLHistory), yang diakses oleh banyak sistem saat menyesuaikan relevansi.

Dan, Google memiliki kemampuan untuk mengevaluasi versi yang berbeda dari waktu ke waktu. Jika Anda ingin mengubah konten atau tema dokumen sepenuhnya, secara teoritis Anda perlu membuat 20 versi transisi untuk menimpa versi lama sepenuhnya.

Inilah sebabnya mengapa memulihkan domain yang kadaluwarsa (yang pernah aktif tetapi kemudian ditinggalkan atau dijual karena kebangkrutan atau alasan lainnya) tidak akan mempertahankan keunggulan peringkat domain asli.

Jika Admin-C domain dan konten subjeknya berubah pada saat yang sama, mesin dapat dengan mudah mengidentifikasi hal ini.

Saat ini, Google akan menyetel semua sinyal ke nol, dan nama domain lama yang pernah memiliki nilai lalu lintas tidak lagi memberikan keuntungan apa pun. Tidak ada bedanya dengan nama domain yang baru didaftarkan atas lalu lintas dan peringkat asli.

Selain kebocoran, dokumen bukti dari sidang peradilan AS dan persidangan terhadap Google merupakan sumber penelitian yang berguna, bahkan termasuk email internal

QBST: Seseorang sedang mencari "pensil"

Ketika seseorang memasukkan istilah pencarian "pensil" ke Google, QBST (Query Based Salient Terms) mulai bekerja.

QBST bertanggung jawab untuk menganalisis istilah pencarian yang dimasukkan oleh pengguna, memberikan bobot berbeda untuk setiap kata yang terkandung di dalamnya berdasarkan kepentingan dan relevansinya, dan melakukan masing-masing kueri DocID yang relevan.

Proses pembobotan kosakata cukup kompleks dan melibatkan sistem seperti RankBrain, DeepRank (sebelumnya BERT), dan RankEmbeddedBERT.

QBST penting untuk SEO karena mempengaruhi bagaimana Google memberi peringkat pada hasil pencarian dan berapa banyak lalu lintas dan visibilitas yang dapat diterima situs web.

QBST akan memberi peringkat situs web lebih tinggi jika berisi istilah yang paling umum digunakan dan cocok dengan permintaan pengguna.

Setelah QBST, kata-kata terkait seperti "pensil" akan diteruskan ke Ascorer untuk diproses lebih lanjut.

Ascorer: Buat “cincin hijau”

Ascorer mengekstrak 1000 DocID teratas di bawah entri "pensil" dari indeks terbalik (yaitu, indeks leksikal) dan memberi peringkat berdasarkan skor IR.

Menurut dokumen internal, daftar ini disebut "cincin hijau". Dalam industri, ini disebut daftar posting.

Dalam contoh "pensil" kami, dokumen terkait diberi peringkat 132 dalam daftar yang diterbitkan. Tanpa campur tangan sistem lain, ini akan menjadi posisi terakhirnya.

Superroot: "Sepuluh dari seribu mil"

Superroot bertanggung jawab untuk memeringkat ulang 1.000 halaman web kandidat yang baru saja disaring oleh Mustang, mengurangi "cincin hijau" dari 1.000 DocID menjadi "cincin biru" dari 10 hasil.

Tugas ini secara khusus dilakukan oleh Twiddlers dan NavBoost. Sistem lain mungkin juga terlibat, tetapi detail spesifiknya tidak jelas karena informasi yang tidak akurat.

Mustang menghasilkan 1000 hasil potensial, Superroot memfilternya menjadi 10

Twiddlers: lapisan penyaringan

Berbagai dokumen menunjukkan bahwa Google menggunakan ratusan sistem Twiddler, yang menurut kami mirip dengan filter di plugin WordPress.

Setiap Twiddler memiliki tujuan pemfilteran spesifiknya sendiri dan dapat menyesuaikan skor IR atau posisi peringkat.

Ini dirancang sedemikian rupa karena Twiddler relatif mudah dibuat dan tidak memerlukan modifikasi algoritma pemeringkatan yang rumit di Ascorer.

Modifikasi algoritma pemeringkatan sangat menantang karena potensi efek samping dan memerlukan perencanaan dan pemrograman yang ekstensif. Sebaliknya, beberapa Twiddler beroperasi secara paralel atau berurutan dan tidak mengetahui aktivitas Twiddler lainnya.

Twiddler pada dasarnya dapat dibagi menjadi dua jenis:

-PreDoc Twiddlers dapat menangani koleksi ratusan DocID karena memerlukan sedikit informasi tambahan;

-Sebaliknya, Twiddler tipe “Malas” membutuhkan informasi yang lebih banyak, seperti informasi dari database PerDocData yang memerlukan waktu relatif lebih lama dan proses yang lebih rumit.

Oleh karena itu, PreDocs terlebih dahulu menerima daftar publikasi dan mengurangi entri halaman web, lalu menggunakan filter tipe "Malas" yang lebih lambat. Kombinasi keduanya sangat menghemat daya dan waktu komputasi.

Dua jenis lebih dari 100 Twiddler bertanggung jawab untuk mengurangi jumlah hasil pencarian potensial dan menyusun ulangnya

Setelah pengujian, Twiddler memiliki beragam kegunaan. Pengembang dapat mencoba filter baru, pengganda, atau batasan posisi tertentu, dan bahkan mencapai manipulasi yang sangat tepat untuk menentukan peringkat hasil pencarian tertentu sebelum atau di belakang hasil lainnya.

Dokumen internal Google yang bocor mengungkapkan bahwa fitur Twiddler tertentu hanya boleh digunakan oleh para ahli setelah berkonsultasi dengan tim pencarian inti.

Jika Anda merasa tahu cara kerja Twidder, percayalah pada kami: Anda tidak tahu. Kami tidak yakin kami mengerti

Ada juga Twiddler yang hanya berfungsi untuk membuat anotasi dan menambahkan anotasi tersebut ke DocID.

Selama COIVD, mengapa departemen kesehatan di negara Anda selalu berada di urutan teratas dalam pencarian COVID-19?

Hal ini karena Twiddler menggunakan queriesForWhichOfficial untuk memfasilitasi distribusi sumber daya resmi secara tepat berdasarkan bahasa dan wilayah.

Meskipun pengembang tidak memiliki kendali atas hasil pemeringkatan Twiddler, memahami mekanismenya dapat menjelaskan fluktuasi peringkat dan "peringkat yang tidak dapat dijelaskan" dengan lebih baik.

Penilai Kualitas dan RankLab

Ada ribuan penilai kualitas di seluruh dunia yang mengevaluasi hasil penelusuran Google dan menguji algoritme atau filter baru sebelum dipublikasikan.

Google mengatakan peringkat mereka hanya untuk referensi dan tidak mempengaruhi peringkat secara langsung.

Hal ini pada dasarnya benar, namun peringkat dan tiket penawaran mereka mempunyai dampak tidak langsung yang besar terhadap peringkat.

Penilai biasanya melakukan penilaian pada perangkat seluler, menerima URL atau frasa pencarian dari sistem dan menjawab pertanyaan yang telah ditentukan sebelumnya.

Misalnya, mereka akan ditanya, “Apakah penulis dan praktik kreatif konten ini jelas?

Jawaban-jawaban ini disimpan dan digunakan untuk melatih algoritma pembelajaran mesin agar dapat mengidentifikasi halaman-halaman berkualitas tinggi, dapat dipercaya, dan halaman-halaman yang kurang dapat dipercaya dengan lebih baik.

Dengan kata lain, hasil yang diberikan oleh evaluator manusia menjadi kriteria penting untuk algoritma pembelajaran mendalam, dan kriteria peringkat yang dibuat oleh tim pencarian Google tidak begitu penting.

Bayangkan halaman web seperti apa yang dianggap dapat dipercaya oleh penilai manusia?

Sebuah halaman biasanya akan tampil meyakinkan jika memuat foto penulis, nama lengkap, dan link LinkedIn. Sebaliknya, halaman web yang tidak memiliki karakteristik tersebut dinilai kurang dapat dipercaya.

Jaringan saraf kemudian akan mengidentifikasi fitur ini sebagai faktor kunci, dan setelah setidaknya 30 hari pengujian aktif dijalankan, model mungkin mulai secara otomatis menggunakan fitur ini sebagai kriteria peringkat.

Oleh karena itu, halaman dengan foto penulis, nama lengkap, dan tautan LinkedIn dapat menerima peningkatan peringkat melalui mekanisme Twiddler, sedangkan halaman yang tidak memiliki karakteristik tersebut akan mengalami penurunan peringkat.

Selain itu, menurut informasi yang dibocorkan oleh Google, melalui atribut isAuthor dan atribut AuthorVectors (mirip dengan "identifikasi sidik jari penulis"), sistem dapat mengidentifikasi dan membedakan kata-kata dan ekspresi unik penulis (yaitu karakteristik bahasa pribadi).

Peringkat evaluator dikumpulkan menjadi skor "kepuasan informasi" (IS). Meskipun banyak penilai berpartisipasi, penilaian IS hanya berlaku untuk sejumlah kecil URL.

Google menunjukkan bahwa banyak dokumen yang tidak diklik mungkin juga penting. Ketika sistem tidak dapat membuat kesimpulan, dokumen secara otomatis dikirim ke evaluator dan skor dihasilkan.

Istilah "emas" disebutkan dalam istilah terkait evaluator, yang menunjukkan bahwa dokumen tertentu mungkin memiliki "standar emas" dan memenuhi harapan manusia evaluator dapat membantu dokumen tersebut mencapai standar "emas".

Selain itu, satu atau lebih sistem Twiddler dapat mempromosikan DocID yang memenuhi "standar emas" ke dalam sepuluh besar.

Peninjau kualitas biasanya bukan karyawan tetap Google, namun berafiliasi dengan perusahaan outsourcing.

Sebaliknya, pakar Google sendiri bekerja di RankLab, melakukan eksperimen, mengembangkan Twiddler baru, dan mengevaluasi serta menyempurnakannya untuk melihat apakah Twiddler meningkatkan kualitas hasil atau sekadar memfilter spam.

Twiddler yang terbukti dan efektif kemudian diintegrasikan ke dalam sistem Mustang menggunakan algoritma yang kompleks, saling berhubungan, dan intensif komputasi.

NavBoost: Apa yang disukai pengguna?

Di Superroot, sistem inti lainnya NavBoost juga memainkan peran penting dalam menentukan peringkat hasil pencarian.

Navboost terutama digunakan untuk mengumpulkan data tentang interaksi pengguna dengan hasil pencarian, terutama klik mereka pada hasil kueri yang berbeda.

Meskipun Google secara resmi menyangkal penggunaan data klik pengguna untuk pemeringkatan, email internal yang diungkapkan oleh Komisi Perdagangan Federal (FTC) menginstruksikan bahwa cara penanganan data klik harus dijaga kerahasiaannya.

Google menyangkal hal ini karena dua alasan.

Pertama-tama, dari sudut pandang pengguna, Google, sebagai platform pencarian, terus memantau aktivitas online pengguna, yang akan menyebabkan kemarahan media atas masalah privasi.

Namun dari sudut pandang Google, tujuan penggunaan data klik adalah untuk mendapatkan metrik data yang signifikan secara statistik, bukan untuk memantau pengguna individual.

Dokumen FTC menegaskan bahwa data klik akan mempengaruhi peringkat dan sering menyebutkan sistem NavBoost (54 kali selama sidang pada 18 April 2023), yang juga dikonfirmasi oleh sidang resmi pada tahun 2012.

Sejak Agustus 2012, para pejabat telah memperjelas bahwa data klik akan mempengaruhi peringkat

Berbagai perilaku pengguna di halaman hasil pencarian, termasuk pencarian, klik, pencarian berulang, dan klik berulang, serta lalu lintas ke situs web atau halaman web, semuanya memengaruhi peringkat.

Kekhawatiran tentang privasi pengguna hanyalah salah satu alasannya. Kekhawatiran lainnya adalah bahwa evaluasi melalui data klik dan lalu lintas dapat mendorong pelaku spam dan penipu menggunakan sistem bot untuk memalsukan lalu lintas guna memanipulasi peringkat.

Google juga memiliki metode untuk mengatasi situasi ini, seperti membedakan klik pengguna menjadi klik buruk dan klik baik melalui beberapa evaluasi.

Metrik yang digunakan mencakup waktu yang dihabiskan di halaman target, jangka waktu saat halaman dilihat, halaman awal pencarian, catatan "klik bagus" terbaru dalam riwayat pencarian pengguna, dll.

Untuk setiap peringkat di halaman hasil pencarian (SERP), terdapat rata-rata rasio klik-tayang (RKT) yang diharapkan sebagai dasar.

Misalnya, menurut analisis Johannes Beus pada konferensi CAMPIXX tahun ini di Berlin, posisi pertama dalam hasil penelusuran natural menerima rata-rata 26,2% klik, dan posisi kedua menerima 15,5% klik.

Jika RKT jauh lebih rendah dari tingkat yang diharapkan, sistem NavBoost akan mencatat kesenjangan ini dan menyesuaikan peringkat DocID.

Jika "expected_CRT" menyimpang secara signifikan dari nilai sebenarnya, peringkat akan disesuaikan

Klik pengguna pada dasarnya mewakili pendapat pengguna mengenai relevansi hasil, termasuk judul, deskripsi, dan nama domain.

Menurut laporan dari pakar SEO dan analis data, ketika memantau rasio klik-tayang secara komprehensif, mereka memperhatikan fenomena berikut:

Jika sebuah dokumen masuk dalam 10 teratas untuk permintaan pencarian dan RKT jauh lebih rendah dari yang diharapkan, dapat diamati bahwa peringkat akan turun dalam beberapa hari (tergantung pada volume pencarian).

Sebaliknya, jika RKT jauh lebih tinggi dibandingkan peringkat, peringkat biasanya akan meningkat. Jika CTR-nya buruk, website perlu menyesuaikan dan mengoptimalkan judul dan deskripsi konten dalam waktu singkat agar mendapatkan lebih banyak klik.

Menghitung dan memperbarui PageRank memakan waktu dan komputasi yang intensif, itulah sebabnya metrik PageRank_NS digunakan. NS adalah singkatan dari "nearest seed", sekelompok halaman terkait berbagi nilai PageRank, yang diterapkan ke halaman baru untuk sementara atau permanen.

Google memberikan contoh yang baik dalam sidang tentang cara memberikan informasi terkini. Misalnya, saat pengguna menelusuri "Stanley Cup", hasil penelusuran biasanya menampilkan segelas air.

Namun, saat pertandingan hoki Piala Stanley sedang berlangsung, NavBoost menyesuaikan hasil untuk memprioritaskan informasi real-time tentang pertandingan tersebut.

Berdasarkan temuan terbaru, metrik klik pada dokumen tersebut mencakup data selama 13 bulan, dengan tumpang tindih satu bulan untuk memungkinkan perbandingan dengan tahun sebelumnya.

Anehnya, Google sebenarnya tidak menawarkan banyak hasil pencarian yang dipersonalisasi. Hasil pengujian menunjukkan bahwa pemodelan dan penyesuaian perilaku pengguna dapat memberikan hasil yang lebih baik daripada menilai preferensi pribadi masing-masing pengguna.

Namun, preferensi pribadi, seperti preferensi penelusuran dan konten video, tetap disertakan dalam hasil yang dipersonalisasi.

GWS: Akhir dan awal pencarian

Google Web Server (GWS) bertanggung jawab untuk merender halaman hasil pencarian (SERP), yang mencakup 10 "link biru", serta iklan, gambar, tampilan Google Maps, "Orang juga bertanya" dan elemen lainnya.

Komponen-komponen ini, seperti FreshnessNode, InstantGlue (bereaksi dalam waktu 24 jam, dengan penundaan sekitar 10 menit), dan InstantNavBoost, dapat menyesuaikan peringkat pada saat-saat terakhir sebelum halaman ditampilkan.

FreshnessNode dapat memantau perubahan perilaku pencarian pengguna secara real time dan menyesuaikan peringkat berdasarkan perubahan tersebut untuk memastikan bahwa hasil pencarian sesuai dengan maksud pencarian terbaru.

InstantNavBoost dan InstantGlue melakukan penyesuaian akhir pada peringkat sebelum rendering akhir hasil pencarian, seperti menyesuaikan peringkat berdasarkan berita terkini dan topik hangat.

Karena itu,Untuk mencapai peringkat tinggi, konten dokumen yang bagus harus dibarengi dengan langkah SEO yang benar.

Pemeringkatan mungkin dipengaruhi oleh berbagai faktor, termasuk perubahan perilaku pencarian, keberadaan dokumen tambahan, dan pembaruan informasi real-time. Oleh karena itu, penting untuk disadari bahwa memiliki konten berkualitas tinggi dan melakukan SEO yang baik hanyalah bagian dari lanskap peringkat dinamis.

John Mueller dari Google menekankan bahwa penurunan peringkat biasanya tidak berarti bahwa konten tersebut berkualitas buruk, dan bahwa perubahan perilaku pengguna atau faktor lain dapat mengubah kinerja hasil.

Misalnya, jika pengguna mulai menyukai teks yang lebih pendek, NavBoost akan secara otomatis menyesuaikan peringkatnya. Namun, skor IR dalam sistem Alexandria atau Ascorer tetap tidak berubah.

Hal ini memberi tahu kita bahwa SEO harus dipahami dalam arti yang lebih luas. Mengoptimalkan judul atau konten saja tidak efektif jika konten dokumen tidak sesuai dengan maksud pencarian pengguna.

berita

Mesin pencari Google terungkap sepenuhnya! Hampir seratus dokumen bocor, dan para blogger menghabiskan waktu berminggu-minggu untuk merekayasa balik dokumen tersebut.

Perkenalan

Informasi kontak saya