Le moteur de recherche Google entièrement dévoilé ! Près d'une centaine de documents ont été divulgués et le blogueur a passé des semaines à faire de la rétro-ingénierie

Le moteur de recherche Google entièrement dévoilé ! Près d’une centaine de documents ont été divulgués et les blogueurs ont passé des semaines à procéder à une ingénierie inverse.

2024-08-23

Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse]Suite à la fuite du document en mai, le moteur de recherche de Google a été à nouveau chamboulé. Non seulement DeepMind a publié un article expliquant le mécanisme du système Vizier, mais le blogueur Mario Fischer a également mené une recherche et une analyse approfondies de près d'une centaine de documents pour restituer une image complète de ce géant de l'Internet.

Les articles publiés par Google ont recommencé à révéler les secrets de sa propre technologie.

Dans un article récent publié par Xingyou (Richard) Song, chercheur principal de DeepMind, et d’autres, ils ont expliqué les secrets de l’algorithme derrière le service Vizier de Google.

En tant qu'optimiseur de boîte noire exécuté des millions de fois, Vizier a aidé Google à optimiser de nombreuses études et systèmes internes. Google Cloud et Vertex ont également lancé les services Vizier pour aider les chercheurs et les développeurs à effectuer des ajustements d'hyperparamètres ou des optimisations de boîtes noires. .

Song a déclaré que par rapport à d'autres références de l'industrie telles que Ax/BoTorch, HEBO, Optuna, HyperOpt, SkOpt, etc., Vizier offre des performances plus robustes dans de nombreux scénarios d'utilisation, tels que les dimensions élevées, les requêtes par lots, les problèmes multi-objectifs, etc.

Profitant de la publication du document, le vétéran de Google, Jeff Dean, a également tweeté pour faire l'éloge du système Vizier.

La version open source de Vizier qu'il a mentionnée a été hébergée sur le référentiel GitHub, dispose d'une documentation très détaillée et a été continuellement entretenue et mise à jour récemment.

Adresse de l'entrepôt : https://github.com/google/vizier

Le système client-serveur distribué d'OSS Vizier

Bien que Google Research ait publié un article sur l'ensemble du système Vizier dès 2017, le contenu est beaucoup moins détaillé que le dernier article.

Ce rapport technique contient les résultats d'un grand nombre de travaux de recherche et de commentaires des utilisateurs. Tout en décrivant les détails de mise en œuvre et les choix de conception de l'algorithme open source Vizier, il utilise des expériences sur des benchmarks standardisés pour démontrer la robustesse et la polyvalence de Vizier dans une variété de domaines. modes pratiques.

Parmi eux, les expériences et les leçons tirées du processus itératif du système Vizir sont également présentées une par une, ce qui revêt une grande importance de référence pour le monde universitaire et l'industrie et mérite d'être surveillé.

Composants centraux de l'algorithme bayésien utilisé par le système Vizier

Les principales contributions de l’article sont les suivantes :

- Confirmation formelle de l'algorithme par défaut pour la version actuelle de Vizier et explication de ses fonctionnalités, choix de conception et leçons apprises tout au long du processus d'itération

- Fournit une implémentation de framework Python et JAX open source basée sur l'implémentation C++ originale

- Testé à l'aide de références courantes de l'industrie, démontrant la robustesse de Vizier dans les modes d'optimisation haute dimension, de classification, par lots et multi-objectifs

- Des expériences d'ablation sur le choix de conception non conventionnel de l'optimiseur d'acquisition évolutif d'ordre zéro sont réalisées, et les principaux avantages sont démontrés et discutés.

Les deux premiers dans la liste des auteurs de l'article sont deux Richards——

Xingyou (Richard) Song a travaillé comme chercheur sur la généralisation de l'apprentissage par renforcement chez OpenAI. Il a rejoint Google Brain en tant que chercheur scientifique principal en 2019 et occupera le poste de chercheur scientifique principal chez DeepMind à partir de 2023, travaillant sur GenAI.

Qiuyi (Richard) Zhang travaille actuellement dans l'équipe DeepMind Vizier et est également le co-créateur de la version open source de Vizier. Ses recherches portent principalement sur l'optimisation des hyperparamètres, l'étalonnage bayésien et les orientations théoriques de l'apprentissage automatique. dans l'alignement de l'IA, le contrefactuel/l'équité Le sexe et d'autres aspects sont également impliqués.

Zhang a obtenu son baccalauréat summa cum laude de l'Université de Princeton en 2014, puis son doctorat en mathématiques appliquées et en informatique de l'Université de Californie à Berkeley.

Le mécanisme du moteur de recherche commence par le bas

En tant que géant absolu de l'industrie, de nombreuses technologies de base non divulguées de Google ont longtemps suscité la curiosité du monde extérieur, comme les moteurs de recherche.

Avec une part de marché de plus de 90 % depuis plus de dix ans, la recherche Google est peut-être devenue le système le plus influent sur l'ensemble d'Internet. Elle détermine la vie et la mort des sites Web et la présentation du contenu en ligne.

Mais les détails spécifiques de la façon dont Google classe les sites Web ont toujours été une « boîte noire ».

Contrairement à des produits comme Vizier, les moteurs de recherche sont à la fois le code de richesse et la technologie de gestion de Google, et il est impossible de les divulguer dans les documents officiels.

Bien que certains médias, chercheurs et personnes impliquées dans l'optimisation des moteurs de recherche aient émis diverses spéculations, ce ne sont que des aveugles qui tentent de comprendre l'éléphant.

Le long procès antitrust de Google a récemment annoncé son verdict. Les procureurs américains à tous les niveaux ont collecté environ 5 millions de pages de documents et les ont transformés en preuves publiques.

Cependant, les fuites de documents internes de Google et les documents publics issus des audiences antitrust, entre autres, ne nous disent pas vraiment comment fonctionnent les classements.

De plus, en raison de l'utilisation de l'apprentissage automatique, la structure des résultats de recherche organiques est si complexe que les employés de Google impliqués dans le développement de l'algorithme de classement ont également déclaré :Ils ne comprennent pas pleinement l’interaction des nombreux poids de signal pour expliquer pourquoi un certain résultat se classe premier ou deuxième.

Le 27 mai, une source anonyme (plus tard confirmée comme étant Erfan Azimi, un vétéran du secteur de l'optimisation des moteurs de recherche) a fourni un document de fuite de l'API de recherche Google de 2 500 pages au PDG de SparkToro, Rand Fishkin, révélant les détails du moteur de recherche Google. algorithme de classement.

Mais ce n'est pas tout.

Search Engine Land, un site d'information spécialisé dans les reportages sur l'industrie des moteurs de recherche, a récemment publié un blog qui a procédé à l'ingénierie inverse de milliers de documents judiciaires de Google divulgués pour révéler pour la première fois les principes techniques fondamentaux des classements de recherche en ligne de Google.

Ce billet de blog est né après que l'auteur original a examiné, analysé, structuré, rejeté et réorganisé près de 100 documents à plusieurs reprises en plusieurs semaines de travail. Bien qu'il ne soit pas nécessairement strictement précis ou complet, il peut être considéré comme une compréhension de Google. Des informations complètes et détaillées comme aucun autre moteur de recherche.

Le diagramme de structure de la version permettant d'économiser le flux de l'auteur est le suivant :

Il ne fait aucun doute que le moteur de recherche Google est un projet vaste et complexe. Du système de robot d'exploration, du référentiel Alexandria, du classement approximatif Mustang, au système de filtrage et de classement fin Superroot et GWS responsables du rendu final de la page, ceux-ci affecteront la présentation finale et l'exposition de la page du site Web.

Nouveau fichier : en attente d'accès à Googlebot

Lorsqu'un nouveau site Web est publié, il n'est pas immédiatement indexé par Google. Comment Google collecte-t-il et met-il à jour les informations des pages Web ?

La première étape consiste à explorer et à collecter des données. Google doit d'abord connaître l'existence de l'URL du site Web. La mise à jour du plan du site ou la création d'un lien URL permettent à Google d'explorer le nouveau site Web.

De plus, les liens vers des pages fréquemment visitées peuvent attirer plus rapidement l’attention de Google.

Le système d'exploration explore le nouveau contenu et enregistre lorsque les URL sont revisitées pour vérifier les mises à jour du site Web. Ceci est géré par un composant appelé planificateur.

Le serveur de stockage décide ensuite s'il doit transférer l'URL ou la placer dans un bac à sable.

Google a déjà nié l'existence de bacs à sable, mais des fuites récentes indiquent que du spam (soupçonné) et des sites Web de faible valeur sont également placés dans le bac à sable, et Google transmettra apparemment certains sites Web de spam, éventuellement pour une analyse plus approfondie du contenu et de l'algorithme de formation.

Le lien de l'image est ensuite transféré à ImageBot pour les appels de recherche ultérieurs, parfois avec des retards. ImageBot dispose d'une fonction de tri qui place les images identiques ou similaires dans un conteneur d'images.

Le système d'exploration semble utiliser son propre PageRank pour ajuster la fréquence d'exploration des informations. Si un site Web a un trafic plus important, cette fréquence d'exploration augmentera (ClientTrafficFraction).

Alexandrie : système d'indexation Google

Le système d'indexation de Google, appelé Alexandria, attribue un DocID unique au contenu de chaque page Web. En cas de contenu dupliqué, un nouvel identifiant ne sera pas créé, mais l'URL sera liée à un DocID existant.

Google fait une distinction claire entre les URL et les documents : un document peut être constitué de plusieurs URL contenant un contenu similaire, y compris des versions linguistiques différentes, toutes appelées par le même DocID.

Si vous rencontrez du contenu en double provenant de différents noms de domaine, Google choisira d'afficher la version canonique dans les classements de recherche. Cela explique également pourquoi d'autres URL peuvent parfois avoir un classement similaire. De plus, la version dite « canonique » de l’URL n’est pas une affaire ponctuelle, mais évoluera au fil du temps.

URL du document de la collection Alexandrie

Il n'existe qu'une seule version du document de l'auteur en ligne, le système lui attribue donc son propre DocID.

Avec DocID, chaque partie du document sera recherchée par mots-clés et résumée dans l'index de recherche. La « liste de résultats » résume les mots-clés qui apparaissent plusieurs fois sur chaque page et seront d'abord envoyés à l'index direct.

Prenons l'exemple de la page Web de l'auteur. Étant donné que le mot « crayon » y apparaît plusieurs fois, le DocID est répertorié sous l'entrée « crayon » dans l'index des mots.

L'algorithme calcule le score IR (Information Retrieval) du mot « crayon » dans le document en fonction de diverses caractéristiques du texte et l'attribue au DocID, qui est ensuite utilisé dans la liste de publication.

Par exemple, le mot « crayon » dans le document est en gras et inclus dans le titre de premier niveau (stocké dans AvrTermWeight). De tels signaux augmenteront le score IR.

Google déplacera les documents importants vers HiveMind, le système de mémoire principal, en utilisant à la fois des disques SSD rapides et des disques durs traditionnels (appelés TeraGoogle) pour le stockage à long terme d'informations auxquelles il n'est pas nécessaire d'accéder rapidement.

Les experts estiment notamment qu’avant le récent boom de l’IA, Google contrôlait environ la moitié des serveurs Web dans le monde.

Un immense réseau de clusters interconnectés peut permettre à des millions d'unités de mémoire principale de fonctionner ensemble. Un ingénieur de Google a souligné lors d'une conférence qu'en théorie, la mémoire principale de Google pourrait stocker l'ensemble du réseau.

Il est intéressant de noter que les liens vers des documents importants stockés dans HiveMind ainsi que les backlinks semblent avoir un poids plus élevé, tandis que les liens URL sur le disque dur (TeraGoogle) peuvent avoir un poids inférieur et peuvent même ne pas être pris en compte.

Des informations et des signaux supplémentaires pour chaque DocID sont stockés dynamiquement dans PerDocData, un référentiel qui contient les 20 versions les plus récentes de chaque document (via CrawlerChangerateURLHistory), auquel de nombreux systèmes accèdent lors de l'ajustement de la pertinence.

Et Google a la capacité d’évaluer différentes versions au fil du temps. Si vous souhaitez modifier complètement le contenu ou le thème d'un document, vous devrez théoriquement créer 20 versions de transition pour écraser complètement l'ancienne version.

C'est pourquoi la restauration d'un domaine expiré (un domaine qui était autrefois actif mais qui a ensuite été abandonné ou vendu en raison d'une faillite ou pour d'autres raisons) ne conservera pas l'avantage de classement du domaine d'origine.

Si l'Admin-C d'un domaine et son contenu changent en même temps, les machines peuvent facilement l'identifier.

À ce stade, Google mettra tous les signaux à zéro et l'ancien nom de domaine qui avait autrefois une valeur de trafic n'offrira plus aucun avantage. Ce n'est pas différent d'un nom de domaine nouvellement enregistré. Reprendre l'ancien nom de domaine ne signifie pas prendre. par rapport au trafic et aux classements d'origine.

Outre les fuites, les documents probants issus des audiences judiciaires américaines et des procès contre Google constituent une source de recherche utile, y compris même les courriers électroniques internes.

QBST : Quelqu'un recherche "crayon"

Lorsque quelqu'un saisit le terme de recherche « crayon » dans Google, QBST (Query Based Salient Terms) commence à fonctionner.

QBST est chargé d'analyser les termes de recherche saisis par l'utilisateur, d'attribuer des poids différents à chaque mot qu'il contient en fonction de son importance et de sa pertinence, et d'effectuer respectivement des requêtes DocID pertinentes.

Le processus de pondération du vocabulaire est assez complexe et implique des systèmes tels que RankBrain, DeepRank (anciennement BERT) et RankEmbeddedBERT.

QBST est important pour le référencement car il affecte la façon dont Google classe les résultats de recherche et donc le trafic et la visibilité qu'un site Web peut recevoir.

QBST classera un site Web plus haut s'il contient les termes les plus couramment utilisés qui correspondent aux requêtes des utilisateurs.

Après QBST, les mots associés tels que « crayon » seront transmis à Ascorer pour un traitement ultérieur.

Acoreur : Créer un « anneau vert »

Ascorer extrait les 1 000 premiers DocID sous l'entrée « crayon » de l'index inversé (c'est-à-dire l'index lexical) et les classe par score IR.

Selon des documents internes, cette liste est appelée « l'anneau vert ». Dans l’industrie, c’est ce qu’on appelle une liste d’affichage.

Dans notre exemple « crayon », le document correspondant est classé 132 dans la liste publiée. Sans l’intervention d’autres systèmes, telle serait sa position définitive.

Superroot : « Dix sur mille milles »

Superroot est chargé de reclasser les 1 000 pages Web candidates qui viennent d'être examinées par Mustang, réduisant ainsi « l'anneau vert » de 1 000 DocID à « l'anneau bleu » de 10 résultats.

Cette tâche est spécifiquement effectuée par Twiddlers et NavBoost. D'autres systèmes peuvent également être impliqués, mais les détails spécifiques ne sont pas clairs en raison d'informations inexactes.

Mustang génère 1000 résultats potentiels, Superroot les filtre jusqu'à 10

Twiddlers : couches de filtrage

Divers documents indiquent que Google utilise des centaines de systèmes Twiddler, que l’on peut considérer comme similaires aux filtres des plugins WordPress.

Chaque Twiddler a ses propres objectifs de filtrage spécifiques et peut ajuster le score IR ou la position dans le classement.

Il est conçu de cette façon car Twiddler est relativement facile à créer et ne nécessite pas de modification de l'algorithme de classement complexe d'Ascorer.

La modification des algorithmes de classement est très difficile en raison des effets secondaires potentiels impliqués et nécessite une planification et une programmation approfondies. En revanche, plusieurs Twiddlers opèrent en parallèle ou séquentiellement et ignorent les activités des autres Twiddlers.

Les Twiddlers peuvent essentiellement être divisés en deux types :

-PreDoc Twiddlers peut gérer des collections de centaines de DocID car ils nécessitent peu d'informations supplémentaires ;

-Au contraire, le Twiddler de type "Lazy" nécessite plus d'informations, comme les informations de la base de données PerDocData, ce qui nécessite un temps relativement plus long et un processus plus compliqué.

Par conséquent, PreDocs reçoit d'abord la liste de publications et réduit les entrées de page Web, puis utilise un filtre de type « Lazy » plus lent. La combinaison des deux permet d'économiser considérablement de la puissance de calcul et du temps.

Deux types de plus de 100 Twiddlers sont chargés de réduire le nombre de résultats de recherche potentiels et de les réorganiser

Après les tests, Twiddler a diverses utilisations. Les développeurs peuvent essayer de nouveaux filtres, multiplicateurs ou restrictions de position spécifiques, et même réaliser une manipulation très précise pour classer un résultat de recherche spécifique avant ou derrière un autre résultat.

Un document interne de Google divulgué révèle que certaines fonctionnalités de Twiddler ne doivent être utilisées que par des experts en consultation avec l'équipe de recherche principale.

Si vous pensez savoir comment fonctionne Twidder, faites-nous confiance : ce n'est pas le cas. Nous ne sommes pas sûrs de comprendre

Il existe également des Twiddlers uniquement pour créer des annotations et ajouter ces annotations au DocID.

Pendant le COIVD, pourquoi le service de santé de votre pays est-il toujours en tête de liste pour les recherches sur le COVID-19 ?

En effet, Twiddler utilise queriesForWhichOfficial pour faciliter la répartition précise des ressources officielles en fonction de la langue et de la région.

Bien que les développeurs n'aient aucun contrôle sur les résultats du reclassement de Twiddler, comprendre ses mécanismes peut mieux expliquer les fluctuations de classement et ces « classements inexpliqués ».

Évaluateur Qualité et RankLab

Il existe des milliers d'évaluateurs de qualité dans le monde qui évaluent les résultats de recherche pour Google et testent de nouveaux algorithmes ou filtres avant leur mise en ligne.

Google affirme que leurs notes sont uniquement à titre de référence et n'affectent pas directement les classements.

C'est essentiellement vrai, mais leurs notes et leurs tickets d'enchères ont un impact indirect énorme sur les classements.

Les évaluateurs effectuent généralement des évaluations sur un appareil mobile, reçoivent une URL ou une expression de recherche du système et répondent à des questions prédéfinies.

Par exemple, il leur sera demandé : « L'auteur et la pratique créative de ce contenu sont-ils clairs ? L'auteur a-t-il une expertise sur le sujet ?

Ces réponses sont stockées et utilisées pour entraîner des algorithmes d'apprentissage automatique afin de mieux identifier les pages de haute qualité et dignes de confiance et celles qui le sont moins.

En d’autres termes, les résultats fournis par les évaluateurs humains deviennent des critères importants pour les algorithmes d’apprentissage profond, et les critères de classement créés par l’équipe de recherche de Google ne sont pas si importants.

Imaginez quel type de pages Web seraient considérées comme dignes de confiance par des évaluateurs humains ?

Une page paraîtra généralement convaincante si elle contient la photo de l'auteur, son nom complet et son lien LinkedIn. À l’inverse, les pages Web dépourvues de ces caractéristiques sont jugées moins fiables.

Le réseau neuronal identifiera alors cette fonctionnalité comme un facteur clé, et après au moins 30 jours de tests actifs, le modèle pourra commencer à utiliser automatiquement cette fonctionnalité comme critère de classement.

Par conséquent, les pages avec une photo d'auteur, un nom complet et un lien LinkedIn peuvent recevoir une amélioration de leur classement via le mécanisme Twiddler, tandis que les pages dépourvues de ces caractéristiques connaîtront une baisse de classement.

De plus, selon les informations divulguées par Google, grâce aux attributs isAuthor et AuthorVectors (similaires à « l'identification par empreinte digitale de l'auteur »), le système peut identifier et distinguer les mots et expressions uniques de l'auteur (c'est-à-dire les caractéristiques linguistiques personnelles).

Les notes des évaluateurs sont regroupées dans un score de « satisfaction informationnelle » (IS). Bien que de nombreux évaluateurs participent, la notation IS ne s'applique qu'à un petit nombre d'URL.

Google souligne que de nombreux documents sur lesquels on ne clique pas peuvent également être importants. Lorsque le système est incapable de faire une inférence, le document est automatiquement envoyé à l'évaluateur et une note est générée.

Le terme « or » est mentionné dans les termes liés à l'évaluateur, ce qui suggère que certains documents peuvent avoir un « étalon-or » et que répondre aux attentes des évaluateurs humains peut aider le document à atteindre le « étalon-or ».

De plus, un ou plusieurs systèmes Twiddler peuvent promouvoir les DocID qui répondent au « gold standard » parmi les dix premiers.

Les évaluateurs qualité ne sont généralement pas des employés à temps plein de Google, mais sont affiliés à des sociétés d'externalisation.

En revanche, les propres experts de Google travaillent au sein de RankLab, menant des expériences, développant de nouveaux Twiddlers, puis les évaluant et les améliorant pour voir si Twiddler améliore la qualité des résultats ou filtre simplement le spam.

Le Twiddler, éprouvé et efficace, a ensuite été intégré au système Mustang à l’aide d’algorithmes complexes, interconnectés et gourmands en calcul.

NavBoost : qu'est-ce que les utilisateurs aiment ?

Dans Superroot, un autre système central, NavBoost, joue également un rôle important dans le classement des résultats de recherche.

Navboost est principalement utilisé pour collecter des données sur l'interaction des utilisateurs avec les résultats de recherche, notamment leurs clics sur différents résultats de requête.

Bien que Google nie officiellement utiliser les données de clics des utilisateurs pour les classements, un e-mail interne divulgué par la Federal Trade Commission (FTC) indique que la manière dont les données de clics sont traitées doit rester confidentielle.

Google nie cela pour deux raisons.

Tout d'abord, du point de vue de l'utilisateur, Google, en tant que plateforme de recherche, surveille en permanence ses activités en ligne, ce qui provoquera l'indignation des médias sur les questions de confidentialité.

Mais du point de vue de Google, l’objectif de l’utilisation des données de clics est d’obtenir des données statistiquement significatives, et non de surveiller les utilisateurs individuels.

Le document de la FTC confirme que les données de clic affecteront les classements et mentionne fréquemment le système NavBoost (54 fois lors de l'audience du 18 avril 2023), ce qui a également été confirmé par une audience officielle en 2012.

Depuis août 2012, les responsables ont clairement indiqué que les données sur les clics affecteraient les classements.

Divers comportements des utilisateurs sur la page de résultats de recherche, notamment les recherches, les clics, les recherches répétées et les clics répétés, ainsi que le trafic vers le site Web ou la page Web, affectent tous le classement.

Les préoccupations concernant la confidentialité des utilisateurs ne sont qu’une des raisons. Une autre préoccupation est que l’évaluation des données de clics et du trafic pourrait encourager les spammeurs et les escrocs à utiliser des systèmes de robots pour simuler le trafic et manipuler les classements.

Google dispose également de méthodes pour contrer cette situation, telles que la distinction des clics des utilisateurs en mauvais clics et en bons clics grâce à plusieurs évaluations.

Les métriques utilisées incluent le temps passé sur la page cible, la période pendant laquelle la page a été consultée, la page de démarrage de la recherche, l'enregistrement de « bon clic » le plus récent dans l'historique de recherche de l'utilisateur, etc.

Pour chaque classement dans les pages de résultats de recherche (SERP), il existe un taux de clics (CTR) moyen attendu comme référence.

Par exemple, selon une analyse de Johannes Beus lors de la conférence CAMPIXX de cette année à Berlin, la première position dans les résultats de recherche naturelle a reçu en moyenne 26,2 % des clics et la deuxième position, 15,5 % des clics.

Si un CTR est nettement inférieur au taux attendu, le système NavBoost notera cet écart et ajustera le classement de DocID en conséquence.

Si "expected_CRT" s'écarte considérablement de la valeur réelle, le classement sera ajusté en conséquence

Les clics des utilisateurs représentent essentiellement l'opinion de l'utilisateur sur la pertinence des résultats, y compris le titre, la description et le nom de domaine.

Selon les rapports d'experts SEO et d'analystes de données, lors d'un suivi exhaustif des taux de clics, ils ont remarqué les phénomènes suivants :

Si un document entre dans le top 10 pour une requête de recherche et que le CTR est nettement inférieur à celui attendu, on peut observer que le classement baissera en quelques jours (en fonction du volume de recherche).

Au contraire, si le CTR est beaucoup plus élevé par rapport au classement, le classement augmentera généralement. Si le CTR est faible, le site Web doit ajuster et optimiser le titre et la description du contenu dans un court laps de temps afin d'obtenir plus de clics.

Le calcul et la mise à jour du PageRank prennent du temps et nécessitent beaucoup de calculs, c'est pourquoi la métrique PageRank_NS est utilisée. NS signifie « graine la plus proche », un groupe de pages liées partageant une valeur PageRank, qui est appliquée aux nouvelles pages de manière temporaire ou permanente.

Google a donné le bon exemple lors d'une audience sur la manière de fournir des informations actualisées. Par exemple, lorsqu'un utilisateur recherche « Coupe Stanley », les résultats de la recherche affichent généralement un verre d'eau.

Cependant, lorsqu'un match de hockey de la Coupe Stanley est en cours, NavBoost ajuste les résultats pour donner la priorité aux informations en temps réel sur le match.

Selon les dernières découvertes, les mesures de clics du document couvrent 13 mois de données, avec un chevauchement d'un mois pour permettre une comparaison avec l'année précédente.

Étonnamment, Google ne propose pas beaucoup de résultats de recherche personnalisés. Les résultats des tests ont montré que la modélisation et l'ajustement du comportement des utilisateurs peuvent conduire à de meilleurs résultats que l'évaluation des préférences personnelles des utilisateurs individuels.

Toutefois, les préférences personnelles, telles que les préférences en matière de recherche et de contenu vidéo, sont toujours incluses dans les résultats personnalisés.

GWS : La fin et le début de la recherche

Google Web Server (GWS) est responsable du rendu de la page de résultats de recherche (SERP), qui comprend 10 « liens bleus », ainsi que des publicités, des images, des vues Google Maps, « Les gens demandent aussi » et d'autres éléments.

Ces composants, comme FreshnessNode, InstantGlue (réagit dans les 24 heures, avec un délai d'environ 10 minutes) et InstantNavBoost, peuvent ajuster les classements au dernier moment avant l'affichage de la page.

FreshnessNode peut surveiller les changements dans le comportement de recherche des utilisateurs en temps réel et ajuster les classements en fonction de ces changements pour garantir que les résultats de recherche correspondent aux dernières intentions de recherche.

InstantNavBoost et InstantGlue effectuent les derniers ajustements des classements avant le rendu final des résultats de recherche, par exemple en ajustant les classements en fonction des dernières nouvelles et des sujets d'actualité.

donc,Pour atteindre un classement élevé, un excellent contenu de document doit être associé à des mesures de référencement correctes.

Les classements peuvent être affectés par divers facteurs, notamment les changements dans le comportement de recherche, la présence de documents supplémentaires et les mises à jour des informations en temps réel. Par conséquent, il est important de réaliser qu’avoir un contenu de haute qualité et un bon référencement ne sont qu’une partie du paysage de classement dynamique.

John Mueller de Google a souligné qu'une baisse du classement ne signifie généralement pas que le contenu est de mauvaise qualité et que des changements dans le comportement des utilisateurs ou d'autres facteurs peuvent modifier les performances des résultats.

Par exemple, si les utilisateurs commencent à préférer un texte plus court, NavBoost ajustera automatiquement le classement en conséquence. Cependant, le score IR dans le système Alexandria ou Ascorer reste inchangé.

Ce que cela nous dit, c'est que le référencement doit être compris dans un sens plus large.. La simple optimisation du titre ou du contenu est inefficace si le contenu du document n'est pas cohérent avec l'intention de recherche de l'utilisateur.

nouvelles

Le moteur de recherche Google entièrement dévoilé ! Près d’une centaine de documents ont été divulgués et les blogueurs ont passé des semaines à procéder à une ingénierie inverse.

Introduction

Mes coordonnées