Google-Suchmaschine vollständig enthüllt! Fast hundert Dokumente wurden durchgesickert, und der Blogger verbrachte Wochen damit, Reverse Engineering

Google-Suchmaschine vollständig enthüllt! Fast hundert Dokumente wurden durchgesickert, und Blogger verbrachten Wochen damit, sie zurückzuentwickeln.

2024-08-23

Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit]Nach dem Dokumentenleck im Mai wurde die Suchmaschine von Google erneut auf den Kopf gestellt. DeepMind hat nicht nur einen Artikel veröffentlicht, der den Mechanismus des Vizier-Systems erklärt, der Blogger Mario Fischer hat auch eine gründliche Recherche und Analyse von fast hundert Dokumenten durchgeführt, um das vollständige Bild dieses Internet-Giganten wiederherzustellen.

Die von Google veröffentlichten Papiere haben erneut begonnen, die Geheimnisse der eigenen Technologie zu enthüllen.

In einem kürzlich von DeepMind-Forscher Xingyou (Richard) Song und anderen veröffentlichten Artikel erklärten sie die Algorithmusgeheimnisse hinter Googles Vizier-Dienst.

Als millionenfach ausgeführter Black-Box-Optimierer hat Vizier Google dabei geholfen, viele interne Studien und Systeme zu optimieren. Gleichzeitig haben Google Cloud und Vertex auch Vizier-Dienste eingeführt, um Forschern und Entwicklern bei der Durchführung von Hyperparameteranpassungen oder Black-Box-Optimierungen zu helfen .

Song sagte, dass Vizier im Vergleich zu anderen Branchen-Baselines wie Ax/BoTorch, HEBO, Optuna, HyperOpt, SkOpt usw. in vielen Benutzerszenarien, wie z. B. bei hohen Dimensionen, Batch-Abfragen, Problemen mit mehreren Zielen usw., eine robustere Leistung aufweist.

Die Veröffentlichung des Papiers nutzend, twitterte Google-Veteran Jeff Dean auch, um das Vizier-System zu loben.

Die von ihm erwähnte Open-Source-Version von Vizier wurde im GitHub-Repository gehostet, verfügt über eine sehr detaillierte Dokumentation und wurde in letzter Zeit kontinuierlich gepflegt und aktualisiert.

Lageradresse: https://github.com/google/vizier

Das verteilte Client-Server-System von OSS Vizier

Obwohl Google Research bereits 2017 einen Artikel über das gesamte Vizier-System veröffentlichte, ist der Inhalt weitaus weniger detailliert als der neueste Artikel.

Dieser technische Bericht enthält die Ergebnisse zahlreicher Forschungsarbeiten und Benutzerfeedback. Während er die Implementierungsdetails und Designoptionen des Open-Source-Vizier-Algorithmus beschreibt, verwendet er Experimente mit standardisierten Benchmarks, um die Robustheit und Vielseitigkeit von Vizier in einer Vielzahl von Bereichen zu demonstrieren praktische Modi.

Darunter werden auch die Erfahrungen und Lehren aus dem iterativen Prozess des Vizier-Systems einzeln dargestellt, was für Wissenschaft und Industrie von großer Referenzbedeutung ist und sehenswert ist.

Kernkomponenten des Bayes'schen Algorithmus, der vom Vizier-System verwendet wird

Die Hauptbeiträge des Artikels sind wie folgt:

- Formale Bestätigung des Standardalgorithmus für die aktuelle Version von Vizier und Erläuterung seiner Funktionalität, Designoptionen und Erkenntnisse aus dem Iterationsprozess

– Bietet Open-Source-Python- und JAX-Framework-Implementierung basierend auf der ursprünglichen C++-Implementierung

- Getestet anhand gängiger Branchen-Benchmarks, was die Robustheit von Vizier in hochdimensionalen, Klassifizierungs-, Batch- und Multi-Ziel-Optimierungsmodi demonstriert

- Ablationsexperimente zur unkonventionellen Designwahl des evolutionären Erfassungsoptimierers nullter Ordnung werden durchgeführt und die wichtigsten Vorteile werden demonstriert und diskutiert.

Die ersten beiden in der Liste der Autoren des Artikels sind zwei Richards –

Xingyou (Richard) Song arbeitete als Forscher zur Generalisierung von Reinforcement Learning bei OpenAI. Er kam 2019 als leitender Forschungswissenschaftler zu Google Brain und wird ab 2023 als leitender Forschungswissenschaftler bei DeepMind tätig sein und an GenAI arbeiten.

Qiuyi (Richard) Zhang arbeitet derzeit im DeepMind Vizier-Team und ist außerdem Mitentwickler der Open-Source-Version von Vizier. Seine Forschung konzentriert sich hauptsächlich auf Hyperparameteroptimierung, Bayesianische Kalibrierung und theoretische Richtungen des maschinellen Lernens Bei der KI-Ausrichtung spielen auch kontrafaktische/faire Geschlechter und andere Aspekte eine Rolle.

Zhang erhielt 2014 seinen Bachelor-Abschluss summa cum laude von der Princeton University und promovierte anschließend in angewandter Mathematik und Informatik an der University of California, Berkeley.

Der Suchmaschinenmechanismus beginnt von unten

Als absoluter Branchenriese haben viele der unbekannten Kerntechnologien von Google die Außenwelt schon lange neugierig gemacht, etwa Suchmaschinen.

Mit einem Marktanteil von über 90 % hat sich die Google-Suche seit mehr als zehn Jahren zum vielleicht einflussreichsten System im gesamten Internet entwickelt. Sie entscheidet über Leben und Tod von Websites und der Darstellung von Online-Inhalten.

Aber die genauen Einzelheiten darüber, wie Google Websites einordnet, waren schon immer eine „Blackbox“.

Im Gegensatz zu Produkten wie Vizier sind Suchmaschinen sowohl Googles Vermögenscode als auch Haushaltstechnologie und es ist unmöglich, sie in offiziellen Dokumenten offenzulegen.

Obwohl einige Medien, Forscher und Leute, die sich mit Suchmaschinenoptimierung befassen, verschiedene Spekulationen angestellt haben, handelt es sich dabei nur um blinde Menschen, die versuchen, den Elefanten herauszufinden.

Der langwierige Kartellrechtsstreit gegen Google verkündete kürzlich sein Urteil. US-Staatsanwälte auf allen Ebenen sammelten etwa fünf Millionen Seiten an Dokumenten und machten sie zu öffentlichen Beweisen.

Allerdings sagen uns unter anderem interne Dokumentenlecks bei Google und öffentliche Einreichungen aus Kartellverhandlungen nicht wirklich genau, wie Rankings funktionieren.

Darüber hinaus ist die Struktur organischer Suchergebnisse aufgrund des Einsatzes von maschinellem Lernen so komplex, dass Google-Mitarbeiter, die an der Entwicklung des Ranking-Algorithmus beteiligt waren, auch sagten:Sie verstehen das Zusammenspiel der vielen Signalgewichte nicht vollständig, um zu erklären, warum ein bestimmtes Ergebnis an erster oder zweiter Stelle steht.

Am 27. Mai stellte eine anonyme Quelle (später bestätigt, dass es sich um Erfan Azimi, einen erfahrenen Praktiker in der Suchmaschinenoptimierungsbranche) handelte, ein 2.500 Seiten umfassendes Google Search API-Leak-Dokument an Rand Fishkin, CEO von SparkToro, und enthüllte die internen Details der Google-Suchmaschine Ranking-Algorithmus.

Aber das ist noch nicht alles.

Search Engine Land, eine Nachrichten-Website, die sich auf die Berichterstattung über die Suchmaschinenbranche spezialisiert hat, hat kürzlich einen Blog veröffentlicht, der Tausende durchgesickerte Google-Gerichtsdokumente nachkonstruiert hat, um zum ersten Mal die technischen Grundprinzipien der Online-Suchrankings von Google offenzulegen.

Dieser Blog-Beitrag entstand, nachdem der ursprüngliche Autor in mehrwöchiger Arbeit fast 100 Dokumente mehrmals überprüft, analysiert, strukturiert, verworfen und neu organisiert hat. Obwohl er nicht unbedingt genau oder umfassend ist, kann man sagen, dass er ein Verständnis von Google darstellt. Umfassende und detaillierte Informationen wie keine andere Suchmaschine.

Das Strukturdiagramm der Flow-Saving-Version des Autors lautet wie folgt:

Es besteht kein Zweifel, dass die Google-Suchmaschine ein großes und komplexes Projekt ist. Vom Crawler-System, dem Repository Alexandria, dem groben Ranking Mustang bis hin zum Filter- und Feinranking-System Superroot und GWS, die für die endgültige Darstellung der Seite verantwortlich sind, wirken sich diese auf die endgültige Präsentation und Sichtbarkeit der Website-Seite aus.

Neue Datei: Warten auf Googlebot-Zugriff

Wenn eine neue Website veröffentlicht wird, wird sie nicht sofort von Google indiziert. Wie sammelt und aktualisiert Google Webseiteninformationen?

Der erste Schritt ist das Crawlen und die Datenerfassung. Google muss zunächst die Existenz der Website-URL kennen oder einen URL-Link platzieren, damit Google die neue Website crawlen kann.

Darüber hinaus können Links zu häufig besuchten Seiten die Aufmerksamkeit von Google schneller erregen.

Das Crawler-System crawlt neue Inhalte und zeichnet auf, wenn URLs erneut aufgerufen werden, um nach Website-Updates zu suchen. Dies wird von einer Komponente namens Scheduler verwaltet.

Der Speicherserver entscheidet dann, ob er die URL weiterleitet oder in einer Sandbox ablegt.

Google hat zuvor die Existenz von Sandboxes bestritten, aber jüngste Leaks deuten darauf hin, dass (mutmaßlicher) Spam und Websites mit geringem Wert ebenfalls in der Sandbox platziert werden, und Google wird offenbar einige Spam-Websites weiterleiten, möglicherweise zur weiteren Analyse des Inhalts und zum Training des Algorithmus.

Der Bildlink wird dann für nachfolgende Suchaufrufe an ImageBot übertragen, manchmal mit Verzögerungen. ImageBot verfügt über eine Sortierfunktion, die identische oder ähnliche Bilder in einem Bildcontainer platziert.

Das Crawler-System scheint seinen eigenen PageRank zu verwenden, um die Häufigkeit des Crawlens von Informationen anzupassen. Wenn eine Website mehr Verkehr hat, erhöht sich diese Crawling-Frequenz (ClientTrafficFraction).

Alexandria: Google-Indexierungssystem

Das Indexierungssystem von Google namens Alexandria weist dem Inhalt jeder Webseite eine eindeutige DocID zu. Bei Duplicate Content wird keine neue ID erstellt, sondern die URL mit einer bestehenden DocID verknüpft.

Google unterscheidet klar zwischen URLs und Dokumenten: Ein Dokument kann aus mehreren URLs mit ähnlichen Inhalten, einschließlich verschiedener Sprachversionen, bestehen, die alle von derselben DocID aufgerufen werden.

Wenn Sie auf doppelten Inhalt von verschiedenen Domainnamen stoßen, zeigt Google die kanonische Version in den Suchrankings an. Dies erklärt auch, warum andere URLs manchmal einen ähnlichen Rang haben. Darüber hinaus ist die sogenannte „kanonische“ Version der URL kein einmaliges Geschäft, sondern wird sich im Laufe der Zeit ändern.

URL des Alexandria-Sammlungsdokuments

Es gibt nur eine Version des Dokuments des Autors online, daher erhält dieses vom System eine eigene DocID.

Mit DocID wird jeder Teil des Dokuments nach Schlüsselwörtern durchsucht und im Suchindex zusammengefasst. Die „Hitliste“ fasst Schlagworte zusammen, die auf jeder Seite mehrfach vorkommen, und wird zunächst an den Direktindex weitergeleitet.

Nehmen Sie als Beispiel die Webseite des Autors. Da das Wort „pencil“ darin häufig vorkommt, wird die DocID unter dem Eintrag „pencil“ im Wortindex aufgeführt.

Der Algorithmus berechnet den IR-Score (Information Retrieval) des Wortes „pencil“ im Dokument anhand verschiedener Textmerkmale und weist ihn der DocID zu, die später in der Posting List verwendet wird.

Beispielsweise ist das Wort „Bleistift“ im Dokument fett gedruckt und in der Überschrift der ersten Ebene enthalten (gespeichert in AvrTermWeight). Solche Signale erhöhen den IR-Score.

Google wird wichtige Dokumente auf HiveMind, das Hauptspeichersystem, verschieben und dabei sowohl schnelle SSDs als auch herkömmliche Festplatten (TeraGoogle genannt) für die langfristige Speicherung von Informationen verwenden, auf die nicht schnell zugegriffen werden muss.

Experten schätzen insbesondere, dass Google vor dem jüngsten KI-Boom etwa die Hälfte aller Webserver weltweit kontrollierte.

Ein riesiges Netzwerk miteinander verbundener Cluster kann die Zusammenarbeit von Millionen von Hauptspeichereinheiten ermöglichen. Ein Google-Ingenieur wies einmal auf einer Konferenz darauf hin, dass der Hauptspeicher von Google theoretisch das gesamte Netzwerk speichern könnte.

Interessanterweise scheinen Links zu wichtigen Dokumenten, die in HiveMind gespeichert sind, sowie Backlinks ein höheres Gewicht zu haben, während URL-Links in HDD (TeraGoogle) möglicherweise ein geringeres Gewicht haben und möglicherweise nicht einmal berücksichtigt werden.

Zusätzliche Informationen und Signale für jede DocID werden dynamisch in PerDocData gespeichert, einem Repository, das die neuesten 20 Versionen jedes Dokuments enthält (über CrawlerChangerateURLHistory), auf das viele Systeme bei der Relevanzanpassung zugreifen.

Und Google hat die Möglichkeit, verschiedene Versionen im Laufe der Zeit zu bewerten. Wenn Sie den Inhalt oder das Thema eines Dokuments komplett ändern möchten, müssten Sie theoretisch 20 Übergangsversionen erstellen, um die alte Version vollständig zu überschreiben.

Aus diesem Grund bleibt bei der Wiederherstellung einer abgelaufenen Domain (eine, die einmal aktiv war, aber später wegen Insolvenz oder aus anderen Gründen aufgegeben oder verkauft wurde) der Rankingvorteil der ursprünglichen Domain nicht erhalten.

Wenn sich der Admin-C einer Domain und deren Betreffinhalt gleichzeitig ändern, können Maschinen dies leicht erkennen.

Zu diesem Zeitpunkt wird Google alle Signale auf Null setzen, und der alte Domainname, der einmal einen Traffic-Wert hatte, bietet keinen Unterschied zu einem neu registrierten Domainnamen über dem ursprünglichen Traffic und Rankings.

Neben Leaks sind Beweisdokumente aus US-amerikanischen Gerichtsverhandlungen und Gerichtsverfahren gegen Google eine nützliche Recherchequelle, darunter auch interne E-Mails

QBST: Jemand sucht nach „Bleistift“

Wenn jemand den Suchbegriff „pencil“ in Google eingibt, beginnt QBST (Query Based Salient Terms) zu funktionieren.

QBST ist dafür verantwortlich, die vom Benutzer eingegebenen Suchbegriffe zu analysieren, jedem darin enthaltenen Wort eine unterschiedliche Gewichtung nach Wichtigkeit und Relevanz zuzuweisen und entsprechende DocID-Abfragen durchzuführen.

Der Vokabulargewichtungsprozess ist recht komplex und umfasst Systeme wie RankBrain, DeepRank (ehemals BERT) und RankEmbeddedBERT.

QBST ist für SEO wichtig, da es Einfluss darauf hat, wie Google Suchergebnisse einordnet und damit wie viel Traffic und Sichtbarkeit eine Website erhalten kann.

QBST bewertet eine Website höher, wenn sie die am häufigsten verwendeten Begriffe enthält, die den Benutzeranfragen entsprechen.

Nach QBST werden verwandte Wörter wie „Bleistift“ zur weiteren Verarbeitung an Ascorer übergeben.

Ascorer: Erstellen Sie einen „grünen Ring“

Ascorer extrahiert die Top 1000 DocIDs unter dem Eintrag „pencil“ aus dem invertierten Index (d. h. dem lexikalischen Index) und ordnet sie nach IR-Score.

Internen Dokumenten zufolge wird diese Liste „Grüner Ring“ genannt. In der Branche spricht man hier von einer Posting-Liste.

In unserem „Bleistift“-Beispiel steht das entsprechende Dokument auf Platz 132 der veröffentlichten Liste. Ohne das Eingreifen anderer Systeme wäre dies seine endgültige Position.

Superroot: „Zehn aus tausend Meilen“

Superroot ist dafür verantwortlich, die 1.000 gerade von Mustang überprüften Kandidaten-Webseiten neu zu bewerten und den „grünen Ring“ von 1.000 DocIDs auf den „blauen Ring“ von 10 Ergebnissen zu reduzieren.

Diese Aufgabe wird speziell von Twiddlern und NavBoost übernommen. Möglicherweise sind auch andere Systeme beteiligt, die spezifischen Details sind jedoch aufgrund ungenauer Informationen unklar.

Mustang generiert 1000 potenzielle Ergebnisse, Superroot filtert sie auf 10 herunter

Twiddler: Filterebenen

Aus verschiedenen Dokumenten geht hervor, dass Google Hunderte von Twiddler-Systemen verwendet, die wir uns als Filter in WordPress-Plugins vorstellen können.

Jeder Twiddler hat seine eigenen spezifischen Filterziele und kann den IR-Score oder die Ranking-Position anpassen.

Es ist auf diese Weise konzipiert, da Twiddler relativ einfach zu erstellen ist und keine Änderung des komplexen Ranking-Algorithmus in Ascorer erforderlich ist.

Die Änderung von Ranking-Algorithmen stellt aufgrund der möglichen Nebenwirkungen eine große Herausforderung dar und erfordert umfangreiche Planung und Programmierung. Im Gegensatz dazu arbeiten mehrere Twiddler parallel oder nacheinander und sind sich der Aktivitäten anderer Twiddler nicht bewusst.

Twiddler lassen sich grundsätzlich in zwei Typen einteilen:

-PreDoc Twiddler können Sammlungen von Hunderten von DocIDs verarbeiten, da sie nur wenige zusätzliche Informationen benötigen;

-Im Gegensatz dazu benötigt der Twiddler vom Typ „Lazy“ mehr Informationen, beispielsweise Informationen aus der PerDocData-Datenbank, was relativ mehr Zeit und einen komplizierteren Prozess erfordert.

Daher empfängt PreDocs zunächst die Publikationsliste, reduziert die Webseiteneinträge und verwendet dann einen langsameren Filter vom Typ „Lazy“. Durch die Kombination der beiden wird erheblich Rechenleistung und Zeit gespart.

Zwei Arten von über 100 Twiddlern sind dafür verantwortlich, die Anzahl potenzieller Suchergebnisse zu reduzieren und sie neu zu ordnen

Nach dem Testen bietet Twiddler eine Vielzahl von Einsatzmöglichkeiten. Entwickler können neue Filter, Multiplikatoren oder bestimmte Positionsbeschränkungen ausprobieren und sogar eine sehr präzise Manipulation vornehmen, um ein bestimmtes Suchergebnis vor oder hinter einem anderen Ergebnis zu platzieren.

Aus einem durchgesickerten internen Google-Dokument geht hervor, dass bestimmte Twiddler-Funktionen nur von Experten in Absprache mit dem Kernsuchteam verwendet werden sollten.

Wenn Sie denken, Sie wissen, wie Twidder funktioniert, vertrauen Sie uns: Das wissen Sie nicht. Wir sind nicht sicher, ob wir es verstehen

Es gibt auch Twiddler, die nur zum Erstellen von Anmerkungen und zum Hinzufügen dieser Anmerkungen zur DocID dienen.

Warum steht das Gesundheitsamt Ihres Landes bei COIVD immer ganz oben auf der Liste bei COVID-19-Suchen?

Das liegt daran, dass Twiddler queryForWhichOfficial verwendet, um die präzise Verteilung offizieller Ressourcen basierend auf Sprache und Region zu erleichtern.

Während Entwickler keine Kontrolle über die Ergebnisse der Neubewertung von Twiddler haben, kann das Verständnis seiner Mechanismen Ranking-Schwankungen und diese „unerklärlichen Rankings“ besser erklären.

Qualitätsgutachter und RankLab

Weltweit gibt es tausende Qualitätsbewerter, die Suchergebnisse für Google auswerten und neue Algorithmen oder Filter testen, bevor sie live gehen.

Google gibt an, dass ihre Bewertungen nur als Referenz dienen und keinen direkten Einfluss auf das Ranking haben.

Das stimmt grundsätzlich, aber ihre Bewertungen und Gebotsscheine haben einen großen indirekten Einfluss auf das Ranking.

Prüfer führen Beurteilungen in der Regel auf einem mobilen Gerät durch, indem sie eine URL oder einen Suchbegriff vom System erhalten und voreingestellte Fragen beantworten.

Sie werden beispielsweise gefragt: „Ist der Autor und die kreative Praxis dieses Inhalts klar?“ Verfügt der Autor über Fachwissen zu diesem Thema?

Diese Antworten werden gespeichert und zum Trainieren von Algorithmen für maschinelles Lernen verwendet, um hochwertige, vertrauenswürdige Seiten besser von weniger vertrauenswürdigen Seiten zu unterscheiden.

Mit anderen Worten: Die von menschlichen Bewertern bereitgestellten Ergebnisse werden zu wichtigen Kriterien für Deep-Learning-Algorithmen, während die vom Google-Suchteam erstellten Ranking-Kriterien nicht so wichtig sind.

Stellen Sie sich vor, welche Art von Webseiten von menschlichen Bewertern als vertrauenswürdig angesehen würden?

Eine Seite wirkt in der Regel überzeugend, wenn sie das Foto des Autors, den vollständigen Namen und einen LinkedIn-Link enthält. Umgekehrt werden Webseiten, denen diese Merkmale fehlen, als weniger vertrauenswürdig eingeschätzt.

Das neuronale Netzwerk identifiziert dieses Merkmal dann als Schlüsselfaktor und nach mindestens 30 Tagen aktiver Testläufe kann das Modell damit beginnen, dieses Merkmal automatisch als Ranking-Kriterium zu verwenden.

Daher können Seiten mit einem Autorenfoto, einem vollständigen Namen und einem LinkedIn-Link durch den Twiddler-Mechanismus einen Ranking-Boost erhalten, während Seiten, denen diese Merkmale fehlen, einen Ranking-Rückgang erfahren.

Darüber hinaus kann das System den von Google durchgesickerten Informationen zufolge über die Attribute isAuthor und AuthorVectors (ähnlich der „Identifizierung des Fingerabdrucks des Autors“) die eindeutigen Wörter und Ausdrücke des Autors (d. h. persönliche Sprachmerkmale) identifizieren und unterscheiden.

Die Bewertungen der Bewerter werden zu einem „Informationszufriedenheitswert“ (IS) zusammengefasst. Obwohl viele Bewerter teilnehmen, gilt die IS-Bewertung nur für eine kleine Anzahl von URLs.

Google weist darauf hin, dass auch viele Dokumente, die nicht angeklickt werden, wichtig sein können. Wenn das System keine Schlussfolgerung ziehen kann, wird das Dokument automatisch an den Bewerter gesendet und eine Bewertung generiert.

Der Begriff „Gold“ wird in den prüferbezogenen Begriffen erwähnt, was darauf hindeutet, dass bestimmte Dokumente möglicherweise einen „Goldstandard“ haben und die Erfüllung der Erwartungen menschlicher Prüfer dazu beitragen kann, dass das Dokument den „Gold“-Standard erreicht.

Darüber hinaus können ein oder mehrere Twiddler-Systeme DocIDs, die dem „Goldstandard“ entsprechen, in die Top Ten befördern.

Qualitätsprüfer sind in der Regel keine Vollzeitmitarbeiter von Google, sondern arbeiten mit Outsourcing-Unternehmen zusammen.

Im Gegensatz dazu arbeiten Googles eigene Experten im RankLab, führen Experimente durch, entwickeln neue Twiddler und bewerten und verbessern sie, um zu sehen, ob Twiddler die Qualität der Ergebnisse verbessert oder einfach nur Spam herausfiltert.

Der bewährte und effektive Twiddler wurde dann mithilfe komplexer, miteinander verbundener und rechenintensiver Algorithmen in das Mustang-System integriert.

NavBoost: Was gefällt den Benutzern?

In Superroot spielt ein weiteres Kernsystem, NavBoost, ebenfalls eine wichtige Rolle bei der Rangfolge der Suchergebnisse.

Navboost wird hauptsächlich verwendet, um Daten über die Interaktion der Benutzer mit Suchergebnissen zu sammeln, insbesondere über ihre Klicks auf verschiedene Abfrageergebnisse.

Obwohl Google die Verwendung von Klickdaten von Nutzern für Rankings offiziell ablehnt, weist die Federal Trade Commission (FTC) in einer internen E-Mail darauf hin, dass die Art und Weise, wie Klickdaten verarbeitet werden, vertraulich behandelt werden muss.

Google bestreitet dies aus zwei Gründen.

Erstens überwacht Google als Suchplattform aus Nutzersicht ständig die Online-Aktivitäten der Nutzer, was zu medialer Empörung über Datenschutzprobleme führen wird.

Aus Sicht von Google besteht der Zweck der Verwendung von Klickdaten jedoch darin, statistisch signifikante Datenmetriken zu erhalten, und nicht darin, einzelne Nutzer zu überwachen.

Das FTC-Dokument bestätigte, dass sich Klickdaten auf Rankings auswirken und erwähnte häufig das NavBoost-System (54 Mal während der Anhörung am 18. April 2023), was auch durch eine offizielle Anhörung im Jahr 2012 bestätigt wurde.

Seit August 2012 machen Verantwortliche deutlich, dass Klickdaten Auswirkungen auf das Ranking haben

Verschiedene Benutzerverhaltensweisen auf der Suchergebnisseite, darunter Suchen, Klicks, wiederholte Suchen und wiederholte Klicks, sowie der Verkehr auf der Website oder Webseite wirken sich alle auf das Ranking aus.

Bedenken hinsichtlich der Privatsphäre der Benutzer sind nur ein Grund. Eine weitere Sorge besteht darin, dass die Auswertung von Klickdaten und Traffic Spammer und Betrüger dazu verleiten könnte, Bot-Systeme zu nutzen, um Traffic zu fälschen und Rankings zu manipulieren.

Auch Google verfügt über Methoden, um dieser Situation entgegenzuwirken, etwa durch die Unterscheidung von Nutzerklicks in schlechte Klicks und gute Klicks durch Mehrfachauswertungen.

Zu den verwendeten Metriken gehören die auf der Zielseite verbrachte Zeit, der Zeitraum, in dem die Seite angezeigt wurde, die Startseite der Suche, der letzte „gute Klick“-Datensatz im Suchverlauf des Benutzers usw.

Für jedes Ranking auf Suchergebnisseiten (SERPs) gibt es eine durchschnittliche erwartete Klickrate (CTR) als Basis.

Laut einer Analyse von Johannes Beus auf der diesjährigen CAMPIXX-Konferenz in Berlin erhielt beispielsweise die erste Position in natürlichen Suchergebnissen durchschnittlich 26,2 % der Klicks und die zweite Position 15,5 % der Klicks.

Wenn eine CTR deutlich unter der erwarteten Rate liegt, erkennt das NavBoost-System diese Lücke und passt das Ranking von DocID entsprechend an.

Weicht „expected_CRT“ deutlich vom tatsächlichen Wert ab, wird das Ranking entsprechend angepasst

Benutzerklicks geben grundsätzlich die Meinung des Benutzers über die Relevanz der Ergebnisse wieder, einschließlich Titel, Beschreibung und Domainname.

Berichten von SEO-Experten und Datenanalysten zufolge fielen ihnen bei der umfassenden Überwachung der Klickraten folgende Phänomene auf:

Wenn ein Dokument bei einer Suchanfrage in die Top 10 gelangt und die CTR deutlich niedriger ist als erwartet, ist zu beobachten, dass das Ranking innerhalb weniger Tage sinkt (abhängig vom Suchvolumen).

Im Gegenteil, wenn die CTR im Verhältnis zum Ranking viel höher ist, wird das Ranking normalerweise steigen. Wenn die CTR schlecht ist, muss die Website den Titel und die Inhaltsbeschreibung in kurzer Zeit anpassen und optimieren, um mehr Klicks zu erzielen.

Die Berechnung und Aktualisierung des PageRank ist zeitaufwändig und rechenintensiv, weshalb die Metrik PageRank_NS verwendet wird. NS steht für „Nearest Seed“, eine Gruppe verwandter Seiten teilt sich einen PageRank-Wert, der vorübergehend oder dauerhaft auf neue Seiten angewendet wird.

Google ging bei einer Anhörung mit gutem Beispiel voran, wie man aktuelle Informationen bereitstellen kann. Wenn ein Benutzer beispielsweise nach „Stanley Cup“ sucht, wird in den Suchergebnissen normalerweise ein Wasserglas angezeigt.

Wenn jedoch ein Stanley-Cup-Hockeyspiel läuft, passt NavBoost die Ergebnisse an, um Echtzeitinformationen über das Spiel zu priorisieren.

Nach neuesten Erkenntnissen umfassen die Klickmetriken des Dokuments Daten aus 13 Monaten, mit einer Überlappung von einem Monat, um einen Vergleich mit dem Vorjahr zu ermöglichen.

Überraschenderweise bietet Google nicht viele personalisierte Suchergebnisse. Testergebnisse haben gezeigt, dass die Modellierung und Anpassung des Nutzerverhaltens zu besseren Ergebnissen führen kann als die Beurteilung der persönlichen Präferenzen einzelner Nutzer.

Persönliche Präferenzen, wie z. B. Such- und Videoinhaltspräferenzen, werden jedoch weiterhin in die personalisierten Ergebnisse einbezogen.

GWS: Das Ende und der Anfang der Suche

Google Web Server (GWS) ist für die Darstellung der Suchergebnisseite (SERP) verantwortlich, die 10 „blaue Links“ sowie Anzeigen, Bilder, Google Maps-Ansichten, „Leute fragen auch“ und andere Elemente enthält.

Diese Komponenten wie FreshnessNode, InstantGlue (reagiert innerhalb von 24 Stunden, mit einer Verzögerung von etwa 10 Minuten) und InstantNavBoost können Rankings im letzten Moment vor der Anzeige der Seite anpassen.

FreshnessNode kann Änderungen im Suchverhalten der Benutzer in Echtzeit überwachen und Rankings basierend auf diesen Änderungen anpassen, um sicherzustellen, dass Suchergebnisse den neuesten Suchabsichten entsprechen.

InstantNavBoost und InstantGlue nehmen vor der endgültigen Darstellung der Suchergebnisse letzte Anpassungen an den Rankings vor, z. B. die Anpassung der Rankings basierend auf aktuellen Nachrichten und aktuellen Themen.

daher,Um hohe Rankings zu erreichen, muss ein exzellenter Dokumentinhalt mit richtigen SEO-Maßnahmen gekoppelt werden.

Rankings können durch eine Vielzahl von Faktoren beeinflusst werden, darunter Änderungen im Suchverhalten, das Vorhandensein zusätzlicher Dokumente und Aktualisierungen von Echtzeitinformationen. Daher ist es wichtig zu erkennen, dass hochwertige Inhalte und gute Suchmaschinenoptimierung nur ein Teil der dynamischen Ranking-Landschaft sind.

John Mueller von Google betonte, dass ein Rückgang im Ranking in der Regel nicht bedeute, dass der Inhalt von schlechter Qualität sei, und dass Änderungen im Nutzerverhalten oder andere Faktoren die Leistung der Ergebnisse beeinflussen könnten.

Wenn Benutzer beispielsweise beginnen, kürzere Texte zu bevorzugen, passt NavBoost die Rankings automatisch entsprechend an. Der IR-Score im Alexandria-System bzw. Ascorer bleibt jedoch unverändert.

Dies zeigt uns, dass SEO in einem weiteren Sinne verstanden werden muss. Eine einfache Optimierung des Titels oder Inhalts ist wirkungslos, wenn der Inhalt des Dokuments nicht mit der Suchabsicht des Benutzers übereinstimmt.

Nachricht

Google-Suchmaschine vollständig enthüllt! Fast hundert Dokumente wurden durchgesickert, und Blogger verbrachten Wochen damit, sie zurückzuentwickeln.

Einführung

Meine Kontaktdaten