Η μηχανή αναζήτησης Google αποκαλύφθηκε πλήρως! Σχεδόν εκατό έγγραφα διέρρευσαν και ο blogger πέρασε εβδομάδες reverse engineering

Η μηχανή αναζήτησης Google αποκαλύφθηκε πλήρως! Σχεδόν εκατό έγγραφα διέρρευσαν και οι μπλόγκερ ξόδεψαν εβδομάδες για να τα αντιστρέψουν.

2024-08-23

Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία]Μετά τη διαρροή εγγράφων τον Μάιο, η μηχανή αναζήτησης της Google ανατράπηκε ξανά. Όχι μόνο η DeepMind δημοσίευσε μια εργασία που εξηγούσε τον μηχανισμό του συστήματος Βεζίρ, αλλά ο μπλόγκερ Mario Fischer διεξήγαγε επίσης μια ενδελεχή έρευνα και ανάλυση σχεδόν εκατό εγγράφων για να αποκαταστήσει την πλήρη εικόνα αυτού του μεγαθήρου του Διαδικτύου.

Τα έγγραφα που δημοσιεύει η Google άρχισαν να αποκαλύπτουν ξανά τα μυστικά της δικής της τεχνολογίας.

Σε μια πρόσφατη εργασία που δημοσιεύτηκε από τον ανώτερο ερευνητή της DeepMind, Xingyou (Richard) Song και άλλους, εξήγησαν τα μυστικά του αλγορίθμου πίσω από την υπηρεσία Vizier της Google.

Ως εργαλείο βελτιστοποίησης μαύρου κουτιού που έχει εκτελεστεί εκατομμύρια φορές, το Vizier βοήθησε την Google να βελτιστοποιήσει πολλές εσωτερικές μελέτες και συστήματα ταυτόχρονα, το Google Cloud και η Vertex έχουν επίσης λανσάρει υπηρεσίες Vizier για να βοηθήσουν τους ερευνητές και τους προγραμματιστές να πραγματοποιήσουν προσαρμογή υπερπαραμέτρων ή βελτιστοποίηση μαύρου κουτιού. .

Ο Song είπε ότι σε σύγκριση με άλλες βασικές γραμμές του κλάδου, όπως το Ax/BoTorch, HEBO, Optuna, HyperOpt, SkOpt, κ.λπ., το Vizier έχει πιο ισχυρή απόδοση σε πολλά σενάρια χρηστών, όπως υψηλές διαστάσεις, ερωτήματα παρτίδας, προβλήματα πολλαπλών στόχων κ.λπ.

Εκμεταλλευόμενος την κυκλοφορία της εφημερίδας, ο βετεράνος της Google, Τζεφ Ντιν, έγραψε επίσης στο Twitter για να επαινέσει το σύστημα Βεζίρ.

Η έκδοση ανοιχτού κώδικα του Vizier που ανέφερε έχει φιλοξενηθεί στο αποθετήριο GitHub, έχει πολύ λεπτομερή τεκμηρίωση και συντηρείται και ενημερώνεται συνεχώς πρόσφατα.

Διεύθυνση αποθήκης: https://github.com/google/vizier

Το κατανεμημένο σύστημα πελάτη-διακομιστή του OSS Vizier

Αν και η Google Research δημοσίευσε ένα άρθρο που συζητούσε ολόκληρο το σύστημα Vizier ήδη από το 2017, το περιεχόμενο είναι πολύ λιγότερο λεπτομερές από το τελευταίο άρθρο.

Αυτή η τεχνική έκθεση περιέχει τα αποτελέσματα μεγάλου όγκου ερευνητικής εργασίας και σχόλια από τους χρήστες Ενώ περιγράφει τις λεπτομέρειες υλοποίησης και τις επιλογές σχεδίασης του αλγόριθμου ανοιχτού κώδικα Vizier, χρησιμοποιεί πειράματα σε τυποποιημένα σημεία αναφοράς για να καταδείξει την ευρωστία και την ευελιξία του Vizier σε μια ποικιλία. πρακτικούς τρόπους.

Ανάμεσά τους, προβάλλονται επίσης μία προς μία οι εμπειρίες και τα διδάγματα από την επαναληπτική διαδικασία του συστήματος Βεζίρ, που έχει μεγάλη σημασία αναφοράς για τον ακαδημαϊκό χώρο και τη βιομηχανία και αξίζει να παρακολουθήσετε.

Βασικά στοιχεία του Μπεϋζιανού αλγορίθμου που χρησιμοποιείται από το σύστημα Vizier

Οι κύριες συνεισφορές του άρθρου είναι οι εξής:

- Επίσημη επιβεβαίωση του προεπιλεγμένου αλγορίθμου για την τρέχουσα έκδοση του Vizier και επεξήγηση της λειτουργικότητάς του, των επιλογών σχεδίασης και των διδαγμάτων που αντλήθηκαν από τη διαδικασία επανάληψης

- Παρέχει υλοποίηση πλαισίου ανοιχτού κώδικα Python και JAX με βάση την αρχική υλοποίηση C++

- Δοκιμασμένο με χρήση κοινών βιομηχανικών σημείων αναφοράς, αποδεικνύοντας την ευρωστία του Vizier σε λειτουργίες βελτιστοποίησης υψηλών διαστάσεων, ταξινόμησης, παρτίδας και πολλαπλών στόχων

- Πραγματοποιούνται πειράματα κατάλυσης σχετικά με την ασυνήθιστη σχεδιαστική επιλογή του μηδενικής τάξης βελτιστοποιητή εξελικτικής απόκτησης, και τα βασικά πλεονεκτήματα παρουσιάζονται και συζητούνται.

Οι δύο πρώτοι στη λίστα των συγγραφέων της εργασίας είναι δύο Richards——

Ο Xingyou (Richard) Song εργάστηκε ως ερευνητής για τη γενίκευση της ενίσχυσης της μάθησης στο OpenAI. Έγινε μέλος της Google Brain ως ανώτερος επιστήμονας έρευνας το 2019 και θα υπηρετήσει ως ανώτερος επιστήμονας ερευνητής στο DeepMind από το 2023, δουλεύοντας στο GenAI.

Ο Qiuyi (Richard) Zhang εργάζεται επί του παρόντος στην ομάδα DeepMind Vizier και είναι επίσης ο συνδημιουργός της έκδοσης ανοιχτού κώδικα του Vizier, η έρευνά του επικεντρώνεται κυρίως στη βελτιστοποίηση υπερπαραμέτρων, τη βαθμονόμηση Bayes και τις θεωρητικές κατευθύνσεις μηχανικής μάθησης Στην ευθυγράμμιση της τεχνητής νοημοσύνης, εμπλέκονται επίσης αντιπραγματικές/δικαιότητες Το σεξ και άλλες πτυχές.

Ο Zhang έλαβε το πτυχίο του από το Πανεπιστήμιο του Πρίνστον το 2014 και στη συνέχεια έλαβε το διδακτορικό του στα εφαρμοσμένα μαθηματικά και την επιστήμη των υπολογιστών από το Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϋ.

Ο μηχανισμός της μηχανής αναζήτησης ξεκινά από κάτω

Ως απόλυτος γίγαντας της βιομηχανίας, πολλές από τις άγνωστες βασικές τεχνολογίες της Google έχουν κάνει τον έξω κόσμο περίεργο για μεγάλο χρονικό διάστημα, όπως οι μηχανές αναζήτησης.

Με μερίδιο αγοράς άνω του 90% για περισσότερα από δέκα χρόνια, η αναζήτηση Google έχει γίνει ίσως το πιο επιδραστικό σύστημα σε ολόκληρο το Διαδίκτυο Καθορίζει τη ζωή και το θάνατο των ιστότοπων και την παρουσίαση του διαδικτυακού περιεχομένου.

Ωστόσο, οι συγκεκριμένες λεπτομέρειες για το πώς η Google κατατάσσει τους ιστότοπους ήταν πάντα ένα «μαύρο κουτί».

Σε αντίθεση με προϊόντα όπως το Vizier, οι μηχανές αναζήτησης είναι τόσο ο κωδικός περιουσίας όσο και η τεχνολογία καθαρισμού της Google και είναι αδύνατο να αποκαλυφθούν σε επίσημα έγγραφα.

Αν και ορισμένα μέσα ενημέρωσης, ερευνητές και άτομα που ασχολούνται με τη βελτιστοποίηση μηχανών αναζήτησης έχουν κάνει διάφορες εικασίες, είναι απλώς τυφλοί που προσπαθούν να καταλάβουν τον ελέφαντα.

Η παρατεταμένη αντιμονοπωλιακή αγωγή της Google ανακοίνωσε πρόσφατα την ετυμηγορία της, οι εισαγγελείς των ΗΠΑ σε όλα τα επίπεδα συγκέντρωσαν περίπου 5 εκατομμύρια σελίδες εγγράφων και τα μετέτρεψαν σε δημόσια στοιχεία.

Ωστόσο, οι εσωτερικές διαρροές εγγράφων της Google και οι δημόσιες αρχειοθετήσεις από ακροάσεις αντιμονοπωλιακής νομοθεσίας, μεταξύ άλλων, δεν μας λένε ακριβώς πώς λειτουργούν οι κατατάξεις.

Επιπλέον, λόγω της χρήσης μηχανικής μάθησης, η δομή των οργανικών αποτελεσμάτων αναζήτησης είναι τόσο περίπλοκη που οι υπάλληλοι της Google που συμμετέχουν στην ανάπτυξη του αλγόριθμου κατάταξης είπαν επίσης:Δεν κατανοούν πλήρως την αλληλεπίδραση των πολλών βαρών σημάτων για να εξηγήσουν γιατί ένα συγκεκριμένο αποτέλεσμα κατατάσσεται πρώτο ή δεύτερο.

Στις 27 Μαΐου, μια ανώνυμη πηγή (αργότερα επιβεβαιώθηκε ότι ήταν ο Erfan Azimi, ένας βετεράνος επαγγελματίας στον κλάδο βελτιστοποίησης μηχανών αναζήτησης) παρείχε ένα έγγραφο διαρροής API Google Search 2.500 σελίδων στον διευθύνοντα σύμβουλο του SparkToro, Rand Fishkin, αποκαλύπτοντας τη μηχανή αναζήτησης Google Λεπτομέρειες του εσωτερικού αλγόριθμος κατάταξης.

Αλλά δεν είναι μόνο αυτό.

Το Search Engine Land, ένας ειδησεογραφικός ιστότοπος που ειδικεύεται στις αναφορές στον κλάδο των μηχανών αναζήτησης, δημοσίευσε πρόσφατα ένα ιστολόγιο που αναμόρφωσε χιλιάδες δικαστικά έγγραφα της Google που διέρρευσαν για να αποκαλύψει για πρώτη φορά τις βασικές τεχνικές αρχές της διαδικτυακής κατάταξης αναζήτησης της Google.

Αυτή η ανάρτηση ιστολογίου γεννήθηκε αφού ο αρχικός συντάκτης εξέτασε, ανέλυσε, δόμησε, απέρριψε και αναδιοργάνωσε σχεδόν 100 έγγραφα πολλές φορές σε αρκετές εβδομάδες εργασίας Αν και δεν είναι απαραίτητα αυστηρά ακριβής ή περιεκτική, μπορούμε να πούμε ότι κατανοεί την Google. Ολοκληρωμένες και λεπτομερείς πληροφορίες όπως καμία άλλη μηχανή αναζήτησης.

Το διάγραμμα δομής έκδοσης εξοικονόμησης ροής του συγγραφέα έχει ως εξής:

Δεν υπάρχει αμφιβολία ότι η μηχανή αναζήτησης Google είναι ένα μεγάλο και πολύπλοκο έργο. Από το σύστημα ανίχνευσης, το αποθετήριο Alexandria, τη χονδρική κατάταξη Mustang, μέχρι το σύστημα φιλτραρίσματος και λεπτής κατάταξης Superroot και GWS που είναι υπεύθυνο για την τελική απόδοση της σελίδας, αυτά θα επηρεάσουν την τελική παρουσίαση και την προβολή της σελίδας του ιστότοπου.

Νέο αρχείο: αναμονή για πρόσβαση στο Googlebot

Όταν δημοσιεύεται ένας νέος ιστότοπος, δεν θα ευρετηριάζεται αμέσως από την Google. Πώς συλλέγει και ενημερώνει η Google πληροφορίες ιστοσελίδων;

Το πρώτο βήμα είναι η ανίχνευση και η συλλογή δεδομένων, η Google πρέπει πρώτα να γνωρίζει την ύπαρξη της διεύθυνσης URL του ιστότοπου.

Επιπλέον, οι σύνδεσμοι σε σελίδες που επισκέπτεστε συχνά μπορούν να προσελκύσουν την προσοχή της Google πιο γρήγορα.

Το σύστημα ανίχνευσης ανιχνεύει νέο περιεχόμενο και καταγράφει όταν επισκέπτονται ξανά τις διευθύνσεις URL για τον έλεγχο για ενημερώσεις ιστότοπου.

Στη συνέχεια, ο διακομιστής αποθήκευσης αποφασίζει εάν θα προωθήσει τη διεύθυνση URL ή θα την τοποθετήσει σε ένα sandbox.

Η Google έχει αρνηθεί στο παρελθόν την ύπαρξη sandbox, αλλά πρόσφατες διαρροές δείχνουν ότι (ύποπτοι) ανεπιθύμητοι ιστότοποι και ιστότοποι χαμηλής αξίας τοποθετούνται επίσης στο sandbox και η Google προφανώς θα προωθήσει ορισμένους ιστότοπους ανεπιθύμητης αλληλογραφίας, πιθανώς για περαιτέρω ανάλυση περιεχομένου και αλγόριθμο εκπαίδευσης.

Ο σύνδεσμος εικόνας μεταφέρεται στη συνέχεια στο ImageBot για επόμενες κλήσεις αναζήτησης, μερικές φορές με καθυστερήσεις, το ImageBot έχει μια δυνατότητα ταξινόμησης που τοποθετεί πανομοιότυπες ή παρόμοιες εικόνες σε ένα κοντέινερ εικόνας.

Το σύστημα ανίχνευσης φαίνεται να χρησιμοποιεί το δικό του PageRank για να προσαρμόσει τη συχνότητα ανίχνευσης πληροφοριών Εάν ένας ιστότοπος έχει μεγαλύτερη επισκεψιμότητα, αυτή η συχνότητα ανίχνευσης θα αυξηθεί (ClientTrafficFraction).

Αλεξάνδρεια: Google Indexing System

Το σύστημα ευρετηρίασης της Google, που ονομάζεται Alexandria, εκχωρεί ένα μοναδικό DocID στο περιεχόμενο κάθε ιστοσελίδας. Σε περίπτωση διπλού περιεχομένου, δεν θα δημιουργηθεί νέο αναγνωριστικό, αλλά η διεύθυνση URL θα συνδεθεί με ένα υπάρχον DocID.

Η Google κάνει σαφή διάκριση μεταξύ διευθύνσεων URL και εγγράφων: ένα έγγραφο μπορεί να αποτελείται από πολλαπλές διευθύνσεις URL που περιέχουν παρόμοιο περιεχόμενο, συμπεριλαμβανομένων διαφορετικών γλωσσικών εκδόσεων, οι οποίες καλούνται όλες από το ίδιο DocID.

Εάν συναντήσετε διπλό περιεχόμενο από διαφορετικά ονόματα τομέα, η Google θα επιλέξει να εμφανίσει την κανονική έκδοση στην κατάταξη αναζήτησης. Αυτό εξηγεί επίσης γιατί άλλες διευθύνσεις URL μπορεί μερικές φορές να κατατάσσονται παρόμοια. Επιπλέον, η λεγόμενη "κανονική" έκδοση της διεύθυνσης URL δεν είναι εφάπαξ, αλλά θα αλλάξει με την πάροδο του χρόνου.

URL εγγράφου συλλογής Αλεξάνδρειας

Υπάρχει μόνο μία έκδοση του εγγράφου του συντάκτη στο διαδίκτυο, επομένως του δίνεται το δικό του DocID από το σύστημα.

Με το DocID, κάθε τμήμα του εγγράφου θα αναζητηθεί για λέξεις-κλειδιά και θα συνοψιστεί στο ευρετήριο αναζήτησης. Η "λίστα επιτυχιών" συνοψίζει λέξεις-κλειδιά που εμφανίζονται πολλές φορές σε κάθε σελίδα και θα αποστέλλονται πρώτα στο άμεσο ευρετήριο.

Πάρτε για παράδειγμα την ιστοσελίδα του συγγραφέα Δεδομένου ότι η λέξη "μολύβι" εμφανίζεται πολλές φορές σε αυτήν, το DocID αναγράφεται κάτω από την καταχώρηση "μολύβι" στο ευρετήριο λέξης.

Ο αλγόριθμος υπολογίζει τη βαθμολογία IR (Information Retrieval) της λέξης "μολύβι" στο έγγραφο με βάση διάφορα χαρακτηριστικά κειμένου και την εκχωρεί στο DocID, το οποίο αργότερα χρησιμοποιείται στη Λίστα αναρτήσεων.

Για παράδειγμα, η λέξη "μολύβι" στο έγγραφο είναι με έντονη γραφή και περιλαμβάνεται στην επικεφαλίδα πρώτου επιπέδου (αποθηκευμένα στο AvrTermWeight Τέτοια σήματα θα αυξήσουν τη βαθμολογία IR).

Η Google θα μετακινήσει σημαντικά έγγραφα στο HiveMind, το κύριο σύστημα μνήμης, χρησιμοποιώντας τόσο γρήγορους SSD όσο και παραδοσιακούς σκληρούς δίσκους (που ονομάζονται TeraGoogle) για μακροπρόθεσμη αποθήκευση πληροφοριών που δεν χρειάζεται γρήγορη πρόσβαση.

Συγκεκριμένα, οι ειδικοί εκτιμούν ότι πριν από την πρόσφατη έκρηξη της τεχνητής νοημοσύνης, η Google έλεγχε περίπου τους μισούς διακομιστές ιστού στον κόσμο.

Ένα τεράστιο δίκτυο διασυνδεδεμένων συμπλεγμάτων μπορεί να επιτρέψει σε εκατομμύρια μονάδες κύριας μνήμης να συνεργαστούν. Ένας μηχανικός της Google επεσήμανε κάποτε σε ένα συνέδριο ότι θεωρητικά, η κύρια μνήμη της Google θα μπορούσε να αποθηκεύσει ολόκληρο το δίκτυο.

Είναι ενδιαφέρον ότι οι σύνδεσμοι προς σημαντικά έγγραφα που είναι αποθηκευμένα στο HiveMind καθώς και οι σύνδεσμοι επιστροφής φαίνεται να έχουν υψηλότερο βάρος, ενώ οι σύνδεσμοι URL στον σκληρό δίσκο (TeraGoogle) μπορεί να έχουν χαμηλότερο βάρος και να μην λαμβάνονται καν υπόψη.

Πρόσθετες πληροφορίες και σήματα για κάθε DocID αποθηκεύονται δυναμικά στο PerDocData, ένα αποθετήριο που περιέχει τις πιο πρόσφατες 20 εκδόσεις κάθε εγγράφου (μέσω του CrawlerChangerateURLHistory), στις οποίες πολλά συστήματα έχουν πρόσβαση κατά την προσαρμογή της συνάφειας.

Και, η Google έχει τη δυνατότητα να αξιολογεί διαφορετικές εκδόσεις με την πάροδο του χρόνου. Εάν θέλετε να αλλάξετε εντελώς το περιεχόμενο ή το θέμα ενός εγγράφου, θεωρητικά θα πρέπει να δημιουργήσετε 20 μεταβατικές εκδόσεις για να αντικαταστήσετε πλήρως την παλιά έκδοση.

Αυτός είναι ο λόγος για τον οποίο η επαναφορά ενός τομέα που έχει λήξει (ένας που κάποτε ήταν ενεργός αλλά αργότερα εγκαταλείφθηκε ή πωλήθηκε λόγω χρεοκοπίας ή άλλων λόγων) δεν θα διατηρήσει το πλεονέκτημα κατάταξης του αρχικού τομέα.

Εάν ο Διαχειριστής-C ενός τομέα και το περιεχόμενο του θέματός του αλλάξουν ταυτόχρονα, τα μηχανήματα μπορούν εύκολα να το αναγνωρίσουν.

Προς το παρόν, η Google θα ορίσει όλα τα σήματα στο μηδέν και το παλιό όνομα τομέα που κάποτε είχε αξία επισκεψιμότητας δεν θα παρέχει πλέον κανένα πλεονέκτημα από ένα νέο καταχωρημένο όνομα τομέα πάνω από την αρχική επισκεψιμότητα και τις ταξινομήσεις.

Εκτός από τις διαρροές, αποδεικτικά έγγραφα από δικαστικές ακροάσεις και δίκες κατά της Google στις ΗΠΑ αποτελούν χρήσιμη πηγή έρευνας, ακόμη και εσωτερικών μηνυμάτων ηλεκτρονικού ταχυδρομείου

QBST: Κάποιος ψάχνει για "μολύβι"

Όταν κάποιος εισάγει τον όρο αναζήτησης "μολύβι" στο Google, το QBST (Query Based Salient Terms) αρχίζει να λειτουργεί.

Η QBST είναι υπεύθυνη για την ανάλυση των όρων αναζήτησης που εισάγει ο χρήστης, την αντιστοίχιση διαφορετικών βαρών σε κάθε λέξη που περιέχεται σε αυτήν με βάση τη σημασία και τη συνάφεια και τη διεξαγωγή σχετικών ερωτημάτων DocID αντίστοιχα.

Η διαδικασία στάθμισης λεξιλογίου είναι αρκετά περίπλοκη και περιλαμβάνει συστήματα όπως το RankBrain, το DeepRank (πρώην BERT) και το RankEmbeddedBERT.

Το QBST είναι σημαντικό για το SEO επειδή επηρεάζει τον τρόπο με τον οποίο η Google κατατάσσει τα αποτελέσματα αναζήτησης και συνεπώς την επισκεψιμότητα και την προβολή ενός ιστότοπου.

Το QBST θα κατατάξει έναν ιστότοπο υψηλότερα εάν περιέχει τους πιο συχνά χρησιμοποιούμενους όρους που ταιριάζουν με τα ερωτήματα των χρηστών.

Μετά το QBST, σχετικές λέξεις όπως "μολύβι" θα περάσουν στον Βαθμολογητή για περαιτέρω επεξεργασία.

Σκόρερ: Δημιουργήστε ένα "πράσινο δαχτυλίδι"

Το Ascorer εξάγει τα κορυφαία 1000 DocIDs κάτω από την καταχώριση "μολύβι" από το ανεστραμμένο ευρετήριο (δηλαδή, λεξικό ευρετήριο) και τα κατατάσσει με βαθμολογία IR.

Σύμφωνα με εσωτερικά έγγραφα, αυτή η λίστα ονομάζεται «πράσινο δαχτυλίδι». Στη βιομηχανία, αυτό ονομάζεται λίστα απόσπασης.

Στο παράδειγμά μας με το "μολύβι", το αντίστοιχο έγγραφο βρίσκεται στην 132η θέση στη δημοσιευμένη λίστα. Χωρίς την παρέμβαση άλλων συστημάτων, αυτή θα ήταν η τελική της θέση.

Superroot: "Δέκα από χίλια μίλια"

Η Superroot είναι υπεύθυνη για την ανακατάταξη των 1.000 υποψήφιων ιστοσελίδων που μόλις εξετάστηκαν από τη Mustang, μειώνοντας τον «πράσινο δακτύλιο» των 1.000 DocID στο «μπλε δαχτυλίδι» των 10 αποτελεσμάτων.

Αυτή η εργασία εκτελείται ειδικά από την Twiddlers και το NavBoost και άλλα συστήματα, αλλά οι συγκεκριμένες λεπτομέρειες είναι ασαφείς λόγω ανακριβών πληροφοριών.

Η Mustang παράγει 1000 πιθανά αποτελέσματα, η Superroot τα φιλτράρει σε 10

Twiddlers: στρώματα φιλτραρίσματος

Διάφορα έγγραφα υποδεικνύουν ότι η Google χρησιμοποιεί εκατοντάδες συστήματα Twiddler, τα οποία μπορούμε να θεωρήσουμε παρόμοια με τα φίλτρα στα πρόσθετα WordPress.

Κάθε Twiddler έχει τους δικούς του συγκεκριμένους στόχους φιλτραρίσματος και μπορεί να προσαρμόσει τη βαθμολογία IR ή τη θέση κατάταξης.

Έχει σχεδιαστεί με αυτόν τον τρόπο επειδή το Twiddler είναι σχετικά εύκολο στη δημιουργία και δεν απαιτεί τροποποίηση του σύνθετου αλγόριθμου κατάταξης στο Ascorer.

Η τροποποίηση των αλγορίθμων κατάταξης είναι πολύ δύσκολη λόγω των πιθανών παρενεργειών και απαιτεί εκτεταμένο σχεδιασμό και προγραμματισμό. Αντίθετα, πολλά Twiddlers λειτουργούν παράλληλα ή διαδοχικά και δεν γνωρίζουν τις δραστηριότητες άλλων Twiddlers.

Τα μωρά μπορούν βασικά να χωριστούν σε δύο τύπους:

-Τα PreDoc Twiddlers μπορούν να χειριστούν συλλογές εκατοντάδων DocID επειδή απαιτούν λίγες πρόσθετες πληροφορίες.

-Αντίθετα, το Twiddler τύπου «Τεμπέλης» απαιτεί περισσότερες πληροφορίες, όπως πληροφορίες από τη βάση δεδομένων PerDocData, που απαιτεί σχετικά μεγαλύτερο χρόνο και πιο περίπλοκη διαδικασία.

Επομένως, το PreDocs λαμβάνει πρώτα τη λίστα δημοσιεύσεων και μειώνει τις καταχωρήσεις ιστοσελίδων και, στη συνέχεια, χρησιμοποιεί ένα πιο αργό φίλτρο τύπου "Τεμπέλης" Ο συνδυασμός των δύο εξοικονομεί πολύ υπολογιστική ισχύ και χρόνο.

Δύο τύποι άνω των 100 Twiddlers είναι υπεύθυνοι για τη μείωση του αριθμού των πιθανών αποτελεσμάτων αναζήτησης και την αναδιάταξή τους

Μετά τη δοκιμή, το Twiddler έχει μια ποικιλία χρήσεων, οι προγραμματιστές μπορούν να δοκιμάσουν νέα φίλτρα, πολλαπλασιαστές ή περιορισμούς συγκεκριμένης θέσης και ακόμη και να επιτύχουν πολύ ακριβή χειραγώγηση για να ταξινομήσουν ένα συγκεκριμένο αποτέλεσμα αναζήτησης πριν ή πίσω από άλλο αποτέλεσμα.

Ένα εσωτερικό έγγραφο της Google που διέρρευσε αποκαλύπτει ότι ορισμένες λειτουργίες του Twiddler θα πρέπει να χρησιμοποιούνται μόνο από ειδικούς σε συνεννόηση με την βασική ομάδα αναζήτησης.

Αν νομίζετε ότι γνωρίζετε πώς λειτουργεί το Twidder, εμπιστευτείτε μας: δεν το ξέρετε. Δεν είμαστε σίγουροι ότι καταλαβαίνουμε

Υπάρχουν επίσης Twiddlers μόνο για τη δημιουργία σχολιασμών και την προσθήκη αυτών των σχολιασμών στο DocID.

Κατά τη διάρκεια του COIVD, γιατί το τμήμα υγείας της χώρας σας βρίσκεται πάντα στην κορυφή της λίστας για αναζητήσεις COVID-19;

Αυτό οφείλεται στο γεγονός ότι το Twiddler χρησιμοποιεί ερωτήματα ForWhichOfficial για να διευκολύνει την ακριβή κατανομή των επίσημων πόρων με βάση τη γλώσσα και την περιοχή.

Ενώ οι προγραμματιστές δεν έχουν κανέναν έλεγχο στα αποτελέσματα της ανακατάταξης του Twiddler, η κατανόηση των μηχανισμών του μπορεί να εξηγήσει καλύτερα τις διακυμάνσεις της κατάταξης και αυτές τις «ανεξήγητες ταξινομήσεις».

Quality Assessor και RankLab

Υπάρχουν χιλιάδες αξιολογητές ποιότητας σε όλο τον κόσμο που αξιολογούν τα αποτελέσματα αναζήτησης για το Google και δοκιμάζουν νέους αλγόριθμους ή φίλτρα πριν βγουν ζωντανά.

Η Google λέει ότι οι αξιολογήσεις τους είναι μόνο για αναφορά και δεν επηρεάζουν άμεσα την κατάταξη.

Αυτό είναι ουσιαστικά αλήθεια, αλλά οι αξιολογήσεις τους και τα εισιτήρια προσφοράς έχουν τεράστιο έμμεσο αντίκτυπο στην κατάταξη.

Οι αξιολογητές συνήθως πραγματοποιούν αξιολογήσεις σε μια φορητή συσκευή, λαμβάνοντας μια διεύθυνση URL ή φράση αναζήτησης από το σύστημα και απαντώντας σε προκαθορισμένες ερωτήσεις.

Για παράδειγμα, θα ερωτηθούν: «Είναι σαφής ο συγγραφέας και η δημιουργική πρακτική αυτού του περιεχομένου; Έχει ο συγγραφέας εμπειρία στο θέμα;»

Αυτές οι απαντήσεις αποθηκεύονται και χρησιμοποιούνται για την εκπαίδευση αλγορίθμων μηχανικής εκμάθησης για τον καλύτερο εντοπισμό σελίδων υψηλής ποιότητας, αξιόπιστων και λιγότερο αξιόπιστων σελίδων.

Με άλλα λόγια, τα αποτελέσματα που παρέχονται από ανθρώπινους αξιολογητές γίνονται σημαντικά κριτήρια για αλγόριθμους βαθιάς μάθησης και τα κριτήρια κατάταξης που δημιουργούνται από την ομάδα αναζήτησης της Google δεν είναι τόσο σημαντικά.

Φανταστείτε τι είδους ιστοσελίδες θα θεωρούνταν αξιόπιστες από τους ανθρώπινους αξιολογητές;

Μια σελίδα συνήθως φαίνεται πειστική εάν περιέχει τη φωτογραφία του συγγραφέα, το πλήρες όνομα και τον σύνδεσμο LinkedIn. Αντίθετα, οι ιστοσελίδες που δεν έχουν αυτά τα χαρακτηριστικά κρίνονται λιγότερο αξιόπιστες.

Στη συνέχεια, το νευρωνικό δίκτυο θα αναγνωρίσει αυτό το χαρακτηριστικό ως βασικό παράγοντα και μετά από τουλάχιστον 30 ημέρες ενεργών δοκιμαστικών εκτελέσεων, το μοντέλο μπορεί να αρχίσει να χρησιμοποιεί αυτόματα αυτό το χαρακτηριστικό ως κριτήριο κατάταξης.

Επομένως, οι σελίδες με φωτογραφία συγγραφέα, πλήρες όνομα και σύνδεσμο LinkedIn ενδέχεται να λάβουν ώθηση κατάταξης μέσω του μηχανισμού Twiddler, ενώ οι σελίδες που δεν διαθέτουν αυτά τα χαρακτηριστικά θα υποστούν μείωση κατάταξης.

Επιπλέον, σύμφωνα με τις πληροφορίες που διέρρευσαν από την Google, μέσω του χαρακτηριστικού isAuthor και του χαρακτηριστικού AuthorVectors (παρόμοια με την "αναγνώριση δακτυλικού αποτυπώματος συγγραφέα"), το σύστημα μπορεί να αναγνωρίσει και να διακρίνει τις μοναδικές λέξεις και εκφράσεις του συγγραφέα (δηλαδή, προσωπικά χαρακτηριστικά γλώσσας).

Οι αξιολογήσεις των αξιολογητών συγκεντρώνονται σε μια βαθμολογία "πληροφοριακής ικανοποίησης" (IS). Παρόλο που συμμετέχουν πολλοί βαθμολογητές, η βαθμολογία IS ισχύει μόνο για έναν μικρό αριθμό διευθύνσεων URL.

Η Google επισημαίνει ότι πολλά έγγραφα στα οποία δεν γίνεται κλικ μπορεί επίσης να είναι σημαντικά. Όταν το σύστημα δεν μπορεί να βγάλει συμπέρασμα, το έγγραφο αποστέλλεται αυτόματα στον αξιολογητή και δημιουργείται μια βαθμολογία.

Ο όρος "χρυσός" αναφέρεται στους όρους που σχετίζονται με τον αξιολογητή, γεγονός που υποδηλώνει ότι ορισμένα έγγραφα μπορεί να έχουν "χρυσό πρότυπο" και η ικανοποίηση των προσδοκιών των ανθρώπινων αξιολογητών μπορεί να βοηθήσει το έγγραφο να φτάσει στο "χρυσό" πρότυπο.

Επιπλέον, ένα ή περισσότερα συστήματα Twiddler μπορεί να προωθήσουν DocIDs που πληρούν το "χρυσό πρότυπο" στην πρώτη δεκάδα.

Οι αναθεωρητές ποιότητας συνήθως δεν είναι υπάλληλοι πλήρους απασχόλησης της Google, αλλά συνδέονται με εταιρείες εξωτερικής ανάθεσης.

Αντίθετα, οι ειδικοί της Google εργάζονται στο RankLab, διεξάγοντας πειράματα, αναπτύσσοντας νέα Twiddlers και αξιολογώντας και βελτιώνοντάς τα για να δουν εάν το Twiddler βελτιώνει την ποιότητα των αποτελεσμάτων ή απλώς φιλτράρει τα ανεπιθύμητα μηνύματα.

Στη συνέχεια, το δοκιμασμένο και αποτελεσματικό Twiddler ενσωματώθηκε στο σύστημα Mustang χρησιμοποιώντας πολύπλοκους, διασυνδεδεμένους και υπολογιστικά εντατικούς αλγόριθμους.

NavBoost: Τι αρέσει στους χρήστες;

Στο Superroot, ένα άλλο βασικό σύστημα NavBoost παίζει επίσης σημαντικό ρόλο στην κατάταξη των αποτελεσμάτων αναζήτησης.

Το Navboost χρησιμοποιείται κυρίως για τη συλλογή δεδομένων σχετικά με την αλληλεπίδραση των χρηστών με τα αποτελέσματα αναζήτησης, ειδικά τα κλικ τους σε διαφορετικά αποτελέσματα ερωτημάτων.

Αν και η Google αρνείται επίσημα ότι χρησιμοποιεί δεδομένα κλικ χρηστών για κατατάξεις, ένα εσωτερικό μήνυμα ηλεκτρονικού ταχυδρομείου που αποκαλύπτεται από την Ομοσπονδιακή Επιτροπή Εμπορίου (FTC) ορίζει ότι ο τρόπος με τον οποίο χειρίζονται τα δεδομένα κλικ πρέπει να τηρείται εμπιστευτικός.

Η Google το αρνείται για δύο λόγους.

Πρώτα απ 'όλα, από την οπτική γωνία του χρήστη, η Google, ως πλατφόρμα αναζήτησης, παρακολουθεί συνεχώς τις διαδικτυακές δραστηριότητες των χρηστών, γεγονός που θα προκαλέσει οργή στα μέσα ενημέρωσης για ζητήματα απορρήτου.

Ωστόσο, από την οπτική γωνία της Google, ο σκοπός της χρήσης δεδομένων κλικ είναι η λήψη στατιστικά σημαντικών μετρήσεων δεδομένων και όχι η παρακολούθηση μεμονωμένων χρηστών.

Το έγγραφο της FTC επιβεβαίωσε ότι τα δεδομένα κλικ θα επηρεάσουν τις κατατάξεις και ανέφερε συχνά το σύστημα NavBoost (54 φορές κατά την ακρόαση στις 18 Απριλίου 2023), το οποίο επιβεβαιώθηκε επίσης από επίσημη ακρόαση το 2012.

Από τον Αύγουστο του 2012, οι αξιωματούχοι έχουν καταστήσει σαφές ότι τα δεδομένα κλικ θα επηρεάσουν την κατάταξη

Διάφορες συμπεριφορές χρηστών στη σελίδα αποτελεσμάτων αναζήτησης, συμπεριλαμβανομένων αναζητήσεων, κλικ, επαναλαμβανόμενων αναζητήσεων και επαναλαμβανόμενων κλικ, καθώς και η επισκεψιμότητα στον ιστότοπο ή την ιστοσελίδα, επηρεάζουν όλες τις κατατάξεις.

Οι ανησυχίες για το απόρρητο των χρηστών είναι μόνο ένας λόγος. Μια άλλη ανησυχία είναι ότι η αξιολόγηση μέσω των δεδομένων κλικ και της επισκεψιμότητας θα μπορούσε να ενθαρρύνει τους spammers και τους απατεώνες να χρησιμοποιήσουν συστήματα bot για να παραποιήσουν την επισκεψιμότητα για να χειραγωγήσουν τις ταξινομήσεις.

Η Google διαθέτει επίσης μεθόδους για την αντιμετώπιση αυτής της κατάστασης, όπως τη διάκριση των κλικ των χρηστών σε κακά κλικ και των καλών κλικ μέσω πολλαπλών αξιολογήσεων.

Οι μετρήσεις που χρησιμοποιούνται περιλαμβάνουν τον χρόνο που δαπανήθηκε στη σελίδα-στόχο, τη χρονική περίοδο κατά την οποία προβλήθηκε η σελίδα, την αρχική σελίδα της αναζήτησης, την πιο πρόσφατη εγγραφή "καλού κλικ" στο ιστορικό αναζήτησης του χρήστη κ.λπ.

Για κάθε κατάταξη σε σελίδες αποτελεσμάτων αναζήτησης (SERP), υπάρχει μια μέση αναμενόμενη αναλογία κλικ προς αριθμό εμφανίσεων (CTR) ως βάση.

Για παράδειγμα, σύμφωνα με μια ανάλυση του Johannes Beus στο φετινό συνέδριο CAMPIXX στο Βερολίνο, η πρώτη θέση στα φυσικά αποτελέσματα αναζήτησης έλαβε κατά μέσο όρο 26,2% των κλικ και η δεύτερη θέση έλαβε το 15,5% των κλικ.

Εάν ένα CTR είναι σημαντικά χαμηλότερο από το αναμενόμενο ποσοστό, το σύστημα NavBoost θα σημειώσει αυτό το κενό και θα προσαρμόσει ανάλογα την κατάταξη του DocID.

Εάν το "expected_CRT" αποκλίνει σημαντικά από την πραγματική τιμή, η κατάταξη θα προσαρμοστεί ανάλογα

Τα κλικ των χρηστών αντιπροσωπεύουν βασικά τη γνώμη του χρήστη σχετικά με τη συνάφεια των αποτελεσμάτων, συμπεριλαμβανομένου του τίτλου, της περιγραφής και του ονόματος τομέα.

Σύμφωνα με αναφορές από ειδικούς SEO και αναλυτές δεδομένων, κατά την ολοκληρωμένη παρακολούθηση των αναλογιών κλικ προς αριθμό εμφανίσεων, παρατήρησαν τα ακόλουθα φαινόμενα:

Εάν ένα έγγραφο μπει στο top 10 για ένα ερώτημα αναζήτησης και το CTR είναι σημαντικά χαμηλότερο από το αναμενόμενο, μπορεί να παρατηρηθεί ότι η κατάταξη θα πέσει μέσα σε λίγες ημέρες (ανάλογα με τον όγκο αναζήτησης).

Αντίθετα, εάν το CTR είναι πολύ υψηλότερο σε σχέση με την κατάταξη, η κατάταξη συνήθως αυξάνεται. Εάν το CTR είναι φτωχό, ο ιστότοπος πρέπει να προσαρμόσει και να βελτιστοποιήσει τον τίτλο και την περιγραφή του περιεχομένου σε σύντομο χρονικό διάστημα, προκειμένου να λάβει περισσότερα κλικ.

Ο υπολογισμός και η ενημέρωση του PageRank είναι χρονοβόρος και υπολογιστικά εντατικός, γι' αυτό χρησιμοποιείται η μέτρηση PageRank_NS. Το NS σημαίνει "nearest seed", μια ομάδα σχετικών σελίδων μοιράζεται μια τιμή PageRank, η οποία εφαρμόζεται σε νέες σελίδες προσωρινά ή μόνιμα.

Η Google έδωσε ένα καλό παράδειγμα σε μια ακρόαση σχετικά με τον τρόπο παροχής ενημερωμένων πληροφοριών. Για παράδειγμα, όταν ένας χρήστης αναζητά "Κύπελλο Stanley", τα αποτελέσματα αναζήτησης δείχνουν συνήθως ένα ποτήρι νερού.

Ωστόσο, όταν ένας αγώνας χόκεϊ Stanley Cup βρίσκεται σε εξέλιξη, το NavBoost προσαρμόζει τα αποτελέσματα για να δώσει προτεραιότητα σε πληροφορίες σε πραγματικό χρόνο για το παιχνίδι.

Σύμφωνα με τα πιο πρόσφατα ευρήματα, οι μετρήσεις κλικ του εγγράφου καλύπτουν δεδομένα 13 μηνών, με αλληλεπικάλυψη ενός μήνα για σύγκριση με το προηγούμενο έτος.

Παραδόξως, η Google δεν προσφέρει πραγματικά εξατομικευμένα αποτελέσματα αναζήτησης. Τα αποτελέσματα των δοκιμών έδειξαν ότι η μοντελοποίηση και η προσαρμογή της συμπεριφοράς των χρηστών μπορεί να οδηγήσει σε καλύτερα αποτελέσματα από την αξιολόγηση των προσωπικών προτιμήσεων των μεμονωμένων χρηστών.

Ωστόσο, οι προσωπικές προτιμήσεις, όπως οι προτιμήσεις για αναζήτηση και περιεχόμενο βίντεο, εξακολουθούν να περιλαμβάνονται στα εξατομικευμένα αποτελέσματα.

GWS: Το τέλος και η αρχή της αναζήτησης

Ο Διακομιστής Ιστού Google (GWS) είναι υπεύθυνος για την απόδοση της σελίδας αποτελεσμάτων αναζήτησης (SERP), η οποία περιλαμβάνει 10 "μπλε συνδέσμους", καθώς και διαφημίσεις, εικόνες, προβολές Χαρτών Google, "Οι άνθρωποι ρωτούν επίσης" και άλλα στοιχεία.

Αυτά τα στοιχεία, όπως το FreshnessNode, το InstantGlue (αντιδρά εντός 24 ωρών, με καθυστέρηση περίπου 10 λεπτών) και το InstantNavBoost, μπορούν να προσαρμόσουν τις ταξινομήσεις την τελευταία στιγμή πριν από την εμφάνιση της σελίδας.

Το FreshnessNode μπορεί να παρακολουθεί τις αλλαγές στη συμπεριφορά αναζήτησης των χρηστών σε πραγματικό χρόνο και να προσαρμόζει τις ταξινομήσεις με βάση αυτές τις αλλαγές για να διασφαλίσει ότι τα αποτελέσματα αναζήτησης ταιριάζουν με τις πιο πρόσφατες προθέσεις αναζήτησης.

Το InstantNavBoost και το InstantGlue πραγματοποιούν τελικές προσαρμογές στις κατατάξεις πριν από την τελική απόδοση των αποτελεσμάτων αναζήτησης, όπως η προσαρμογή της κατάταξης με βάση έκτακτες ειδήσεις και καυτά θέματα.

επομένως,Για να επιτύχετε υψηλές βαθμολογίες, ένα εξαιρετικό περιεχόμενο εγγράφων πρέπει να συνδυάζεται με σωστά μέτρα SEO.

Οι ταξινομήσεις μπορεί να επηρεαστούν από διάφορους παράγοντες, όπως αλλαγές στη συμπεριφορά αναζήτησης, παρουσία πρόσθετων εγγράφων και ενημερώσεις σε πληροφορίες σε πραγματικό χρόνο. Ως εκ τούτου, είναι σημαντικό να συνειδητοποιήσουμε ότι το περιεχόμενο υψηλής ποιότητας και το καλό SEO αποτελούν μέρος μόνο του δυναμικού τοπίου κατάταξης.

Ο John Mueller της Google τόνισε ότι μια πτώση στην κατάταξη συνήθως δεν σημαίνει ότι το περιεχόμενο είναι κακής ποιότητας και ότι οι αλλαγές στη συμπεριφορά των χρηστών ή άλλοι παράγοντες μπορεί να αλλάξουν την απόδοση των αποτελεσμάτων.

Για παράδειγμα, εάν οι χρήστες αρχίσουν να προτιμούν μικρότερο κείμενο, το NavBoost θα προσαρμόσει αυτόματα τις ταξινομήσεις ανάλογα. Ωστόσο, η βαθμολογία IR στο σύστημα Alexandria ή Σκορερ παραμένει αμετάβλητη.

Αυτό που μας λέει αυτό είναι ότι το SEO πρέπει να γίνει κατανοητό με μια ευρύτερη έννοια. Η απλή βελτιστοποίηση του τίτλου ή του περιεχομένου είναι αναποτελεσματική εάν το περιεχόμενο του εγγράφου δεν συνάδει με την πρόθεση αναζήτησης του χρήστη.

νέα

Η μηχανή αναζήτησης Google αποκαλύφθηκε πλήρως! Σχεδόν εκατό έγγραφα διέρρευσαν και οι μπλόγκερ ξόδεψαν εβδομάδες για να τα αντιστρέψουν.

Εισαγωγή

Τα στοιχεία επικοινωνίας μου