- PageRank εφαρμογής στις μηχανές αναζήτησης
- Εισαγωγή στη PageRank
- Υπολογισμός της σελίδας
- Αυξάνουμε τη σημασία του ιστότοπου
- Μερικές κοινές παρανοήσεις που σχετίζονται με το PageRank
- Σύνδεσμοι για περαιτέρω μελέτη:
Наша команда-партнер Artmisto
Α. Shkondin.
Λόγω της επιτυχίας της Google στην αγορά παροχής υπηρεσιών αναζήτησης και ειδικά με την επέκταση αυτής της μηχανής αναζήτησης στο Runet, μεταξύ των webmasters υπάρχει αύξηση του ενδιαφέροντος για τους αλγόριθμους υπολογισμού του PageRank. Αυτό το άρθρο εξετάζει ορισμένες πτυχές του υπολογισμού του PageRank.
PageRank εφαρμογής στις μηχανές αναζήτησης
Οι παραδοσιακοί τρόποι εύρεσης σχετικών σελίδων στην περίπτωση μονοσαυλωτικών ερωτημάτων δεν δίνουν ικανοποιητικά αποτελέσματα, επειδή σε δημοφιλή θέματα (για παράδειγμα, "δοκίμια", "εργασία") θα υπάρχει πάντα ένας μεγάλος αριθμός σελίδων με την ίδια σημασία. Για να οργανωθούν με κάποιο τρόπο αυτές οι σελίδες, οι μηχανές αναζήτησης ξεκινούν με διάφορα κόλπα. Για παράδειγμα, οι πρώτοι που εκδίδουν τις σελίδες που έχουν μεγάλη προσέλευση (Rambler) ή που υπάρχουν στον κατάλογο (Yandex, Aport). Το Google χρησιμοποιεί το PageRank για αυτούς τους σκοπούς, το οποίο δίνει εκπληκτικά αποτελέσματα και σε σύντομο χρονικό διάστημα η Google άρχισε να κατέχει ηγετική θέση όχι μόνο όσον αφορά το μέγεθος της βάσης δεδομένων αλλά και στην ποιότητα αναζήτησης. Από τις μηχανές αναζήτησης, ο Aport ήταν ο πρώτος που χρησιμοποίησε το PageRank, ακολουθούμενο από το Yandex. Στην Rambler αυτή η τεχνολογία δεν χρησιμοποιείται, αλλά σε αυτό το στάδιο αυτή η δυνατότητα εξετάζεται και είναι πιθανό ότι το PageRank θα χρησιμοποιηθεί σε αυτή τη μηχανή αναζήτησης.
Μαζί με την παραγγελία αποτελεσμάτων αναζήτησης από το PageRank, υπάρχει άλλη αίτηση για αυτήν την τεχνολογία. Το γεγονός είναι ότι ο αριθμός των σελίδων στο Διαδίκτυο είναι τόσο μεγάλος που οι μηχανές αναζήτησης δεν μπορούν πλέον να αντέξουν οικονομικά την ευρετηρίαση όλων. Και επειδή το PageRank χρησιμεύει ως κριτήριο της τιμής της σελίδας, είναι λογικό να ταξινομούνται οι σελίδες κατά φθίνουσα σειρά PageRank. Η Google έχει προχωρήσει ακόμη περισσότερο: τώρα δεν είναι αρκετή η υποβολή μιας φόρμας εγγραφής - για να γίνει ευρετηρίαση του ιστότοπου, πρέπει να έχετε τουλάχιστον έναν εξωτερικό σύνδεσμο.
Εισαγωγή στη PageRank
Το PageRank είναι μια στατική τιμή που προορίζεται για την αξιολόγηση της ποιότητας των σελίδων ανεξάρτητα από οποιεσδήποτε ερωτήσεις, δηλ. χρησιμοποιώντας το PageRank υπολογίζει την "συνολική τιμή" κάθε σελίδας. Οι συντάκτες του PageRank Sergey Brin και Larry Page, οι οποίοι ανέπτυξαν την τεχνολογία της πρόσθετης κατάταξης των αποτελεσμάτων των μηχανών αναζήτησης, αργότερα έγιναν οι ιδρυτές της Google.
Η βάση για το PageRank ήταν μια ακαδημαϊκή προσέγγιση για να εκτιμηθεί η σημασία της δημοσίευσης του συγγραφέα από τον αριθμό των αναφορών του σε βιβλιογραφικές αναφορές άλλων δημιουργών. Για να προσαρμοστούν στη χρήση του Διαδικτύου, έγιναν οι ακόλουθες αλλαγές στον αλγόριθμο: το βάρος κάθε συνδέσμου λαμβάνεται υπόψη ξεχωριστά και κανονικοποιείται από τον αριθμό των συνδέσμων στην σελίδα αναφοράς. Επιπλέον, το PageRank μπορεί να ερμηνευθεί ως τυχαίο περίπατο.
Υπολογισμός της σελίδας
Φανταστείτε τον τέλειο web surfer σερφ παγκοσμίως. Αφήστε τον surfer να επισκεφθεί τη σελίδα p , ενώ ο τυχαίος περίπατος βρίσκεται στην κατάσταση p . Σε κάθε βήμα, ο surfer ιστού είτε μεταβαίνει σε άλλη σελίδα του δικτύου, επιλέγεται με ψευδοτυχαίο τρόπο είτε ακολουθεί τον σύνδεσμο στην τρέχουσα σελίδα, χωρίς να επιστρέψει και να μην επισκεφθεί την ίδια σελίδα δύο φορές. Η πιθανότητα ενός τυχαίου άλματος υποδηλώνεται ως d, τότε η πιθανότητα ενός συνδέσμου θα είναι 1 - d . Έτσι, η πιθανότητα εύρεσης ενός χρήστη στη σελίδα p μπορεί να υπολογιστεί με τον ακόλουθο τύπο:
όπου R (p) είναι ο PageRank της σελίδας, C (p) είναι ο αριθμός των συνδέσεων στη σελίδα, k είναι ο αριθμός σελίδων που αναφέρονται στο p , d είναι ο παράγοντας απόσβεσης. Συνήθως 0,1 <d <0,15 . Εάν κάνετε pagerank κλίμακα με τέτοιο τρόπο που
όπου N είναι ο αριθμός όλων των σελίδων για τους οποίους υπολογίζεται το PageRank, τότε το R (p) μπορεί να θεωρηθεί ως κατανομή πιθανοτήτων σε όλες τις σελίδες.
Για τον υπολογισμό του PageRank δημιουργείται ένας πίνακας M με το μέγεθος NxN , όπου κάθε στοιχείο του μέσου της μήτρας έχει εκχωρηθεί η τιμή R0 (p) = 1 / C (p) στην περίπτωση που η i -η σελίδα έχει μια σύνδεση με το jth , όλα τα υπόλοιπα στοιχεία της μήτρας είναι γεμάτα με μηδενικά . Έτσι, ο υπολογισμός του PageRank μειώνεται για να βρεθεί ο ιδιοδιαθέτης της μήτρας Μ, ο οποίος επιτυγχάνεται πολλαπλασιάζοντας τη μήτρα Μ με τον φορέα Rj σε κάθε βήμα επανάληψης. Η εισαγωγή του συντελεστή εξασθένησης εξασφαλίζει τη σύγκλιση της διαδικασίας.
Αυξάνουμε τη σημασία του ιστότοπου
Συνειδητοποιώντας την κερδοφόρα πομπή του PageRank, δεν μπορεί κανείς να σκεφτεί να το αυξήσει για τη σελίδα σας. Είναι διαισθητικά σαφές ότι όσο πιο έγκυρος είναι ένας πόρος στον οποίο τοποθετείται ένας σύνδεσμος, τόσο περισσότερο αυξάνεται η PageRank της σελίδας στην οποία αναφέρεται. Αντίθετα, όσο περισσότερους συνδέσμους σε μια σελίδα, τόσο μικρότερη θα είναι η συμβολή της στην αύξηση του PageRank της σελίδας σας - μια άλλη απόδειξη της ματαιότητας της συμμετοχής στο FFA (Free For All - τοποθεσίες που περιέχουν ένα σύνολο συνδέσμων με δωρεάν προσθήκη). Λιγότερο εμφανής είναι η βέλτιστη τοπολογία αλληλοσυνδεδεμένων σελίδων. Για παράδειγμα, οι σελίδες που οργανώνονται σε ένα "δακτύλιο" (όταν κάθε σελίδα αναφέρεται σε έναν γείτονα αριστερά και δεξιά, ο τελευταίος αναφέρεται στον πρώτο και στον πρώτο στον τελευταίο) θα έχει το ίδιο PageRank ανεξάρτητα από τον αριθμό των σελίδων του δακτυλίου (αν δεν κάνετε κλίμακα , τότε ο PageRank όλων θα είναι ίσος με 1). Το ίδιο ισχύει και για τα "αστέρια" ή για την περίπτωση που όλοι αναφέρονται σε όλους, και αυτή η δήλωση ισχύει πιθανώς για όλες τις συμμετρικές τοπολογίες. Οι ασύμμετρες τοπολογίες είναι πολύ πιο ελπιδοφόρες όσον αφορά την αύξηση του PageRank. Η δήλωση σχετικά με την άχρηστη δημιουργία ιστοσελίδων από τους ελεύθερους οικοδεσπότες δεν είναι τόσο προφανής. Για παράδειγμα, μπορείτε να ανταλλάξετε συνδέσεις σε 5 ιστότοπους με τέτοιο τρόπο ώστε ένας από αυτούς να έχει PageRank 15 φορές μεγαλύτερο από τον ελάχιστο μη μηδενικό PageRank. Αυτό είναι εύκολο να το δεις γράφοντας ένα μικρό πρόγραμμα. Διαβάστε το πώς να το κάνετε αυτό στο άρθρο. Αποτελεσματικός υπολογισμός του PageRank
Μερικές κοινές παρανοήσεις που σχετίζονται με το PageRank
Μετά την ανάλυση των μηνυμάτων στα φόρουμ Runet που ασχολούνται με την τοποθέτηση σε μηχανές αναζήτησης, μπορεί κανείς να διατυπώσει έναν αριθμό ισχυρισμών PageRank, τουλάχιστον αμφιλεγόμενους και συχνά απλώς λάθος. Ανατρέξτε σύντομα σε αυτές τις δηλώσεις:
- Εάν υπάρχουν πολλοί σύνδεσμοι σε έναν ιστότοπο με FFA, βιβλία επισκεπτών ή άλλους ιστότοπους, τότε το PageRank θα είναι χαμηλό.
Μη συγχέετε την έννοια του "δείκτη αναφοράς" και του PageRank. Κατά τον υπολογισμό του PageRank, η ανάλυση του περιεχομένου του ιστότοπου ή του κειμένου του συνδέσμου δεν γίνεται, λαμβάνεται υπόψη μόνο ο συνολικός αριθμός συνδέσμων και τα βάρη τους, επομένως δεν εφαρμόζονται κυρώσεις εάν υπάρχουν συνδέσεις από τις "λανθασμένες" σελίδες.
- Εάν επιτύχετε υψηλό PageRank για οποιαδήποτε σελίδα, τότε αυτή η σελίδα θα είναι στην πρώτη θέση στα αποτελέσματα αναζήτησης.
Δεν είναι αλήθεια, επειδή το PageRank δεν είναι το κύριο κριτήριο για την ταξινόμηση σελίδων, αλλά ένα βοηθητικό. Διαφορετικά, στις πρώτες σελίδες, για πολλές αιτήσεις, θα τοποθετηθούν μόνο βαθμολογίες και κορυφές. Μόνο το ceteris paribus, μια σελίδα με υψηλότερη βαθμολογία PageRank θα είναι υψηλότερη στα αποτελέσματα αναζήτησης.
- Εάν καταχωρίσετε τον ιστότοπο σε όλους τους δημοφιλείς καταλόγους, τότε το PageRank θα είναι πολύ υψηλό
Μην κολακεύετε τον εαυτό σας - ο PageRank υπολογίζεται όχι για ολόκληρο τον ιστότοπο, αλλά για μία μόνο σελίδα. Ως εκ τούτου, ένας σύνδεσμος από ένα βαθύ υποκατάλογο, για παράδειγμα στο Yahoo, μπορεί να είναι λιγότερο πολύτιμος από τη σελίδα του Vasya Pupkin. Έτσι, εδώ μπορείτε να πάρετε όχι την ποιότητα των συνδέσεων, αλλά τον αριθμό τους. Είναι μόνο απαραίτητο να δώσουμε προσοχή στο γεγονός ότι οι σύνδεσμοι από τον κατάλογο πηγαίνουν κατευθείαν στον ιστότοπό σας, και όχι μέσω ενός cgi-script, διαφορετικά δεν θα ληφθούν υπόψη. Επιπλέον, οι κανόνες πολλών καταλόγων απαιτούν την τοποθέτηση της ριζικής σελίδας και όχι του εγγράφου του οποίου το PageRank πρόκειται να αυξηθεί. Επομένως, είναι πολύ πιο αποτελεσματική η αύξηση του PageRank μιας συγκεκριμένης σελίδας αναφερόμενος στη ριζική σελίδα του ιστότοπού σας.
- Το PageRank μειώνεται όταν τοποθετείτε εξωτερικούς συνδέσμους
Μια πολύ αμφιλεγόμενη δήλωση, όπως αναφέρθηκε παραπάνω, μειώνει το PageRank στην περίπτωση ενός συμμετρικού συνδυασμού των σελίδων παραπομπής, η πιθανότητα του οποίου λαμβάνεται όταν συνδέεται ένας εξωτερικός σύνδεσμος. Εάν μια τέτοια φοβία από μόνη της δεν ξεπεραστεί, τότε μπορούμε να δώσουμε συμβουλές για να ξεκινήσουμε μια ειδική σελίδα για την ανταλλαγή συνδέσμων. Παρεμπιπτόντως, αξίζει να σημειωθεί ότι κατά τον υπολογισμό του PageRank, κανείς δεν υποσχέθηκε να διαχωρίσει τις αναφορές σε εξωτερικές και εσωτερικές.
Σύνδεσμοι για περαιτέρω μελέτη:
- Η ταξινόμηση κατάταξης PageRank: Παραγγείλετε στον ιστό
- Η ανατομία μιας μηχανής αναζήτησης υπερκειμένου ιστοσελίδων μεγάλης κλίμακας
- Η ανίχνευση πρώτης αναζήτησης με λέξεις-κλειδιά για εύρεση δίνει σελίδες υψηλής ποιότητας
- Αποτελεσματικός υπολογισμός του PageRank
Copyright © 2001 από τον A. Shkondin
Η δημοσίευση απαιτεί την άδεια του συντάκτη.