- A PageRank használata a keresőmotorokban
- Bevezetés a PageRank-ba
- A PageRank kiszámítása
- Növeljük az oldal fontosságát
- Néhány gyakori tévhit a PageRankhoz
- Linkek további tanulmányokhoz:
Наша команда-партнер Artmisto
A. Shkondin.
A Google a keresési szolgáltatások nyújtásának piacán, és különösen a keresőmotor Runet bővítésének köszönhetően, a webmesterek körében növekszik az érdeklődés a PageRank kiszámításának algoritmusai iránt. Ez a cikk a PageRank számítás egyes aspektusait tárgyalja.
A PageRank használata a keresőmotorokban
Az egyoldalú lekérdezések esetében a hagyományos oldalak megtalálásának hagyományos módjai nem adnak kielégítő eredményt, mert népszerű témákban (például „esszék”, „munka”) mindig nagyszámú, ugyanolyan releváns oldal van. Annak érdekében, hogy valahogy megszervezze ezeket az oldalakat, a keresőmotorok különböző trükköket indítanak el. Például, az első, amely kiadja azokat a lapokat, amelyek nagy részvételűek (Rambler), vagy amelyek szerepelnek a katalógusban (Yandex, Aport). A Google a PageRank-ot ezekre a célokra használja, ami csodálatos eredményeket ad, és a Google rövid idő múlva nemcsak az adatbázis mérete, hanem a keresési minőség tekintetében is vezető pozícióba kezdett. A keresőmotorjaink közül az Aport volt az első, aki a PageRankot használja, majd Yandex. A Rambler-ben ezt a technológiát nem használják, de ebben a szakaszban figyelembe vesszük ezt a lehetőséget, és lehetséges, hogy a PageRankot használják ebben a keresőmotorban.
A PageRank keresési eredményeinek megrendelése mellett egy másik alkalmazás is van erre a technológiára. Az a tény, hogy az interneten található oldalak száma olyan nagy, hogy a keresőmotorok már nem engedhetik meg maguknak, hogy mindent indexeljenek. És mivel a PageRank az oldalérték kritériumaként szolgál, logikus az oldalakat a PageRank csökkenő sorrendjében indexelni. A Google még tovább ment: most már nem elég egy regisztrációs űrlap benyújtása - ahhoz, hogy a webhelyet indexeljék, legalább egy külső linkre van szükség.
Bevezetés a PageRank-ba
A PageRank egy statikus érték, amely az oldalak minőségének értékelésére szolgál, függetlenül a lekérdezésektől, azaz a PageRank segítségével kiszámítja az egyes oldalak „globális értékét”. A PageRank Sergey Brin és Larry Page szerzői, akik kifejlesztették a keresőmotor eredményeinek további rangsorolását, később a Google alapítói lettek.
A PageRank alapja egy tudományos szemlélet volt, melynek segítségével értékelni lehetett a szerző publikációinak fontosságát más szerzők bibliográfiai hivatkozásaiban szereplő referenciák számával. Az Internet használatához való alkalmazkodás érdekében az algoritmusban az alábbi változtatásokat hajtották végre: az egyes linkek súlyát egyénileg figyelembe veszik, és a hivatkozó oldalon lévő hivatkozások számával normalizálják. Ezen túlmenően a PageRank egy véletlenszerű séta alapján is értelmezhető.
A PageRank kiszámítása
Képzeld el, hogy a világhálón szörfözik a tökéletes webes szörfös. Hagyja, hogy a szörfös látogasson el a p oldalra, míg a véletlen séta az állapotban van. Minden egyes lépésben a webes szörfös a hálózat másik oldalára ugrik, pszeudo-véletlenszerűen választva, vagy az aktuális oldalon lévő linket követi, anélkül, hogy visszatérne, és kétszer nem látogatná ugyanazt az oldalt. A véletlenszerű ugrás valószínűségét d jelöli , majd a kapcsolat valószínűsége 1 d . Így a p oldalon lévő felhasználó megtalálásának valószínűsége a következő képlettel számítható:
ahol R (p) az oldal PageRankja, a C (p) az oldalon lévő hivatkozások száma, k a p , d-re utaló oldalak száma, a csillapítási tényező. Általában 0,1 <d <0,15 . Ha a PageRank-ot ilyen módon skálázza
ahol N az összes olyan oldal száma, amelyre a PageRank kiszámításra kerül, majd az R (p) az összes oldal valószínűségi eloszlásának tekinthető.
A PageRank kiszámításához egy Mx mátrixot hozunk létre NxN méretben, ahol a mátrix minden egyes mij eleméhez R0 (p) = 1 / C (p) érték van hozzárendelve abban az esetben, ha az i. Oldalnak van egy linke a j-hez, a mátrix többi elemét nullák töltik meg . Így a PageRank számítása az M mátrix sajátvektorának megtalálására csökken , amit úgy érünk el, hogy az M mátrixot az Rj vektorral minden iterációs lépésben megszorozzuk. A csillapítási együttható bevezetése biztosítja a folyamat konvergenciáját.
Növeljük az oldal fontosságát
Felismerve a PageRank győztes menetét, nem lehet segíteni arra, hogy meggondoljuk, hogy növelje-e az oldalát. Intuitívan világos, hogy minél hitelesebb egy erőforrás, amelyen egy link van elhelyezve, annál inkább növeli az oldal azon oldalát, amelyre hivatkozik. Ezzel ellentétben, minél több hivatkozás található az oldalon, annál kevésbé fog hozzájárulni az oldalának PageRank növeléséhez - egy másik bizonyíték arra, hogy az FFA-ban való részvétel hiábavaló (Free For All - ingyenes linkekkel rendelkező linkek). Kevésbé nyilvánvaló az egymáshoz kapcsolódó oldalak optimális topológiája. Például, a „gyűrűben” rendezett oldalak (ha minden oldal egy balra és jobbra mutató szomszédra utal, az utolsó az első és az elsőre utal) ugyanolyan PageRank lesz, függetlenül attól, hogy hány oldalt tartalmaz a gyűrűben (ha nem méretezed , az összes PageRank értéke 1) lesz. Ugyanez igaz a „csillagokra” vagy azokra az esetekre is, amikor mindenki mindenkire utal, és ez az állítás valószínűleg igaz minden szimmetrikus topológiára. Az aszimmetrikus topológiák sokkal ígéretesebbek a PageRank növelése szempontjából. Nem olyan nyilvánvaló, hogy a szabad házigazdákról az „üres” (de egymással összekötő) weboldalak létrehozásának haszontalansága nem áll rendelkezésre. Például 5 webhelyen linkeket cserélhet úgy, hogy az egyikük a PageRankot 15-ször nagyobb, mint a minimális nem nulla PageRank. Ez egy kis program írásával könnyen látható. Olvassa el, hogyan kell ezt tenni a cikkben. A PageRank hatékony kiszámítása
Néhány gyakori tévhit a PageRankhoz
A keresőmotorok pozícionálására szánt Runet fórumok üzeneteinek elemzése után számos PageRank állításra lehet utalni, legalábbis ellentmondásos, és gyakran egyszerűen rossz. Röviden vegye figyelembe ezeket a kijelentéseket:
- Ha van egy csomó link egy FFA-val, vendégkönyvekkel vagy más weboldalakkal rendelkező webhelyre, akkor a PageRank lesz alábecsülve.
Ne tévessze össze a „idézet index” és a PageRank fogalmát. A PageRank kiszámításakor a webhely tartalmának vagy a hivatkozás szövegének elemzése nem történik meg, csak a linkek teljes számát és súlyát veszik figyelembe, így a "rossz" oldalak linkjei nem alkalmazhatók.
- Ha bármelyik oldalhoz magas PageRank értéket ér el, akkor ez az oldal a keresési eredmények első helyén lesz.
Nem igaz, mert a PageRank nem az elsődleges szempont az oldalak rangsorolásához, hanem egy kiegészítő. Ellenkező esetben az első oldalakon nagyon sok kérésre csak minősítések és csúcsok kerülnek elhelyezésre. Csak a ceteris paribus, a magasabb PageRank oldal nagyobb lesz a keresési eredményekben.
- Ha regisztrálja a webhelyet az összes népszerű könyvtárban, akkor a PageRank nagyon magas lesz
Ne dörzsölje magát - a PageRank nem az egész webhelyre, hanem egy oldalra számít. Ezért egy mély alkönyvtárból, például a Yahoo-ból származó link kevésbé lehet értékes, mint a Vasya Pupkin oldal. Tehát itt nem lehet a linkek minősége, hanem a számuk. Csak arra kell figyelni, hogy a katalógusból származó linkek közvetlenül a webhelyére, nem pedig cgi-forgatókönyvbe kerülnek, különben egyszerűen nem veszik figyelembe. Ezen túlmenően a sok könyvtár szabályai megkövetelik a gyökéroldal elhelyezését, és nem a dokumentumot, amelynek PageRank-je növelni fogja. Ezért sokkal hatékonyabb az adott oldal PageRank növelése saját webhelyének gyökéroldalára való hivatkozással.
- A PageRank a külső linkek elhelyezésekor csökken
Egy nagyon ellentmondásos kijelentés, amint azt a fentiekben említettük, a PageRank a hivatkozó oldalak szimmetrikus kombinációja esetén csökken, amelynek valószínűsége egy külső hivatkozás rögzítésekor érhető el. Ha egy ilyen fóbia önmagában nem küzd, akkor tanácsot adhatunk arra, hogy egy speciális oldalt indítsunk a linkek cseréjéhez. Egyébként érdemes megjegyezni, hogy a PageRank kiszámításakor senki sem ígérte, hogy a külső és belső hivatkozásokat különválasztja.
Linkek további tanulmányokhoz:
- A PageRank Citation Ranking: Rendezés az internetre
- A nagyméretű hipertextuális webes keresőmotor anatómiája
- A széles körű első keresési feltérképezés kiváló minőségű oldalakat eredményez
- A PageRank hatékony kiszámítása
Szerzői jog © 2001, A. Shkondin
A kiadvány megköveteli a szerző engedélyét.