- Приложение PageRank в търсачките
- Въведение в PageRank
- Изчисляване на PageRank
- Ние увеличаваме значението на сайта
- Някои често срещани погрешни схващания, свързани с PageRank
- Връзки за по-нататъшно проучване:
Наша команда-партнер Artmisto
А. Шкондин.
Благодарение на успеха на Google на пазара за предоставяне на услуги за търсене, и особено с разширяването на тази търсачка до Runet, сред уебмайсторите има повишен интерес към алгоритмите за изчисляване на PageRank. В тази статия се разглеждат някои аспекти на изчисляването на PageRank.
Приложение PageRank в търсачките
Традиционните начини за намиране на подходящи страници в случай на едносрични заявки не дават задоволителни резултати, защото по популярни теми (например „есета“, „работа“) винаги ще има голям брой страници със същото значение. За да организират по някакъв начин тези страници, търсачките започват с различни трикове. Например, първият, който издава тези страници, които имат голяма посещаемост (Rambler) или които присъстват в каталога (Yandex, Aport). Google използва PageRank за тези цели, което дава невероятни резултати и за кратко време Google заема водеща позиция не само по отношение на размера на базата данни, но и в качеството на търсенето. От нашите търсачки Aport беше първият, който използва PageRank, последван от Yandex. В Rambler тази технология не се използва, но на този етап се разглежда тази възможност и е възможно PageRank да се използва в тази търсачка.
Заедно с поръчването на резултати от търсене от PageRank, има и друго приложение за тази технология. Факт е, че броят на страниците в интернет е толкова голям, че търсачките вече не могат да си позволят да индексират всичко. И тъй като PageRank служи като критерий за стойността на страницата, логично е страниците да се индексират в низходящ ред на PageRank. Google отиде още по-далеч: сега просто подаването на формуляр за регистрация не е достатъчно - за да бъде индексиран сайтът, трябва да имате поне една външна връзка.
Въведение в PageRank
PageRank е статична стойност, предназначена за оценка на качеството на страниците, независимо от всички заявки, т.е. Използването на PageRank изчислява “глобалната стойност” на всяка страница. Авторите на PageRank Сергей Брин и Лари Пейдж, разработили технологията за допълнително класиране на резултатите от търсенето, по-късно станали основатели на Google.
Основата на PageRank е академичен подход за оценка на важността на публикуването на автора чрез броя на нейните препратки в библиографски справки на други автори. За да се адаптират към използването на интернет, са направени следните промени в алгоритъма: теглото на всяка връзка се взема предвид индивидуално и се нормализира с броя на връзките на препращащата страница. В допълнение, PageRank може да се интерпретира от гледна точка на случайна разходка.
Изчисляване на PageRank
Представете си перфектния уеб сърфист, сърфиращ в световната мрежа. Нека сърфистът посещава страницата p , докато случайната разходка е в състояние p . На всяка стъпка уеб сърфистът прескача на друга страница в мрежата, подбрана по псевдо-случаен начин, или следва връзката на текущата страница, без да се връща и да не посещава същата страница два пъти. Вероятността за случаен скок се обозначава като d, тогава вероятността за връзка ще бъде 1 - d . Така вероятността за намиране на потребител на страница p може да се изчисли по следната формула:
където R (p) е PageRank на страницата, C (p) е броят на връзките на страницата, k е броят на страниците, отнасящи се до p , d е коефициентът на затихване. Обикновено 0.1 <d <0.15 . Ако мащабирате PageRank по такъв начин, че
където N е броят на всички страници, за които се изчислява PageRank, тогава R (p) може да се разглежда като разпределение на вероятността за всички страници.
За да се изчисли PageRank, се създава матрица M с размер NxN , където на всеки елемент mij на матрицата се присвоява стойността R0 (p) = 1 / C (p) в случай, че i- тата страница има връзка към j -тата, всички останали елементи на матрицата се запълват с нули. , Така изчисляването на PageRank се редуцира до намиране на собствения вектор на матрицата M, който се постига чрез умножаване на матрицата M от вектора Rj при всяка итерационна стъпка. Въвеждането на коефициента на затихване гарантира, че процесът се сближава.
Ние увеличаваме значението на сайта
Осъзнавайки печелившото шествие на PageRank, човек не може да не мисли за увеличаването му за вашата страница. Интуитивно е ясно, че колкото по-авторитетен е ресурсът, върху който е поставена връзката, толкова повече тя увеличава PageRank на страницата, към която се отнася. И обратно, колкото повече линкове на една страница, толкова по-малко ще бъде приносът за увеличаване на PageRank на вашата страница - още едно доказателство за безсмислието на участието в FFA (Free For All - сайтове, съдържащи набор от връзки с безплатно добавяне). По-малко очевидна е оптималната топология на взаимосвързаните страници. Например страници, организирани в „пръстен“ (когато всяка страница се отнася за съсед отляво и вдясно, последната се отнася до първата и първата до последната), ще имат един и същ PageRank, независимо от броя на страниците в пръстена (ако не мащабирате до , PageRank на всички ще бъде равен на 1). Същото се отнася и за „звездите“ или случая, когато всички се отнасят до всички, и това твърдение вероятно е вярно за всички симетрични топологии. Асиметричните топологии са много по-обещаващи от гледна точка на увеличаване на PageRank. Изявлението за безполезността на създаването на „празни“ (но свързващи се) сайтове от безплатни хостове не е толкова очевидно. Например, можете да обменяте връзки на 5 сайта по такъв начин, че един от тях има PageRank 15 пъти повече от минималния не-нулев PageRank. Това е лесно да се види, като се напише малка програма. Прочетете как да направите това в статията. Ефективно изчисляване на PageRank
Някои често срещани погрешни схващания, свързани с PageRank
След анализиране на съобщенията в форумите на Рунет, посветени на позиционирането в търсачките, може да се изтъкнат редица твърдения за PageRank, поне противоречиви и често просто погрешни. Накратко разгледайте тези твърдения:
- Ако има много връзки към уебсайт с FFA, книги за гости или други уебсайтове, тогава PageRank ще бъде подценяван.
Не бъркайте понятието "индекс на цитирането" и PageRank. При изчисляването на PageRank, анализът на съдържанието на сайта или на текста на връзката не се извършва, като се вземат предвид само общия брой връзки и техните тегла, така че не се налагат санкции, ако има връзки от "грешните" страници.
- Ако постигнете висок PageRank за всяка страница, тази страница ще бъде на първо място в резултатите от търсенето.
Не е вярно, тъй като PageRank не е основният критерий за класиране на страници, а спомагателен. В противен случай, на първите страници, за много искания, ще бъдат поставени само оценки и върхове. Само при равни други условия, страница с по-висок PageRank ще бъде по-висока в резултатите от търсенето.
- Ако регистрирате сайта във всички популярни директории, тогава PageRank ще бъде много висок
Не се ласкате - PageRank се изчислява не за целия сайт, а за една страница. Следователно, връзката от дълбока поддиректория, да речем в Yahoo, може да е по-малко ценна от страницата на Вася Пупкин. Така че, тук можете да вземете не качеството на връзките, а техния брой. Необходимо е само да се обърне внимание на факта, че връзките от каталога отиват директно на вашия сайт, а не чрез cgi-скрипт, в противен случай те просто няма да бъдат взети под внимание. Освен това правилата на много директории изискват поставянето на главната страница, а не документа, чийто PageRank ще увеличите. Затова е много по-ефективно да се увеличи PageRank на определена страница, като се позове на главната страница на вашия собствен сайт.
- PageRank е намален при поставянето на външни връзки
Много спорно изявление, както бе споменато по-горе, PageRank намалява в случай на симетрична комбинация от препращащите страници, вероятността от която се получава, когато е поставена външна връзка, е незначителна. Ако такава фобия сама по себе си не се преодолее, тогава можем да дадем съвет, за да стартираме специална страница за обмен на връзки. Между другото, си струва да се отбележи, че при изчисляването на PageRank, никой не обещава отделни препратки към външни и вътрешни.
Връзки за по-нататъшно проучване:
- Класирането на цитирането на PageRank: въвеждане на ред в мрежата
- Анатомията на широкомащабна хипертекстова уеб търсачка
- Обхождането на търсенето в началото на страницата дава висококачествени страници
- Ефективно изчисляване на PageRank
Авторско право © 2001 от A. Shkondin
Публикацията изисква разрешение от автора.