- Застосування PageRank в пошукових системах
- Введення в PageRank
- обчислення Pagerank
- Підвищуємо значимість сайту
- Деякі поширені помилки пов'язані з PageRank
- Посилання для подальшого вивчення:
Наша команда-партнер Artmisto
А. Шкондін.
У зв'язку з успіхом Google на ринку надання послуг пошуку і особливо з експансією даного пошукача в Рунет, серед вебмайстрів спостерігається підвищення інтересу до алгоритмів розрахунку PageRank. У даній статті розглядаються некториє аспекти обчислення PageRank.
Застосування PageRank в пошукових системах
Традиційні способи знаходження релевантних сторінок, в разі односкладових запитів не дають задовільних результатів, тому що по популярних тем (наприклад "реферати", "робота") завжди знайдеться велика кількість сторінок з однаковою релевантність. Для того, щоб якось упорядкувати такі сторінки, пошуковики пускаються на різні хитрощі. Наприклад видають першими ті сторінки, які мають велику відвідуваність (Rambler) або які присутні в каталозі (Yandex, Aport). В Google для цих цілей застосовується PageRank, що дає приголомшливі результати, і за короткий час Google став займати лідируючі позиції не тільки за обсягом бази, але і за якістю пошуку. З наших пошукових систем першим PageRank став використовувати Aport, за ним Yandex. В Rambler ця технологія не застосовується, але на даному етапі така можливість розглядається, і, не виключено, що PageRank буде використовуватися і в цій пошуковій системі.
На ряду з упорядкуванням результатів пошуку по PageRank, є й інше застосування для цієї технології. Справа в тому, що число сторінок в Інтернеті на стільки велике, що пошукові системи вже не можуть собі дозволити індексувати все підряд. А оскільки PageRank служить критерієм цінності сторінки, то логічно проводити індексацію сторінок в порядку убування PageRank. В Google пішли навіть далі: тепер простий відправки форми для реєстрації мало, - для того, щоб сайт був проіндексований необхідна наявність хоча б однієї зовнішньої посилання.
Введення в PageRank
PageRank - статична величина, призначена для оцінки якості сторінок не залежно від будь-яких запитів, тобто за допомогою PageRank обчислюється "глобальна цінність" кожної сторінки. Автори PageRank Сергій Брін і Ларрі Пейдж, які розробили технологію додаткового ранжирування результатів видачі пошукових систем, надалі стали засновниками компанії Google.
За основу PageRank був обраний академічний підхід оцінки важливості публікації автора по числу її згадок в бібліографічних посиланнях інших авторів. Для адаптації до застосування в Інтернет в алгоритм були внесені наступні зміни: вага кожного посилання враховується індивідуально і нормується за кількістю посилань на сторінці, що посилається. Крім того, PageRank може бути інтерпретований в термінах випадкового блукання
обчислення Pagerank
Уявіть собі ідеального веб-серфера переміщається по всесвітній павутині. Нехай серфер відвідує сторінку p, випадкове блукання при цьому знаходиться в стані p. На кожному кроці, веб-серфер або перестрибує на іншу сторінку в мережі, обрану псевдо-випадковим чином, або він слід за посиланням на поточній сторінці, при цьому не повертаючись і не відвідуючи одну і ту ж сторінку двічі. Імовірність випадкового стрибка позначимо як d тоді ймовірність переходу за посиланням буде 1-d. Таким чином, ймовірність знаходження користувача на сторінці p можна обчислити за такою формулою:
де R (p) - PageRank сторінки, С (p) - число посилань на сторінці, до - число посилаються на p сторінок, d - коефіцієнт загасання (damping factor). Зазвичай 0.1 <d <0.15. Якщо масштабувати PageRank таким чином, що
де N - число всіх сторінок, для яких проводиться розрахунок PageRank, то R (p) можна розглядати як розподіл ймовірності по всіх сторінках.
Для обчислення PageRank складається матриця M розміром NxN, де кожному елементу mij матриці присвоюється значення R0 (p) = 1 / C (p) в тому випадку, якщо з i -й сторінки є посилання на j -у, все решта елементи матриці заповнюються нулями . Таким чином, обчислення PageRank зводиться до відшукання власного вектора матриці M що досягається множенням матриці M на вектор Rj на кожному кроці ітерації. Введення коефіцієнта загасання гарантує, що процес сходиться.
Підвищуємо значимість сайту
Усвідомивши переможний хід PageRank, не можна не замислитися про його збільшення для своєї сторінки. Інтуїтивно зрозуміло, що чим авторитетніше ресурс, на якому розміщено посилання тим більше вона збільшує PageRank сторінки, на яку посилається. І навпаки, чим більше посилань на сторінці, тим менше буде її внесок в підвищення PageRank вашої сторінки - ще один доказ марності участі в FFA (Free For All - сайти, що містять набір посилань з вільним додаванням). Менш очевидна оптимальна топологія взаімоссилающіхся сторінок. Наприклад, сторінки організовані в "кільце" (коли кожна сторінка посилається на сусіда зліва і справа, остання посилається на першу, а перша на останню) матимуть один і той же PageRank не залежно від числа сторінок в кільці (якщо не проводити масштабування за сумою , то PageRank у всіх буде дорівнює 1). Те ж справедливо для «зірок» або випадку, коли всі посилаються на всіх, і, ймовірно, це твердження справедливе взагалі для всіх симетричних топологій. Набагато більш перспективні з точки зору збільшення PageRank асиметричні топології. Твердження про марність створення «порожніх» (але посилаються один на одного) сайтів у безкоштовних хостерів не настільки очевидно. Наприклад, можна організувати обмін посиланнями на 5 сайтах таким чином, що у одного з них PageRank буде в 15 разів більше, ніж мінімальний не нульовий PageRank. У цьому нескладно переконається, написавши невелику програмку. Про те, як це зробити, читайте в статті Efficient Computation of PageRank
Деякі поширені помилки пов'язані з PageRank
Проаналізувавши повідомлення в рунетовських форумах, присвячених позиціонуванню в пошукових системах, можна виділити цілий ряд тверджень про PageRank, як мінімум спірних, а найчастіше просто невірних. Коротко розглянемо ці твердження:
- Якщо на якийсь сайт є багато посилань з FFA, гостьових книг або на сайтів іншої тематики, то PageRank буде занижений.
Не варто плутати поняття "індекс цитування" і PageRank. При розрахунку PageRank аналіз вмісту ні сайту ні тексту посилання не проводиться, враховуються тільки загальне число посилань і їх ваги, тому ніяких штрафних санкцій при наявності посилань з «неправильних» сторінок не застосовується.
- Якщо домогтися високого PageRank для якоїсь сторінки, то ця сторінка буде на першому місці в результатах пошуку.
Не вірно, з тієї причини, що PageRank є не основним критерієм для ранжирування сторінок, а допоміжним. В іншому випадку, на перших сторінках по дуже багатьом запитам розташовувалися б тільки рейтинги і топи. Тільки при інших рівних умовах сторінка з більш високим PageRank буде розташовуватися вище в результатах пошуку.
- Якщо зареєструвати сайт у всіх популярних каталогах, то PageRank буде дуже високим
Не варто спокушатися - PageRank обчислюється не для сайту цілком, а для окремо взятої сторінки. Тому посилання з глибокої поддірікторіі, скажімо в Yahoo, може бути менш цінна ніж сторінка Васі Пупкіна. Так що, тут можна взяти не якістю посилань, а їх кількістю. Треба тільки звертати увагу на те, щоб посилання з каталогу йшли безпосередньо на ваш сайт, а не через cgi-скрипт, інакше вони просто не будуть враховуватися. Крім того, правила багатьох каталогах вимагають розміщення кореневої сторінки, а не того документа, PageRank якого ви збираєтеся підвищувати. Тому набагато ефективніше можна підвищити PageRank конкретної сторінки посиланням з кореневої сторінки свого власного сайту.
- PageRank зменшується при проставленні зовнішніх посилань
Вельми спірне твердження, як говорилося вище PageRank знижується в разі симетричного об'єднання посилань, ймовірність отримати яке при проставленні зовнішнього посилання мізерно мала. Якщо таку фобію в собі не перебороти, то можна дати пораду завести спеціальну сторінку для обміну посиланнями. До речі, варто зауважити, що при розрахунку PageRank ніхто не обіцяв розділяти посилання на зовнішні і внутрішні.
Посилання для подальшого вивчення:
- The PageRank Citation Ranking: Bringing Order to the Web
- The Anatomy of a Large-Scale Hypertextual Web Search Engine
- Breadth-first search crawling yields high-quality pages
- Efficient Computation of PageRank
Авторські права © 2001, А. Шкондін
Публікація вимагає дозволу автора.