- Usando o PageRank nos mecanismos de pesquisa
- Introdução ao PageRank
- Calculando o pagerank
- Aumentamos a importância do site
- Alguns equívocos comuns associados ao PageRank
- Links para um estudo mais aprofundado:
Наша команда-партнер Artmisto
A. Shkondin
Devido ao sucesso do Google no mercado para fornecer serviços de pesquisa e, especialmente, com a expansão desse mecanismo de pesquisa para o Runet, entre os webmasters, há um aumento no interesse nos algoritmos para calcular o PageRank. Este artigo discute alguns aspectos do cálculo do PageRank.
Usando o PageRank nos mecanismos de pesquisa
As formas tradicionais de encontrar páginas relevantes no caso de consultas monossilábicas não dão resultados satisfatórios, porque em tópicos populares (por exemplo, "ensaios", "trabalho") sempre haverá um grande número de páginas com a mesma relevância. Para organizar de alguma forma essas páginas, os mecanismos de busca são iniciados em vários truques. Por exemplo, o primeiro a emitir as páginas que têm uma grande participação (Rambler) ou que estão presentes no catálogo (Yandex, Aport). O Google usa o PageRank para essas finalidades, o que dá resultados surpreendentes e, em pouco tempo, o Google começou a ocupar uma posição de liderança não apenas em termos de tamanho do banco de dados, mas também em qualidade de pesquisa. Dos nossos mecanismos de busca, o Aport foi o primeiro a usar o PageRank, seguido pelo Yandex. Em Rambler esta tecnologia não é usada, mas nesta fase esta possibilidade está sendo considerada, e é possível que o PageRank seja usado neste mecanismo de busca.
Além de solicitar resultados de pesquisa por PageRank, há outro aplicativo para essa tecnologia. O fato é que o número de páginas na Internet é tão grande que os mecanismos de busca não podem mais arcar com tudo. E como o PageRank serve como um critério de valor de página, é lógico indexar páginas em ordem decrescente de PageRank. O Google foi ainda mais longe: agora basta enviar um formulário de registro não é suficiente - para que o site seja indexado, você deve ter pelo menos um link externo.
Introdução ao PageRank
O PageRank é um valor estático destinado a avaliar a qualidade das páginas, independentemente de qualquer dúvida, por exemplo O uso do PageRank calcula o “valor global” de cada página. Os autores do PageRank Sergey Brin e Larry Page, que desenvolveram a tecnologia de classificação adicional dos resultados dos mecanismos de busca, mais tarde se tornaram os fundadores do Google.
A base do PageRank foi uma abordagem acadêmica para avaliar a importância da publicação do autor pelo número de referências dela em referências bibliográficas de outros autores. Para adaptar-se ao uso da Internet, foram feitas as seguintes alterações no algoritmo: o peso de cada link é considerado individualmente e é normalizado pelo número de links na página de referência. Além disso, o PageRank pode ser interpretado em termos de um passeio aleatório.
Calculando o pagerank
Imagine o surfista da Web perfeito navegando na Internet. Deixe o surfista visitar a página p , enquanto o passeio aleatório está no estado p . Em cada etapa, o internauta pula para outra página na rede, selecionada de forma pseudo-aleatória, ou segue o link na página atual, sem retornar e não visitando a mesma página duas vezes. A probabilidade de um salto aleatório é denotada como d, então a probabilidade de um link será 1 - d . Assim, a probabilidade de encontrar um usuário na página p pode ser calculada pela seguinte fórmula:
onde R (p) é o PageRank da página, C (p) é o número de links na página, k é o número de páginas referentes a p , d é o fator de amortecimento. Geralmente 0,1 <d <0,15 . Se você dimensionar o PageRank de maneira que
onde N é o número de todas as páginas para as quais o PageRank é calculado, então R (p) pode ser considerado como a distribuição de probabilidade em todas as páginas.
Para calcular o PageRank, uma matriz M é criada com o tamanho NxN , onde a cada elemento mij da matriz é atribuído o valor R0 (p) = 1 / C (p) no caso da i- ésima página ter um link para a j- ésima, todos os elementos restantes da matriz são preenchidos com zeros . Assim, o cálculo do PageRank é reduzido a encontrar o autovetor da matriz M, que é obtido pela multiplicação da matriz M pelo vetor Rj em cada etapa de iteração. A introdução do coeficiente de atenuação garante que o processo converge.
Aumentamos a importância do site
Percebendo a procissão vencedora do PageRank, não se pode deixar de pensar em aumentá-lo para sua página. É intuitivamente claro que quanto mais autoritário for um recurso no qual um link é colocado, mais ele aumenta o PageRank da página a qual ele se refere. Por outro lado, quanto mais links em uma página, menor será sua contribuição para aumentar o PageRank de sua página - outra prova da futilidade de participar do FFA (Free For All - sites que contêm um conjunto de links com adição gratuita). Menos óbvia é a topologia ideal de páginas interligadas. Por exemplo, as páginas organizadas em um "toque" (quando cada página se refere a um vizinho à esquerda e à direita, a última se refere à primeira e à primeira à última) terão o mesmo PageRank, independentemente do número de páginas no anel (se você não dimensionar , o PageRank de todos será igual a 1). O mesmo vale para "estrelas" ou o caso em que todos se referem a todos, e essa afirmação é provavelmente verdadeira para todas as topologias simétricas. Topologias assimétricas são muito mais promissoras em termos de aumento do PageRank. A afirmação sobre a inutilidade de criar sites “vazios” (mas interligados uns com os outros) a partir de hosts gratuitos não é tão óbvia. Por exemplo, você pode trocar links em 5 sites de tal forma que um deles tenha PageRank 15 vezes mais que o PageRank mínimo de zero. Isso é fácil de ver, escrevendo um pequeno programa. Leia como fazer isso no artigo. Computação Eficiente do PageRank
Alguns equívocos comuns associados ao PageRank
Depois de analisar as mensagens nos fóruns do Runet dedicados ao posicionamento nos mecanismos de busca, pode-se destacar várias alegações do PageRank, pelo menos controversas, e muitas vezes simplesmente erradas. Resumidamente, considere estas declarações:
- Se houver muitos links para um site da FFA, livros de convidados ou outros sites, o PageRank será subestimado.
Não confunda o conceito de "índice de citação" e o PageRank. Ao calcular o PageRank, a análise do conteúdo do site ou do texto do link não é realizada, apenas o número total de links e seus pesos são considerados, portanto, nenhuma penalidade é aplicada se houver links das páginas "erradas".
- Se você conseguir um alto PageRank para qualquer página, esta página estará em primeiro lugar nos resultados da pesquisa.
Não é verdade, porque o PageRank não é o principal critério para classificar páginas, mas sim auxiliar. Caso contrário, nas primeiras páginas, para muitos pedidos, apenas classificações e tops seriam colocados. Apenas ceteris paribus, uma página com um PageRank maior será maior nos resultados da pesquisa.
- Se você registrar o site em todos os diretórios populares, o PageRank será muito alto
Não se iluda - o PageRank é calculado não para todo o site, mas para uma única página. Portanto, um link de um subdiretório profundo, digamos no Yahoo, pode ser menos valioso do que a página de Vasya Pupkin. Então, aqui você pode pegar não a qualidade dos links, mas o número deles. É necessário apenas prestar atenção ao fato de que os links do catálogo vão diretamente para o seu site, e não através de um script cgi, caso contrário, eles simplesmente não serão levados em conta. Além disso, as regras de muitos diretórios exigem o posicionamento da página raiz, e não o documento cujo PageRank você irá aumentar. Portanto, é muito mais eficiente aumentar o PageRank de uma página específica consultando a página raiz de seu próprio site.
- O PageRank é reduzido ao colocar links externos
Uma afirmação muito controversa, como mencionado acima, o PageRank diminui no caso de uma combinação simétrica das páginas de referência, cuja probabilidade é obtida quando um link externo é afixado. Se tal fobia em si não superar, então podemos dar conselhos para iniciar uma página especial para troca de links. A propósito, vale a pena notar que, ao calcular o PageRank, ninguém prometeu separar as referências externas e internas.
Links para um estudo mais aprofundado:
- O Ranking de Citações do PageRank: Levando Ordem para a Web
- A anatomia de um mecanismo de pesquisa da Web hipertextual em grande escala
- O primeiro rastreamento de pesquisa gera páginas de alta qualidade
- Computação Eficiente do PageRank
Copyright © 2001 por A. Shkondin
A publicação requer a permissão do autor.