Категории

  • Голосование
  • Право голоса
  • Киев
  • Украина
  • Здоровье
  • Популярное
  • Новости
  • Новости

      Artmisto
      Наша команда-партнер Artmisto. С "Buddy.Bet" азартные игроки найдут идеальное место для развлечений и возможность выиграть крупные суммы.

    PageRank:更多优秀和重要的链接。

    1. 应用PageRank在搜索引擎中
    2. PageRank简介
    3. 计算pagerank
    4. 我们增加了网站的重要性
    5. 与PageRank相关的一些常见误解
    6. 进一步研究的链接:

    Наша команда-партнер Artmisto

    A. Shkondin。

    由于谷歌在市场上提供搜索服务的成功,特别是随着这个搜索引擎扩展到Runet,在网站管理员中,人们对计算PageRank的算法越来越感兴趣。 本文讨论PageRank计算的某些方面。

    应用PageRank在搜索引擎中

    在单音节查询的情况下查找相关页面的传统方法不能给出令人满意的结果,因为 关于热门话题(例如,“散文”,“作品”),总会有大量具有相同相关性的页面。 为了以某种方式组织这些页面,搜索引擎开始使用各种技巧。 例如,第一个发布具有大量出席率(漫步者)或目录中存在的页面(Yandex,Aport)。 谷歌使用PageRank来实现这些目的,这会产生惊人的效果,并且在短时间内,谷歌不仅在数据库大小方面,而且在搜索质量方面也开始占据领先地位。 在我们的搜索引擎中,Aport是第一个使用PageRank,其次是Yandex。 在Rambler中没有使用这种技术,但是在这个阶段正在考虑这种可能性,并且PageRank可能会在这个搜索引擎中使用。

    除了通过PageRank订购搜索结果外,该技术还有另一个应用程序。 事实是,互联网上的页面数量太大,以至于搜索引擎再也无法为所有内容编制索引。 由于PageRank作为页面值的标准,因此按PageRank的降序索引页面是合乎逻辑的。 谷歌已经走得更远:现在只提交注册表单是不够的 - 为了将网站编入索引,你必须至少有一个外部链接。

    PageRank简介

    PageRank是一个静态值,用于评估页面质量而不管任何查询,即 使用PageRank计算每个页面的“全局值”。 PageRank Sergey Brin和Larry Page的作者,后者开发了搜索引擎结果的额外排名技术,后来成为谷歌的创始人。

    PageRank的基础是一种学术方法,通过她在其他作者的参考书目中的参考文献的数量来评估作者出版的重要性。 为了适应因特网的使用,对算法进行了以下改变:每个链路的权重被单独考虑并且通过引用页面上的链路数量来标准化。 此外,PageRank可以用随机游走来解释。

    计算pagerank

    想象一下,在万维网上冲浪的完美网络冲浪者。 让冲浪者访问页面p ,而随机游走是在状态p 。 在每个步骤中,网络冲浪者要么跳转到网络上的另一个页面,以伪随机方式选择,要么跟随当前页面上的链接,而不返回并且不访问同一页面两次。 随机跳转的概率表示为d,然后链路的概率为1-d 。 因此,可以通过以下公式计算在页面p上找到用户的概率:

    想象一下,在万维网上冲浪的完美网络冲浪者。 让冲浪者访问页面p ,而随机游走是在状态p 。 在每个步骤中,网络冲浪者要么跳转到网络上的另一个页面,以伪随机方式选择,要么跟随当前页面上的链接,而不返回并且不访问同一页面两次。 随机跳转的概率表示为d,然后链路的概率为1-d 。 因此,可以通过以下公式计算在页面p上找到用户的概率:

    其中R(p)是页面的PageRank, C(p)是页面上的链接数, k是引用p的页数, d是阻尼因子。 通常0.1 <d <0.15 。 如果您以这样的方式缩放pagerank

    15 。 如果您以这样的方式缩放pagerank

    其中N是计算PageRank的所有页面的数量,则R(p)可以被视为所有页面上的概率分布。

    为了计算PageRank, 创建矩阵M ,其大小为NxN ,其中矩阵的每个元素mij被赋予值R0(p)= 1 / C(p) ,如果第i页具有到第j个的链接,则矩阵的所有剩余元素用零填充。 。 因此,PageRank的计算被减少到找到矩阵M的特征向量这通过在每个迭代步骤将矩阵M乘以向量Rj来实现。 引入衰减系数可确保过程收敛。

    我们增加了网站的重要性

    实现PageRank的获胜游戏,人们不禁考虑为您的页面增加它。 直观地说,链接所放置的资源越权威,它就越多地增加了它引用的页面的PageRank。 相反,页面上的链接越多,它对增加页面PageRank的贡献就越少 - 这是参与FFA(Free For All - 包含一系列免费添加链接的网站)无效的另一个证明。 不太明显的是互连页面的最佳拓扑。 例如,以“响铃”组织的页面(当每个页面指向左侧和右侧的邻居,最后一个指向第一个和第一个到最后一个)将具有相同的PageRank,而不管环中的页面数量(如果您不缩放到,那么所有的PageRank将等于1)。 对于“星星”或每个人都提到每个人的情况也是如此,这种说法对于所有对称拓扑都可能是正确的。 在增加PageRank方面,非对称拓扑更有前途。 关于从免费主机创建“空”(但链接到彼此)网站无用的声明并不那么明显。 例如,您可以在5个站点上交换链接,使得其中一个站点的PageRank比最小非零PageRank多15倍。 通过编写一个小程序很容易看出。 在文章中阅读如何执行此操作。 PageRank的高效计算

    与PageRank相关的一些常见误解

    在分析了致力于在搜索引擎中定位的Runet论坛中的消息之后,人们可以挑出一些PageRank的指控,至少是有争议的,而且往往是错误的。 简要考虑以下陈述:

    • 如果有很多链接到FFA,留言簿或其他网站的网站,那么PageRank将被低估。

    不要混淆“引文索引”和PageRank的概念。 在计算PageRank时,不会对网站内容或链接文本进行分析,只会考虑链接总数及其权重,因此如果存在来自“错误”页面的链接,则不会受到处罚。

    • 如果您为任何页面获得高PageRank,那么此页面将位于搜索结果的第一位。

    不正确,因为PageRank不是排名页面的主要标准,而是辅助页面。 否则,在第一页上,对于很多请求,只会放置评级和顶部。 只有在其他条件不变的情况下,搜索结果中的PageRank较高的页面会更高。

    • 如果您在所有热门目录中注册该网站,那么PageRank将非常高

    不要恭维自己 - PageRank不是针对整个网站计算的,而是针对单个页面计算的。 因此,来自深度子目录的链接,比如雅虎,可能没有Vasya Pupkin的页面那么有价值。 所以,在这里你可以不是链接的质量,而是它们的数量。 只需要注意这样一个事实,即目录中的链接直接进入您的站点,而不是通过cgi脚本,否则它们将不会被考虑在内。 此外,许多目录的规则要求放置根页,而不是要增加PageRank的文档。 因此,通过引用您自己站点的根页面来提高特定页面的PageRank会更有效。

    • 放置外部链接时,PageRank会减少

    如上所述,一个非常有争议的陈述,在引用页面的对称组合的情况下,PageRank减少,当附加外部链接时获得概率。 如果这样的恐惧症本身无法克服,那么我们可以提供建议,以便开始交换链接的特殊页面。 顺便说一下,值得注意的是,在计算PageRank时,没有人承诺将对外部和内部的引用分开。

    进一步研究的链接:

    1. PageRank引文排名:将订单引入网络
    2. 大型超文本Web搜索引擎的剖析
    3. 广度优先搜索爬行产生高质量页面
    4. PageRank的高效计算

    版权所有©2001。S。Shkondin
    该出版物需要作者的许可。

    Номера

    Номерной фонд гостиницы насчитывает 173 номера различных категорий.

    Забронировать отель можно прямо сейчас: Бронирование онлайн