信息检索专业论文-PageRank算法初探.docVIP

下载本文档

15
0
约3.99千字
约 4页
2018-11-19 发布于浙江
举报
版权申诉

信息检索专业论文-PageRank算法初探.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PageRank算法初探摘要在信息数字化和数据网络化的趋势下，Internet网络已名副其实地成为世界最大的信息中心，而如何在网络中快速，高效地找到满意的信息以成为学者们越来越关注的问题。搜索引擎技术的发展是随若电子技术不断进步而形成的信息数字化和数据网络化的必然产物。Google搜索引擎依靠其PageRank算法一直处于该领域的领先地位。虽然搜索引擎的实现技术以趋向成熟，然而如何合理的安排所筛选出的结果即对结果网页进行排序，使得用户能够在最短的时间找到满意的结果则仍是学者们在不断研究的课题 [1]。关键词 Google PageRank算法 PR值 1 引言 PageRank（网页级别）是Google排名运算法则（排名公式）的一部分，是Google用于用来标识网页的等级/重要性的一种方法，是Google用来衡量一个网站的好坏的重要标准之一 [2]。它是以Google创始人之一拉里·佩奇（Larry Page）的名字来命名的。在揉合了诸如Title标识和Keywords标识等所有其它因素之后，Google通过PageRank来调整结果，使那些更具“等级/重要性”的网页在搜索结果中令网站排名获得提升，从而提高搜索结果的相关性和质量。其级别从0到10级，10级为满分。PR值越高说明该网页越受欢迎（越重要）[2]。本文从算法原理、数学实现、模型和优缺点等方面，简单介绍了PageRank算法的来龙去脉。 2 PageRank算法原理通过对由超过50000万个变量和20亿个词汇组成的方程进行计算，PageRank能够对网页的重要性做出客观评价。PageRank并不计算直接链接的数量，而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样，PageRank会根据网页B所收到的投票数量来评估该网页的重要性。此外，PageRank还会评估每个投票网页的重要性，因为某些重要网页的投票被认为具有较高的价值，这样，它所链接的网页就能获得较高的价值。这就是PageRank的核心思想，当然PageRank算法的实际实现上要复杂很多。但是问题又来了，计算其他网页PageRank的值需要用到网页本身的PageRank值，而其他网页的PageRank值反过来又影响本网页的PageRank的值，这不就成了一个先有鸡还是先有蛋的问题了吗？Google的两个创始人拉里·佩奇和谢耳盖·布林把这个问题变成一个二维矩阵相乘的问题，并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的，并且根据这个初始值，算出各个网页的第一次迭代的排名，然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取，这种算法都将能够保证了网页排名的估计值能够收敛到它们就有的真实值。值得一提的是，这种算法的执行是完全没有任何人工干预的。理论问题解决了，但在实际的应用中，互联网上网页的数量是巨大的，上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有10亿个网页，那么这个矩阵就要有100亿亿个元素。这样大的矩阵相乘，计算量是非常之大。怎么办？怎么办？Larry和Sergey两利用稀疏矩阵计算的技巧，大大简化了计算量，并实现了这个网页排名算法。今天Google的工程师把这个算法移植移植到并行的计算机中，进一步缩短了计算的时间，使得网页的周期比以前短了许多 [3]。 3 PageRank算法的数学实现 PageRank算法是基于随机冲浪者模型的，简单地说就是—个冲浪者浏览网页是通过网页上的链接随机跳转。网页的价值就由网页被访问的频率所决定。把整个Interact网络看成一个巨大的拓扑图，Web网网页看作节点，网页间的超级链接看作有向边，这样就形成了一张有向图G。对于G中的任何两张Web网网页u∈G，v∈G，边u→v表示网页M存在超级链接指向网页v [4]。定义deg(u)表示网页u的超级链接数量。考虑一个随机冲浪者在k时刻访问了网页u。在下—个时刻冲浪者通过随机选择u上的某个超级链接，访问到了u的某个指向网页vi，其中vi∈{v|u→v}。另一方面，在时刻k+l，访问者在vi∈{v|u→v}的机率是1/deg(u) [4]。对于网页i的PageRank可以定义为在某个时刻k>K，冲浪者停留在网页i的概率。考虑K足够大的时候，这种分布概率是唯一的，具体说明如下：考虑通过在有向图G上随机游动的Markov链，转移矩阵P由Web网的链接情况所定义，当存在超级链接从网页i链接到j的时候Pij=1/deg(i)，其余的Pij=0，PageRank即为此Markov链的平稳分布 [4]。 4 PageRank算法模型 PageRank将万维网转化为有向图，再将此有向图转化为矩阵初始，假设有一个由6个网页组成的网络，转化为