信息检索专业论文-Google搜索引擎网页排序算法.docVIP

信息检索专业论文-Google搜索引擎网页排序算法.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于Google搜索引擎网页排序算法的论文 摘要:网页排序技术在搜索引擎中有着重要作用,它在一定程度上决定了搜索引擎的质量。概括了网页排序算法,详细分析了目前已知的各种排序方法的基本思想和技术特点,并比较了它们的优缺点,最后指出了网页排序技术的发展思路。 关键字:PageRank 网页排序 搜索引擎 1 引 言 随着互联网的飞速发展,网络信息资源越来越庞大,通常情况下,用户检索到的结果成千上万,所以对于任何一个搜索引擎而言,都必须配备理想的网页排序算法 可以说,排序法的好坏在一定程度上决定了搜索引擎的质量 目前比较名的排序算法有词频位置加权排序算法 Direct Hit 算法PageRank算法 HITS算法 以及竞价排名服务等。而我这次的论文主要介绍的是Google常用的算法—PageRank。 PageRank 算法的简介 斯坦福大学的 Larry Page 和 Sergey Brin 于 1996 年提出了 PageRank算法[5]。该算法基于这样的假设:如果一个页面被许多其它页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。设网页 A 有 T1, T2, …, Tn 共 n 个网页指向它,参数 d 是0 到 l 之间的控制系数,通常为 0.85, C(Ti)是一个从网页 A 链出的网页数,则 A的 PageRank 值由以下公式[6] 计算:PR(A)=(1-d)+d×(PR(T1))/ C(T1)+…+ PR(Tn)/ C(Tn) 符号说明:PR(A) 表示从外部链接站点 t 为 A 网站带来的 PR 分值;d 为阻尼因数 (damping factor),一般取值为 0.85;PR(t) 表示外部链接网站本身的 PR 分值;C(t) 表示外部链接网站包含 A 网站的外链数量。 通常情况下,设定每个网页的初始 PageRank 值为 1,通过公式递归计算各网页的 PageRank 值,直到趋于稳定。由于其用户行为模型假设用户访问网络是完全随机的,因此一个页面的 PageRank 值被平分给了其所指向的页面,由公式中的项 PR(Ti)/ C(Ti)可以明显地看出其平分策略 3 PageRank 算法的具体事例 举个例子,设有四个网页 A B C D,它们之间互相链接,如下图所示 那么,如果网页 A 的 PageRank 为 6,它有两个出链接,则每个链接的 PR 为 3,即分配给网页 B 和 D 各 3 个单位PR;同理,网页 C 的 PageRank 为 12,它有三个出链接,则每个链接的 PR 为 4。 则统计后,网页 B、 D的 PageRank 值(为方便计算,取 d 为 1)见表 1: 表 1 网页 PageRank 值的基本计算 由网页的 PageRank 值,可以知道网页 A B C D 按其程度排序依次为 C D B A 当然,这仅仅是通过一个简例子来说明 PageRank 算法的思想,在实际应用中,还需入一些权值,使排序更为权威从上面的讨论可以看出,一个页面会因为别的页面对的引用而增加 PageRank 值,但并不会因为自己对别的进行引用而提高 PageRank 值 因此,该算法可以有效地那些为了提高排名而恶意增加链接的网页 但同时PageRank 算法仅仅依靠链接数目来确定网页的重要性有正性,而且在时间上存在滞后性。 4 PageRank 算法的优缺点: 4.1 优点:由于 PageRank 算法是离线计算这个网络的 Page,在用户查询时仅仅根据关键字匹配获得网页集合,序推荐给用户,因此具有很高的响应速度,并且搜索Google 中的成功也证明该算法是高效、合理的。 4.2 缺点: (1)比如 PageRank 算法偏重旧网页,因为旧网页被其它网页链接到的可能性更高,而事实上新的网页可能会具有更好的信息价值;(2)PageRank 算法偏重以.com 结尾的网站,因为这类网站往往是综合性网站,自然可以比其它类型的网站获得更多链接,而事实上某些专业网站对问题的阐述更具有权威性; (3)PageRank 算法无法区分网页中的超链接是和网页主题相关还是不相关,即无法判断网页内容上的相似性, 这样就容易导致出现主题漂移问题。 比如, Google, Yahoo是互联网上最受欢迎的网页, 拥有很高的 PageRank 值。 这样,如果用户输入一个查询关键字时,这些网页往往也会出现在该查询的结果集中,并会占据很靠前的位置,而事实上这个网页与用户的查询主题有时并不太相关。 5 PageRank 算法的改进: 继 Lawrence Page 提出 Pa

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档