- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于Google搜索引擎网页排序算法的论文
摘要:网页排序技术在搜索引擎中有着重要作用,它在一定程度上决定了搜索引擎的质量。概括了网页排序算法,详细分析了目前已知的各种排序方法的基本思想和技术特点,并比较了它们的优缺点,最后指出了网页排序技术的发展思路。
关键字:PageRank 网页排序 搜索引擎
1 引 言
随着互联网的飞速发展,网络信息资源越来越庞大,通常情况下,用户检索到的结果成千上万,所以对于任何一个搜索引擎而言,都必须配备理想的网页排序算法 可以说,排序法的好坏在一定程度上决定了搜索引擎的质量 目前比较名的排序算法有词频位置加权排序算法 Direct Hit 算法PageRank算法 HITS算法 以及竞价排名服务等。而我这次的论文主要介绍的是Google常用的算法—PageRank。
PageRank 算法的简介
斯坦福大学的 Larry Page 和 Sergey Brin 于 1996 年提出了 PageRank算法[5]。该算法基于这样的假设:如果一个页面被许多其它页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。设网页 A 有 T1, T2, …, Tn 共 n 个网页指向它,参数 d 是0 到 l 之间的控制系数,通常为 0.85, C(Ti)是一个从网页 A
链出的网页数,则 A的 PageRank 值由以下公式[6]
计算:PR(A)=(1-d)+d×(PR(T1))/ C(T1)+…+ PR(Tn)/ C(Tn)
符号说明:PR(A) 表示从外部链接站点 t 为 A 网站带来的 PR 分值;d 为阻尼因数 (damping factor),一般取值为 0.85;PR(t) 表示外部链接网站本身的 PR 分值;C(t) 表示外部链接网站包含 A 网站的外链数量。
通常情况下,设定每个网页的初始 PageRank 值为 1,通过公式递归计算各网页的 PageRank 值,直到趋于稳定。由于其用户行为模型假设用户访问网络是完全随机的,因此一个页面的 PageRank 值被平分给了其所指向的页面,由公式中的项 PR(Ti)/ C(Ti)可以明显地看出其平分策略
3 PageRank 算法的具体事例
举个例子,设有四个网页 A B C D,它们之间互相链接,如下图所示
那么,如果网页 A 的 PageRank 为 6,它有两个出链接,则每个链接的 PR 为 3,即分配给网页 B 和 D 各 3 个单位PR;同理,网页 C 的 PageRank 为 12,它有三个出链接,则每个链接的 PR 为 4。 则统计后,网页 B、 D的 PageRank 值(为方便计算,取 d 为 1)见表 1:
表 1 网页 PageRank 值的基本计算
由网页的 PageRank 值,可以知道网页 A B C D 按其程度排序依次为 C D B A 当然,这仅仅是通过一个简例子来说明 PageRank 算法的思想,在实际应用中,还需入一些权值,使排序更为权威从上面的讨论可以看出,一个页面会因为别的页面对的引用而增加 PageRank 值,但并不会因为自己对别的进行引用而提高 PageRank 值 因此,该算法可以有效地那些为了提高排名而恶意增加链接的网页 但同时PageRank 算法仅仅依靠链接数目来确定网页的重要性有正性,而且在时间上存在滞后性。
4 PageRank 算法的优缺点:
4.1 优点:由于 PageRank 算法是离线计算这个网络的 Page,在用户查询时仅仅根据关键字匹配获得网页集合,序推荐给用户,因此具有很高的响应速度,并且搜索Google 中的成功也证明该算法是高效、合理的。
4.2 缺点: (1)比如 PageRank 算法偏重旧网页,因为旧网页被其它网页链接到的可能性更高,而事实上新的网页可能会具有更好的信息价值;(2)PageRank 算法偏重以.com 结尾的网站,因为这类网站往往是综合性网站,自然可以比其它类型的网站获得更多链接,而事实上某些专业网站对问题的阐述更具有权威性; (3)PageRank 算法无法区分网页中的超链接是和网页主题相关还是不相关,即无法判断网页内容上的相似性, 这样就容易导致出现主题漂移问题。 比如, Google, Yahoo是互联网上最受欢迎的网页, 拥有很高的 PageRank 值。 这样,如果用户输入一个查询关键字时,这些网页往往也会出现在该查询的结果集中,并会占据很靠前的位置,而事实上这个网页与用户的查询主题有时并不太相关。
5 PageRank 算法的改进:
继 Lawrence Page 提出 Pa
您可能关注的文档
- 信息检索专业论文-PageRank 算法4.doc
- 信息检索专业论文-PageRank算法2.doc
- 信息检索专业论文-PageRank算法3.doc
- 信息检索专业论文-PageRank算法初探.doc
- 信息检索专业论文-Pagerank算法实现.doc
- 信息检索专业论文-电商的推荐系统.docx
- 信息检索专业论文-PageRank算法.doc
- 信息检索专业论文-个性化推荐系统.doc
- 信息检索专业论文-关于PageRank算法的简单分析.doc
- 信息检索专业论文-电子商务网站推荐系统.doc
- GB/T 40096.6-2024就地化继电保护装置技术规范 第6部分:母线保护.pdf
- 《GB/T 40096.6-2024就地化继电保护装置技术规范 第6部分:母线保护》.pdf
- GB/T 43980-2024口译服务 医疗口译要求.pdf
- 中国国家标准 GB/T 43980-2024口译服务 医疗口译要求.pdf
- 《GB/T 43980-2024口译服务 医疗口译要求》.pdf
- GB/T 17215.301-2024电测量设备(交流) 特殊要求 第1部分:多功能电能表.pdf
- 《GB/T 17215.301-2024电测量设备(交流) 特殊要求 第1部分:多功能电能表》.pdf
- 中国国家标准 GB/T 17215.301-2024电测量设备(交流) 特殊要求 第1部分:多功能电能表.pdf
- 中国国家标准 GB/Z 43973-2024非介入式负荷监测(NILM)系统用感知装置.pdf
- GB/Z 43973-2024非介入式负荷监测(NILM)系统用感知装置.pdf
文档评论(0)