搜索引擎工作原理要点解析.ppt

下载文档 降价啦

7
0
约4.46千字
约 30页
2016-04-23 发布于湖北
举报
版权申诉
保障服务

搜索引擎工作原理要点解析.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

用户行为用户行为主要包括：搜索：用户获得信息的过程，通过这个用户行为，学习新词汇，丰富辞典点击：用户对搜索结果的反应，被点击的次数越多，说明越重要，权重越高为避免马太效应，对排在后面的链接的点击的权重补偿了解搜索引擎的工作原理，主要是为了做自己的seo，根据搜索引擎的需求让自己的网页被更好的收录。根据链接不断地进行收录，理论上是可以收录所有的网页，但实际上收录的网页比率是越来越小，因为现在的网站资源是越来越多，互联网上每天都会产生很多的信息，像各类交友网站、各个论坛、微博等等，这里产生的数据每天都是海量的！最开始你新建的网站可以让别人或者你的朋友已经建立的网站链接你的网站，那就有可能当爬虫找到你朋友的网站时就可以通过链接找到你的网站，也可以主动出击提交网站。这里给学生实际动手的时间，让学生操作两个提交页面。文件类型，因为爬虫可以pdf、doc、ppt等文件，不只是html文件。一个段落切分成句子比较简单，因为有标点符号，然后将句子切分成单词；例子（果然造句）：小明先吃了一个苹果，然后吃了一根香蕉；（的地得造句）：我家的地得打扫了；例如（统计分词）：亚克蜥（百度十大神兽）凤姐犀利哥酱紫草泥马关于早期图书馆借书的例子，也是建立一个索引；李彦宏的例子，北大专业是图书馆检索，与搜索引擎有很大的关系的。学生信息一览表 <h1><h2>加粗，加强，斜体等等权重标签比如写了一篇关于培训的文章，在上面添加了相关的一些链接，比如说东方标准，那你就有可能点进东方标准的网站。 (1)先对用户提供的查询条件进行切词，并删除查询条件中没有意义的字或词，例如的，的地得（in/on/for/by）等停用词;(2)再以切词结果作为条件在关键字反向索引列表中进行匹配；(3)如果存在匹配结果，则把所有与关键字相匹配的页面组成一个列表；(4)最后，把匹配的页面按照权重值从高到低进行排序，并返回给用户。用户的搜索及点击行为中蕴含着非常丰富和重要的信息。例如，在用户搜索行为中包含了“提交的关键字”,“提交时间”，“用户IP地址”等信息，而在点击行为中则包含了“每个结果的点击次数”等信息.搜索引擎通过对用户行为的分析可以进一步发掘用户的需求，提高搜索结果的精准度。众所周知，搜索结果中越靠前的链接得到点击几率就会越高。按照这样的逻辑，那么第二，第三甚至第四的页面被点击的要会就变得的越来越小，但这并不代表这些页面就不比排在前面的页面重要，只是在目前的排序中，用户还没机会发现它们而已。所以，对于不同位置上链接的点击，搜索引擎会对其权重进行相应的补偿。假设排在第一位的结果每被点击一次，会产生1分的补偿，而排在100名的结果被点击一次，则产生10分甚至更多的补偿。 * 第3讲搜索引擎工作原理 * 3.1 搜索引擎的发展 Archie WWW Wanderer Lycos Yahoo Google Baidu * 搜索引擎发展历史元搜索引擎 1995 Yahoo! 1994 Gopher 1993 Archie 1990 第二代搜索目录搜索 Google 1996 Baidu 1999 …… 第三代搜索网页搜索 Archie(1990) 1990年，加拿大蒙特利尔的麦吉尔大学（McGill University）的三位学生Alan Emtage、Peter Deutsch、Bill Wheelan发明了Archie。自动索引Internet上匿名的免费FTP文件信息，并提供一种根据文件名称查询文件所在FTP地址的方法第一个FTP搜索引擎没有机器人（Robot）程序 WWW Wanderer（1993）世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。开始它只用来统计互联网上的服务器数量，后来则发展为能够检索网站域名。在其基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。设想：既然所有网页都可能有连向其他网站的链接，那么从跟踪一个网站的链接开始，就有可能检索整个互联网。 Lycos(1994) Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序而形成 Lycos是下一代搜索的主要发展，它是1994年7月在卡内基梅隆大学设计的。到1994年8月，Lycos识别了394000个文件,比其他搜索引擎都多。在1994年10月，在Netscape列出的搜索引擎里，Lycos排名第一。第二代：Yahoo Yet　Another　Hierarchical　Officious　Oracle 斯坦福（Stanford）大学的两名博士生，David Filo和美籍华人杨致远（Gerry Yang）共同创