常见的《信息检索与利用》课件6.ppt

  1. 1、本文档共100页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
常见的《信息检索与利用》课件6

北京交通大学出版社《信息检索教程》(Information Retrieval Textbook)系列课件 《信息检索与利用》系列课件 1 互联网搜索引擎 搜索引擎的工作原理 搜索器也称为蜘蛛系统(Spider)或爬虫系统(Crawler),其功能是遵循一定的协议,在互联网中及时搜索和发现新的网页信息,并更新索引数据库,避免死链接。 分析器借助词频统计、词语位置认定和一些特殊算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。 索引器根据分析器生成的关键词,建立从关键词到网页URL的关系索引倒排文档,即建立索引数据库。 检索器根据用户输入的提问词,在索引数据库中进行匹配运算,然后将查询结果按相关程度排序。 用户接口接收并解释用户输入的检索提问,最后将检索器查询的结果输出。 搜索引擎的检索功能 通用搜索引擎 —— 百度 基本检索 高级搜索语法 调整搜索结果 百度快照 通用搜索引擎 —— Google 检索界面 高级搜索语法 “手气不错” 调整搜索结果 网页快照 Google学术搜索 提供众多学科和资料来源,包括: 学术著作出版商(如“万方”、CNKI、维普中的部分内容) 大学等学术团体的作品 公开的学术刊物 专业类报纸的电子版 其他网络上可以搜索到的学术文章 学术搜索结果 结果排序综合考虑每篇文章的内容、作者、发表的刊物以及被其他学术文章引用的次数等要素,相关度越高的文章在结果列表中的位置越靠前,如果点击结果列表上方的“最新文章”则按文章的发表时间排序 每条记录中显示的项目充分考虑到使用者的需要,包括:标题、被引用次数、相关文章、图书馆搜索、网页搜索等 通用搜索引擎--MSN 由微软编制,大部分数据来源于搜索提供商Inktomi的数据库以及Looksmart的人工分类体系,微软的电子百科全书和广告合作商提供的信息也在其中。其资源类型包括网页、黄页白页信息、新闻、地图、音乐、星座和求职信息等。 检索功能 基本检索:   基本同Google。不同的是:支持完全布尔检索、不支持截断检索、区分大小写。 网页特色检索: 特殊文档检索  比如能检索微软Office文 档,高级检索中更多的文档限定,或者使用feature:*** 字段检索和各种限定检索(高级检索界面) 特色: 高级检索中能为用户提供多媒体信息参考源,区分大小写,检索人名、地名和专业词汇优于其他引擎 通用搜索引擎—— AltaVista 检索功能 支持自然语言搜索,检索提问可以是单词、词组或短语以及完整的问题,词组或短语应置于双引号中 检索词前面加“+”表示该词一定要出现在搜索结果中,加“-”则表示该词一定不要出现在搜索结果中 检索时区分大小写:当以大写字母查询时默认为精确匹配,而输入小写字母则同时查询大、小写 采用“*”作为通配符,1个“*”号最多可以代替5个小写字母 支持布尔逻辑算符,并以“NEAR”表示靠近关系,即两个关键词间的单词数少于10个 2、中国搜索 资源包括2亿网页、分类目录、新闻、区域、网站、多万首70mp3歌曲、2亿多张图片、商品搜索、游戏、和行业数据库等 检索功能: 基本同百度、用“/”表示OR、仅对site字段做检索,即在网址前加site:搜索具体网站内的网页 网页目录 分类主题一体化查询 行业搜索 开创了搜索引擎行业特性分类、关键字分类搜索的先河。 3、3721, 用实名搜索而不需要用网址。查询非普通网页比其他引擎好。 4、天网,http:// 仅支持“与”, 用空格 “”执行词组检索 太常用的词被忽略 不区分大小写 分类主题一体化查询 5、其他中文搜索引擎 元搜索引擎 —— Dogpile 检索功能 每一条搜索结果都综合自数个搜索引擎,收到查询提问首先并行地调用Google、Yahoo、MSN、Ask Jeeves等4个源搜索引擎,如果没有得到10个以上的结果,再调用另外的搜索引擎 采用先进的自动聚类技术,对来自源搜索引擎的结果进行相关性比较,聚合生成并提供最符合查询提问的无重复的结果列表 支持“AND”、“OR”、“NOT”等逻辑运算和优先运算符“()”、精确搜索符“""”、通配符“*”、临近搜索符“NEAR”等 支持“filetype:”、“intitle:”、“inurl:”、“link:”等搜索语法,并能将其转化为符合源搜索引擎的相应搜索语法 通过“Preferences”可以进行个人搜索习惯设置 目录型网络检索工具 目录型网络检索工具概述 因特网目录型检索工具一般称为网络资

文档评论(0)

tianebandeyazi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档