信息检索效率的影响因素及改善方法.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
试述信息检索效率的影响因素及改善方法 摘要:席卷而来的因特网正将整个世界的丰富信息资源带到每一个人的面前,成为知识经济时代不可缺少的重要工具。在因特网上,几乎可以找到个人所需的任何信息。为了帮助每个人顺利检索和查找网络信息,网络信息检索应运而生。 关键词:网络 信息检索 一、网络信息检索的现状 1990年以前,网络信息检索的现状是没有任何人能够检索互联网上的信息,应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年,基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Selberg人等发明。伴随着网络技术的发展,网络信息检索工具也取得了十足的发展,网络信息检索的效率问题也越来越得到了人们的重视。 关于信息检索效率的内涵,莫斯在莫斯定律(1960)中指出:“当读者在使用某信息检索系统时,若取得信息时手续的麻烦和不便程度大于其得到该信息时,该检索系统就会趋向于无人使用。”信息检索效率,不仅是影响信息检索系统价值的主要因素,还是人们评价信息检索质量的重要指标。信息检索效率是指全、准、快、便、省(检全率、检准率、检索方便性、检索成本与效益),最主要的是“全”和“准”。简而言之,信息检索效率,主要是指查找所需信息的全、准程度,即检全率和检准率。检全率是指检出相关信息记录数与系统中全部相关信息记录数之比,检准率是指检出相关信息记录数与检出全部记录数之比。 随着信息资源数字化的发展,人们在日常生活、工作和学习中越来越依赖于互联网来检索和获取各种信息;然而,由于因特网信息资源的数量庞大和分散性等特点,用户想在最短的时间内获取自己所需要的信息,却经常会感到相当困难,这主要是受到各方面因素的影响。 二、影响网络信息检索效率的因素 1、来自ICP(即是Imtemet Content Provider的简称),它是指网络信息提供者或称网站经营者。而它的影响则与检索人员素质因素息息相关。信息检索人员素质主要包括专业与外语水平、计算操作能力、学科知识结构、信息检索知识、工作经验及敬业精神等,它们在很大程度上制约着检索策略的制定。检索策略就是在分析课题内容实质的基础上,选择检索系统、检索档案、检索途径,确定检索词及相互间的逻辑关系,直到给出检索顺序的最佳实施方案等一系列的科学措施。信息检索人员,肩负着把用户提问转化为检索式的任务,是影响信息检索效率的一个重要因素。由于某些ICP为了某种目的或者为了增加其经营利润,所以在大量优质网站(如中国专利信息网、搜狐、新浪等)产生的同时,也出现部分劣质网站,具体表现在;网站内容陈旧,无特色;站点雷同,缺少创意;栏目设置混乱,无导航措施;网页缺乏规范;分类标准不统一等;虽然网站发展迅速,但具有价值的专业性或专题性网站却相当少。体现在数据库方面,高质量的专业性数据库,特别是免费的全文数据库更加有限,这些均对用户检索网络信息造成很大的影响。 标引是使文献获得检索标识,将众多无序文献转化为有序的文献集合,为读者检索提供有效的途径,因此标引结果的好坏影响数据库的质量,决定数据库的检索效率。目前有些网络数据库采用无标引检索系统,虽然降低了文献处理成本,加速文献处理速度,减轻了文献处理难度,增加了检索系统的易用性,但在一定程度上也降低了检索效率,如有些全文检索系统,查全率高,但查准率无法保证,使用户无法获得满意的检索结果。另外各网站之间缺乏规范性管理,目前还没有采用一种规范的检索语言作为统一标准,这使得网络信息资源分类缺乏一致性。由于目前网络信息收集的标准大多集中在对文档分析判断。即对采集的信息进行页面特征提取、主题分析并进行相应归类,也即是以词频和词出现位置的统计为依据;这样就为某些ICP带来可乘之机,他们故意将一些无关的主题词放置在重要的标记内,或让某些关键词重复的出现在重要的段落处,以提高其页面被检索的机率,然而这却大大地影响用户的检准率。 2、网络信息资源内容本身的因素 由于因特网具有开放性、公开性和自由性等特点,使得网上信息发布无法控制,信息泛滥;同时网络信息缺乏有效的整合,处于混乱无序状态,信息污染相当严重,良莠不齐,出现许多的信息“垃圾”,诸如网上虚假信息、失真信息、黄色淫秽信息、巫术信息、政治反动信息、暴力犯罪信息和陈旧无用信息等信息污染源等大量充斥整个信息网络,这些因素影响到网络信息检索的权威性和检索效率。同时,由于因特网的开放性和自由性,使得“电脑病毒”和“黑客”等非安全因素也经常在网络上随意流动相互传染这些非安全因素不仅威胁各国网络信息系统的安全,同时也给用户检索网络信息增加了一定难度

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档