侵略者网页数据采集系统技术白皮书.pdf

侵略者网页数据采集系统技术白皮书.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
侵略者 WEB数据采集系统 V3.0.1 技 术 白 皮 书 Copyright ? 2005-2010 All Rights Reserved侵略者软件 目 录 目 录 1 一 . 概述 2 二 . 典型应用 3 1. 政府机关 3 2. 企业 3 3. 新闻媒体 4 4. 应用系统 4 三 . 系统构架 5 1. 工作过程描述 5 2. 采集管理服务器 5 3. 采集服务器群组 5 四. 系统功能 8 五 . 技术特点 9 六 . 系统优势 10 1. 精确度高 10 2. 易用性好 10 3. 灵活性强 10 4. 实施部署容易 11 5. 采集内容全面 11 6. 抓取速度快 11 7. 性能指标 11 七 . 维护管理监控 11 八 . 名词解释 12 九 . 系统环境要求 13 一. 概述 面对互联网海量的信息, 政府机关、 企事业单位和研究机构都迫切希望获取 与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要 了。如果采用原始的手工收集方式, 费时费力且毫无效率,面对越来越多的信息 资源,劳动强度和难度可想而知。 因此,现代的政府和企业都迫切需要一种能够 提供高质量和高效运作的信息采集解决方案。 本系统针对不同行业用户的应用需求,以抓取互联网或者内部网信息为目 的,实现在用户自定义规则下, 自动从互联网中抓取指定信息。抓取的信息可存 入独立数据库或通过接口发送至其他系统, 用于内部使用或外网发布, 实现信息 及时全面的共享。 随着用户对信息获取速度的要求,很多网站开始做面向各行各业的垂直搜 索引擎,垂直搜索引擎最核心的就是准确及时的获取数据源。本系统的设计目 标就是为了满足这个需求。给垂直搜索引擎提供准确及时是数据采集服务。 本系统同样能够给信息类网站提供内容采集服务,以快速提高网站的信息 量。 二. 典型应用 1. 政府机关 实时跟踪、采集与业务工作相关的信息来源。 全面满足内部工作人员对互联网信息的全局观测需求。 及时解决政务外网、政务内网的信息源问题,实现动态发布。 快速解决政府主网站对各地级子网站的信息获取需求。 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有 效沟通。 节约信息采集的人力、物力、时间,提高办公效率。 2. 企业 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利 器。 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存 储、挖掘的相关费用,是提高企业核心竞争力的关键。 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管 理为核心的“竞争情报数据仓库” ,是提高企业核心竞争力的神经中 枢。 3

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地湖北
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档