网页表格数据采集器.doc

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网页表格数据采集器 篇一:网站采集器如何实现网站数据采集 网站采集器如何实现网站数据采集 ? 入门篇 网站采集,就是从网站页面中抽取指定的数据,人工方式就是打开网页然后开始Ctrl+C Ctrl+V的进行拷贝粘贴。人工方式采集数据最为准确,但效率最低。所以,期望计算机可以自动化的将人工操作执行,完成数据采集的工作。 计算机将人工 的Ctrl+C Ctrl+V自动化执行,需要一定的指导操作,譬如:计算机需要打开那个页面,拷贝哪些信息,将拷贝的信息又要粘贴到哪里?这些都是人工操作时必须制定的操作,转化到计算机,也必须知道计算机这样来进行。 所以,需要配置一些规则来指导计算机的操作,这个规则的组合在网络矿工中我们称之为“采集任务”。通过上面的描述,我们知道采集任务中至少要包括网页地址、网页的拷贝数据的规则。 网页的地址很容易理解,每次我们打开一个网站时,首先都是要输入一个地址,这个地址称之为“Url”,输入Url后,我们就可以浏览一个页面了。 拷贝数据的规则:人工拷贝数据很简单,人工智能么,很容易识别需要采集的数据,但对于计算机,就会有些难度,计算机不知道想要采集什么数据?必须由人工告诉计算机采集数据的规则,譬如:我们需要采集文章标题,那么就需要告诉计算机如何在一个网页中识别文章标题,并准确的采集下来。在这个指导的过程中,有两种方式计算机可以理解(当然不排除还有其他的方式,譬如:计算机智能化): 1、 按照字符串获取的规则来指导计算机采集数据:一个网页是由浏览器对一个大字符 串进行解析后展示的结果,这个大字符串就是网页源码,任何浏览器都可查看网页源码,打开网页源码后,在网页源码中通常(注意:是通常)都可以找到网页显示的内容,自然文章标题也可以找到,找到文章标题后,告诉计算机要采集这个标题数据,规则就是:从哪个字符开始获取到那个字符结束,举个简单例子:“<h1今天的天气很好啊</h1”这样一个字符串,我们要获取“今天的天气很好啊”,就是告诉计算机从“<h1”后面开始获取到“</h1”结束,将中间的字符采集下来,计算机就会对这个字符串进行识别,并按照定制的规则将所需要的数据获取。采集数据,就是要配置这样的规则来指导计算机将网页数据逐一采集下来; 2、 还有第二种方式来指导计算机采集数据:通常(注意:又是通常)情况网页的源码 是一个XML文档。XML 定义:用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言(摘自:百度百科)。这我们就知道了,网页源码是一个结构化的、具有标记识别的一种文档。这样,我们就可以通过一种方式来标记我们需要采集的数据,让计算机自动寻找并获取数据,这种方式也就是我们常见的可视化采集。可视化采集的核心是XPath信息,XPath是XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。用XPath来制定文档某个位置的数据,让计算机来采集,这样也实现了我们指导计算机采集数据的需求; 综上所述,我们也就可以理解网络采集器是如何采集数据的了。不过上面所讲,只是一个入门,因为我们只是在很常见常见的情况,指导计算机完成了一个页面数据的采集,这与我们实际的应用差距还很大,譬如:成批采集数据。后面我们还会逐步是深入进行讲解。 ? 中级篇 前面已经所讲,我们已经指导计算机完成了一个网页数据的采集,但对于我们实际需要来讲,我们肯定不止采集一个页面,而是要采集N多页面,对于N多个页面而言,使用计算机自动执行才有意义。 对于N多个网页,我们不可能一个一个的去把Url告诉计算机,比如我们要采集上万个网页,难道要输入上万个Url,这也太不现实了。所以,我们只能找到这N多个网页的规则,用一种规则来让计算机自动解析完成N多个网页的构成。这种解析可以由集中方式: 1、 按照一个可识别的规则解析,譬如:数字递增,字母递增或日期递增,举个例子: /article.aspx?id=1001,这是一个文章的Url,比较容易理解,id是url提交的参数,1001是一个参数值,代表一篇文章,那么我们就可以通过数字递增的形式来替代它,/article.aspx?id= {Num:1001,1999,1} ,这样就完成了998篇文章url的构成,系统会自动将url解析出来,{Num:1001,1999,1}是一个数字递增的参数,从1001开始递增,每次递增加1,直至1999结束。在网络矿工中提供了很多这样的参数来帮助用户完成N多url的构成; 2、 有些Url并不一定可以通过一定可识别的规则来构成,那该如何?譬如: /s.aspx?area=北京,这是一个带入了地区参数的Url,全国有众多的

文档评论(0)

raojun0011 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档