网页表格数据采集器.doc

下载文档 降价啦

34
0
约6.73千字
约 45页
2016-12-28 发布于贵州
举报
版权申诉
保障服务

网页表格数据采集器.doc

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网页表格数据采集器篇一：网站采集器如何实现网站数据采集网站采集器如何实现网站数据采集 ? 入门篇网站采集，就是从网站页面中抽取指定的数据，人工方式就是打开网页然后开始Ctrl+C Ctrl+V的进行拷贝粘贴。人工方式采集数据最为准确，但效率最低。所以，期望计算机可以自动化的将人工操作执行，完成数据采集的工作。计算机将人工的Ctrl+C Ctrl+V自动化执行，需要一定的指导操作，譬如：计算机需要打开那个页面，拷贝哪些信息，将拷贝的信息又要粘贴到哪里？这些都是人工操作时必须制定的操作，转化到计算机，也必须知道计算机这样来进行。所以，需要配置一些规则来指导计算机的操作，这个规则的组合在网络矿工中我们称之为“采集任务”。通过上面的描述，我们知道采集任务中至少要包括网页地址、网页的拷贝数据的规则。网页的地址很容易理解，每次我们打开一个网站时，首先都是要输入一个地址，这个地址称之为“Url”，输入Url后，我们就可以浏览一个页面了。拷贝数据的规则：人工拷贝数据很简单，人工智能么，很容易识别需要采集的数据，但对于计算机，就会有些难度，计算机不知道想要采集什么数据？必须由人工告诉计算机采集数据的规则，譬如：我们需要采集文章标题，那么就需要告诉计算机如何在一个网页中识别文章标题，并准确的采集下来。在这个指导的过程中，有两种方式计算机可以理解（当然不排除还有其他的方式，譬如：计算机智能化）： 1、按照字符串获取的规则来指导计算机采集数据：一个网页是由浏览器对一个大字符串进行解析后展示的结果，这个大字符串就是网页源码，任何浏览器都可查看网页源码，打开网页源码后，在网页源码中通常（注意：是通常）都可以找到网页显示的内容，自然文章标题也可以找到，找到文章标题后，告诉计算机要采集这个标题数据，规则就是：从哪个字符开始获取到那个字符结束，举个简单例子：“<h1今天的天气很好啊</h1”这样一个字符串，我们要获取“今天的天气很好啊”，就是告诉计算机从“<h1”后面开始获取到“</h1”结束，将中间的字符采集下来，计算机就会对这个字符串进行识别，并按照定制的规则将所需要的数据获取。采集数据，就是要配置这样的规则来指导计算机将网页数据逐一采集下来； 2、还有第二种方式来指导计算机采集数据：通常（注意：又是通常）情况网页的源码是一个XML文档。XML 定义：用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言（摘自：百度百科）。这我们就知道了，网页源码是一个结构化的、具有标记识别的一种文档。这样，我们就可以通过一种方式来标记我们需要采集的数据，让计算机自动寻找并获取数据，这种方式也就是我们常见的可视化采集。可视化采集的核心是XPath信息，XPath是XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。用XPath来制定文档某个位置的数据，让计算机来采集，这样也实现了我们指导计算机采集数据的需求；综上所述，我们也就可以理解网络采集器是如何采集数据的了。不过上面所讲，只是一个入门，因为我们只是在很常见常见的情况，指导计算机完成了一个页面数据的采集，这与我们实际的应用差距还很大，譬如：成批采集数据。后面我们还会逐步是深入进行讲解。 ? 中级篇前面已经所讲，我们已经指导计算机完成了一个网页数据的采集，但对于我们实际需要来讲，我们肯定不止采集一个页面，而是要采集N多页面，对于N多个页面而言，使用计算机自动执行才有意义。对于N多个网页，我们不可能一个一个的去把Url告诉计算机，比如我们要采集上万个网页，难道要输入上万个Url，这也太不现实了。所以，我们只能找到这N多个网页的规则，用一种规则来让计算机自动解析完成N多个网页的构成。这种解析可以由集中方式： 1、按照一个可识别的规则解析，譬如：数字递增，字母递增或日期递增，举个例子： /article.aspx?id=1001，这是一个文章的Url，比较容易理解，id是url提交的参数，1001是一个参数值，代表一篇文章，那么我们就可以通过数字递增的形式来替代它，/article.aspx?id= {Num:1001,1999,1} ，这样就完成了998篇文章url的构成，系统会自动将url解析出来，{Num:1001,1999,1}是一个数字递增的参数，从1001开始递增，每次递增加1，直至1999结束。在网络矿工中提供了很多这样的参数来帮助用户完成N多url的构成； 2、有些Url并不一定可以通过一定可识别的规则来构成，那该如何？譬如： /s.aspx?area=北京，这是一个带入了地区参数的Url，全国有众多的