|
网络矿工采集器支持可视化规则配置,从导航规则、翻页规则及采集数据的规则全满都支持可视化的配置操作。
可视化的配置是一种所见即所得的配置方法,即用户通过内置的浏览器可以打开需要采集数据的网站,用鼠标选择需要采集的数据即可实现规则的配置,用户无需再去关注配置的前后标志或正则的问题,详细的配置方法可参见可视化配置教程。
但可视化并非可以配置所有的网站,存在部分网站的信息是无法通过可视化去实现的。在此我们有必要简单的了解一些相关的技术。网页的源码可以看成是一个xml文件,在网页显示的内容都是一个完整的节点,我们采集的数据通常都可以用一个节点来获取到信息。每个节点在这个xml文档中都可以通过xpath来去指引。
所以,如果要使用可视化采集数据,必须网页源码是一个合法的xml文档,同时采集的信息在这个xml文档的节点中。
有些网站在数据请求时,通过了一些技术方法,需要采集的数据并不包含在此网页中,而是通过其他的网址将数据请求回来,数据的格式可能是一个文本、json或xml形式,通过js函数解析后,在页面中显示。
遇到此类情况,网络矿工的可视化配置可能会失效。这是因为网络矿工并不包含js引擎,无法解析js函数将请求回来的数据正确的解析到网页源码中。
但如果大家使用过浏览器的开发者工具,就会发现,利用浏览器的开发者工具可以或者以上所说的节点信息,这是因为浏览器都内置了js引擎,可以将数据正确的请求回来并通过js引擎的解析将数据显示。
可视化配置是一种便捷的配置方式,应该说在采集过程中,可视化配置可以完成我们采集的大部分工作,所以,建议首先掌握可视化配置的方法。
|
|