描述:
抓取网页数据。
web_crawl(jsonStr)
备注:
外部库函数,外部库的使用请参考《外部库使用指南》。
抓取网页数据。
参数:
jsonStr |
定义规则的字符串,抓取数据时,根据定义规则遍历URL、下载、提取、保存相关内容数据。 json书写结构细节:节点{}中的 []表示list列表,节点{}中的{}表示 map键值结构,书写时要注意,此处易引起解析错误。 规则简要说明: web_info:网站信息,根据要下载的网站设置域名、本地存储位置、用户代理信息、用户自定义程序等相关的信息; init_url:初始网址,URL遍历的入口网址; help_url:网址页,定义网址页规则,收集网页内容中的 URL,但不提取此页面数据内容; target_url:下载页,定义下载页规则,收集网页内容中的 URL,同时也提取此页面的内容; page_url:提取数据,定义页面内容提取规则,在下载页 target_url 中根据此规则提取内容。 |
返回值:
Boolean值
示例:
|
A |
|
1 |
[{web_info:{save_path:'d:/tmp/data', save_post:'false'}},{init_url:['http://www.aigaogao.com/tools/history.html?s=600000']},{page_url:{extractby: "//div[@id='ctl16_contentdiv']/",class:'default'}}] |
json字符串。 |
2 |
=web_crawl(A1) |
抓取网页数据。 |
3 |
=file("D:/tmp/data/600000.txt").import@cqt() |
将抓取的数据保存到本地。 |