描述:
抓取网页数据。
web_crawl(jsonStr)
备注:
WebcrawlCli外部库函数,外部库的使用请参考《外部库使用指南》。
抓取网页数据。
参数:
| jsonStr | 定义规则的字符串,抓取数据时,根据定义规则遍历URL、下载、提取、保存相关内容数据。 json书写结构细节:节点{}中的 []表示list列表,节点{}中的{}表示 map键值结构,书写时要注意,此处易引起解析错误。 规则简要说明: web_info:网站信息,根据要下载的网站设置域名、本地存储位置、用户代理信息、用户自定义程序等相关的信息; init_url:初始网址,URL遍历的入口网址; help_url:网址页,定义网址页规则,收集网页内容中的 URL,但不提取此页面数据内容; target_url:下载页,定义下载页规则,收集网页内容中的 URL,同时也提取此页面的内容; page_url:提取数据,定义页面内容提取规则,在下载页 target_url 中根据此规则提取内容。 | 
返回值:
Boolean值
示例:
| 
 | A | 
 | 
| 1 | [{web_info:{save_path:'d:/tmp/data', save_post:'false'}},{init_url:['http://www.aigaogao.com/tools/history.html?s=600000']},{page_url:{extractby: "//div[@id='ctl16_contentdiv']/",class:'default'}}] | json字符串。 | 
| 2 | =web_crawl(A1) | 抓取网页数据。 | 
| 3 | =file("D:/tmp/data/600000.txt").import@cqt() | 将抓取的数据保存到本地。 |