Webcrawl

阅读（1685）点赞（0）标签: webcrawlcli,

集算器中提供了WebcrawlCli外部库接口，用户可以通过该外部库进行网页中数据的抓取，部署方法如下：

1. WebcrawlCli外部库文件路径为：[安装目录]\esProc\extlib\WebcrawlCli；润乾外部库核心jar为scu-webcrawl-cli-2.10.jar。

accessors-smart-1.2.jar

asm-5.0.4.jar

assertj-core-1.5.0.jar

commons-codec-1.9.jar

commons-collections-3.2.2.jar

commons-io-1.3.2.jar

commons-lang3-3.1.jar

commons-logging-1.2.jar

commons-pool2-2.4.2.jar

fastjson-1.2.28.jar

hamcrest-core-1.3.jar

httpclient-4.5.2.jar

httpcore-4.4.4.jar

jedis-2.9.0.jar

json-path-2.4.0.jar

json-smart-2.3.jar

jsoup-1.10.3.jar

log4j-1.2.17.jar

slf4j-api-1.7.6.jar

slf4j-log4j12-1.7.6.jar

webmagic-core-0.7.3.jar

webmagic-extension-0.7.3.jar

xsoup-0.3.1.jar

注：以上第三方依赖jar，外部库压缩包中默认已放置，用户可根据实际应用环境灵活使用。

2. WebcrawlCli要求java环境为jre1.7及以上版本，若集算器自带的jre版本不满足版本要求，则需要用户自己安装高版本jre，并在[安装目录]\esProc\bin\config.txt文件中配置java_home，否则此步可以省略。

3. 使用网页数据抓取功能时可用的外部库函数有web_crawl()。函数用法请参考【帮助】-【函数参考】。