润乾产品文档

文档总览
数据类型
操作符
数学
字符串
日期时间
序列
序表
循环函数
关联运算
文件
数据库
游标
程序语句
系统与接口
集群
图形
外部库

阿里云

Avro

Cassandra

Cdc

多维数据库

Dynamodb

ElasticSearch

Financial

Ftp

Gcs

Hbase

Hdfs

Hive

Influxdb

Informix

Kafka

Math

Mongo

Oss

R2dbc

Redis

Report5

ReportLite

S3

Salesforce

Sap

Spark

Was

Webcrawl

Webservice

Ymodel

Zip
组表
远程服务
简单 SQL
Function

#arg

#@

#c

$( d)dql...

$(db)sql;…

${macroExp}

=expression

>statement

[a:b]

@

@x:…

~(i)

A()

A. (x,…)

[a1,…,an]

abs()

acos()

acosh ()

aes()

age()

align()

ali_ open ()

ali_close()

ali_query()

alter()

and ()

append()

argpost

arguments (spl)

array()

asc ()

asin()

asinh()

atan()

atanh()

attach()

avg()

base64 ()

between()

bi()

bits()

bit1(x)

bit1(x,y)

blob ()

bool ()

break {a}

C

Cr()

calc()

call()

call path/spl( … )

calls path/spl( … )

callx()

cand()

canvas()

case()

cdc_collect()

cdc_merge()

ceil()

cellname()

cgroups()

ch. ()

channel()

char()

chardetect()

charencode()

chi_p ()

chi2inv()

chn()

clear()

clipboard ()

close()

cmp()

cmps ()

cor ()

comabs ()

comangle ()

combin()

comconj ()

comexp ()

comimage()

commit()

compair ()

complex()

comreal ()

comsign ()

comstr ()

comunwrap ()

concat()

conj()

connect()

contain()

corskew()

cos()

cosh()

count ()

cov()

covm()

create()

cs.(x)

cuboid()

cum()

cumulate()

cursor()

date()

datederive()

dateinterval()

datetime()

day()

days()

decimal()

delete()

deq()

des ()

desede ()

derive()

det()

diff( )

digits()

directory()

dis()

dism()

dql()

dup()

dynadb.close()

dynadb.execute ()

dyna_open()

dynadb.query()

dynadb.table ()

E()

E()

elapse()

elasticnet()

end s

enum()

env()

eq()

error()

eval()

es_close ()

es_delete ()

es_export ()

es_head ()

es_open ()

es_get ()

es_post ()

es_put ()

exec()

execute()

exists()

exp()

export()

exportavro ()

eye()

f@o(…)

Faccrint()

Faccrintm()

fact()

false

Fcoupcd()

Fcoups()

Fdb()

Fddb()

Fdisc()

Fduration()

fetch()

field()

file()

filename ()

fill()

fillcons ()

fillfun ()

fillmthd()

find()

Fintrate()

finv()

Firr()

fisher_p()

fjoin()

float()

floor()

Fmirr()

fname()

fno()

Fnper ()

Fnpv()

for

fork

format()

Fpmt()

Fprice()

Frate()

Freceived()

freq ()

Fsln()

Fsyd()

ftp_cd()

ftp_open()

ftp_close()

ftp_dir()

ftp_get()

ftp_mget()

ftp_mput()

ftp_put()

func()

Fv()

Fvdb()

Fyield()

get()

gcd()

gcs_ bucket ()

gcs_ close ()

gcs_ copy ()

gcs_ file ()

gcs_ list ()

gcs_ open ()

goto C

group()

groupc()

groupi()

groupn()

groups()

groupx()

gzip ()

hash ()

hbase_close()

hbase_cmp()

hbase_filter()

hbase_filterlist()

hbase_get()

hbase_open()

hbase_rest()

hbase_scan()

hdfs_open()

hdfs_close()

hdfs_dir()

hdfs_download()

hdfs_exists()

hdfs_file()

hdfs_upload()

hdfs_write ()

hive_open ()

hive_close()

hive_cursor()

hive_db ()

hive_execute ()

hive_query()

hive_table ()

hosts()

hour()

htmlparse ()

httpfile()

httpupload()

I ()

i()

icursor()

icount ()

id()

if

if()

ifa()

ifdate()

ifind()

ifn()

ifnumber()

ifpure()

ifr()

ifstring()

ift()

iftime()

ifv()

ifx_close()

ifx_conn()

ifx_cursor()

ifx_listfrag()

ifx_savefrag()

ifx_setfrag()

ifx_takefrag()

import()

importavro ()

impute()

index()

inf()

influx_close ()

influx_insert ()

influx_open ()

influx_query ()

influx2_close()

influx2_delete()

influx2_open()

influx2_query()

influx2_rest()

insert()

int()

interval()

inv()

inverse()

invoke()

isalpha ()

isdigit()

isect()

iselect()

islower()

ismiss ()

ismissm ()

isolate()

isupper()

iterate()

j()

join()

joinx()

json()

jvm()

k()

kafka_close()

kafka_commit()

kafka_offset ()

kafka_open()

kafka_poll()

kafka_send ()

key()

keys()

kmeans()

lasso ()

lcm ()

left()

len()

lg()

like()

linefit()

lineplan ()

ln()

load()

lock()

long()

lower()

m()

mae()

makimamthd()

max()

maxp()

mcumsum()

md5()

median()

memory()

merge()

mergex()

mfind()

mi()

mid()

millisecond()

min()

minp()

minute()

mmean()

mnorm()

mode()

modify()

mongo_close()

mongo_open ()

mongo_shell()

month()

movefile()

movmthd ()

mul()

mse()

mstd()

msum()

mvp()

n.f(x)

name()

new()

news()

next {a}

nodes()

norm()

norminv()

not ()

now()

ntile()

null

number()

numnorm()

nvl()

o()

olap_close()

olap_open ()

olap_query ()

ones()

open()

or()

orc()

oss_ bucket ()

oss_ close ()

oss_ copy ()

oss_ file ()

oss_ list ()

oss_ open ()

output()

p()

pad()

parallel()

parquet()

parse()

paste ()

pca ()

pchipmthd ()

pdate()

pearson ()

penum()

periods()

permut()

pfind()

pi()

pivot()

pjoin()

pls()

pmax()

pmin()

polyfit()

pos()

power()

prior()

proc()

product()

proportion()

property()

pseg()

pselect()

pseudo()

psort()

ptop()

push()

Qconnect()

Qdirectory ()

Qenv()

Qfile()

Qload()

Qlock()

Qmove()

query()

r(T,F)

r.(x,…)

r.F

r.F=x

r2dbc_close()

r2dbc_exec()

r2dbc_open()

r2dbc_query()

rand ()

rands()

range()

rank()

ranki()

rankm ()

ranks()

read()

record()

redis_close ()

redis_command()

redis_open ()

regex()

register()

remainder()

rename()

replace ()

report_config()

report_export()

report_export()

report_insert()

report_open()

report_open()

report_replace()

report_run()

report_write()

reportlite_config()

reportlite_export()

reportlite_export()

reportlite_insert()

reportlite_open()

reportlite_open()

reportlite_replace()

reportlite_run()

reportlite_write()

reset()

result

return xi

rgb()

ridge()

right()

rmmiss ()

rmmissdim ()

rollback()

round()

row()

rsa ()

run()

rvs()

s3_ bucket ()

s3_ close ()

s3_ copy ()

s3_ file ()

s3_ list ()

s3_ open ()

sap_client()

sap_close()

sap_cursor()

sap_execute()

sap_getparam()

sap_table()

savepoint()

sbs()

scriptsave()

se()

second()

segp()

select()

seq()

sert()

setenum()

sf_close()

sf_open ()

sf_query ()

sf_wsdlclose ()

sf_wsdlopen ()

sf_wsdlquery ()

sf_wsdlview ()

sg ()

shift()

sign()

sin()

sinh()

size()

skew ()

skip()

sleep()

smooth()

sort()

sortx()

spark_hudi ()

spark_ open()

spark_close()

spark_query()

spark_read()

spark_shell ()

spearman ()

splinemthd ()

split()

splserver ()

sqlparse()

sqltranslate ()

substr ()

stax_close()

stax_open()

stax_cursor()

stax_query()

sqrt()

step()

string()

structure

sum()

svm()

swap()

switch()

syncfile(hs,p)

system()

T()

tarcorskew()

tan()

tanh()

time()

tinv()

to()

top()

total()

transpose()

trim()

true

try

ttest_p ()

typeof(x)

union( )

update()

upper ()

urlencode()

uuid()

v()

var()

was_ bucket ()

was_ close ()

was_ copy ()

was_ file ()

was_ list ()

was_ open ()

web_crawl()

webhdfs()

webhdfs_file()

words()

workday()

workdays()

write()

ws_call()

ws_client()

xjoin()

xjoinx()

xlscell()

xlsclose()

xlsexport ()

xlsimport ()

xlsmove()

xlsopen()

xlswrite()

xml()

xor()

xunion( )

year()

ym2_close ()

ym2_env ()

ym2_mcfload ()

ym2_model ()

ym2_pcfload ()

ym2_pcfsave ()

ym2_predict()

ym2_result()

zeros()

zip()

zip_add()

zip_close()

zip_compress()

zip_del()

zip_encrypt()

zip_extract()

zip_open()

交列

关系运算

十六进制长整数

取余求整

和列

四则运算

复合赋值

字符串

字符串拼接

对位运算

差列

并列

序列乘

序表常数

记录常数

异或列

循环函数中的表达式书写规则

批运算

标识符

相反数

空列

赋值

赋值计算

转义符

逻辑运算

长整数

单元格类型

代码块类型

代码注释
图元

G.draw()

G.hlink ()

G.plot ()

图元参数

前一篇 | 后一篇

web_crawl()

阅读（2672）点赞（5）标签: 抓取, 网页,

描述：

抓取网页数据。

语法：

web_crawl(jsonStr)

备注：

外部库函数，外部库的使用请参考《外部库使用指南》。

抓取网页数据。

参数：

jsonStr

定义规则的字符串，抓取数据时，根据定义规则遍历URL、下载、提取、保存相关内容数据。

json书写结构细节：节点{}中的 []表示list列表，节点{}中的{}表示 map键值结构，书写时要注意，此处易引起解析错误。

规则简要说明：

web_info：网站信息，根据要下载的网站设置域名、本地存储位置、用户代理信息、用户自定义程序等相关的信息；

init_url：初始网址，URL遍历的入口网址；

help_url：网址页，定义网址页规则，收集网页内容中的 URL，但不提取此页面数据内容；

target_url：下载页，定义下载页规则，收集网页内容中的 URL，同时也提取此页面的内容；

page_url：提取数据，定义页面内容提取规则，在下载页 target_url 中根据此规则提取内容。

返回值：

Boolean值

示例：

	A
1	[{web_info:{save_path:'d:/tmp/data', save_post:'false'}},{init_url:['http://www.aigaogao.com/tools/history.html?s=600000']},{page_url:{extractby: "//div[@id='ctl16_contentdiv']/",class:'default'}}]	json字符串。
2	=web_crawl(A1)	抓取网页数据。
3	=file("D:/tmp/data/600000.txt").import@cqt()	将抓取的数据保存到本地。