parallel()

阅读(6) 标签: parquet, 分区, 分段,

描述:

读取带分区的parquet格式数据。

语法:

f.parallel([col,…]; [partitionFilter/...]; [colFilter]; [n])

备注:

外部库函数,外部库的使用请参考《外部库使用指南》。

分段并行读取带分区的parquet格式数据,且各分区内数据有序。

参数:

f

文件对象。

col

读出的字段,缺省返回表中所有字段。

partitionFilter

分区过滤条件,使用k=v结构,如year=2024year=2023/month=10

colFilter

字段过滤条件,可使用的比较符号有>,>=,<,<=,=,!=, not,in, like;

n

正整数,表示读取n条记录,缺省返回所有数据;使用@c时当前参数无效。

选项:

@c

返回游标。

返回值:

序表

示例:

 

A

 

1

=file("F:/tmp/mytest.parquet")

打开本地parquet格式数据文件。

2

=A1.parallel()

读取文件,返回所有字段。

3

=A1.parallel@c()

返回游标。

4

=file("hdfs://localhost:9000/user/hive/warehouse/test1")

 

5

=A4.parallel("id","product","store";"year=2023/month=10";"product < 20";10)

year=2023month=10的分区中,读取指定字段,且只返回符合过滤条件的前10条记录。