parquet()

阅读(5) 标签: parquet, 列读取, hdfs,

描述:

读取parquet格式的数据。

语法:

f.parquet([col,…];[filter];[n])

备注:

外部库函数,外部库的使用请参考《外部库使用指南》。

读取本地或hdfsparquet格式的数据。

参数:

f

文件对象。

col

读出的字段,缺省返回表中所有字段。

filter

过滤条件,可使用的比较符号有>,>=,<,<=,=,!=, not,in, like等;使用选项@v时当前参数无效。

n

正整数,表示读取n条记录,缺省返回所有数据;使用选项@c时当前参数无效。

选项:

@c

返回游标。

@m

并行读取数据,与@c同时使用表示多游标读取。

@v

列读取数据,读取大数据时可提高效率;缺省为行读取。列读取不支持复合数据结构类型。

返回值:

序表

示例:

 

A

 

1

=file("F:/tmp/mytest.parquet")

打开本地parquet格式数据文件。

2

=A1.parquet()

读取文件,返回所有字段。

3

=A1.parquet@v()

列读取数据。

4

=file("hdfs://localhost:9000/user/hive/warehouse/test1.parquet")

打开hdfsparquet格式数据文件。

5

=A4.parquet("id","product","store";"id < 20";10)

读取指定字段,且只返回符合过滤条件的前10条记录。

6

=hive_open("hdfs://localhost:9000","thrift://localhost:9083","hive","asus")

连接hive数据库。

7

=hive_table@p(A6)

查询所有parquet类型的表。

8

=A7.select(tableName=="myParquet")

选中myParquet表。

9

=file(A8.location)

加载hdfs文件。

10

=A9.parquet(;;10)

读取表中的数据,且只返回前10条记录。

11

=A9.parquet@cm()

多游标读取数据。

12

=A11.fetch(10)

返回结果与A10相同。

13

=hive_close(A6)