spark_hudi ()

阅读(3) 标签: 查询, hudi, 时间戳,

描述:

以文件读取方式查询Hudi表中的数据。

语法:

spark_hudi(con,tableName, [startTime], [endTime])

备注:

外部库函数,外部库的使用请参考《外部库使用指南》。

以文件读取方式查询Hudi表中的数据。Hudi支持以下三种查询类型:快照查询、增量查询和读优化查询,缺省为快照查询。

startTimeendTime参数仅在使用@i选项时生效,对Hudi表自动生成的字段_hoodie_commit_time设置区间查询,格式为yyyyMMddHHmmssSSS。两参数都存在时,按照左闭右开的区间取值。

参数:

con

数据库连接串,支持Hudi格式Spark连接和与S3关联的Hudi格式Spark连接。

tableName

表名。与.properties配置文件中warehouse参数组成url,比如:hdfs://localhost:9000/user/hive/warehouse/tableName,表示此表在hdfs中的位置。

startTime

起始时间,缺省表示0

endTime

结束时间,缺省表示当前时间。

选项:

@i

增量查询。

@o

读优化查询。

@d

不显示Hudi表自动生成的字段。

返回值:

序表

示例:

 

A

 

1

=spark_open("hudi.properties")

连接Hudi格式的Spark数据库。

2

=spark_hudi(A1, "huditb1")

快照查询。

3

=spark_hudi@i(A1, "huditb1","20250426150362624","20250427164306435")

增量查询,返回指定时间内的数据。

4

=spark_hudi@i(A1, "huditb1",,"20250427164306435")

返回0到指定结束时间的数据。

5

=spark_hudi@id(A1, "huditb1","20250427164306435")

返回指定起始时间到当前时间的数据,并且不显示hudi表自动生成的字段。

6

>spark_close(A1)

 

7

=spark_open("hudi-s3.properties")

连接与S3关联的Hudi格式的Spark数据库。

8

=spark_hudi@o(A7, "huditb1")

读优化查询。

9

>spark_close(A7)