描述:
以文件读取方式查询Hudi表中的数据。
语法:
spark_hudi(con,tableName, [startTime], [endTime])
备注:
外部库函数,外部库的使用请参考《外部库使用指南》。
以文件读取方式查询Hudi表中的数据。Hudi支持以下三种查询类型:快照查询、增量查询和读优化查询,缺省为快照查询。
startTime和endTime参数仅在使用@i选项时生效,对Hudi表自动生成的字段_hoodie_commit_time设置区间查询,格式为yyyyMMddHHmmssSSS。两参数都存在时,按照左闭右开的区间取值。
参数:
con |
数据库连接串,支持Hudi格式Spark连接和与S3关联的Hudi格式Spark连接。 |
tableName |
表名。与.properties配置文件中warehouse参数组成url,比如:hdfs://localhost:9000/user/hive/warehouse/tableName,表示此表在hdfs中的位置。 |
startTime |
起始时间,缺省表示0。 |
endTime |
结束时间,缺省表示当前时间。 |
选项:
@i |
增量查询。 |
@o |
读优化查询。 |
@d |
不显示Hudi表自动生成的字段。 |
返回值:
序表
示例:
|
|
|
|
|
连接Hudi格式的Spark数据库。 |
|
|
快照查询。 |
|
=spark_hudi@i(A1, "huditb1","20250426150362624","20250427164306435") |
增量查询,返回指定时间内的数据。 |
|
=spark_hudi@i(A1, "huditb1",,"20250427164306435") |
返回0到指定结束时间的数据。 |
|
|
返回指定起始时间到当前时间的数据,并且不显示hudi表自动生成的字段。 |
|
|
|
|
|
连接与S3关联的Hudi格式的Spark数据库。 |
|
|
读优化查询。 |
|
|
|