spark_read()

阅读(2305) 标签: 读取, 文件内容, 游标,

描述:

读取本地或spark上的文件内容。

语法:

spark_read(con,sfile,k:v,...)

备注:

外部库函数,外部库的使用请参考《外部库使用指南》。

读取本地或spark上的文件内容并返回序表。

参数:

con

数据库连接串,支持本地连接和Spark连接

sfile

文件名。

k:v

设置txtcsv文件的分隔符,比如文件的分隔符为"#",则设置"sep":"#"txt分隔符缺省为逗号,csv分隔符缺省为分号。

选项:

@c

读取文件内容并返回成游标。

@t

读取文本文件时,将第一行设置为字段名;缺省则自动生成_c0_c1…作为字段名。

@x

关闭连接。

返回值:

序表/游标

示例:

 

A

 

1

=spark_open()

进行本地连接。

2

=spark_read(A1,"D:/people.txt","sep":" ")

读取分隔符为空格的txt文件。

3

=spark_read@c(A1,"D:/student.csv","sep":",")

读取分隔符为逗号的csv文件,返回游标。

4

=spark_read@t(A1,"D:/score.txt","sep":"\t")

读取分隔符为tabtxt文件,并设置第一行为字段名。

5

=spark_read(A1,"D:/people.json")

读取people.json文件内容。

6

>spark_close(A1)

关闭连接。

7

=spark_open("spark.properties")

连接spark数据库。

8

=spark_read@x(A7,"hdfs://localhost:9000/user/hive/warehouse/people.csv")

读取spark上的people.csv,并关闭连接。