数据源类型包含4类,文本文件类型、Excel文件类型、数据库表类型和BTX类型。可通过“文件”->“打开”快速打开,也可通过“文件”->“复杂打开”,进入数据集向导页面。下面我们将逐个使用“复杂打开”菜单,介绍对各种数据源向导的使用。
例如想要导入一个订单信息相关的数据文件orders2020.txt作为数据来源,操作如下:
orders2020.txt:
通过“文件”->“复杂打开”菜单,选择orders2020.txt文件。进入文件数据集编辑界面,【第一行记录作为字段名】默认为勾选。选择文件对应的【字符集】类型,默认是缺省(文件原有的字符集),选择字段间的【分隔符号】,默认是制表符(TAB)。此时文件数据集编辑界面,如下图所示:
第一行记录作为字段名:导入后将第一行作为字段名,不勾选时使用_1,_2,…作为字段名;
引号作为转义符:使用Excel标准转义,数据中有双个引号转成一个引号,其它字符不转义;
保留数据项两端的空白:保留数据两端的空白符,缺省将自动删除两端空白符;
去掉引号:剥离数据两端引号,包括标题;数据中间的引号不作处理;
多线程取数:多线程取数,加快读取文件速度;
列数和第一行不匹配作为错误处理:列数和第一行不匹配时作为错误处理,不匹配的记录行将被抛弃。
点击“确定”按钮,一个文本文件就导入完成了。
打开Excel文件orders2020.xlsx:
第一行是标题,后面就是一行行的数据了。通过“文件”->“复杂打开”菜单,打开Excel文件,【第一行记录作为字段名】默认为勾选:
密码:输入Excel文件的解锁密码;
页面:选中要打开的Excel文件中的sheet页;
第一行记录作为字段名:导入后将第一行作为字段名,不勾选时使用_1,_2,…作为字段名。
点击“确定”按钮,Excel文件导入完成。
数据文件工具不仅能编辑Excel、txt、csv,还可以编辑集文件(.btx)。这里所说的集文件是用SPL脚本创建的。更多关于集文件的介绍可参考《教程》。
下面我们来了解下集文件的使用。
通过“文件”->“复杂打开”菜单,打开集文件:
分段号:获取分段后的第几段数据;
分段数:将当前集文件的数据分为几段。
点击“确定”按钮,则可以看到集文件的数据了。
数据库表顾名思义表示数据来自数据库,但这种类型的数据集并不要求用户自己写SQL语句,而是通过图形化的向导界面由用户去选择表,系统自动的生成SQL语句展现数据,这种类型的数据集适用于对SQL语句不太熟悉的用户。
这里以DEPT表为例来导入一个数据库表。
启动集算器内置的demo数据库,通过“工具”->“数据源”菜单,连接要使用的数据源:
定义或连接数据源前首先需要保证数据库驱动包可以被集算器程序加载到。安装包中自带的数据库驱动存放位置为:【安装根目录】\common\jdbc,默认带有Oracle、MySQL、SQL Server等常用类型数据库驱动,用户可以根据实际需要自己放置对应的驱动。集算器自带的demo数据源所连的内置数据库类型为HSQL,驱动为hsqldb-2.2.8.jar。
本例用的是自带的demo数据源,数据源定义这个步骤可跳过。
点击“文件”->“打开数据库表”菜单,选择要打开的表:
点击“OK”按钮,打开数据库表。