导入历史数据

阅读(927) 标签: 导入历史数据,

本小节主要介绍数据来源类型、检测变量类型、导出数据质量报告以及导出数据探索报告。

数据来源类型

在菜单栏中点击【文件】à【新建模型】或者直接在工具栏中点击按钮,弹出导入数据窗口,数据来源类型有两种,分别为本地数据文件、数据库:

 

本地数据文件

选择【本地数据文件】如上图,在【查找】中选择文件目录后,窗口中即可列出该目录下所有可用的建模数据文件,文件类型包括:*.mcf*.mtx *.txt*.csv*.xlsx*.xls

导入mtx数据文件

选择预先生成的建模用表mtx文件,由于生成建模文件时,已经配置了文件选项,所以选择mtx数据文件,点击【确定】后会直接将数据文件导入。

导入非mtx数据文件

选择非mtx数据文件,需要导入数据配置并配置导入变量。以train.csv为例:

选择文件train.csv,点击【确定】进入导入数据界面,如下图所示:

配置界面功能选项说明:

【第一行是标题】:勾选此项时,表示将数据文件中的第一行数据作为标题;不勾选时标题默认显示为“_n”,n表示第n列,例如_1,_2,…

【如果字段串外有引号则先剥离,包括标题部分】:勾选此项时,当字段名及字符串类型的字段值外含有引号时,会自动去掉引号。

【检查数据合法性(列数是否一致)】:勾选此项时,在生成建模用表文件时会自动检查本地数据文件列数是否一致。

【列数和第一行不匹配时删除该行】:勾选此项时,当某行数据列数与第一行列数不一致,生成建模用表时会自动删除该行数据。

【使用双引号作为转义字符】:勾选此选项时,将双引号做为转义字符处理;不勾选时,默认将斜杠作为转义字符处理。

【字段分隔符】:根据数据文件中的实际情况选择分隔符。

【字符集】:选择要操作的数据文件所支持的字符集。

【日期格式】、【时间格式】、【日期时间格式】:用户可自定义日期、时间、日期时间格式。

【区域和语言】:根据实际情况选择语言

【缺失值(竖线分割)】:默认为NULL|N/A,也就是数据中出现的NULLN/A时,表示数据缺失。用户还可以自己手动添加缺失值,设置多个缺失值时使用“|”分隔。

 

导入选项配置完成后,点击【下一步】进入导入变量配置界面,如下图所示:

左侧的变量面板中,勾选出要导入的变量,默认选出所有变量。

【选出】:勾选状态表示导入,不勾选则不导入。

【类型】:下拉列表中可以修改变量的数据类型。除此之外,也可以点击选择预先定义好的数据字典文件,来导入变量类型。

数据字典支持xlsxlsxtxtcsv 4种格式的文件,文件格式如下:

(1)  第一列为变量名称。

(2)  第二列为变量类型,变量类型包含:IdentityID)、Categorical(分类变量)、Binary(二值变量)、Unary(单值变量)、Count(计数变量)、Numerical(数值变量)、Datetime(时间日期)、Text(长文本)。

根据实际数据配置。

(3)  第三列是时间日期的数据格式,例如:日期格式yyyy-MM-dd、时间格式HH:mm:ss、时间日期格式yyyy/MM/dd HH:mm:ss等。

(4)  第四列是此变量类型是否使用,true表示使用;false不使用。

(5)  第五列是此变量的重要度。

例如:csv格式的数据字典文件

注意:使用csv文件时,变量之间用逗号分隔列。使用txt文件时,变量之间用tab分隔列。

右边预览数据界面中,用户还可以自定义设定显示前多少行数据,然后点击重载,可以刷新页面中显示的数据。

导入变量配置完成后,点击【完成】,会弹出检测变量类型窗口,如下图:

具体配置可参考检测变类型 小节,配置完成后点击【确定】以后即可导入数据。

 

数据库

使用数据库作为数据来源之前,需要先配置数据源,

在易明建模中,需要通过数据源配置来连接数据库,操作步骤如下:

 

1、点击【工具】à【数据源】进入如下窗口:

2、点击【新建】按钮,弹出数据库类型对话框,数据库类型有“JDBC”“ODBC”两种

 

JDBC

数据库类型对话框中选择“JDBC”,点击 【确定】按钮,弹出关系数据库数据源配置对话框,如下图所示:

1、数据源名称:可以任意指定,如oraSQL17等。

2数据库供应商:选择对应数据库类型,如果没有符合类型,请选择UNKNOW

3、驱动程序:可以使用下拉框中默认,也可以输入其他的驱动信息。

需提前将所用到的数据库的JDBC驱动程序拷贝到【设计器安装目录】/common/jdbc下。

4、数据源URL:根据实际数据库URL配置,

例如oracle数据库:jdbc:oracle:thin:@192.168.0.68:1521:orcl

5、用户:数据库用户名。

6、口令:访问数据库的密码。

7、批处理大小:设置与数据库交互的批处理大小。

8、对象名带模式:指的是数据表表名前是否带有模式名,比如:dbo.员工

9、对象名带限定符:是否使用带引号的SQL

扩展属性:除了设置以上所述的常规属性外,有些数据库还要求设置一些扩展参数,这时候就可以进入到扩展属性tab页下进行设置了。不同的数据库,扩展属性中的参数名称是不一样的,这些参数名称都是在设置完成了常规属性以后,系统根据数据库类型自动添加的。有些数据库是没有扩展参数的,例如access

设置完成后,点击【确定】按钮,回到数据源配置界面,关系数据库类型的数据源就配置完成了,数据源配置界面中就列出了你新建的数据源,如下:

点击【连接】按钮,数据源名称显示粉色已连接则表示连接成功。

 

ODBC

数据库类型对话框中选择“ODBC”,点击 【确定】按钮,弹出ODBC数据源配置对话框,如下图所示:

1、数据源名称:可以任意指定,如oraSQL17等。

2ODBC名称:在ODBC数据源管理器中为所连数据库定义的ODBC数据源名称。

3、用户名:数据库用户名。

4、密码:访问数据库的密码。

5、使用带模式的表名称:指的是数据表表名前是否带有模式名,比如:dbo.employee

6、大小写敏感:指的是sql语句是否区分大小写。

7、对象名带限定符:是否带限定符

设置完成,点击【确定】按钮,回到数据源配置界面,ODBC类型的数据源就配置完成了,数据源配置界面中就列出了你新建的数据源。

 

加密级别

可在加密级别中设置对数据源定义中的口令是否加密,对应着userconfig.xml文件中encryptLevel属性,属性取值0(明文)1(密码加密)

明文:当加密级别选择明文时,对应userconfig.xml文件的数据源配置中会自动设置encryptLevel = 0。此时,密码不加密,如下图:

密码加密:当加密级别选择密码加密时,对应userconfig.xml文件的数据源配置中会自动设置encryptLevel = 1。此时,密码会以加密后的文本串方式显示,如下图:

 

选择数据库表

【创建数据文件名称】:配置生成的建模用表文件名,文件后缀为:*.mtx

【数据源】:选择数据源

【模式名】:选择数据源中的模式

【表】:选择数据库表

【字段】:选择数据库表中的字段

【条件】:对所选表中数据增加筛选条件

【分组】:对数据进行分组

【分组过滤】:对数据进行分组过滤,相当于数据库语言中的Having

【排序】:对数据进行升序/降序排序

【语法】:使用数据库语法选择数据

 

在数据库中配置数据源、模式名、数据库表、字段等信息,具体操作以demo数据库中的“ORDERS”表为例导入数据:

 

检测变量类型

在新建模型时,导入非mtx数据文件或数据库表过程中会提示检测变量类型。

检测范围配置

为了导入正确类型的变量数据,成功建模。在导入数据时,可以选择立即检测变量类型, 来检测确保导入正确类型的变量数据;但对于数据量大的文件,如果想要快速导入数据,进入设计器,也可以后续通过变量检测菜单进行检测。界面如下图:

当选择不检测时,导入数据的变量类型默认为分类变量。若选择了不检测,进入设计器以后需要在变量检测菜单进行检测,或者手动设置每个变量的变量类型。需要注意的是,不检测或者不设置正确的变量类型,那么在建模过程中就会报错。

 

是否提示检测

如果选中某一项后勾选了不再提示,那下次进入数据导入界面就会默认按照以前的选项进行处理,若后期想要更改默认选项可以在菜单栏中的【工具】à【配置】窗口中进行配置,如下图:

 

导出数据质量报告

导入建模数据后,可以通过该功能导出数据质量报告,点击【文件】à【导入/导出】à【导出数据质量报告】,导出文件为pdf格式。

质量报告中信息内容包括数据中的变量个数、行数、缺失率统计、数值变量偏度统计、分类变量的势统计等信息。

导出数据探索报告

导入建模数据,执行变量统计后,可以通过该功能导出数据探索报告,点击【文件】à【导入/导出】à【导出数据探索报告】,导出文件为xlsx格式。

数据探索报告中,针对“目标变量类型 + 当前变量类型”的组合做一些信息统计。

目标变量类型分为两类:一类是离散型:分类、二值、单值;一类是连续型:数值、计数、日期。不同类型的目标变量,导出的数据探索报告的内容是不同的。