复杂计算

阅读(1163) 标签: 计算, 运算,

通过对上面章节的学习,我们已将数据源打开了,下面我们来学习下如何对数据做更复杂的计算,如过滤、排序、分组等操作。

数据过滤

需要对一个或多个字段进行过滤,可使用数据过滤根据过滤表达式过滤出部分记录。

例如:对orders2020.txt设置过滤条件,过滤Amount大于1000的数据。

选中文本数据源,点击运算”->“数据过滤,或者点击工具栏中的 数据过滤按钮,打开数据过滤界面,编辑过滤表达式,如下图所示:

点击确定,Amount字段值显示过滤后的数据了。

数据排序

指定排序字段和排序方向,使查询结果按一定的顺序展现。

例如:对orders2020.txt中的SID字段按照降序排序,Amount字段按照升序排列。

选中文本数据源,点击运算”->“数据排序,或者点击工具栏中的 数据排序按钮可打开数据排序界面,点击增加按钮,添加排序字段,如下图所示:

 

保持原顺序排序:按照指定字段实现多层次数据的原序排序,即以记录第一次出现的位置作为排序依据;

高性能并行排序:数据量大的复杂运算中并行计算提升性能;

null值排到最后:把排序字段值为null的记录排到最后。

 

点击确定,结果如下图,会发现SID字段为降序,Amount字段为升序排序了。

 

数据分组

对数据集按照某个字段或者表达式进行分组聚合。

例如:以orders2020.txt为例,对orders2020.txt中的SID字段进行分组,且在组内对Amount进行求和。

选中文本数据源,点击运算”->“数据分组,或者点击工具栏中的 数据分组按钮,打开数据分组界面,添加分组字段和聚合字段,如下图所示:

 

结果集不再按分组字段排序:结果集不再按选中的分组字段排序;

高性能并行分组:数据量大的复杂运算中,并行计算提升性能;

只和相邻的值对比分组:只和相邻对比,相当于归并,结果集不再排序;

丢弃分组值为空的组:丢弃分组字段的计算结果为空的组;

输出明细:新增明细字段,保存每组聚合前的记录。

 

点击确定,界面上会增加一个新的数据界面。

 

集合运算

针对两组数据进行集合运算。

例如:以orders2020.txtorders2021.txt为例,使用集合运算,将数据合并。

首先将要合并的数据依次导入,选中其中一个数据源,点击 “运算”->“集合运算”,或者点击工具栏中的 集合运算按钮,可打开集合运算界面,选择运算表、运算符和比较字段,如下图所示:

 

点击确定,界面上会增加一个新的数据界面,用来显示orders2020.txtorders2021.txt合并后的结果。

 

数据连接

如需连接多个数据源,可以使用数据连接,通过关联字段做连接。

例如:以orders2020.txtorders2021.txt为例,通过SID字段将两个表使用左连接连接。

首先将要连接的数据依次导入,选中其中一个数据源,点击 “运算”->“数据连接”,或者点击工具栏中的 数据连接按钮,打开数据连接界面,选择连接表,连接类型,连接字段和选出字段,如下图所示:

 

点击确定,界面上会增加一个新的数据界面,用来显示orders2020.txtorders2021.txt连接后的结果。