通过对上面章节的学习,我们已将数据源打开了,下面我们来学习下如何对数据做更复杂的计算,如过滤、排序、分组等操作。
需要对一个或多个字段进行过滤,可使用数据过滤根据过滤表达式过滤出部分记录。
例如:对orders2020.txt设置过滤条件,过滤Amount大于1000的数据。
选中文本数据源,点击 “运算”->“数据过滤”,或者点击工具栏中的 数据过滤按钮,打开数据过滤界面,编辑过滤表达式,如下图所示:
点击确定,Amount字段值显示过滤后的数据了。
指定排序字段和排序方向,使查询结果按一定的顺序展现。
例如:对orders2020.txt中的SID字段按照降序排序,Amount字段按照升序排列。
选中文本数据源,点击 “运算”->“数据排序”,或者点击工具栏中的 数据排序按钮,可打开数据排序界面,点击增加按钮,添加排序字段,如下图所示:
保持原顺序排序:按照指定字段实现多层次数据的原序排序,即以记录第一次出现的位置作为排序依据;
高性能并行排序:数据量大的复杂运算中并行计算提升性能;
把null值排到最后:把排序字段值为null的记录排到最后。
点击确定,结果如下图,会发现SID字段为降序,Amount字段为升序排序了。
对数据集按照某个字段或者表达式进行分组聚合。
例如:以orders2020.txt为例,对orders2020.txt中的SID字段进行分组,且在组内对Amount进行求和。
选中文本数据源,点击 “运算”->“数据分组”,或者点击工具栏中的 数据分组按钮,打开数据分组界面,添加分组字段和聚合字段,如下图所示:
结果集不再按分组字段排序:结果集不再按选中的分组字段排序;
高性能并行分组:数据量大的复杂运算中,并行计算提升性能;
只和相邻的值对比分组:只和相邻对比,相当于归并,结果集不再排序;
丢弃分组值为空的组:丢弃分组字段的计算结果为空的组;
输出明细:新增明细字段,保存每组聚合前的记录。
点击确定,界面上会增加一个新的数据界面。
针对两组数据进行集合运算。
例如:以orders2020.txt和orders2021.txt为例,使用集合运算,将数据合并。
首先将要合并的数据依次导入,选中其中一个数据源,点击 “运算”->“集合运算”,或者点击工具栏中的 集合运算按钮,可打开集合运算界面,选择运算表、运算符和比较字段,如下图所示:
点击确定,界面上会增加一个新的数据界面,用来显示orders2020.txt和orders2021.txt合并后的结果。
如需连接多个数据源,可以使用数据连接,通过关联字段做连接。
例如:以orders2020.txt和orders2021.txt为例,通过SID字段将两个表使用左连接连接。
首先将要连接的数据依次导入,选中其中一个数据源,点击 “运算”->“数据连接”,或者点击工具栏中的 数据连接按钮,打开数据连接界面,选择连接表,连接类型,连接字段和选出字段,如下图所示:
点击确定,界面上会增加一个新的数据界面,用来显示orders2020.txt和orders2021.txt连接后的结果。