Spark SQL中怎么实现union操作

发布时间：2021-06-26 14:26:39 阅读：2918 作者：Leah 栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

今天就跟大家聊聊有关Spark SQL中怎么实现union操作，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

union all是直接连接，取到得是所有值，记录可能有重复
union 是取唯一值，记录没有重复
1、UNION 的语法如下：

[SQL 语句 1]      UNION[SQL 语句 2]

2、UNION ALL 的语法如下：

[SQL 语句 1]      UNION ALL[SQL 语句 2]

对比总结：

UNION和UNION ALL关键字都是将两个结果集合并为一个，但这两者从使用和效率上来说都有所不同。

1、对重复结果的处理：UNION在进行表链接后会筛选掉重复的记录，Union All不会去除重复记录。

2、对排序的处理：Union将会按照字段的顺序进行排序；UNION ALL只是简单的将两个结果合并后就返回。

从效率上说，UNION ALL 要比UNION快很多，所以，如果可以确认合并的两个结果集中不包含重复数据且不需要排序时的话，那么就使用UNION ALL。

Spark SQL

实际上Spark SQL的DataSet的API是没有union all操作的，只有union操作，而且其union操作就是union all操作。

此时要实现union操作，需要在union之后加上distinct操作。

sales.union(sales).show()

输出结果是有重复数据的

Spark SQL中怎么实现union操作

需要将操作更改为：

sales.union(sales).distinct().show()

看完上述内容，你们对Spark SQL中怎么实现union操作有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注亿速云行业资讯频道，感谢大家的支持。

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

Spark SQL中怎么实现union操作

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签