Hive中的GROUP BY语句可以对数据进行分组统计,主要有以下几种功能:
- COUNT():统计每个分组中的记录数。
- SUM():计算每个分组中的数值总和。
- AVG():计算每个分组中的数值平均值。
- MIN():找出每个分组中的最小值。
- MAX():找出每个分组中的最大值。
- AVG(DISTINCT column_name):计算每个分组中某一列的不同值的数量。
- SUM(DISTINCT column_name):计算每个分组中某一列的不同值的总和。
- COUNT(DISTINCT column_name):计算每个分组中某一列的不同值的数量。
- GROUP_CONCAT(column_name [SEP delimiter]):将每个分组中的某一列的值连接成一个字符串。
- HIVE_MAPJOIN(table_alias):在JOIN操作中,可以将一个小表的所有记录作为键值对存储在内存中,从而加快JOIN操作的速度。
这些函数可以用于对数据进行分组统计,以满足各种数据分析需求。