温馨提示×

hive加载数据如何进行数据去重

小樊
81
2024-12-22 07:33:54
栏目: 大数据

在Hive中,可以使用DISTINCT关键字进行数据去重。以下是一个简单的示例:

假设我们有一个名为my_table的表,其中包含以下列:id, name, age

  1. 首先,创建一个名为my_table的表:
CREATE TABLE my_table (
  id INT,
  name STRING,
  age INT
);
  1. 向表中插入一些重复的数据:
INSERT INTO my_table (id, name, age) VALUES (1, 'Alice', 30);
INSERT INTO my_table (id, name, age) VALUES (2, 'Bob', 25);
INSERT INTO my_table (id, name, age) VALUES (1, 'Alice', 30); -- 重复数据
INSERT INTO my_table (id, name, age) VALUES (3, 'Charlie', 22);
  1. 使用DISTINCT关键字查询去重后的数据:
SELECT DISTINCT id, name, age
FROM my_table;

这将返回以下结果:

id  name    age
1   Alice   30
2   Bob     25
3   Charlie 22

请注意,DISTINCT关键字将应用于所有列。如果你只想针对某些列进行去重,可以在DISTINCT后面列出这些列,例如:

SELECT DISTINCT id, name
FROM my_table;

这将仅根据idname列进行去重。

0