在Hive中,可以使用DISTINCT
关键字进行数据去重。以下是一个简单的示例:
假设我们有一个名为my_table
的表,其中包含以下列:id
, name
, age
。
my_table
的表:CREATE TABLE my_table (
id INT,
name STRING,
age INT
);
INSERT INTO my_table (id, name, age) VALUES (1, 'Alice', 30);
INSERT INTO my_table (id, name, age) VALUES (2, 'Bob', 25);
INSERT INTO my_table (id, name, age) VALUES (1, 'Alice', 30); -- 重复数据
INSERT INTO my_table (id, name, age) VALUES (3, 'Charlie', 22);
DISTINCT
关键字查询去重后的数据:SELECT DISTINCT id, name, age
FROM my_table;
这将返回以下结果:
id name age
1 Alice 30
2 Bob 25
3 Charlie 22
请注意,DISTINCT
关键字将应用于所有列。如果你只想针对某些列进行去重,可以在DISTINCT
后面列出这些列,例如:
SELECT DISTINCT id, name
FROM my_table;
这将仅根据id
和name
列进行去重。