这篇文章主要介绍如何使用pandas中DataFrame检测重复值,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重
DataFrame.duplicated(subset=None, keep='first')
subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。
keep:
默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
如果为False,则所有重复的为True
下面举例
df = pd.DataFrame({
'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
'rating': [4, 4, 3.5, 15, 5]
})
df
# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()
结果
0 False
1 True
2 False
3 False
4 False
dtype: bool
# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")
结果
0 True
1 False
2 False
3 False
4 False
dtype: bool
# keep=False,,所有重复的为True
df.duplicated(keep=False)
结果
0 True
1 True
2 False
3 False
4 False
dtype: bool
# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')
结果
0 False
1 True
2 False
3 True
4 True
dtype: bool
# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])
结果
0 False
1 True
2 False
3 False
4 True
dtype: bool
# 显示重复记录,通过布尔索引
df[df.duplicated()]
# 查询重复值的个数。
df.duplicated().sum()
结果
1
以上是“如何使用pandas中DataFrame检测重复值”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。