使用pandas怎么去重复行?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
数据帧作为一个例子:
import pandas as pd data=pd.DataFrame({'产品':['A','A','A','A'],'数量':[50,50,30,30]})
pandas判断dataframe是否含有重复行数据用:df.duplicated()
第一次出现的数据为False.重复的数据行就被记录为True。
去掉重复行数据使用data.drop_duplicates().
可以看到索引乱了,我们使用data.reset_index(),里面的参数drop=True,表明要舍掉原来的索引,不然的话原来的索引会保留下来。
分类汇总主要使用groupby(表明汇总的条件列)以及agg(要汇总的字段/列以及汇总的方式:求和还是最大最小值或者计数)。完整代码如下图
# -*- coding: utf-8 -*- """ Created on Fri Jul 20 09:08:10 2018 @author: FanXiaoLei """ import pandas as pd data=pd.DataFrame({'产品':['A','A','A','A'],'数量':[50,50,30,30]}) if data.duplicated: dataA=data.drop_duplicates().reset_index(drop=True) print(dataA) dataB=dataA.groupby(by='产品').agg({'数量':sum}) print('数据汇总结果:') print(dataB)
结果展示如下图:
看完上述内容,你们掌握使用pandas怎么去重复行的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注亿速云行业资讯频道,感谢各位的阅读!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。