温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

使用pandas模块解决mysql中的重复数据问题

发布时间:2020-06-05 16:55:19 来源:网络 阅读:688 作者:三月 栏目:编程语言

本文主要给大家简单讲讲使用pandas模块解决mysql中的重复数据问题,相关专业术语大家可以上网查查或者找一些相关书籍补充一下,这里就不涉猎了,我们就直奔主题吧,希望使用pandas模块解决mysql中的重复数据问题这篇文章可以给大家带来一些实际帮助。

直接上代码

import pymysql
import pandas as pda
conn=pymysql.connect(host="127.0.0.1",user="root",passwd="pw",db="test001",charset="utf8")
sql="select * from table001"
data1 = pda.read_sql(sql,conn)
print(data1.count())
data2 = data1.drop_duplicates(subset="big",keep="last")
data2.to_sql("table002",con=conn,flavor="mysql",if_exists="append",index=False)
print(data2.count())

table001表为原始表,big为表里不能重复的字段,keep="last"代表留重复数据的最后一条,table002表为清洗完数据保存数据的表。

运行该脚本,十来分钟左右,800W条数据已经全部清洗完毕,还剩余200W条不重复数据,并且还和朋友正确的数据一条不差。
使用pandas模块解决mysql中的重复数据问题

随后将数据表上传至朋友的线上云服务器,朋友验证数据都没问题。

使用pandas模块解决mysql中的重复数据问题就先给大家讲到这里,对于其它相关问题大家想要了解的可以持续关注我们的行业资讯。我们的板块内容每天都会捕捉一些行业新闻及专业知识分享给大家的。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI