温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

数据清洗常用的2个小trick分别是什么

发布时间:2021-12-10 10:39:27 阅读:155 作者:柒染 栏目:大数据
开发者测试专用服务器限时活动,0元免费领,库存有限,领完即止! 点击查看>>

今天就跟大家聊聊有关数据清洗常用的2个小trick分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

Pandas 巧用 str.splitstr.cat

因为以上两个方法,直接按列操作,所以省掉一层 for 循环,下面直接看例子。

df = pd.DataFrame({'names':["Geordi La Forge""Deanna Troi""Jack"],'IDs':[1,2,3]})df
 
数据清洗常用的2个小trick分别是什么  
 

列分割

names 列,按照第一个空格分割为两列:

df["first_name"] = df["names"].str.split(n = 1).str[0]df["last_name"] = df["names"].str.split(n = 1).str[1]df
 

结果如下:

数据清洗常用的2个小trick分别是什么  
 

列合并方法 1

分割列搞定,接下来再合并回去,使用 cat 方法:

df["names_copy"] = df["first_name"].str.cat(df["last_name"], sep = " ")df
 
数据清洗常用的2个小trick分别是什么  

合并两列得到一个新列 names_copy 搞定!

 

列合并方法 2

还有别的合并方法吗,直接使用 + 连接字符串:

df["names_copy2"] = df["first_name"] + " "df["last_name"]df
 

效果是一样的:

数据清洗常用的2个小trick分别是什么  
 

Pandas 多条件筛选可读性较好的写法

有特征上百个,根据多个特征筛选 DataFrame 时,如果这么做,可读性不太友好:

数据清洗常用的2个小trick分别是什么  
df[(df["continent"] == "Europe") & (df["beer_servings"] > 150) & (df["wine_servings"] > 50) & (df["spirit_servings"] < 60)]
 

连续多个筛选条件写到一行里。

更好可读性的写法

cr1 = df["continent"] == "Europe"cr2 = df["beer_servings"] > 150cr3 = df["wine_servings"] > 50cr4 = df["spirit_servings"] < 60df[cr1 & cr2 & cr3 & cr4]
看完上述内容,你们对数据清洗常用的2个小trick分别是什么有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。

亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

原文链接:https://my.oschina.net/u/4592076/blog/4413383

AI

开发者交流群×