Python中Pandas怎样shuffle打乱数据

发布时间：2021-02-07 12:59:21 来源：亿速云阅读：1207 作者：小新栏目：开发技术

这篇文章主要介绍了Python中Pandas怎样shuffle打乱数据，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

在Python里面，使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法，具体如下：

应用情景：

我们有下面以个DataFrame

Python中Pandas怎样shuffle打乱数据

我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的，我们希望不保持这个次序，但是同时列属性又不能改变，即如下效果：

Python中Pandas怎样shuffle打乱数据

实现方法：

最简单的方法就是采用pandas中自带的 sample这个方法。

假设df是这个DataFrame

df.sample(frac=1)

这样对可以对df进行shuffle。其中参数frac是要返回的比例，比如df中有10行数据，我只想返回其中的30%,那么frac=0.3。

有时候，我们可能需要打混后数据集的index（索引）还是按照正常的排序。我们只需要这样操作

df.sample(frac=1).reset_index(drop=True)

-------------------------------------分割线--------------------------------------------------------------

其实，sklearn(机器学习的库）中也有shuffle的方法。

from sklearn.utils import shuffle
df = shuffle(df)

另外，numpy库中也有进行shuffle的方法（不建议）

df.iloc[np.random.permutation(len(df))]

感谢你能够认真阅读完这篇文章，希望小编分享的“Python中Pandas怎样shuffle打乱数据”这篇文章对大家有帮助，同时也希望大家多多支持亿速云，关注亿速云行业资讯频道，更多相关知识等着你来学习!

向AI问一下细节

猜你喜欢