如何利用Python做数据筛选

发布时间：2021-07-16 09:14:55 来源：亿速云阅读：952 作者：chen 栏目：大数据

本篇内容主要讲解“如何利用Python做数据筛选”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何利用Python做数据筛选”吧!

EXCEL筛选

我们回顾一下上一篇文章里的数据需求，第一个是根据订单日期筛选2010年的订单，第二个是根据订单等级去筛选高级的订单，这一次我们把筛选条件进行升级，增加一个条件：在原先两个筛选条件的基础上，筛选出利润金额前10的订单。如果在EXCEL里操作的话，可以利用公式或者自身的筛选功能去实现，但是在python又是怎样实现的呢？

如何利用Python做数据筛选

我们可以在pycharm等软件上写python脚本去实现，但是我推荐大家用Smartbi智分析的ETL功能去实现，Smartbi智分析的ETL界面里也提供了python脚本的编写页面，并且很多简单的需求通过ETL就能实现，无需撰写复杂的代码，非常适合编程小白。

加载数据

打开Smartbi智分析里ETL界面，我们先连接好数据源，我已经提前把EXCEL文件导入到了Smartbi智分析的系统里，然后把关系数据源拉拽到展示区里，并在右边找到数据源存放的路径：

如何利用Python做数据筛选

加载完成后，我们可以对数据源进行预览：

如何利用Python做数据筛选

条件过滤

当完成了数据连接后，接下来就可以利用Smartbi智分析ETL里自带的python脚本对数据进行各种处理，我们先把python的组件拉拽到中间的展示区，并与上面的关系数据源进行相连：

如何利用Python做数据筛选

以下脚本是Smartbi智分析自带的脚本，已经提前安装好了pandas和numpy的库，后面的函数也写好了一部分代码，只要根据以下脚本进行扩展，便可以在ETL上利用python进行数据清洗：

如何利用Python做数据筛选

在输入python脚本之前，我们再明确一下要实现的需求，其中前面两个条件是和上次一样的，我们无需进行改动，直接复制脚本过来即可，如果不懂的可以查看我前一篇文章。第三个条件需要做的是筛选利润额前10的订单，这里我们引用pandas中的sort_values函数进行排序，原理类似于SQL中的order by，可以将数据集依照某个字段中的数据进行排序，后面接ascending=False，即对数据进行降序排列，head(10)代表的是取前10的值：

如何利用Python做数据筛选