温馨提示×

如何在DataFrame中实现SQL的分组统计

sql
小樊
83
2024-09-09 22:32:34
栏目: 云计算

要在Python的pandas库中实现类似于SQL的分组统计,可以使用groupby()agg()函数

首先,我们需要导入pandas库并创建一个DataFrame。这里是一个简单的例子:

import pandas as pd

data = {'Category': ['A', 'B', 'A', 'A', 'B', 'A', 'B', 'B'],
        'Value': [10, 20, 30, 40, 10, 30, 20, 40]}

df = pd.DataFrame(data)

上述代码将创建一个如下所示的DataFrame:

  Category  Value
0        A     10
1        B     20
2        A     30
3        A     40
4        B     10
5        A     30
6        B     20
7        B     40

现在,我们可以使用groupby()agg()函数对Category列进行分组统计,并计算Value列的总和、平均值、最小值和最大值。

result = df.groupby('Category')['Value'].agg(['sum', 'mean', 'min', 'max'])

result DataFrame将如下所示:

         sum  mean  min  max
Category                  
A          110  27.5   10   40
B           90  22.5   10   40

在这个例子中,我们使用了agg()函数来指定我们想要对Value列执行的统计操作。你可以根据需要添加或删除统计操作。其他常用的统计操作包括'count''median''var''std'等。

0