这篇文章主要为大家展示了“数据分析中pandas有什么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“数据分析中pandas有什么用”这篇文章吧。
python数据科学的基础
机器学习课程的基础
工具anaconda和jupyter
matplotlib
查看系统字体:fc-list :lang=zh
NumPy是使用Python进行科学计算的基础包
官网:https://www.numpy.org.cn/
Seres一维数组
t.index
t.values
DataFrame二维数组
处理方式1:删除NaN所在的行列dropna(axis=0,how='any',inplace=False)
处理方式2:填充数据t.fillna(t.mean())#均值,t.fiall(t.median()),t.fillna(0)
处理为0的数据:t[t=0]=np.nan 当然并不是每次为0的数据都需要处理 计算平均值等情况,nan是不参与计算的,但是0会
指定索引:t.index = ['x', 'y']
重新设置索引:t.reindex(['x', 'y'])
指定某一列作为index:t.set_index("name", drop=False)
返回index的唯一值:t.set_index("name").index.unique()
交换levels里面的索引:t.swaplevel()
行索引,表明不同行,横向索引,叫index,0轴,axis=0
行索引,表明不同列,纵向索引,叫columns,1轴,axis=1
t.index 行索引
t.columns 列索引
t.values 对象值,二维ndarray数组
t.shape 形状(行数,列数)
t.dtypes 类型
t.ndim 数据维度
t.head(3) 显示头部几行,默认5行
t.tail(3) 显示尾部几行,默认5行
t.info() 相关信息概览:行数、列数、列索引、列非空值个数、列类型、行类型、内存占用
t.describe() 快速综合统计结果:计算、均值、标准差、最大值、四分位数、最小值
t.loc() 通过标签索引行数据
t.iloc() 通过位置获取行数据
判断数据是否为NaN:pd.isnull(t),pd.notnull(t)
pandas 常用统计方法
on:指定列
how->inner(默认)交集方式合并
how->outer 并集方式合并,NaN补全
how->left 以左边为准合并,NaN补全
how->right 以右边为准合并,NaN补全
平均值:df["xx"].mean()
最大值:df["xx"].max()
最大值索引:df["xx"].idxmax()
最小值:df["xx"].max()
最小值索引:df["xx"].idxmin()
中位数:df["xx"].median()
join:默认是把行索引相同的数据合并到一起t1.join(t2)
merge:按照指定的列把数据按照一定的方式合并到一起t1.merge(t2, on="a", how="inner")
时间序列
ps.to_datetime(df["timeStamp"])
以上是“数据分析中pandas有什么用”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。