本篇文章给大家分享的是有关Python数据分析需要解答的三大问题是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
Windows系统并没有自带Python工具,需要我们自己搭建环境。对于小白,我们推荐大家安装Anaconda,一个开源的Python发行版本,安装和使用都很方便,还自带大量工具包,简直贴心。
许多小可爱在搭建环境的时候没有按要求来,导致后面出现很多问题不得不花较多时间精力去解决,很不方便。这里强调一下两个点:
1)安装路径选择C盘!
2)如图两个advanced options都要勾选!
此外,虽然Mac系统自带Python工具,也建议使用Mac系统的初学小白安一个Anaconda,会方便很多~
首先将EXCEL文件另存为CSV文件,再调用pandas工具包进行读取。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# numpy:科学计算工具包
# pandas:数据分析工具包
# malplotlib:图表绘制工具包
# improt语句:加载工具包
data = pd.read_csv("路径\\地市级党委书记数据库(2000-10).csv",encoding = "gbk",engine = 'python')
print(data)
对于读取数据时的报错情况,参考如下解决方案:
1)检查所有代码是不是都是英文,特别是标点!
#检查每一处逗号,单双引号,括号
2)excel转csv时,可设置编码为UTF-8,并更改参数
encoding = 'utf-8'
3)mac系统导出csv时,可以更改参数
encoding = "gb18030"
4)可将文件名改为英文文件名,例如“data.csv”
data.csv
5)设置engine='python'
engine = 'python'
6)在数据量不大的时候,也可以用read_excel, 代码则是
data=pd.read_excel(‘路径.xlsx’)
前提是数据放在第一个sheet;如果是第二个sheet,代码改为
data=pd.read_excel(‘路径.xlsx’, sheet_name=1)
*读取sheet_name编号是从0开始的,1代表第二个sheet
matplotlib中文乱码
也是很常见也很头大的问题~这里以win10系统,python3.6版本为例讲解一下解决步骤:
*部分摘自原答案https://www.zhihu.com/question/25404709/answer/128171562
感谢这位知友:司毅
1)找到matplotlib 配置文件:
import matplotlib
print(matplotlib.matplotlib_fname())
# 示例输出结果如下:
# D:\Program Files\Python36\Lib\site-packages\matplotlib\mpl-data
2)编辑器打开此文件 matplotlibrc
删除font.family和font.sans-serif两行前的#,并在font.sans-serif后添加微软雅黑字体Microsoft YaHei
3)下载字体:msyh.ttf (微软雅黑)放在matplotlib 字体文件夹下:
# D:\Program Files\Python36\Lib\site-packages\matplotlib\mpl-data\fonts\ttf
4)删除.matplotlib/cache里面的两个缓存字体文件
C:\Users\你的用户名\.matplotlib
5)重启Python
以上就是Python数据分析需要解答的三大问题是什么,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。