外部数据导入
导入excel文件
pandas导入excel用read_excel()方法:
import pandas as pd excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8')
姓名 年龄 工作 工资
0 张三 25 学生 200
1 李四 24 工人 3000
2 王伟 28 NaN 5000
3 王二毛 22 自由职业 6000
第一个参数是路径,既可以使用绝对路径又可以使用相对路径,如果文件名含有汉字,注意指定设置一下属性encoding = 'utf-8',另设置sheet_name指定具体的Sheet名字,也可传入sheet的顺序,从0开始。
excel_file1 = pd.read_excel('data/test.xlsx',sheet_name = 0)
指定索引
列索引默认从0开始,通过index_col设置,header设置行索引。
excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8',index_col=0)
年龄 工作 年资
姓名
张三 25 学生 200
李四 24 工人 3000
王伟 28 NaN 5000
王二毛 22 自由职业 6000
excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8',header=1)
张三 25 学生 200
0 李四 24 工人 3000
1 王伟 28 NaN 5000
2 王二毛 22 自由职业 6000
指定索引列
有时本地文件列数太多,可以设置usercols指定导入的列,也可以列表形式传入多个值,表示传入哪些列。
excel_file1 = pd.read_excel('data/测试.xlsx',encoding='utf-8',usecols=[0,2])
姓名 工作
0 张三 学生
1 李四 工人
2 王伟 NaN
3 王二毛 自由职业
常用方法
导入CSV文件
pandas导入csv文件用read_csv()方法;
import pandas as pd csv_file1 = pd.read_csv('.\\data\\train-pivot.csv',index_col=0,header=0,nrows = 2)
通过 sep 设置分割符, encoding 指定编码格式。导入csv文件要指定为gbk,不然会报错,如果一个大文件你只需看前面几行,通过 nrows 设置。
import pandas as pd csv_file1 = pd.read_csv('data/train-pivot.csv',encoding='gbk',nrows=2) print(csv_file1)
用户ID 客户分类 区域 是否省会 7月销量 8月销量
0 59224 A类 一线城市 是 6 20 0
1 55295 B类 三线城市 否 37 27 35
可以设置 usercols 指定导入的列。
用户ID 区域
0 59224 一线城市
1 55295 三线城市
2 46035 二线城市
3 2459 一线城市
4 22179 三线城市
导入sql
pandas中有 read_sql() 方法:
import pandas as pd import pymysql # 创建连接 conn = pymysql.connect(host = 'localhost',user = 'python', password = 'passwd',db = 'test', charset = 'utf-8' ) ''' user:用户名 password:密码 host:数据库地址/本机用localhost db:数据库名 charset:编码,一般为utf-8 ''' sql = "SELECT * FROM user" # 写要执行的sql语句 pd.read_sql(sql,conn)
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持亿速云。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。